Últimas noticias

Tendencias de crecimiento del mercado de servicios de corrección de GPS y GNSS, demanda actual e informe de desarrollo

Estadísticas del mercado de vehículos de plataforma aérea 2023: demanda y alcance futuro con los principales jugadores clave

Mar 08, 2023

El mercado de vehículos de plataforma aérea de Malasia está en auge por tamaño, ingresos, tendencia y principales empresas en crecimiento 2030

Mar 10, 2023

Alguacil de Texas aprueba cargos en vuelo de migrantes de DeSantis Martha's Vineyard

Mar 12, 2023

Pensionista de Nottingham 'atrapado' en un piso de la ciudad cuando el ascensor 'se rompe de nuevo' en un día caluroso

Mar 14, 2023

Extracción de información de materiales a través de corpus generado automáticamente

Aug 15, 2023

Scientific Data volumen 9, Número de artículo: 401 (2022) Citar este artículo

2603 Accesos

1 Citas

1 Altmetric

Detalles de métricas

La extracción de información (IE) en el procesamiento del lenguaje natural (NLP) tiene como objetivo extraer información estructurada de un texto no estructurado para ayudar a una computadora a comprender el lenguaje natural. Los métodos de IE basados en el aprendizaje automático brindan más inteligencia y posibilidades, pero requieren un corpus etiquetado extenso y preciso. En el dominio de la ciencia de los materiales, dar etiquetas confiables es una tarea laboriosa que requiere el esfuerzo de muchos profesionales. Para reducir la intervención manual y generar automáticamente corpus de materiales durante IE, en este trabajo, proponemos un marco de IE semisupervisado para materiales a través de corpus generado automáticamente. Tomando como ejemplo la extracción de datos de superaleaciones en nuestro trabajo anterior, el marco propuesto que utiliza Snorkel etiqueta automáticamente el corpus que contiene valores de propiedad. Luego se adopta la red de Neuronas Ordenadas-Memoria a Largo Plazo y Corto Plazo (ON-LSTM) para entrenar un modelo de extracción de información en el corpus generado. Los resultados experimentales muestran que la puntuación F1 de la temperatura solvus γ', la densidad y la temperatura solidus de las superaleaciones son 83,90%, 94,02%, 89,27%, respectivamente. Además, llevamos a cabo experimentos similares en otros materiales, los resultados experimentales muestran que el marco propuesto es universal en el campo de los materiales.

El procesamiento del lenguaje natural (NLP, por sus siglas en inglés) se enfoca en que una computadora comprenda el conocimiento del texto para que una computadora pueda analizar y procesar el lenguaje natural1. La extracción de información (IE) en NLP es una de las tecnologías de minería de texto más destacadas y tiene como objetivo extraer información estructurada de texto no estructurado2. La literatura científica en el campo de los materiales contiene una gran cantidad de datos confiables, lo que promueve la investigación y el desarrollo de materiales basados en datos3,4,5. Confiar únicamente en la extracción manual humana lleva mucho tiempo6. Así, la extracción automática de datos de sustancias químicas orgánicas e inorgánicas de artículos en los campos de la química y la ciencia de los materiales ha cobrado sentido utilizando técnicas de PNL7,8,9,10,11.

Con el desarrollo del aprendizaje automático y la PNL, la tecnología de IE se ha desarrollado rápidamente6, especialmente en biología y medicina. Sunil et al. propusieron que la IE es un proceso de detección y clasificación de relaciones semánticas y utilizaron una Red Neural Convolucional (CNN) para obtener características semánticas para extraer la información en el dominio biomédico12. Muchos documentos han aplicado modelos de aprendizaje profundo para la optimización de funciones; por ejemplo, Xinbo et al. utilizó campos aleatorios condicionales (CRF) para clasificar las características del contexto y utilizó codificadores automáticos y limitaciones de escasez para resolver el problema de la escasez de palabras13. Recientemente, también se han investigado otros sistemas IE en la búsqueda de posible información con Long Short-Term Memory (LSTM). Raghavendra et al. palabras incrustadas en LSTM bidireccional y CRF. Utilizaron una red neuronal recurrente para obtener características y completaron la extracción de conceptos clínicos14. Arshad et al. presentó un método LSTM para comprender la gramática del lenguaje y deducir la relación entre palabras15. Sin embargo, todas las redes neuronales anteriores requieren un corpus etiquetado extenso y preciso para entrenar la red.

Desafortunadamente, hay relativamente pocos documentos sobre muchos temas de materiales, como las superaleaciones, por lo que extraer la información requerida del papel se convierte en un trabajo complicado. En nuestro trabajo anterior11, desarrollamos una tubería NLP para capturar tanto la composición química como los datos de propiedades de la literatura científica sobre superaleaciones. Se propusieron un método de reconocimiento de entidad nombrada (NER) basado en reglas y un algoritmo heurístico de extracción de relación múltiple basado en la distancia para la tubería para superar el inconveniente de las etiquetas de corpus de entrenamiento limitado y lograr una alta precisión y recuperación simultáneamente. El algoritmo de IE propuesto es un método basado en reglas, mientras que el método de aprendizaje automático se abandonó después de la comparación porque el corpus etiquetado no era suficiente para el entrenamiento. Es una tarea laboriosa que requiere el esfuerzo de muchos profesionales si es realizada solo por humanos. La estrategia basada en reglas es eficiente en tales condiciones pero sin la capacidad de aprender y actualizar de forma independiente. Por lo tanto, la generación automática de corpus en el dominio material, lo que permite reducir la intervención manual, es necesaria para la IE basada en el aprendizaje automático, lo que hará que las computadoras lean documentos y extraigan conjuntos de datos por sí mismas.

Dos problemas son inevitables cuando se enfrentan a problemas de aprendizaje automático: datos y algoritmos. Con la mejora de varios marcos de aprendizaje automático, el umbral de aplicación de los algoritmos está disminuyendo gradualmente. Sin embargo, la adquisición de datos sigue siendo un proceso laborioso y necesario. En el trabajo, solemos enfrentarnos al siguiente problema: la tarea tiene mucho corpus, pero ninguno tiene etiquetas confiables. En respuesta a los problemas anteriores, los métodos habituales son el aprendizaje no supervisado de características transferibles, la combinación de sistema de reglas y modelo o sistema de reglas de apilamiento simple, métodos semisupervisados para ampliar los datos de las etiquetas, aumentar la verificación manual y la anotación16. Pero estos métodos son demasiado engorrosos para operar, demasiado caros o demasiado inflexibles. En base a esto, un equipo de investigación de la Universidad de Stanford ha propuesto Snorkel16 como un marco de programación de datos que permite la construcción rápida de conjuntos de datos y el entrenamiento de modelos.

En este trabajo, proponemos un marco de IE semisupervisado para el dominio de materiales a través de un corpus generado automáticamente. Tomando como ejemplo la extracción de datos de la superaleación en el trabajo anterior, el marco propuesto que usa Snorkel17 etiqueta automáticamente el corpus que contiene el nombre de una superaleación y sus valores de propiedad correspondientes. Primero colocamos la función de etiquetado escrita de acuerdo con las características de la oración de la literatura científica en el proceso de entrenamiento de la función Snorkel y luego obtenemos el conjunto de entrenamiento preciso. La semisupervisión está incorporada en funciones de etiquetado escritas por humanos en lugar de aumentar los datos. Finalmente, usamos la popular red Ordered Neurons-LSTM (ON-LSTM)18 para entrenar un modelo de extracción de información en este corpus de entrenamiento automatizado y extraer valores de propiedad en la literatura científica de materiales. Obtenemos resultados un 18 % más altos usando ON-LSTM que LSTM tradicional en la tarea de extracción de información. El código está disponible en https://github.com/MGEdata/auto-generate-corpus. Nuestras contribuciones se resumen de la siguiente manera:

Se propone un nuevo marco IE para materiales que utilizan el método semisupervisado en aprendizaje automático para generar corpus automáticamente. Estos trabajos se completan sobre la base del trabajo anterior11 y extraen aún más la información en el campo material.

ON-LSTM se utiliza para completar la tarea de IE. Hasta donde sabemos, esta es la primera vez que ON-LSTM e IE se combinan para explorar la posibilidad de una posible integración.

Los resultados experimentales muestran que el método propuesto en este documento puede extraer información de manera efectiva y aplicarse a amplios temas de materiales.

Nuestro método de extracción de información material mediante la generación automática de corpus implica los siguientes pasos: NER, generación de conjuntos de candidatos, marco de Snorkel y modelo de entrenamiento, como se muestra en la Fig. 1. Para explicar el flujo de trabajo del algoritmo con más detalle y más vívidamente, tomamos γ' temperatura solvus de superaleación como ejemplo. El corpus inicial que usamos es usar el método NER para marcar el nombre de la superaleación y el valor de la propiedad en una oración. El método específico de NER se detalla en nuestro artículo anterior11. Sin embargo, el corpus inicial marca todos los nombres de superaleaciones y valores de propiedades en una oración, dependiendo de NER no puede encontrar con precisión el modo coincidente de nombres de superaleaciones y valores de propiedades si hay múltiples nombres de superaleaciones y valores de propiedades en una oración. El siguiente paso es generar candidatos. La siguiente es una oración de muestra que describe la temperatura de solvus γ' de las superaleaciones:

Proceso de extracción de información. Entre ellos, BA representa el nombre de la superaleación y B-Val representa el valor de la propiedad. LF_1, LF_2, …, LF_n representan el nombre de las funciones de etiquetado.

Las temperaturas solvus γ' de X1, X2 y X3 son Y1, Y2 e Y3, respectivamente.

Esta oración involucra tres superaleaciones y sus temperaturas de solvus γ'. En esta oración, Xi representa la i-ésima superaleación, y Yi representa el valor de la i-ésima temperatura de solvus γ'. En este ejemplo, la tarea que debemos completar es encontrar su emparejamiento correcto: (X1, Y1), (X2, Y2) y (\({X}_{3}\), \({Y}_{ 3}\)). Definimos los candidatos como una combinación exhaustiva de los nombres de las superaleaciones \({X}_{1}\), \({X}_{2}\), \({X}_{3}\) y γ ' temperaturas solvus \({Y}_{1}\), \({Y}_{2}\), \({Y}_{3}\). Por lo tanto, hay 9 candidatos: (\({X}_{1}\), \({Y}_{1}\)), (\({X}_{1}\), \({Y }_{2}\)), (\({X}_{1}\), \({Y}_{3}\)), (\({X}_{2}\), \( {Y}_{1}\)), (\({X}_{2}\), \({Y}_{2}\)), (\({X}_{2}\), \({Y}_{3}\)), (\({X}_{3}\), \({Y}_{1}\)), (\({X}_{3}\ ), \({Y}_{2}\)), (\({X}_{3}\), \({Y}_{3}\)). Si hay \(m\) nombres de superaleaciones y \(n\) γ' temperaturas de solvus en una oración, se generarán m*n candidatos.

En el tercer paso, escribimos algunas funciones de etiquetado en el marco Snorkel, un método semisupervisado para seleccionar los candidatos y obtener el emparejamiento correcto del nombre de la superaleación y la temperatura solvus γ'. Hasta ahora, hemos encontrado con precisión la relación a extraer y generado el corpus que necesitamos. Finalmente, usamos el modelo de aprendizaje profundo ON-LSTM modelo de entrenamiento en estos corpus, de modo que los nuevos corpus extraigan directamente la relación requerida utilizando el modelo de entrenamiento.

No se puede aprovechar ningún corpus público de IE debido a la poca literatura en el campo de las superaleaciones. Por tanto, para entrenar un modelo en este campo, el problema de los corpus de entrenamiento puede resolverse mediante la búsqueda manual19. Snorkel propone la idea radical de que se puede proporcionar una estructura matemática y sistemática para el proceso desordenado y, a menudo, totalmente manual de creación y gestión de datos de formación, empezando por capacitar a los usuarios para etiquetar, crear y gestionar corpus de formación mediante programación.

La tercera parte de la Fig. 1 muestra el proceso específico del framework Snorkel. La principal ventaja del marco Snorkel es que no es necesario etiquetar el conjunto de datos manualmente. Cuando la tarea cambia, es posible que sea necesario volver a etiquetar, ampliar o ignorar los datos20. Los usuarios solo deben prestar atención a las características de cada conjunto de datos y escribir funciones de etiquetado para el conjunto de datos que pueden determinar automáticamente si los candidatos son verdaderos o falsos. Sin embargo, Snorkel solo propone un marco para generar los datos de entrenamiento y no está diseñado para un campo específico; en trabajos anteriores20, utilizó Snorkel en el campo de la química. En este trabajo, desarrollamos una aplicación de Snorkel que es un marco de aprendizaje débilmente supervisado para generar corpus a partir de la literatura científica.

Para generar candidatos, usamos reglas para etiquetar todas las palabras relevantes sobre superaleaciones y temperatura solvus γ' de la literatura científica. Agotamos todas las combinaciones de las superaleaciones marcadas y la temperatura solvus γ' para formar conjuntos de candidatos y luego los juzgamos a través de funciones de etiquetado. El modelo generativo de Snorkel calcula la precisión y la relevancia de los conjuntos de candidatos en función de la coherencia y la divergencia de las funciones de etiquetado escritas. Basado en las funciones de etiquetado, el modelo generativo no requiere datos reales y juzga directamente si el candidato tiene razón o no. Cada candidato será evaluado por todas las funciones de etiquetado para obtener un resultado razonable. Los candidatos son juzgados correctamente, formando los corpus objetivo.

Para las superaleaciones en materiales, utilizamos métodos basados en reglas para clasificar oraciones que contienen el nombre de las superaleaciones y los valores de propiedades correspondientes de más de 14 425 textos completos de artículos de revistas científicas relacionados con el material. Al igual que en nuestro trabajo anterior11, se accede a estos artículos a través de las API de productos de investigación de Elsevier, lo que permite que cualquiera que pueda obtener una clave de API y usar las API para fines no comerciales de forma gratuita. La información detallada sobre las API de los productos de investigación de Elsevier puede consultarse en https://dev.elsevier.com. Una vez aprobada la solicitud, el sitio web asignará una clave API a cada usuario. A través de la API Key podemos obtener artículos en formato de texto plano y XML. Una vez que tengamos los artículos, podemos realizar minería de texto en los artículos. Además, subimos los dois de 14.425 artículos en el material complementario. Las superaleaciones extraídas incluyen dos tipos, superaleaciones basadas en Co y basadas en Ni que representan más del 80% de todas las superaleaciones. Las oraciones que contienen los valores de propiedad de las superaleaciones generalmente se incluyen en el texto completo, por lo que consideramos el texto completo de los artículos de revistas científicas. El artículo sobre superaleaciones incluye muchas propiedades, nos centramos en tres de ellas: temperatura solvus γ', temperatura solidus y densidad. Entre ellos, 457 frases relacionadas con la temperatura γ' solvus. El corpus inicial se ha publicado en https://github.com/MGEdata/snorkel. Aunque solo se obtienen relativamente pocas sentencias, el número de sentencias ya es bastante alto para el campo de las superaleaciones. En algunos casos, se mencionan varios nombres y valores de propiedad en una oración. Para igualar con precisión las temperaturas de solvus de la superaleación y γ', todas las combinaciones se generaron exhaustivamente para obtener 1.184 pares. El candidato coincidente se marca con Snorkel para formar corpus. Los corpus así obtenidos reflejan la influencia de la función de marcaje sobre la extracción.

Cada conjunto de datos tiene características únicas y las funciones de etiquetado se personalizan de acuerdo con las características del conjunto de datos. Si los usuarios quieren usar nuestro marco propuesto para extraer la relación en su propio corpus, solo necesitan reescribir funciones de etiquetado que coincidan con las características de las oraciones en su corpus. Las funciones de etiquetado no tienen nada que ver con la fuente del corpus, sino solo con las características de la oración. La literatura científica sobre superaleaciones tiene un vocabulario más profesional. Escribimos más de 10 funciones de etiquetado de acuerdo con sus características semánticas para extraer la temperatura de γ' solvus. La Tabla 1 proporciona ejemplos de funciones de etiquetado. Ajustamos la escritura de la función de etiquetado según la cobertura, las superposiciones y los conflictos de las diferentes funciones de etiquetado. La lista de funciones de etiquetado se muestra en la Tabla 2. La cobertura de las funciones de etiquetado se refiere a la proporción de muestras positivas y negativas que se etiquetan con éxito. A la temperatura solvus γ' de la superaleación extraída, la cobertura integral de la función de etiquetado que escribimos alcanza más del 90%. Cuando los usuarios utilicen el marco para escribir funciones de etiquetado, intente que la cobertura general de las funciones de etiquetado sea lo más alta posible. Para describir las superposiciones de una manera más detallada, ilustramos con un ejemplo. Supongamos que hay tres candidatos \(c1\), \(c2\), \(c3\) y dos funciones de etiquetado \(LF1\), \(LF2\). Si la función de etiquetado juzga que el candidato tiene razón, devuelve 1, si el candidato es juzgado como falso, devuelve 0. Si la función de etiquetado no involucra al candidato, se abstiene y devuelve −1. La matriz formada por las funciones de etiquetado \(LF1\) y \(LF2\) son [1, −1, 0],[1, −1, −1], respectivamente. Tanto \(LF1\) como \(LF2\) juzgan al primer candidato, que se denomina superposición. Conflicto significa que dos funciones de etiquetado involucran al mismo candidato y los resultados del juicio son inconsistentes. Cuanto más tiende el conflicto a 0, más específicas se escriben las funciones de etiquetado. Imprimimos las funciones de etiquetado a través del analizador de funciones de etiquetado PandasLFApplier en el sitio web oficial del framework Snorkel y encontramos que el conflicto es 0. Esto indica que no hay conflicto entre las funciones de etiquetado que escribimos. Un examen de la tabla muestra que estas funciones de etiquetado son completas y precisas. Estas funciones han logrado buenos resultados. Por ejemplo, LF_in tiene una cobertura de candidatos de 0,46.

El modelo generativo juzga la verdad o falsedad de cada candidato a través de determinadas funciones de etiquetado, transformando así la tarea de generar los corpus en una tarea de clasificación. Es bien sabido que el puntaje F1 es una buena medida para los problemas de clasificación, y algunos problemas de clasificación a menudo usan el puntaje F1 como la métrica de evaluación final. La puntuación F1 es la media armónica de precisión y recuperación, es decir, \({\rm{F1}} \mbox{-} {\rm{puntuación}}=2\ast \frac{precision\astrecall}{precision +recordar}\). La precisión viene dada por \(\frac{TP}{TP+FP}\), y la recuperación viene dada por \(\frac{TP}{TP+FN}\). Aquí, TP es realmente positivo, lo que se juzga como una muestra positiva y, de hecho, es una muestra positiva. FP es un falso positivo, que se considera una muestra positiva, pero en realidad es una muestra negativa. FN es un falso negativo, que se considera una muestra negativa, pero en realidad es una muestra positiva. El valor máximo de la puntuación F1 es 1 y el valor mínimo es 0.

Además de la puntuación F1, ROC21 también es un indicador que se utiliza para medir el desequilibrio de la clasificación. En particular, ROC-auc se usa para evaluar los pros y los contras de un clasificador binario. ROC-auc se define como el área bajo la curva ROC. La curva ROC es generalmente una línea recta y = x, por lo que el rango de valores de todos los ROC-auc está entre 0,5 y 1. En muchos casos, la curva ROC no indica claramente qué clasificador funciona mejor, y ROC-auc es un valor numérico. Un valor mayor corresponde a un mejor efecto clasificador. Para la relación entre el valor de ROC-auc y el clasificador, tenemos un estándar aproximado para evaluar el clasificador. Si ROC-auc es inferior a 0,5, el modelo tiene poca capacidad de discriminación. Si ROC-auc es mayor que 0,5 y menor que 0,8, la capacidad de discriminación del modelo es aceptable. Si el valor de ROC-auc es superior a 0,8, la capacidad de discriminación del modelo funciona mejor.

Dividimos los 1184 conjuntos de candidatos de la temperatura solvus γ' en el conjunto de entrenamiento, el conjunto de desarrollo y el conjunto de prueba, que consta de 674, 200 y 310 conjuntos de candidatos, respectivamente. Para verificar el efecto de usar Snorkel para generar los corpus, invitamos a expertos en el dominio a marcar el conjunto de desarrollo y el conjunto de prueba manualmente. Entre los 1184 conjuntos de candidatos, los expertos anotan un total de 200 conjuntos de candidatos como desarrollo. Aunque la carga de trabajo manual actualmente es algo grande, el modelo entrenado puede generar un conjunto de datos más grande. La carga de trabajo manual se limita a la etapa inicial y el uso posterior del procesamiento mecánico será mucho más rápido que el procesamiento manual. Hasta la fecha, el conjunto de entrenamiento y el conjunto de prueba no se han etiquetado y el conjunto de desarrollo se ha etiquetado manualmente. Integramos las funciones de etiqueta en el marco de Snorkel para el conjunto de desarrollo. El propósito es extraer la información correcta del conjunto de entrenamiento para formar los corpus.

Los resultados de la evaluación del corpus generado automáticamente se muestran en la Fig. 2. El número en la parte inferior de la figura es la época y el eje vertical representa el valor específico. Cuando usamos el marco Snorkel, usamos diferentes épocas. Cuando se entrena el modelo, el efecto del modelo mejorará a medida que aumenta la época, pero si entrenamos demasiadas épocas, el modelo se ajustará en exceso a los datos de entrenamiento y el efecto disminuirá. Idealmente, queremos encontrar el punto de inflexión donde el modelo va de bueno a malo para decidir si dejar de entrenar. Después de muchos experimentos, encontramos que los mejores resultados se obtienen cuando la época es 70. El mejor ROC-auc fue 0,882 y el mejor puntaje F1 fue 0,839. La época del punto de inflexión correspondiente es 70, y más épocas provocarán un sobreajuste, lo que dará como resultado resultados más deficientes. Estos valores indican que la calidad del conjunto de datos generado es alta. Aunque estos valores varían ligeramente con diferentes épocas, se puede ver en la figura que la diferencia no es significativa. Esto muestra que siempre que la función de la etiqueta se escriba con precisión, la capacidad de aprendizaje del snorkel no está altamente correlacionada con la época.

El rendimiento de F1-score y ROC-auc en el conjunto de datos generado. Si el valor es superior a 0,8, el modelo funciona bien.

Obtuvimos corpus usando Snorkel. Al juzgar si los candidatos tienen razón o no, escribimos la función de etiqueta al nivel del conjunto de candidatos. Dado que diferentes candidatos pueden tener la misma oración, al verificar en el conjunto de prueba, es posible que el modelo haya visto las oraciones en el conjunto de prueba durante el entrenamiento. Para ilustrar la generalidad de nuestro modelo, agregamos 88 oraciones no entrenadas sobre la temperatura de γ' solvus para generar 298 conjuntos de candidatos.

Colocamos los 298 conjuntos de candidatos generados directamente en el modelo entrenado y juzgamos a cada candidato. Invitamos a expertos a seleccionar al azar 50 piezas de corpus generados automáticamente por Snorkel para inspección manual. La tabla 3 es un ejemplo de los corpus corregidos por expertos. El maridaje correcto se selecciona entre un gran número de candidatos. Los resultados encontraron que el uso del método de generación automática de etiquetas de corpus. La tasa de precisión de la etiqueta alcanzó más del 80%. La primera columna etiquetada como 1 es el par correcto y la etiquetada como 0 es incorrecta. 'name_id' y 'attri_id' representan respectivamente la posición de la superaleación y la temperatura de solvus γ' en una oración.

Con la gran cantidad de corpus etiquetados producidos por Snorkel, podemos usar estos corpus para entrenar un modelo discriminante. Pero no podemos evitar preguntarnos por qué necesitamos entrenar otro modelo discriminante si el Snorkel puede determinar con precisión el tipo de muestra. Esta pregunta debe comenzar con la diferencia entre el modelo generativo y el discriminante. El modelo generativo en Snorkel aprende la distribución de probabilidad conjunta P(X, Y) de los datos y luego obtiene la distribución de probabilidad condicional P(Y|X) como modelo predictivo, la fórmula para generar el modelo se expresa de la siguiente manera.

El modelo discriminante que aprende directamente la distribución de probabilidad condicional P(Y|X) de los datos se establece como modelo de predicción. Con base en las características de los modelos discriminante y generativo, los corpus producidos por el modelo generativo pueden ayudar al modelo discriminante a mejorar la cobertura del método propuesto. El modelo generativo necesita aprender la distribución de probabilidad conjunta P(X, Y), pero para aquellos corpus que no pueden ser cubiertos por todas las funciones de etiquetado, obviamente es imposible obtener P(X, Y). Por el contrario, el modelo discriminante solo necesita las características del propio X. P(Y|X) se puede calcular, por lo que el modelo discriminante puede cubrir los puntos de datos que el modelo generativo no puede cubrir. Además, en comparación con el modelo de gráfico de probabilidad utilizado en el entrenamiento del modelo generativo, los modelos discriminantes se pueden entrenar con modelos más avanzados y complejos, como el modelo ON-LSTM que usamos, que también puede mejorar la precisión del modelo.

ON-LSTM integra la estructura jerárquica en el LSTM a través de una clasificación específica de neuronas, lo que permite que el LSTM aprenda la información de la estructura jerárquica automáticamente. El método de entrenamiento es el aprendizaje supervisado, y el modelo entrenado se puede utilizar para procesar un gran corpus de material. ON-LSTM ordena las neuronas dentro del LSTM e integra la estructura jerárquica para expresar información más rica18. En el modelo LSTM original, las actualizaciones entre neuronas no están relacionadas. Por esta razón, ON-LSTM agrega dos puertas: la puerta de olvido maestra \(\widetilde{{f}_{t}}\) y la puerta de entrada maestra \(\widetilde{{i}_{t}}\) . La estructura de ON-LSTM se muestra en la Fig. 3.

La estructura interna de ON-LSTM, donde σ es la función de activación sigmoide, ft es la puerta de olvido, es la puerta de entrada y ot es la puerta de salida.

Para demostrar la superioridad del método propuesto, nuestro algoritmo se compara con varios algoritmos clásicos en nuestro conjunto de datos propuesto. Los resultados de la comparación se presentan en la Fig. 4. Entre ellos, Snowball22 es un marco de extracción de información general. Snowball23 modificado es una mejora sobre la base de bola de nieve para el campo material. El algoritmo basado en la distancia es el método propuesto en nuestro artículo anterior11. LSTM se refiere a los resultados obtenidos después de que usamos Snorke para generar automáticamente el corpus y luego usamos el entrenamiento de la red LSTM. ON-LSTM es el resultado del entrenamiento con ON-LSTM posterior al corpus de producción. Es obvio que nuestro método propuesto funciona mucho mejor que los algoritmos clásicos anteriores. Los resultados muestran que ON-LSTM funciona mejor que LSTM en la tarea IE. En otras palabras, las neuronas ordenadas pueden expresar información más rica en oraciones y capturar información semántica entre palabras.

Resultados de la comparación de ON-LSTM y los algoritmos propuestos en artículos anteriores. ON-LSTM es nuestro método propuesto.

El método que propusimos es un marco general para IE sin corpora, que es universal en materiales. Para ilustrar mejor esta característica, también extrajimos otras propiedades físicas del dominio del material, incluida la densidad, las temperaturas de solidus de las superaleaciones y la dureza de las aleaciones de alta entropía. La Tabla 4 muestra la puntuación F1 para la densidad, la temperatura de solvus γ' de las superaleaciones y la información sobre la dureza de las aleaciones de alta entropía. Los resultados experimentales muestran que nuestro método propuesto para la extracción de relaciones a través de un corpus generado automáticamente es versátil y puede extraer cualquier propiedad en el dominio material.

En la Tabla 4, podemos observar que la puntuación F1 tiene un buen rendimiento en la extracción de información de densidad de las superaleaciones. Observamos las características de las oraciones que contienen densidad y encontramos que estas oraciones son relativamente monótonas en comparación con otros atributos al describir la densidad. Esta es la razón por la que la puntuación F1 de la densidad es relativamente alta. Resumimos varios patrones de oraciones típicos de la siguiente manera, donde A representa el atributo y B representa el valor de la propiedad. Ai, Bi representa la i-ésima A o B.

"Más significativamente, estas superaleaciones basadas en Co-V tienen una densidad más baja (8,39–8,86 g/cm3)". Al escribir una función de etiqueta, podemos describirla en forma de 'A(B)'.

"La densidad aparente de los polvos compuestos GTD222 y TiC/GTD222 fue de 4,56 g/cm3 y 4,48 g/cm3 respectivamente", que se puede resumir como el patrón de 'A1 y A2 ser verbo B1 y B2'.

"Mientras que la densidad de Nimonic 90.0 es de 8,2 g/cm3, los constituyentes de la capa Ni2Si, Ni5Si2, Cr2B y CrB tienen una densidad de 7,2 g/cm3, 7,0 g/cm3, 6,6 g/cm3 y 6,1 g/cm3, respectivamente". Las funciones de etiquetado se pueden escribir como "A1, A2, A3 y A4 tienen una densidad de B1, B2, B3, B4".

Los métodos de aprendizaje automático requieren grandes cantidades de datos para el entrenamiento del modelo. Aunque los métodos de aprendizaje automático se han utilizado ampliamente en muchos campos, todavía son métodos novedosos para extraer la información requerida en el campo de los materiales. La información extraída puede ayudar a los investigadores a determinar qué materiales usar bajo qué circunstancias.

En este trabajo utilizamos Snorkel semi-supervisado para generar conjuntos de entrenamiento en el campo de los materiales. Tomamos las superaleaciones como ejemplo y verificamos la generalidad del método propuesto en el campo de los materiales a través de varios tipos de materiales diferentes. Al generar el conjunto de entrenamiento, dado que nuestro conjunto de datos está muy desequilibrado, incluso una línea de base trivial que siempre arroja resultados negativos puede obtener una alta precisión. Por lo tanto, evaluamos el conjunto de datos utilizando la puntuación F1 y ROC-auc en lugar de la precisión. Además, primero investigamos la posible integración entre ON-LSTM e IE. Aunque utilizamos métodos más avanzados para entrenar el modelo, los resultados no son especialmente satisfactorios. Esto puede deberse a la pequeña cantidad de conjuntos de datos y al desequilibrio de muestras positivas y negativas. Aunque todos nuestros procesos extraen información específica en el campo de los materiales, el método propuesto también se puede aplicar a otros campos sin conjuntos de datos. Se escriben diferentes funciones de etiquetado de acuerdo con los requisitos, y luego el modelo se entrena de acuerdo con el conjunto de datos generado para aumentar la solidez de la extracción. En todos los casos, la dificultad de escribir funciones de etiquetado está relacionada con la dificultad del corpus y la información extraída.

El uso de métodos de aprendizaje automático para extraer información en el campo material todavía enfrenta muchos desafíos. Por un lado, el aprendizaje automático requiere un gran corpus, mientras que la cantidad de datos en el campo de las superaleaciones es pequeña debido a la dificultad de adquirir conjuntos de datos precisos y sin errores. En el futuro, esperamos obtener más artículos sobre materiales y obtener más oraciones que contengan las propiedades físicas para obtener conjuntos de datos más grandes y de mayor calidad. Por otro lado, no utilizamos un modelo previamente entrenado al extraer información debido al número limitado de conjuntos de datos. El modelo de preentrenamiento obtiene modelos que no están relacionados con tareas específicas a partir de datos a gran escala a través de métodos de aprendizaje autosupervisados que pueden expresar de manera más efectiva las ricas características semánticas de las palabras o las oraciones. En el futuro, puede ser posible introducir modelos de preentrenamiento como BERT24 y XLNet25,26 en la etapa de extracción de información para aprovechar al máximo la información de contexto de las oraciones y usar vectores con precisión para expresar el significado de las palabras.

En esta sección, describimos los métodos de aprendizaje automático utilizados en este trabajo, a saber, el método Snorkel para generar conjuntos de datos y el método ON-LSTM para entrenar los modelos IE.

Snorkel es un modelo que utiliza una supervisión débil para generar conjuntos de datos. Etiqueta manualmente cualquier dato atípico y solo requiere que los usuarios escriban funciones de etiquetado27. Snorkel utiliza programación de datos28,29 para obtener su salida. El propósito principal de Snorkel es dar un φ \(\in \) Φ y determinar la posible etiqueta discreta τ \(\in \) T, donde Φ representa el conjunto candidato y T representa el conjunto {1, 0}. Para lograr este objetivo, necesitamos escribir algunas funciones de etiquetado λ basadas en el conjunto de datos específico. Para los usuarios, las funciones de etiquetado escritas son funciones de caja negra y no necesitan comprender el funcionamiento de Snorkel en las funciones de etiquetado. Tras la entrada del conjunto de candidatos Φ y las funciones de etiquetado λ, Snorkel genera etiquetas T a las que pertenece Φ. Los usuarios pueden escribir funciones de etiquetado de las siguientes maneras:

Basado en patrones: el método formula algunas reglas al observar las características de los patrones de oraciones. Omar et al. propuso los principios básicos de la observación para ayudar a los usuarios a anotar conjuntos de datos30. Sonal et al. utilizó las reglas de similitud de distribución y distancia palabra a palabra para el etiquetado31.

Supervisión a distancia: La supervisión a distancia se refiere a una base de conocimientos existente. Suponiendo que la base de conocimientos contenga la información a extraer, equivale a marcar automáticamente una parte de las muestras; por ejemplo, Rafael et al. usó la información en la base de conocimientos para extraer relaciones repetitivas a nivel de oraciones32.

Clasificadores débiles: llamamos clasificador débil33 a un clasificador que es ligeramente mejor que una predicción aleatoria pero no muy preciso. Podemos entrenar clasificadores débiles en otros conjuntos de datos como funciones de etiquetado.

Si el conjunto de candidatos contiene puntos de datos y los usuarios escriben funciones de etiquetado b, entonces se generará la matriz Γ \(\in \) Ta*b. Cada función de etiquetado puede tener cobertura, superposiciones y conflictos para el mismo punto de datos. Snorkel resuelve automáticamente los problemas anteriores internamente y finalmente forma una etiqueta única para cada punto de datos. El componente más importante de los modelos de Snorkel, que integra múltiples funciones de etiquetado, se denomina modelo generativo. Snorkel implementa este componente utilizando el método de programación de datos. Para más detalles, consulte 27,28,29.

Después de que el complemento que viene con TensorFlow34 incrusta el conjunto de datos adquirido, usamos el algoritmo de aprendizaje automático ON-LSTM para la extracción de relaciones. ON-LSTM es una variante de LSTM. Para una descripción clara de ON-LSTM, ilustramos su proceso paso a paso. En esta sección, entendemos primero el principio de funcionamiento de LSTM.

LSTM es un tipo especial de red neuronal recurrente35 (RNN) que puede aprender dependencias a largo plazo. LSTM elimina o agrega información a través de su celda de memoria \({c}_{t}\). Como se muestra en la Fig. 5, hay tres tipos de puertas, a saber, la puerta de olvido \({f}_{t}\), la puerta de entrada \({i}_{t}\) y la puerta de salida \({o} _ {t}\), en ct36. El primer paso de LSTM es decidir qué información descartaremos del estado de la celda, lo cual se hace a través de la puerta de olvido. La entrada es el estado oculto \({h}_{t-1}\) de la secuencia anterior y esta secuencia de datos \({x}_{t}\). La salida \({f}_{t}\) de la puerta de olvido representa la probabilidad de olvidar el estado de celda oculta de la capa anterior y se expresa de la siguiente manera.

donde \(\sigma \) es la función de activación sigmoide y Wf y bf son el coeficiente de correlación lineal y el sesgo, respectivamente. El valor de ft está entre 0 y 1; aquí, 0 significa que no se permite el paso de información y 1 significa que se permite el paso de cualquier información.

La estructura interna de LSTM. Una celda LSTM consta de una celda de memoria ct y tres puertas.

La puerta de entrada determina qué información nueva se almacena en el estado de la celda. Consta de dos partes: la primera parte utiliza la función de activación sigmoidea y su salida es \({i}_{t}\). La segunda parte usa la función de activación tanh, y su salida es \({\widehat{c}}_{t}\). Los resultados de los dos se multiplican para actualizar el estado de la celda. \({W}_{i}\), \({W}_{c}\), \({b}_{i}\) y \({b}_{c}\) son linealmente coeficientes y sesgos relacionados.

A continuación, necesitamos actualizar el estado de la celda anterior y actualizar \({c}_{t-1}\) a \({c}_{t}\). Multiplicamos el estado anterior por \({f}_{t}\) y descartamos la información que seguramente será descartada. Para la suma del producto de la puerta de entrada \({i}_{t}\) y \({\widehat{c}}_{t}\), la fórmula es la siguiente.

Finalmente, necesitamos determinar el valor de salida. La fórmula para el cálculo de ot es la siguiente. Aquí, w0 y bo indican el coeficiente de correlación y el sesgo.

La actualización del estado oculto ht consta de dos partes: la primera parte es ot, y la segunda parte está compuesta por ct y las funciones de activación tanh.

La nueva función de activación cumax se utilizó de acuerdo con el trabajo informado anteriormente. El estado de la neurona controla la información que se almacenará y olvidará. Al introducir dicho mecanismo de puerta, se establecen reglas de actualización interdependientes entre neuronas para que las neuronas tengan un orden y una jerarquía de diferencias.

El objeto del pensamiento ON-LSTM es el lenguaje natural, y la naturaleza generalmente puede expresar alguna estructura jerárquica. En las oraciones en inglés, las letras pueden considerarse la estructura de nivel más bajo y las palabras y frases tienen un nivel más alto. Cuanto más alto sea el nivel, más gruesa será la granularidad y mayor será la extensión de la oración. En la estructura ON-LSTM, la información de alto nivel puede retener una distancia considerable porque la información histórica copiada directamente por la información de alto nivel puede hacer que la información histórica se repita sin cambiar. La información de bajo nivel puede actualizarse en cada paso de la entrada porque la información de bajo nivel duplica directamente la entrada. La entrada cambia constantemente, por lo que la estructura jerárquica se integra a través de la clasificación de la información.

La puerta de olvido \({f}_{t}\), puerta de entrada \({i}_{t}\), puerta de salida \({o}_{t}\) y \({\widehat{c }}_{t}\) de ON-LSTM dado por las mismas fórmulas que ct y LSTM, pero el mecanismo de actualización de \({\widehat{c}}_{t}\) a \({c}_{ t}\) es diferente. La siguiente es la fórmula actualizada de todo el ON-LSTM:

El valor de la función de activación cumax decrece monótonamente de 1 a 0. Dentro de cierto rango, su valor tiende a 0, indicando que se ha olvidado la información anterior; si su valor tiende a 1, el nuevo contenido de entrada se vuelve cada vez más importante. Al entrenar el modelo, establecemos el abandono en 0,4, la tasa de aprendizaje es 0,1 y la dimensión del vector de palabras es 64.

Nuestros datos iniciales y los datos extraídos están disponibles en https://github.com/MGEdata/snorkel.

El código está disponible en https://github.com/MGEdata/auto-generate-corpus. Cuando los investigadores extraen su propio corpus, solo necesitan escribir funciones de etiquetado que cumplan con las características de su propio corpus en el marco que escribimos, que es muy simple de usar.

Galassi, A., Lippi, M. & Torroni, P. Atención en el procesamiento del lenguaje natural. Transacciones IEEE en redes neuronales Aprenda. sist. 15, 3709–3721 (2020).

Google Académico

Mooney, RJ & Bunescu, RC Minería del conocimiento del texto mediante la extracción de información. Acm Sigkdd Explorar. Noticias 7, 3–10 (2005).

Artículo Google Académico

Rickman, JM, Lookman, T. & Kalinin, SV Informática de materiales: del nivel atómico al continuo. Acta Materials 168, 473–510.

Artículo ADS CAS Google Académico

Wen, C. et al. Diseño asistido por aprendizaje automático de aleaciones de alta entropía con la propiedad deseada. Acta Materialia 170, 109–117 (2019).

Artículo ADS CAS Google Académico

Xue, D. et al. Búsqueda acelerada de materiales con propiedades específicas mediante diseño adaptativo. Nat. comunicaciones 7, 1–9 (2016).

ANUNCIOS Google Académico

Tshitoyan, V. et al. Las incrustaciones de palabras no supervisadas capturan el conocimiento latente de la literatura de ciencia de materiales. Nat. 571, 95–98 (2019).

Artículo ADS CAS Google Académico

Swain, MC & Cole, JM Chemdataextractor: un conjunto de herramientas para la extracción automatizada de información química de la literatura científica. J. modelado de información química 56, 1894–1904 (2016).

Artículo CAS Google Académico

Krallinger, M., Rabal, O., Lourenco, A., Oyarzabal, J. & Valencia, A. Tecnologías de recuperación de información y minería de texto para química. química reseñas 117, 7673–7761 (2017).

Artículo CAS Google Académico

Kim, E. et al. Planificación de síntesis de materiales inorgánicos con redes neuronales entrenadas en la literatura. J. modelado de información química 60, 1194–1201 (2020).

Artículo CAS Google Académico

Kim, E., Huang, K., Jegelka, S. & Olivetti, E. Detección virtual de parámetros de síntesis de materiales inorgánicos con aprendizaje profundo. Cálculo npj. Mate. 3, 1–9 (2017).

Artículo CAS Google Académico

Wang, W. et al. Tubería automatizada para datos de superaleaciones mediante minería de texto. Cálculo npj. Mate. 8, 1–12 (2022).

Artículo ANUNCIOS Google Académico

Sahu, SK, Anand, A., Oruganty, K. & Gattu, M. Extracción de relaciones de textos clínicos utilizando una red neuronal convolucional invariable de dominio. En BioNLP@ACL (2016).

Lv, X., Guan, Y., Yang, J. & Wu, J. Extracción de relaciones clínicas con aprendizaje profundo. En t. J. Híbrido Inf. Tecnología 9, 237–248 (2016).

Google Académico

Chalapathy, R., Borzeshi, EZ & Piccardi, M. Lstm-crf bidireccional para la extracción de conceptos clínicos. preimpresión de arXiv arXiv:1611.08373 (2016).

Javeed, A. Un modelo lstm para extraer relaciones jerárquicas entre palabras para un mejor modelado de temas. J. Física: Conf. Ser. 1780, 012019 (2021).

Google Académico

Ratner, A. et al. Snorkel: creación rápida de datos de entrenamiento con supervisión débil. En Procedimientos de la Fundación VLDB. Conferencia internacional sobre bases de datos muy grandes, vol. 11, 269 (acceso público de los NIH, 2017).

Ratner, A., Bach, SH, Ehrenberg, H., Fries, J. & Re, C. Snorkel: creación rápida de datos de entrenamiento con supervisión débil. El VLDB J. 11, 269–282 (2017).

Google Académico

Shen, Y., Tan, S., Sordoni, A. & Courville, AC Neuronas ordenadas: integración de estructuras de árbol en redes neuronales recurrentes. ArXivabs/1810.09536 (2019).

Gao, T., Han, X., Xie, R., Liu, Z. y Sun, M. Bola de nieve neuronal para el aprendizaje de relaciones de pocos disparos. proc. Conferencia AAAI en Artif. Intel. 34, 7772–7779 (2020).

Google Académico

Mallory, EK et al. Extraer reacciones químicas del texto usando snorkel. BMC Bioinforma. 21 (2020).

Fawcett, T. Introducción al análisis de rocas. Letras de reconocimiento de patrones 27, 861–874 (2006).

Artículo ANUNCIOS Google Académico

Agichtein, E. & Gravano, L. Snowball: Extracción de relaciones de grandes colecciones de texto sin formato. En Actas de la quinta conferencia ACM sobre bibliotecas digitales, 85–94 (2000).

Court, CJ & Cole, JM Base de datos de materiales generados automáticamente de temperaturas de Curie y Neel mediante extracción de relación semisupervisada. ciencia datos 5, 1–12 (2018).

Artículo Google Académico

Devlin, J., Chang, M.-W., Lee, K. & Toutanova, K. Bert: Entrenamiento previo de transformadores bidireccionales profundos para la comprensión del lenguaje. preimpresión de arXiv arXiv:1810.04805 (2018).

Yang, Z. et al. Xlnet: Preentrenamiento autorregresivo generalizado para la comprensión del lenguaje. Adv. sistemas de procesamiento de información neuronal 32 (2019).

Yan, R., Jiang, X. y Dang, D. Reconocimiento de entidades nombradas mediante xlnet-bilstm-crf. Proceso Neural. Letón. 53, 1–18 (2021).

Artículo Google Académico

Ratner, A. et al. Snorkel: creación rápida de datos de entrenamiento con supervisión débil. El VLDB J. 29, 709–730 (2020).

Artículo Google Académico

Bach, SH, He, BD, Ratner, AJ & Re, C. Aprendiendo la estructura de modelos generativos sin datos etiquetados. proc. investigación de aprendizaje automático 70, 273–82 (2017).

Google Académico

Ratner, A., De, SC, Wu, S., Selsam, D. & Re, C. Programación de datos: Creación rápida de grandes conjuntos de entrenamiento. Adv. sistemas de procesamiento de información neuronal 29, 3567 (2016).

Google Académico

Zaidan, O. & Eisner, J. Modelado de anotadores: un enfoque generativo para aprender de las razones del anotador. En Actas de la conferencia de 2008 sobre métodos empíricos en el procesamiento del lenguaje natural, 31–40 (2008).

Gupta, S. & Manning, CD Aprendizaje de patrones mejorado para la extracción de entidades con arranque. En Actas de la Decimoctava Conferencia sobre Aprendizaje Computacional de Lenguaje Natural, 98–108 (2014).

Hoffmann, R., Zhang, C., Ling, X., Zettlemoyer, L. & Weld, DS Supervisión débil basada en el conocimiento para la extracción de información de relaciones superpuestas. En ACL (2011).

Shatalova, OV, Mednikov, DA, Protasova, ZU & Stadnichenko, NS Predicción del riesgo de complicaciones cardiovasculares con un espacio segmentado de factores de riesgo y canales de sinergia. J. Física: Conf. Ser. 1679, 032042 (5 páginas) (2020).

Google Académico

Abadi, M. et al. {TensorFlow}: un sistema para el aprendizaje automático {a gran escala}. En el 12º simposio USENIX sobre diseño e implementación de sistemas operativos (OSDI 16), 265–283 (2016).

Zaremba, W., Sutskever, I. & Vinyals, O. Regularización de redes neuronales recurrentes. preimpresión de arXiv arXiv:1409.2329 (2014).

Shi, X. et al. Red lstm convolucional: un enfoque de aprendizaje automático para el pronóstico inmediato de precipitaciones. preimpresión de arXiv arXiv:1506.04214 (2015).

Descargar referencias

DD y YS son los autores correspondientes de este artículo. Esta investigación cuenta con el apoyo del Programa Nacional de Investigación y Desarrollo Clave de China bajo la Subvención No. 2020YFC1523303; el Programa de Investigación y Desarrollo Clave de la Provincia de Qinghai bajo la Subvención No. 2020-SF-140; la Fundación Nacional de Ciencias Naturales de China bajo la Subvención No. 61672102, nº 61073034, nº 61370064 y nº 60940032; la Fundación Nacional de Ciencias Sociales de China bajo la Subvención No.BCA150050; el Programa para Talentos Excelentes del Nuevo Siglo en la Universidad del Ministerio de Educación de China bajo la Beca No. NCET-10-0239; el Patrocinador del Proyecto Abierto del Laboratorio Clave de Software de Comunicación Inteligente y Multimedia de Beijing bajo la Subvención No.ITSM201493; y la Fundación Científica del Ministerio de Educación de China y la Corporación de Comunicaciones Móviles de China bajo la Subvención No. MCM20130371. Un agradecimiento especial a mi novio Ye Tao, quien me guió para enviar el trabajo y me animó a revisar el manuscrito una y otra vez.

Escuela de Inteligencia Artificial, Universidad Normal de Beijing, Beijing, 100875, China

Rongen Yan y Depeng Dang

Centro de Innovación Avanzada de Beijing para Ingeniería del Genoma de Materiales, Instituto de Tecnología y Materiales Avanzados, Universidad de Ciencia y Tecnología de Beijing, Beijing, 100083, China

Xue Jiang, Weiren Wang y Yanjing Su

Centro de Innovación Colaborativa de Tecnología del Acero, Universidad de Ciencia y Tecnología de Beijing, Beijing, 100083, China

Xue Jiang

También puede buscar este autor en PubMed Google Scholar

La idea original fue propuesta por RY y DD y discutida con XJ e YS Los datos originales son proporcionados por XJ, WW e YS Todos los autores participaron en la discusión, análisis, redacción y lectura del artículo. DD y YS gestionaron y guiaron el proyecto.

Correspondencia a Depeng Dang o Yanjing Su.

Los autores declaran no tener conflictos de intereses.

Nota del editor Springer Nature se mantiene neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso abierto Este artículo tiene una licencia internacional Creative Commons Attribution 4.0, que permite el uso, el intercambio, la adaptación, la distribución y la reproducción en cualquier medio o formato, siempre que se otorgue el crédito correspondiente al autor o autores originales y a la fuente. proporcionar un enlace a la licencia Creative Commons e indicar si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la regulación legal o excede el uso permitido, deberá obtener el permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Yan, R., Jiang, X., Wang, W. et al. Extracción de información de materiales a través de corpus generados automáticamente. Datos científicos 9, 401 (2022). https://doi.org/10.1038/s41597-022-01492-2

Descargar cita

Recibido: 09 marzo 2022

Aceptado: 28 junio 2022

Publicado: 13 julio 2022

DOI: https://doi.org/10.1038/s41597-022-01492-2

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, un enlace para compartir no está disponible actualmente para este artículo.

Proporcionado por la iniciativa de intercambio de contenido Springer Nature SharedIt

Anterior: Consideraciones importantes de salud y seguridad para lavados de autos Próximo: Cobrar más por trabajos de frenos

Enviar Consulta

Enviar