Soluciones Tecnológicas

Natural Language Processing: ¿cómo es la técnica Word Embeddings?

01/10/24

Lectura: 3 min.

El Natural Language Processing busca evolucionar los métodos de comunicación entre personas y computadoras a través del lenguaje natural (humano).

Este campo de investigación se basa en Inteligencia Artificial para dotar a las computadoras con las capacidades de:

Realizar redacciones completas y complejas
Traducir contenidos de un idioma a otro
Resumir y sintetizar textos de gran volumen
Responder coherentemente a preguntas hechas por personas

Estas, y otras capacidades, son las que han permitido el desarrollo de sistemas como Google Translate, Amazon Alexa, Apple Siri y demás. Una de las técnicas bases para este tipo de tecnologías es Word Embeddings.

¿Qué es Word Embeddings en el Natural Language Processing?

Word Embeddings es una técnica del Natural Language Processing que consiste, básicamente, en asignar un vector a cada palabra. Este vector guarda información semántica, lo que permite que pueda ser asociado o disociado a otros vectores (palabras) según distintos contextos gramaticales.

En este sentido, Word Embeddings se convierte en una solución efectiva para codificar tanto la semántica como la relación de las palabras entre sí. Dicha codificación es generalizable, lo que significa que el algoritmo creado puede ser utilizado para resolver distintos tipos de problemas. Tales como de traducción, de generación de textos, entre otros.

Además, los vectores creados mediante Word Embeddings pueden ser ingresados en redes neuronales artificiales. Esto les facilita a dichas redes establecer relaciones complejas entre las palabras gracias a que ya conoce su semántica.

¿Cómo funciona Word Embeddings en el Natural Language Processing?

Word Embeddings en el Natural Language Processing

Fuente: TensorFlow

Las palabras, en sí, no pueden ser procesadas por los sistemas computacionales. Por lo tanto, estas deben ser convertidas en formatos que sean digitalmente procesables. Aquí es donde entran en juego los vectores de Word Embeddings como representaciones matemáticas de las palabras. Ya que la matemática es un lenguaje natural para las computadoras y permite ejecutar el Natural Language Processing.

¿Pero qué son los vectores?

Los vectores en el Natural Language Processing son elementos matemáticos que poseen 2 características: longitud y orientación, y están ubicados en planos multidimensionales. Esto significa que un vector puede ser analizado tanto por lo que mide de largo como por hacia donde está apuntando.

Los vectores que representan palabras con significados similares se ubican más cerca entre sí, y el significado de cada palabra viene dado por su respectivo entorno.

Al ser elementos matemáticos, los vectores pueden ser sometidos a operaciones matemáticas como suma, resta, entre otras. Además, se les puede modificar sus dimensiones y sus perspectivas.

Ejemplo del funcionamiento de Word Embeddings

Sobre estos fundamentos, un ejemplo del funcionamiento de Word Embeddings como Word2vec sería:

Se tiene el vector correspondiente a la palabra “Rey”. Este está asociado al vector de la palabra “Hombre”. Así, si se le resta el vector “Hombre” y se le suma el vector “Mujer”, quedaría entonces el vector “Reina”.

Por otra parte, en los Word Embeddings más avanzados, como ELMo, el vector de cada palabra se genera según el contexto de esta palabra dentro de una frase concreta. Así, el vector para “banco” se genera de forma distinta según si se refiere a la institución bancaria o a un banco para sentarse.

En este panorama, los algoritmos de Natural Language Processing más avanzados pueden comprender y procesar contextos de ironía, sarcasmo, humor, entre otros. El análisis de datasets con cantidades enormes de contenidos permite este tipo de capacidades que, hasta el momento, parecían ser solo de humanos.

Limitaciones del Word Embeddings en el Natural Language Processing

El Word Embeddings es excelente para convertir las palabras en vectores. Sin embargo, no es suficientemente potente para comprender relaciones entre ellas en una misma frase. Por lo tanto, no logra resolver los problemas de continuidad o de completado de frases dentro del Natural Language Processing.

Por ejemplo, el modelo de Word Embeddings no puede completar frases como: “Estoy armando las maletas porque me voy de ________”.

En cambio, para resolver este tipo de problemas existen los Modelos del Lenguaje. Estos son modelos de machine learning que intentan, entre otras, realizar 2 acciones:

Predecir cuál es la siguiente palabra en función de las palabras anteriores.
Predecir cuál es la palabra que debe ir en medio de una frase en función de las palabras anteriores y las siguientes.

Uno de los Modelos del Lenguaje más avanzados es el GPT (Generative Pre-Training), desarrollado por OpenAI. El cual ha dado lugar en su última versión, GPT4, al popularísimo software de generación de texto, ChatGPT4.

En Enzyme Advising Group somos expertos en Natural Language Processing y Machine Learning para la creación de chatbots empresariales de gran potencia. Nuestras soluciones basadas en Inteligencia Artificial se encuentran ubicadas en el top 5 europeo según el IBM Ecosystem Summit 2019.