¿A qué solución intuitiva hubieras llegado tú si, a mediados del siglo XX, hubieras tenido que enseñar a una máquina a comprender el lenguaje natural? Traducir a reglas formales todas las formas que emplea el lenguaje natural sería una tarea extremadamente difícil si un humano tuviera que hacerlo manualmente. Gracias a la IA (inteligencia artificial), al machine learning y al campo de la lingüística nació, ya hace unos años, el campo del NLP (Natural Language Processing).
En este artículo entenderemos, a grandes rasgos, cómo las máquinas procesan el lenguaje, cómo pueden los chatbots “conversar con y como humanos” y otras de las últimas novedades en el campo del NLP y la inteligencia artificial.
Imagínate enseñar a cada chatbot todos los matices y particularidades de un idioma antes de enseñarle cómo debe responder a los usuarios ante una intención determinada… ¡Sería una tarea muy costosa, tanto por tiempo como por recursos!
Nuestro lenguaje está lleno de ambigüedades, de palabras con distintas acepciones, giros y diversos significados según el contexto. Por ejemplo, los humanos sabemos que hay palabras que, conceptualmente, están unas más cerca que otras: árbol, palmera o flor son palabras más cercanas que tostadora, batidora y teléfono.
Para que un chatbot sea capaz de conversar con un humano, es importante que los algoritmos que emplea sean capaces de desmigar las palabras y traducirlas a un formato que un computadora pueda digerir, es decir, nosotros entendemos carácteres y los ordenadores ceros y unos. Si queremos que una máquina nos entienda, debemos ser capaces de proporcionarle la información en un formato que pueda consumir y procesar. A este proceso de conversión se le conoce como vectorización, y por suerte, a día de hoy, ya se cuentan con modelos pre-entrenados muy desarrollados para la representación de palabras en vectores.
A finales de 2013 se publicó Word2vec (Google), uno de los sistemas más utilizados en la última década y que genera una representación tridimensional de nuestro sistema de palabras; así es como se visualiza:
(Fuente: https://projector.tensorflow.org/)
Debemos de tener en cuenta que, hasta hace poco, y debido a la naturaleza secuencial de una frase, la única forma que teníamos de procesar las palabras era a través de redes neuronales recurrentes (sistema que ha permitido mejorar el NLP en los últimos años). De forma muy resumida, una red neuronal recurrente procesa una palabra (capa por capa) con los parámetros aprendidos por la red. La salida obtenida es agregada a la siguiente entrada (siguiente palabra).
Aunque todo parezca perfecto, siempre hay algún inconveniente: el problema principal de estas redes es la falta de memoria, o ¿acaso eres capaz de recordar cuál es la séptima palabra que has leído en este artículo?
Es en 2017 cuando una publicación llamada Attention Is All You Need transforma la concepción de lo que la IA es capaz de hacer. Esta publicación propone una nueva arquitectura bautizada con el nombre de transformers (no, no son una raza de alienígenas robots), que tiene como principal ventaja la solución al problema de falta de memoria de las redes neuronales recurrentes. La solución a esta falta de memoria se abarca mediante los denominados mecanismos de atención.
Podemos encontrar grandes logros del deep learning, que, en su esencia, emplean esta tecnología como: AlphaFold2 para el análisis de secuencias genómicas, Tesla en sus sistema de conducción autopilot o GPT3 para la modelización y generación de texto.
Para los interesados en GPT-3, hasta hace poco, este era un sistema de uso cerrado. No todo el mundo podía acceder, pero hace unas semanas, un artículo de Xataca informó que OpenAI abrió la API para que cualquier usuario pudiese probarla, de manera que cualquier persona pudiera testear las capacidades del sistema y de lo que es capaz de hacer hoy en día la IA.
De hecho, las capacidades de la IA no se quedan solo en las palabras o el texto, ya que estamos empezando a ver auténticas obras de arte generadas que tiene como autora a, nada más y nada menos, que la IA:
Fuente: VQGAN+CLIP
Si has oído hablar de GPT-3, ya sabrás que es un modelo de lenguaje creado por OpenAI el cual es capaz de generar texto escrito. En otras palabras, es una IA (inteligencia artificial), un modelo de machine learning que analiza texto o datos y es capaz de ofrecer y generar continuaciones a textos en función de las palabras anteriores. La versión completa de GPT-3 tiene una capacidad de 175.000 millones de parámetros de aprendizaje automatizado.
Si bien el GPT-3 es un modelo completo, con muchos parámetros, el campo del machine learning sigue creciendo a un ritmo exponencial. De hecho, hace unas semanas salía la siguiente noticia, dónde se anunciaba el nuevo sistema MT-NLG, el cual posee el triple de parámetros que el mayor modelo existente de este tipo.
Fuente: Gen Beta
Los mecanismos de atención que introduce la arquitectura de los transformers permiten a la red a aprender a mostrar atención a los datos usados en el entrenamiento, entre otros factores.
Ya no es necesario que el sistema sea capaz de recordar y/o almacenar el orden secuencial de una oración para poder darle sentido, los mecanismos de atención se encargan de establecer las relaciones y sinergias entre las palabras. Además, al no tener que recordar y mantener el orden secuencial de la información, de forma adicional se permite la paralelización del procesado e ingesta de datos, aumentando la potencia y rendimiento de esta arquitectura en comparación a las redes neuronales recurrentes anteriormente empleadas.
Los principales fabricantes de software tienen sus propias tecnologías de chatbot (IBM, Amazon, Google, Microsoft, SAP, entre otras) y cada uno de ellos emplea su receta secreta para el procesamiento del lenguaje natural. Estas recetas siguen mejorando y evolucionando día a día para mejorar la experiencia del usuario.
*Watson Assistant has a new and improved intent detection algorithm, which is more accurate versus commercial and open-source solutions. Fuente: IBM
Gracias a las nuevas tecnologías mencionadas, las compañías pueden mejorar consistentemente el servicio que ofrecen sus chatbots. Pero, para esto, es necesario contar con una empresa tecnológica aliada que pueda proveer de chatbots con actualizaciones y mejoras continuas en relación con las nuevas tendencias y tecnologías del mercado.
En Enzyme estamos convencidos que saber utilizar este tipo de soluciones para resolver las problemáticas de los clientes adecuadamente, puede aportar grandes beneficios a diversas áreas de una compañía. En este sentido, el NLP presenta un gran abanico de posibilidades de mejora y optimización de procesos.
Si quieres percibir los beneficios de estas tecnologías en tu empresa, cuenta con nosotros: somos expertos en Natural Language Processing. Envíanos un mensaje, cuéntanos qué necesitas, que juntos crearemos una solución tecnológica adaptada a las necesidades y objetivos de tu empresa.
Creamos nuevos productos y servicios superiores hibridando la tecnología con los modelos de negocio
¿En que estás interesado?
¡Ya has completado el formulario!
¡Ya has completado el formulario! Revisaremos tu solicitud y nos pondremos en contacto contigo lo antes posible.
Gracias por confiar en nosotros.