Conclusiones clave
- Un nuevo modelo de aprendizaje automático alucina una imagen de la apariencia de una oración en un idioma para ayudar a la traducción.
- El sistema de inteligencia artificial, llamado VALHALLA, fue diseñado para imitar la forma en que los humanos perciben el lenguaje.
- El nuevo sistema es parte de un movimiento creciente para usar IA para comprender el lenguaje.
El método humano de visualizar imágenes mientras traduce palabras podría ayudar a que la inteligencia artificial (IA) lo entienda mejor.
Un nuevo modelo de aprendizaje automático alucina una imagen de cómo se ve una oración en un idioma. Según un artículo de investigación reciente, la técnica utiliza la visualización y otras pistas para ayudar con la traducción. Es parte de un movimiento creciente para usar IA para comprender el lenguaje.
"La forma en que la gente habla y escribe es única porque todos tenemos tonos y estilos ligeramente diferentes", dijo a Lifewire en una entrevista por correo electrónico Beth Cudney, profesora de análisis de datos en la Universidad de Maryville, que no participó en la investigación.. "Comprender el contexto es difícil porque es como tratar con datos no estructurados. Aquí es donde el procesamiento del lenguaje natural (PNL) es útil. La PNL es una rama de la IA que aborda las diferencias en la forma en que nos comunicamos mediante la comprensión de lectura automática. La diferencia clave en la PNL, como rama de la IA, no se centra simplemente en los significados literales de las palabras que decimos o escribimos. Se fija en el significado".
Ve a preguntarle a Alicia
El nuevo sistema de inteligencia artificial, llamado VALHALLA, creado por investigadores del MIT, IBM y la Universidad de California en San Diego, fue diseñado para imitar la forma en que los humanos perciben el lenguaje. Según los científicos, el uso de información sensorial, como multimedia, junto con palabras nuevas y desconocidas, como tarjetas con imágenes, mejora la adquisición y retención del lenguaje.
Estos sistemas están aumentando el poder de los chatbots que actualmente solo están capacitados y son capaces de mantener conversaciones específicas…
El equipo afirma que su método mejora la precisión de la traducción automática en comparación con la traducción de solo texto. Los científicos utilizaron una arquitectura de codificador-decodificador con dos transformadores, un tipo de modelo de red neuronal adecuado para datos dependientes de la secuencia, como el lenguaje, que puede prestar atención a las palabras clave y la semántica de una oración. Un transformador genera una alucinación visual y el otro realiza una traducción multimodal utilizando las salidas del primer transformador.
"En escenarios del mundo real, es posible que no tenga una imagen con respecto a la oración original", dijo Rameswar Panda, uno de los miembros del equipo de investigación, en un comunicado de prensa. "Entonces, nuestra motivación era básicamente: en lugar de usar una imagen externa durante la inferencia como entrada, ¿podemos usar la alucinación visual, la capacidad de imaginar escenas visuales, para mejorar los sistemas de traducción automática?"
Entendimiento de la IA
Una investigación considerable se centra en el avance de la PNL, señaló Cudney. Por ejemplo, Elon Musk cofundó Open AI, que está trabajando en GPT-3, un modelo que puede conversar con un humano y es lo suficientemente inteligente como para generar código de software en Python y Java.
Google y Meta también están trabajando para desarrollar IA conversacional con su sistema llamado LAMDA. "Estos sistemas están aumentando el poder de los chatbots que actualmente solo están capacitados y son capaces de conversaciones específicas, lo que probablemente cambiará la cara de la atención al cliente y las mesas de ayuda", dijo Cudney.
Aaron Sloman, cofundador de CLIPr, una empresa de tecnología de inteligencia artificial, dijo en un correo electrónico que los modelos de lenguaje grandes como GPT-3 pueden aprender de muy pocos ejemplos de capacitación para mejorar los resúmenes de texto basados en comentarios humanos. Por ejemplo, dijo, puede darle un problema matemático a un modelo de lenguaje grande y pedirle a la IA que piense paso a paso.
"Podemos esperar que se extraigan mayores conocimientos y razonamientos de los grandes modelos de lenguaje a medida que aprendemos más sobre sus capacidades y limitaciones", añadió Sloman. "También espero que estos modelos de lenguaje creen procesos más parecidos a los humanos a medida que los modeladores desarrollen mejores formas de ajustar los modelos para tareas específicas de interés".
El profesor de informática de Georgia Tech, Diyi Yang, predijo en una entrevista por correo electrónico que veremos un mayor uso de los sistemas de procesamiento de lenguaje natural (NLP) en nuestra vida diaria, que van desde asistentes personalizados basados en NLP para ayudar con correos electrónicos y llamadas telefónicas, a sistemas de diálogo informados para la búsqueda de información en viajes o atención médica."Además de sistemas de IA justos que puedan realizar tareas y ayudar a los humanos de una manera responsable y libre de prejuicios", agregó Yang.
Enormes modelos de IA que utilizan trillones de parámetros como GPT-3 y DeepText seguirán trabajando para lograr un modelo único para todas las aplicaciones de lenguaje, predijo Stephen Hage, ingeniero de aprendizaje automático de Dialexa, en una entrevista por correo electrónico. Dijo que también habrá nuevos tipos de modelos creados para usos específicos, como compras en línea ordenadas por voz.
"Un ejemplo podría ser que un comprador diga 'Muéstrame esta sombra de ojos en azul medianoche con más halo' para mostrar ese tono en los ojos de la persona con cierto control sobre cómo se aplica", agregó Hage.