Conclusiones clave
- Se acerca rápidamente el día en que no podrá distinguir el habla generada por computadora de la real.
- Google presentó recientemente LaMDA, un modelo que podría permitir conversaciones más naturales.
- Producir un habla similar a la humana también requiere una gran cantidad de poder de procesamiento.
En este momento, es fácil saber cuándo estás hablando con una computadora, pero eso puede cambiar pronto gracias a los avances recientes en IA.
Google presentó recientemente LaMDA, un modelo experimental que, según la empresa, podría aumentar la capacidad de sus asistentes conversacionales de IA y permitir conversaciones más naturales. LaMDA tiene como objetivo eventualmente conversar normalmente sobre casi cualquier cosa sin ningún tipo de capacitación previa.
Es uno de un número cada vez mayor de proyectos de IA que podrían hacer que te preguntes si estás hablando con un ser humano.
"Mi estimación es que dentro de los próximos 12 meses, los usuarios comenzarán a estar expuestos y a acostumbrarse a estas voces nuevas y más emocionales", James Kaplan, director ejecutivo de MeetKai, un asistente de búsqueda y asistente de voz virtual con IA conversacional. motor, dijo en una entrevista por correo electrónico.
"Una vez que esto suceda, el habla sintetizada de hoy sonará para los usuarios como el habla de principios de la década de 2000 nos suena hoy".
Asistentes de voz con personaje
LaMDA de Google se basa en Transformer, una arquitectura de red neuronal inventada por Google Research. A diferencia de otros modelos de lenguaje, LaMDA de Google fue entrenado en diálogo real.
Parte del desafío de hacer un discurso de IA que suene natural es la naturaleza abierta de las conversaciones, escribió Eli Collins de Google en una publicación de blog.
"Una conversación con un amigo sobre un programa de televisión podría convertirse en una discusión sobre el país donde se filmó el programa antes de decidirse por un debate sobre la mejor cocina regional de ese país", agregó.
Las cosas se mueven rápido con el habla robótica. Eric Rosenblum, socio gerente de Tsingyuan Ventures, que invierte en IA conversacional, dijo que algunos de los problemas más fundamentales del habla asistida por computadora están virtualmente resueltos.
Por ejemplo, la tasa de precisión en la comprensión del habla ya es extremadamente alta en servicios como las transcripciones realizadas por el software Otter.ai o las notas médicas tomadas por DeepScribe.
"Sin embargo, la próxima frontera es mucho más difícil", añadió.
"Retener la comprensión del contexto, que es un problema que va mucho más allá del procesamiento del lenguaje natural y la empatía, como que las computadoras que interactúan con los humanos necesitan comprender la frustración, la ira, la impaciencia, etc. Se está trabajando en ambos problemas, pero ambos están lejos de ser satisfactorios".
Las redes neuronales son la clave
Para generar voces realistas, las empresas están utilizando tecnología como redes neuronales profundas, una forma de aprendizaje automático que clasifica los datos a través de capas, Matt Muldoon, presidente norteamericano de ReadSpeaker, una empresa que desarrolla software de texto a voz, dijo en una entrevista por correo electrónico.
"Estas capas refinan la señal, clasificándola en clasificaciones más complejas", agregó. "El resultado es un habla sintética que suena asombrosamente como un ser humano".
Otra tecnología en desarrollo es Prosody Transfer, que consiste en combinar el sonido de una voz de texto a voz con el estilo de habla de otra, dijo Muldoon. También hay transferencia de aprendizaje, que reduce la cantidad de datos de entrenamiento necesarios para producir una nueva voz neuronal de texto a voz.
Kaplan dijo que producir un habla similar a la humana también requiere una enorme cantidad de poder de procesamiento. Las empresas están desarrollando chips aceleradores neuronales, que son módulos personalizados que funcionan junto con procesadores normales.
"La siguiente etapa en esto será colocar estos chips en un hardware más pequeño, como ya se hace actualmente para las cámaras cuando se requiere IA para la visión", agregó. "No pasará mucho tiempo antes de que este tipo de capacidad informática esté disponible en los propios auriculares".
Un desafío para desarrollar el habla impulsada por IA es que todos hablan de manera diferente, por lo que las computadoras tienden a tener dificultades para entendernos.
"Piense en los acentos de Georgia vs. Boston vs. Dakota del Norte, y si el inglés es o no su idioma principal", dijo en un correo electrónico Monica Dema, que trabaja en análisis de búsqueda por voz en MDinc. "Pensando globalmente, es costoso hacer esto para todas las regiones de Alemania, China e India, pero eso no significa que no se haga o que no se pueda hacer".