Cómo la IA podría hacer que el habla de la computadora sea más natural

Tabla de contenido:

Cómo la IA podría hacer que el habla de la computadora sea más natural
Cómo la IA podría hacer que el habla de la computadora sea más natural
Anonim

Conclusiones clave

  • Las empresas se apresuran a encontrar formas de hacer que el habla generada por computadora suene más realista.
  • NVIDIA presentó recientemente herramientas que pueden capturar el sonido del habla natural permitiéndole entrenar una IA con su propia voz.
  • La entonación, la emoción y la musicalidad son las características de las que aún carecen las voces de computadora, dice un experto.
Image
Image

El habla generada por computadora pronto podría sonar mucho más humana.

NVIDIA, fabricante de piezas de computadoras, presentó recientemente herramientas que pueden capturar el sonido del habla natural permitiéndole entrenar una IA con su voz. El software también puede transmitir las palabras de un hablante usando la voz de otra persona. Es parte de un impulso creciente para hacer que el lenguaje informático sea más realista.

"La avanzada tecnología de IA de voz permite a los usuarios hablar con naturalidad, combinando muchas consultas en una sola oración y eliminando la necesidad de repetir constantemente los detalles de la consulta original", Michael Zagorsek, director de operaciones de la empresa de reconocimiento de voz SoundHound, le dijo a Lifewire en una entrevista por correo electrónico.

"La adición de varios idiomas, ahora disponible en la mayoría de las plataformas de IA de voz, hace que los asistentes de voz digitales sean accesibles en más geografías y para más poblaciones", añadió.

Robospeech Rising

Alexa de Amazon y Siri de Apple suenan mucho mejor que el habla de una computadora de hace incluso una década, pero no se confundirán con voces humanas auténticas en el corto plazo.

Para hacer que el habla artificial suene más natural, el equipo de investigación de texto a voz de NVIDIA desarrolló un modelo RAD-TTS. El sistema permite a las personas enseñar un modelo de texto a voz (TTS) con su voz, incluido el ritmo, la tonalidad, el timbre y otros factores.

La empresa usó su nuevo modelo para crear una narración de voz con un sonido más conversacional para su serie de videos I Am AI.

Con esta interfaz, nuestro productor de video podría grabarse a sí mismo leyendo el guión del video y luego usar el modelo de IA para convertir su discurso en la voz de la narradora. Usando esta narración de referencia, el productor podría dirigir la IA como un actor de voz: ajustando el discurso sintetizado para enfatizar palabras específicas y modificando el ritmo de la narración para expresar mejor el tono del video”, escribió NVIDIA en su sitio web.

Más difícil de lo que parece

Hacer que el habla generada por computadora suene natural es un problema complicado, dicen los expertos.

"Necesitas grabar cientos de horas de la voz de alguien para crear una versión de computadora", dijo Nazim Ragimov, director ejecutivo de la empresa de software de texto a voz Kukarella, a Lifewire en una entrevista por correo electrónico. “Y la grabación debe ser de alta calidad, grabada en un estudio profesional. Cuantas más horas de voz de calidad se carguen y procesen, mejor será el resultado."

La conversión de texto a voz se puede usar en juegos, para ayudar a las personas con discapacidades vocales o para ayudar a los usuarios a traducir entre idiomas con su propia voz.

La entonación, la emoción y la musicalidad son las características de las que aún carecen las voces de computadora, dijo Ragimov.

Si la IA puede agregar estos eslabones perdidos, el habla generada por computadora será "indistinguible de las voces de los actores reales", agregó. "Ese es un trabajo en progreso. Otras voces podrán competir con los locutores de radio. Pronto verás voces que pueden cantar y leer audiolibros".

La tecnología del habla es cada vez más popular en una amplia gama de empresas.

"La industria automotriz ha adoptado recientemente la IA de voz como una forma de crear experiencias de conducción más seguras y conectadas", dijo Zagorsek.

"Desde entonces, los asistentes de voz se han vuelto cada vez más omnipresentes a medida que las marcas buscan formas de mejorar las experiencias de los clientes y satisfacer la demanda de métodos más fáciles, seguros, convenientes, eficientes e higiénicos para interactuar con sus productos y servicios".

Por lo general, Voice AI convierte las consultas en respuestas en un proceso de dos pasos que comienza con la transcripción del habla en texto mediante el reconocimiento automático de voz (ASR) y luego introduce ese texto en un modelo de comprensión del lenguaje natural (NLU).

Image
Image

El enfoque de SoundHound combina estos dos pasos en un solo proceso para rastrear el habla en tiempo real. La empresa afirma que esta técnica permite a los asistentes de voz comprender el significado de las consultas de los usuarios, incluso antes de que la persona termine de hablar.

Los avances futuros en el habla informática, incluida la disponibilidad de una variedad de opciones de conectividad, desde solo integrado (no se requiere conexión a la nube) hasta híbrido (integrado más nube) y solo en la nube, "brindarán más opciones a las empresas de todas las industrias". en términos de costo, privacidad y disponibilidad de poder de procesamiento", dijo Zagoresk.

NVIDIA dijo que sus nuevos modelos de inteligencia artificial van más allá del trabajo de voz en off.

"La conversión de texto a voz se puede usar en juegos, para ayudar a las personas con discapacidades vocales o para ayudar a los usuarios a traducir entre idiomas con su propia voz", escribió la compañía. "Incluso puede recrear las actuaciones de cantantes icónicos, haciendo coincidir no solo la melodía de una canción, sino también la expresión emocional detrás de las voces".

Recomendado: