Las conversaciones con su computadora pueden volverse más realistas

👤 Autor Abigail Brown 📧 brown@technologyhumans.com.
⏱ Public 2023-12-17 06:45.
🖍 Última modificación 2025-01-24 12:07.

Conclusiones clave

Meta está usando IA para hacer programas que pueden expresar emociones en el habla.
El equipo de inteligencia artificial de la compañía dijo que ha logrado avances en el modelado de vocalizaciones expresivas, como risas, bostezos, llantos y "charlas espontáneas" en tiempo real.
La IA también se está utilizando para potenciar las mejoras en el reconocimiento de voz.

Pronto podrás tener una conversación más natural con tu computadora, gracias al poder de la inteligencia artificial (IA).

Meta dijo que ha logrado un progreso significativo en su esfuerzo por crear sistemas de voz generados por IA más realistas. El equipo de IA de la compañía dijo que ha logrado avances en la capacidad de modelar vocalizaciones expresivas, como risas, bostezos y llantos, además de "charlas espontáneas" en tiempo real.

"En cualquier conversación dada, las personas intercambian una gran cantidad de señales no verbales, como entonaciones, expresiones emocionales, pausas, acentos, ritmos, todos los cuales son importantes para las interacciones humanas", escribió el equipo en una publicación de blog reciente.. "Pero los sistemas de inteligencia artificial actuales no logran capturar estas señales ricas y expresivas porque solo aprenden del texto escrito, que captura lo que decimos pero no cómo lo decimos".

Discurso más inteligente

En la publicación del blog, el equipo de Meta AI dijo que están trabajando para superar las limitaciones de los sistemas de IA tradicionales que no pueden comprender las señales no verbales en el habla, como entonaciones, expresiones emocionales, pausas, acentos y ritmos.. Los sistemas se frenan porque solo pueden aprender del texto escrito.

Pero el trabajo de Meta difiere de los esfuerzos anteriores porque sus modelos de IA pueden usar modelos de procesamiento de lenguaje natural para capturar la naturaleza completa del lenguaje hablado. Los investigadores de Meta dicen que los nuevos modelos pueden permitir que los sistemas de IA transmitan el sentimiento que quieren transmitir, como el aburrimiento o la ironía.

"En un futuro próximo, nos centraremos en la aplicación de técnicas sin texto para crear aplicaciones posteriores útiles sin necesidad de etiquetas de texto que consumen muchos recursos ni sistemas automáticos de reconocimiento de voz (ASR), como la respuesta a preguntas (p. ej., "¿Cómo está el ¿El tiempo?"), "escribió el equipo en la publicación del blog. "Creemos que la prosodia en el habla puede ayudar a analizar mejor una oración, lo que a su vez facilita la comprensión de la intención y mejora el rendimiento de la respuesta a las preguntas".

La IA potencia la comprensión

No solo las computadoras están mejorando en la comunicación de significado, sino que la IA también se está utilizando para potenciar las mejoras en el reconocimiento de voz.

Los científicos informáticos han estado trabajando en el reconocimiento de voz por computadora desde al menos 1952, cuando tres investigadores de Bell Labs crearon un sistema que podía reconocer dígitos numéricos únicos, dijo el director de tecnología de AI Dynamics, Ryan Monsurate, en un correo electrónico a Alambre de vida. En la década de 1990, los sistemas de reconocimiento de voz estaban disponibles comercialmente, pero aún tenían una tasa de error lo suficientemente alta como para desalentar el uso fuera de dominios de aplicaciones muy específicos, como la atención médica.

"Ahora que los modelos de aprendizaje profundo han permitido que los modelos de conjunto (como los de Microsoft) alcancen un rendimiento sobrehumano en el reconocimiento de voz, tenemos la tecnología para permitir la comunicación verbal independiente del hablante con las computadoras a escala", dijo Monsurate. "La próxima etapa incluirá reducir el costo para que todos los que usen Siri o los asistentes de IA de Google tengan acceso a este nivel de reconocimiento de voz".

AI es útil para el reconocimiento de voz porque puede mejorar con el tiempo a través del aprendizaje, dijo a Lifewire Ariel Utnik, director de ingresos y gerente general de la compañía de voz AI Verbit.ai, en una entrevista por correo electrónico. Por ejemplo, Verbit afirma que su tecnología de IA interna detecta y filtra el ruido de fondo y los ecos, y transcribe a los hablantes independientemente del acento para generar transcripciones y subtítulos detallados y profesionales de videos y audios en vivo y grabados.

Pero Utnik dijo que la mayoría de las plataformas de reconocimiento de voz actuales tienen solo un 75-80 % de precisión.

"La inteligencia artificial nunca reemplazará por completo a los humanos, ya que la revisión personal de los transcriptores, correctores y editores es necesaria para garantizar una transcripción final de alta calidad y máxima precisión", añadió.

También se podría usar un mejor reconocimiento de voz para prevenir piratas informáticos, dijo en un correo electrónico Sanjay Gupta, vicepresidente global de productos y desarrollo corporativo de la empresa de reconocimiento de voz Mitek Systems. La investigación indica que dentro de dos años, el 20 por ciento de todos los ataques exitosos de apropiación de cuentas usarán aumento de voz sintético, agregó.

"Esto significa que a medida que la tecnología de falsificación profunda se vuelve más sofisticada, necesitamos crear simultáneamente seguridad avanzada que pueda combatir estas tácticas junto con las falsificaciones profundas de imágenes y videos", dijo Gupta. "Combatir la suplantación de voz requiere una tecnología de detección de vida, capaz de distinguir entre una voz en vivo y una versión grabada, sintética o generada por computadora de una voz".

Corrección 2022-05-04: Se corrigió la ortografía del nombre de Ryan Monsurate en el párrafo 9.

Recomendado:

Las conversaciones con su computadora pueden volverse más realistas

Tabla de contenido:

Conclusiones clave

Discurso más inteligente

La IA potencia la comprensión

Recomendado:

Tu robot aspirador está a punto de volverse más inteligente

Tu cámara web puede volverse mucho más inteligente

Cómo Zoom podría volverse más accesible

Tus dispositivos inteligentes podrían volverse más inteligentes

La computadora portátil Go de Microsoft es más liviana, más barata, más pequeña y más nueva

Cómo encontrar el cordón cautivo en los campos de batalla lunares de Destiny 2

Cómo usar tu iPhone como podómetro

¿En qué se equivocó Quibi?

Cómo usar el guardado cruzado de Destiny 2 en PS4, Xbox One y Windows

VGA frente a HDMI: ¿cuál es la diferencia?

Cómo solucionarlo cuando f altan los contactos de tu iPhone

¿Qué es Xbox Adaptive Controller y cómo funciona?

MacOS Catalina: lo que necesita saber

Cómo compartir una carpeta en Outlook

Call of Duty: Ghosts - Mapa multijugador de Chasm

Cómo restablecer un iPad sin contraseña

Cómo solucionar el error "iPhone está desactivado"

Cómo aumentar el límite de tamaño de los archivos adjuntos de Outlook

Cómo desbloquear iPhones bloqueados con iCloud

Cómo crear una imagen ISO a partir de un disco DVD, CD o BD