Cómo el reconocimiento de voz fluido se mantiene rápido, preciso y privado

👤 Autor Abigail Brown 📧 brown@technologyhumans.com.
⏱ Public 2023-12-17 06:45.
🖍 Última modificación 2025-01-24 12:07.

Conclusiones clave

Fluent es un motor de reconocimiento de voz súper rápido que respeta la privacidad y no necesita conexión a Internet.
Se puede incrustar en casi cualquier dispositivo.
Funciona en cualquier idioma.

Fluent.ai es un motor de reconocimiento de voz virtual que no envía sus comandos a Internet, actúa casi instantáneamente, puede funcionar en cualquier idioma y es tan pequeño que puede integrarse incluso en dispositivos económicos y de bajo costo. -dispositivos de alimentación como un reloj deportivo, por ejemplo.

A diferencia de Siri y Alexa, Fluent es un asistente autónomo que lo comprende al instante y aprende de usted, por lo que mejora cuanto más lo usa. No tiene la profundidad de los asistentes virtuales regulares, pero no está destinado a hacerlo. En cambio, es más rápido, más preciso y más privado que los esfuerzos de Apple, Amazon y Google.

"La voz a texto utiliza el procesamiento del lenguaje natural y luego deriva la intención", dijo el CEO de Fluent, Probal Lala, a Lifewire durante una entrevista de Zoom. "Requiere una gran cantidad de datos y mucha potencia de procesamiento. Fluent pasa directamente del discurso a la intención, toma su voz y la convierte directamente en una acción".

Conclusión

Fluent es un software de control por voz. Funciona escuchando su comando y eliminando todas las palabras que no necesita, dejando solo sustantivos y verbos esenciales. "Apaga las luces", se convierte en simplemente apagar y encender. Los elementos esenciales se despojan de una oración humana desordenada y se convierten en pasos. Es casi como programar una computadora, convertir una idea compleja en el conjunto de instrucciones más simple.

¿Para qué se puede utilizar?

Fluent se puede usar para cualquier cosa. La clave es que esté entrenado para una situación específica. Con un reloj inteligente, por ejemplo, se le puede entrenar en comandos para estar en forma o para domótica, creación de calendarios y temporizadores, etc. Limitar la base de datos hace que todo esté más enfocado y lo mantiene rápido.

"La verdad del asunto es que con los wearables, no buscas tener una conversación", dijo Lala, "tal vez quiero que comience mi rutina de ejercicios favorita, y la quiero muy rápido".

La velocidad y la precisión son el punto central. Encender y apagar las luces lleva milisegundos, en lugar de tener que esperar a que Siri envíe su voz a la nube, esperar a que se procese y luego, segundos después, hacer que las luces se apaguen.

Este entrenamiento limitado también reduce el tamaño de la aplicación. El año pasado, Google proporcionó una versión descargable sin conexión de su asistente. Era, dice Lala, 85 Megas, solo funcionaba en inglés, y tomó seis meses entrenarlo.

"Tenemos un modelo que funciona con 13 000 comandos y funciona en 500 kilobytes", dijo.

Conclusión

La otra ventaja de un motor de reconocimiento de voz fuera de línea es la privacidad. En el reloj inteligente de un niño, por ejemplo, "no quieres que la voz de un niño vaya a la nube", dice Lala. De hecho, Fluent puede funcionar dentro de dispositivos que nunca se conectan a Internet. Esto no solo es bueno para la privacidad, sino también para la seguridad. Podría usar un motor de reconocimiento de voz fuera de línea dentro de laboratorios de investigación, instalaciones militares y otros lugares que prohíben los teléfonos celulares y las cámaras.

Límites

Por supuesto, este modelo tiene algunas desventajas. Una es que los comandos no se pueden agregar más tarde. Una vez que se completa el entrenamiento inicial, eso es todo. Su asistente basado en Fluent tampoco puede buscar cosas en Internet para usted: puntajes deportivos, el actor que reconoce en esa película, pero que simplemente no puede ubicar, y así sucesivamente.

En cambio, el sistema es lo suficientemente inteligente como para reconocer cuándo no puede ayudar y transferirá la solicitud a alguien que pueda. Si le pides a tu reloj el pronóstico del tiempo, Fluent se dará cuenta de que no lo entiende. "Luego llamará a un servicio que está preprogramado en el reloj, ya sea Alexa de Amazon o Google, y luego hará una llamada a la nube", pasando su comando de voz sin formato para obtener la respuesta.

Este enfoque híbrido mantiene la velocidad de un asistente local fuera de línea, con el poder de Alexa o Google Assistant como respaldo.

¿Puedes comprar cualquier dispositivo Fluent?

Todavía no. La compañía está otorgando licencias para su tecnología y está capacitando a otras compañías. Gracias a COVID, dos lanzamientos importantes se han retrasado para el próximo año. Pero puede esperar verlo aparecer en relojes y otros dispositivos de fitness, altavoces, centros de automatización del hogar, etc.

Sería genial que esto también se incorporara directamente a los teléfonos inteligentes como iPhone, agilizando las tareas del día a día y recurriendo a Siri solo cuando sea necesario. Esa sería la verdadera aplicación asesina.

Actualización: 22 de octubre, 10:12 a. m. Se realizaron cambios para referirse a Fluent como un motor de reconocimiento de voz en lugar de un asistente de voz.

Recomendado:

Cómo el reconocimiento de voz fluido se mantiene rápido, preciso y privado

Tabla de contenido:

Conclusiones clave

Conclusión

¿Para qué se puede utilizar?

Conclusión

Límites

¿Puedes comprar cualquier dispositivo Fluent?

Recomendado:

Instagram agrega funciones de texto a voz y efectos de voz a los carretes

Cómo el protocolo Matter puede hacer que su hogar inteligente sea más fluido

Usar el reconocimiento de voz para controlar Windows

Cómo usar el reconocimiento de voz de Alexa

Revisión del soporte de carga inalámbrico rápido Anker PowerWave: Rápido

Habilitar o deshabilitar las descargas automáticas en su iPad

Cómo agregar Ring Doorbell a Google Home

Cómo configurar iMessage en el iPad

Cómo cambiar el fondo de tu Apple Watch

Cómo abandonar un grupo de Facebook

Las 5 mejores funciones de Galaxy Watch, incluidas llamadas telefónicas y mensajes de texto

Enrutar el correo de un remitente a una carpeta particular de Yahoo

Revocar acceso fácil a Outlook.com en dispositivos confiables

Cómo solucionar problemas de lectores de tarjetas de memoria

Revisión de ProtonMail: servicio de correo electrónico seguro y gratuito

¿Por qué no usamos bolígrafos para controlar todas nuestras computadoras?

Cómo cambiar la imagen de la lista de reproducción en Spotify en Android

Cómo Jay Veal quiere mejorar la tutoría en las comunidades BIPOC

Samsung anuncia el Galaxy Watch 4 Classic de edición limitada de Thom Browne

Por qué las historias se han apoderado de las redes sociales