Cómo el reconocimiento de voz fluido se mantiene rápido, preciso y privado

Tabla de contenido:

Cómo el reconocimiento de voz fluido se mantiene rápido, preciso y privado
Cómo el reconocimiento de voz fluido se mantiene rápido, preciso y privado
Anonim

Conclusiones clave

  • Fluent es un motor de reconocimiento de voz súper rápido que respeta la privacidad y no necesita conexión a Internet.
  • Se puede incrustar en casi cualquier dispositivo.
  • Funciona en cualquier idioma.
Image
Image

Fluent.ai es un motor de reconocimiento de voz virtual que no envía sus comandos a Internet, actúa casi instantáneamente, puede funcionar en cualquier idioma y es tan pequeño que puede integrarse incluso en dispositivos económicos y de bajo costo. -dispositivos de alimentación como un reloj deportivo, por ejemplo.

A diferencia de Siri y Alexa, Fluent es un asistente autónomo que lo comprende al instante y aprende de usted, por lo que mejora cuanto más lo usa. No tiene la profundidad de los asistentes virtuales regulares, pero no está destinado a hacerlo. En cambio, es más rápido, más preciso y más privado que los esfuerzos de Apple, Amazon y Google.

"La voz a texto utiliza el procesamiento del lenguaje natural y luego deriva la intención", dijo el CEO de Fluent, Probal Lala, a Lifewire durante una entrevista de Zoom. "Requiere una gran cantidad de datos y mucha potencia de procesamiento. Fluent pasa directamente del discurso a la intención, toma su voz y la convierte directamente en una acción".

Conclusión

Fluent es un software de control por voz. Funciona escuchando su comando y eliminando todas las palabras que no necesita, dejando solo sustantivos y verbos esenciales. "Apaga las luces", se convierte en simplemente apagar y encender. Los elementos esenciales se despojan de una oración humana desordenada y se convierten en pasos. Es casi como programar una computadora, convertir una idea compleja en el conjunto de instrucciones más simple.

¿Para qué se puede utilizar?

Fluent se puede usar para cualquier cosa. La clave es que esté entrenado para una situación específica. Con un reloj inteligente, por ejemplo, se le puede entrenar en comandos para estar en forma o para domótica, creación de calendarios y temporizadores, etc. Limitar la base de datos hace que todo esté más enfocado y lo mantiene rápido.

"La verdad del asunto es que con los wearables, no buscas tener una conversación", dijo Lala, "tal vez quiero que comience mi rutina de ejercicios favorita, y la quiero muy rápido".

La velocidad y la precisión son el punto central. Encender y apagar las luces lleva milisegundos, en lugar de tener que esperar a que Siri envíe su voz a la nube, esperar a que se procese y luego, segundos después, hacer que las luces se apaguen.

Este entrenamiento limitado también reduce el tamaño de la aplicación. El año pasado, Google proporcionó una versión descargable sin conexión de su asistente. Era, dice Lala, 85 Megas, solo funcionaba en inglés, y tomó seis meses entrenarlo.

"Tenemos un modelo que funciona con 13 000 comandos y funciona en 500 kilobytes", dijo.

Conclusión

La otra ventaja de un motor de reconocimiento de voz fuera de línea es la privacidad. En el reloj inteligente de un niño, por ejemplo, "no quieres que la voz de un niño vaya a la nube", dice Lala. De hecho, Fluent puede funcionar dentro de dispositivos que nunca se conectan a Internet. Esto no solo es bueno para la privacidad, sino también para la seguridad. Podría usar un motor de reconocimiento de voz fuera de línea dentro de laboratorios de investigación, instalaciones militares y otros lugares que prohíben los teléfonos celulares y las cámaras.

Límites

Por supuesto, este modelo tiene algunas desventajas. Una es que los comandos no se pueden agregar más tarde. Una vez que se completa el entrenamiento inicial, eso es todo. Su asistente basado en Fluent tampoco puede buscar cosas en Internet para usted: puntajes deportivos, el actor que reconoce en esa película, pero que simplemente no puede ubicar, y así sucesivamente.

Image
Image

En cambio, el sistema es lo suficientemente inteligente como para reconocer cuándo no puede ayudar y transferirá la solicitud a alguien que pueda. Si le pides a tu reloj el pronóstico del tiempo, Fluent se dará cuenta de que no lo entiende. "Luego llamará a un servicio que está preprogramado en el reloj, ya sea Alexa de Amazon o Google, y luego hará una llamada a la nube", pasando su comando de voz sin formato para obtener la respuesta.

Este enfoque híbrido mantiene la velocidad de un asistente local fuera de línea, con el poder de Alexa o Google Assistant como respaldo.

¿Puedes comprar cualquier dispositivo Fluent?

Todavía no. La compañía está otorgando licencias para su tecnología y está capacitando a otras compañías. Gracias a COVID, dos lanzamientos importantes se han retrasado para el próximo año. Pero puede esperar verlo aparecer en relojes y otros dispositivos de fitness, altavoces, centros de automatización del hogar, etc.

Sería genial que esto también se incorporara directamente a los teléfonos inteligentes como iPhone, agilizando las tareas del día a día y recurriendo a Siri solo cuando sea necesario. Esa sería la verdadera aplicación asesina.

Actualización: 22 de octubre, 10:12 a. m. Se realizaron cambios para referirse a Fluent como un motor de reconocimiento de voz en lugar de un asistente de voz.

Recomendado: