Conclusiones clave
- Navi utiliza SharePlay y la conversión de voz a texto integrada de Apple para ofrecer subtítulos y traducciones en FaceTime.
- Está lejos de ser perfecto, pero ya es lo suficientemente bueno.
- Los subtítulos son excelentes para la accesibilidad.
Navi es una aplicación que agrega subtítulos en vivo y traducciones en tiempo real a sus llamadas de FaceTime.
La aplicación usa SharePlay y el reconocimiento de voz incorporado para agregar subtítulos y traducciones en 20 idiomas a sus llamadas de FaceTime. Es un uso increíble de SharePlay, que la mayoría de nosotros consideramos una forma ingeniosa de ver películas sincronizadas con personas en otros lugares. Es posible que aún no necesite despedir a su traductor, pero una aplicación que lo haga bien podría ser increíblemente útil.
"No obtengo el audio de la llamada de FaceTime", escribe Jordi Bruin, desarrollador de Navi, en Twitter, "pero uso SharePlay para compartirlo entre los participantes de la llamada".
Compartir
SharePlay es una nueva función en iOS 15 y macOS 12.1 que te permite compartir y sincronizar cosas en llamadas FaceTime. Con el ejemplo anterior de visualización de películas, cualquier participante puede pausar o reproducir la película, por ejemplo, mientras todos conversan en la llamada de FaceTime. El video de FaceTime permanece abierto en un pequeño panel flotante de imagen en imagen, y cada participante ejecuta la aplicación localmente en su dispositivo. El truco de SharePlay es sincronizar todo lo que sucede en estas aplicaciones locales, para que todos compartan la experiencia, ya sea una película, un entrenamiento de Fitness+ o una hoja de cálculo.
Navi usa la misma tecnología, solo que la aplicación de llamada no es una película, es un motor de traducción en tiempo real. Para usarlo, inicia la aplicación durante una llamada de FaceTime y toca el botón "Activar subtítulos". Luego, otros participantes también pueden unirse a la acción y ver subtítulos en vivo para el orador actual. Si alguien está monólogo, su globo de diálogo crece y se queda un poco más.
Para los sordos, esto podría significar la diferencia entre llamar a la gente o no. Y para cualquiera, significa que puede tener conversaciones útiles entre personas que no comparten un idioma.
Texto universal
Internet se basa en texto, y eso es genial. Es pequeño y fácil de crear, leer y traducir. También es fácil de convertir en voz sintetizada. El resultado es que cualquier persona desde cualquier lugar puede participar en cualquier conversación. El idioma no es una barrera, como tampoco lo es la sordera ni ningún tipo de ceguera, siempre y cuando utilice un dispositivo con buenas herramientas de accesibilidad para personas con discapacidad visual o auditiva.
Pero la palabra hablada es mucho más difícil de procesar. El dictado de voz a texto es impresionante, pero es relativamente reciente que el reconocimiento de voz general se ha vuelto lo suficientemente bueno para el uso general: la aplicación Traducir de Apple es un buen ejemplo. Introducido en iOS 15, ofrece traducciones de audio en tiempo real. Si aún fuéramos de vacaciones al extranjero, sería perfecto.
Ahora usamos el video cada vez más para el trabajo y para mantenernos en contacto con amigos y familiares. No importa cómo trabajemos en el futuro, la barrera de las videollamadas se ha derrumbado por completo. Ahora es una herramienta común, pero le f alta mucho de la delicadeza de las herramientas de comunicación escrita.
Algo como Navi, que ofrece subtítulos y traducción en tiempo real, podría ser significativo. La accesibilidad es un aspecto, pero la capacidad de conversar con personas cuyo idioma no habla abre los negocios internacionales en un grado sorprendente.
En acción
Probé Navi con el desarrollador de aplicaciones, autor y usuario de audífonos Graham Bower. Es bastante bueno, pero aún no está listo para tareas críticas. Algunas de las transcripciones eran cómicamente malas y demasiado vulgares para relacionarlas. Sin embargo, a medida que avanzaba nuestra conversación, mejoró mucho en el reconocimiento preciso de su discurso. Eso tiene sentido porque el motor de dictado de iOS se adapta a su voz con el tiempo.
La traducción también funcionó, aunque la calidad de sus traducciones depende de la precisión de la entrada.
Es fácil proyectar este tipo de tecnología en las futuras gafas Apple o en cualquier producto AR/VR que se rumoree que esté funcionando esta semana.
"Puedo ver esto funcionando en gafas AR", dijo Bower durante nuestra conversación. "Algunas personas, incluso con audición normal, prefieren los subtítulos en las películas. Serían como los subtítulos en la vida real".
Si bien es una demostración técnica impresionante, Navi aún no está allí. Para un uso comercial confiable, el reconocimiento de voz inicial de Apple tendrá que ser mucho más preciso. Pero en cuanto a la velocidad, está bien, y las traducciones son tan buenas como cualquier otra.
Pero estamos en el camino ahora, y este tipo de cosas solo mejorarán.