Conclusiones clave
- Un número cada vez mayor de programas puede entender su discurso.
- La nueva tecnología genera ruido de audio personalizado de fondo mientras hablas para confundir al software que podría estar escuchando.
-
La nueva técnica logra un rendimiento en tiempo real pronosticando un ataque en el futuro de la señal o palabra.
Muchos programas pueden entender su discurso durante llamadas telefónicas o videollamadas, y los expertos dicen que pueden representar una amenaza para la privacidad.
Una nueva tecnología desarrollada por investigadores de la Universidad de Columbia, llamada Neural Voice Camouflage, puede ofrecer una defensa. Genera ruido de audio personalizado de fondo mientras hablas, lo que confunde a la inteligencia artificial (IA) que escucha y transcribe las voces.
"La presencia de la transcripción de IA plantea problemas de confianza", Michael Huth, cofundador de Xayn, un motor de búsqueda que protege la privacidad, y director del Departamento de Informática del Imperial College London, que no participó en la investigación, le dijo a Lifewire en una entrevista por correo electrónico. "Los participantes de la reunión pueden tener más cuidado con los puntos que plantean y cómo se transcribe su discurso. Esto puede ser bueno, ya que puede mejorar el comportamiento respetuoso, pero también puede ser malo, ya que la conversación puede ser menos abierta debido a reservas sobre la tecnología utilizada."
Escuchar y aprender
Los investigadores de Columbia trabajaron para diseñar un algoritmo que pudiera romper las redes neuronales en tiempo real. El nuevo enfoque utiliza "ataques predictivos", una señal que puede interrumpir cualquier palabra que los modelos automáticos de reconocimiento de voz estén entrenados para transcribir. Además, cuando los sonidos de ataque se reproducen en el aire, deben ser lo suficientemente fuertes como para interrumpir cualquier micrófono de "escucha" no autorizado que podría estar muy lejos.
"Un desafío técnico clave para lograr esto fue hacer que todo funcionara lo suficientemente rápido", dijo en una noticia Carl Vondrick, profesor de informática en Columbia y uno de los autores de un estudio que describe el nuevo enfoque. liberar. "Nuestro algoritmo, que logra bloquear un micrófono falso para que no escuche correctamente sus palabras el 80 % de las veces, es el más rápido y preciso de nuestro banco de pruebas".
La nueva técnica logra un rendimiento en tiempo real pronosticando un ataque en el futuro de la señal o palabra. El equipo optimizó el ataque, por lo que tiene un volumen similar al ruido de fondo normal, lo que permite que las personas en una habitación conversen de forma natural y sin que un sistema automático de reconocimiento de voz las controle con éxito.
Los participantes de la reunión pueden tener más cuidado con los puntos que plantean y cómo se transcribe su discurso.
Los científicos dijeron que su técnica funciona incluso cuando no se sabe nada sobre el micrófono falso, como su ubicación o incluso el software de computadora que se ejecuta en él. Camufla la voz de una persona por aire, ocultándola de estos sistemas de escucha y sin molestar la conversación entre las personas en la habitación.
"Hasta ahora, nuestro método funciona para la mayoría del vocabulario del idioma inglés, y planeamos aplicar el algoritmo en más idiomas, así como eventualmente hacer que el susurro suene completamente imperceptible", Mia Chiquier, autora principal del estudio y estudiante de doctorado en el laboratorio de Vondrick, dijo en el comunicado de prensa.
Mantener tus conversaciones en privado
Como si todo eso no fuera suficiente, los anuncios también podrían estar dirigidos a usted en función del audio recopilado desde su teléfono inteligente o dispositivos domésticos inteligentes.
"Con dispositivos como [el Amazon Echo] y sus contrapartes, estos dispositivos no solo están siempre en su hogar, escuchando constantemente todo lo que dice o hace, sino que, a través de años de recopilación de datos de sus usuarios, tienen procesamiento de lenguaje natural perfeccionado (convirtiendo la palabra hablada en texto/datos utilizables para dispositivos a través de una combinación de micrófonos, software e inteligencia artificial), " Erik Haig, asociado de Harbor Research, una firma de consultoría estratégica y desarrollo de empresas, dijo en un correo electrónico.
Las transcripciones de IA del habla conversacional ahora son una parte estándar del software comercial estándar, dijo Huth. Por ejemplo, Microsoft Teams tiene una opción de grabación de reunión con transcripciones de IA integradas que todos los participantes pueden ver en tiempo real. La transcripción completa puede servir como registro de la reunión. Por lo general, dichas transcripciones permiten la toma de actas (también conocida como toma de notas), donde las actas se aprobarían en la próxima reunión.
"Las personas pueden estar preocupadas por ser espiadas cuando la transcripción de IA está activada", agregó Huth."Esto parece muy similar a la preocupación de tener una conversación grabada sin consentimiento o clandestinamente".
Pero no todos están de acuerdo en que los dispositivos inteligentes son una amenaza. La mayoría de las personas no necesitan preocuparse por los programas que escuchan sus conversaciones, Brad Hong, un líder de éxito del cliente en la firma de seguridad cibernética Horizon3, le dijo a Lifewire por correo electrónico. Dijo que la preocupación más importante ahora no es quién te está grabando, sino cómo almacenan los datos.
"Todas las historias que uno escucha sobre la activación de un micrófono en su computadora o dispositivos móviles, la escucha de Alexa o Google Home, o incluso la vigilancia del gobierno, es cierto que todo esto hace que el estómago del profano se revuelva", agregó Hong.. "Pero en general, las personas rara vez se encuentran en una situación que realmente requiera camuflar sus voces".