Conclusiones clave
- Los investigadores dicen que pueden enseñar a la IA a etiquetar videos al verlos y escucharlos.
- El sistema de IA aprende a representar datos para capturar conceptos compartidos entre datos visuales y de audio.
-
Es parte de un esfuerzo para enseñar a la IA a comprender conceptos que los humanos no tienen problemas para aprender pero que las computadoras encuentran difíciles de entender.
Un nuevo sistema de inteligencia artificial (IA) podría ver y escuchar sus videos y etiquetar las cosas que están sucediendo.
Los investigadores del MIT han desarrollado una técnica que enseña a la IA a capturar acciones compartidas entre video y audio. Por ejemplo, su método puede entender que el acto de un bebé llorando en un video está relacionado con la palabra hablada "llorando" en un clip de sonido. Es parte de un esfuerzo por enseñar a la IA cómo comprender conceptos que los humanos no tienen problemas para aprender, pero que las computadoras encuentran difíciles de entender.
"El paradigma de aprendizaje predominante, el aprendizaje supervisado, funciona bien cuando se tienen conjuntos de datos que están bien descritos y completos", dijo Phil Winder, experto en inteligencia artificial, a Lifewire en una entrevista por correo electrónico. "Desafortunadamente, los conjuntos de datos rara vez están completos porque el mundo real tiene la mala costumbre de presentar situaciones nuevas".
IA más inteligente
Las computadoras tienen dificultades para descifrar escenarios cotidianos porque necesitan procesar datos en lugar de sonido e imágenes como los humanos. Cuando una máquina "ve" una foto, debe codificar esa foto en datos que pueda usar para realizar una tarea como una clasificación de imágenes. La IA puede atascarse cuando las entradas vienen en múltiples formatos, como videos, clips de audio e imágenes.
"El principal desafío aquí es, ¿cómo puede una máquina alinear esas diferentes modalidades? Como humanos, esto es fácil para nosotros ", dijo Alexander Liu, investigador del MIT y primer autor de un artículo sobre el tema, en un comunicado de prensa. "Vemos un automóvil y luego escuchamos el sonido de un automóvil que pasa, y sabemos que son lo mismo. Pero para el aprendizaje automático, no es tan sencillo".
El equipo de Liu desarrolló una técnica de inteligencia artificial que, según dicen, aprende a representar datos para capturar conceptos compartidos entre datos visuales y de audio. Usando este conocimiento, su modelo de aprendizaje automático puede identificar dónde se lleva a cabo una acción específica en un video y etiquetarla.
El nuevo modelo toma datos sin procesar, como videos y sus subtítulos de texto correspondientes, y los codifica extrayendo características u observaciones sobre objetos y acciones en el video. Luego mapea esos puntos de datos en una cuadrícula, conocida como espacio de incrustación. El modelo agrupa datos similares como puntos únicos en la cuadrícula; cada uno de estos puntos de datos, o vectores, está representado por una palabra individual.
Por ejemplo, un videoclip de una persona haciendo malabares podría asignarse a un vector etiquetado como "malabares".
Los investigadores diseñaron el modelo para que solo pueda usar 1000 palabras para etiquetar vectores. El modelo puede decidir qué acciones o conceptos quiere codificar en un solo vector, pero solo puede usar 1000 vectores. El modelo elige las palabras que cree que representan mejor los datos.
"Si hay un video sobre cerdos, el modelo podría asignar la palabra 'cerdo' a uno de los 1000 vectores. Luego, si el modelo escucha a alguien decir la palabra 'cerdo' en un clip de audio, aún debería usar el mismo vector para codificar eso", explicó Liu.
Tus videos, decodificados
Mejores sistemas de etiquetado como el desarrollado por el MIT podrían ayudar a reducir el sesgo en la IA, dijo Marian Beszedes, jefa de investigación y desarrollo de la firma de biometría Innovatrics, a Lifewire en una entrevista por correo electrónico. Beszedes sugirió que la industria de datos puede ver los sistemas de IA desde la perspectiva del proceso de fabricación.
"Los sistemas aceptan datos sin procesar como entrada (materias primas), los preprocesan, los ingieren, toman decisiones o predicciones y generan análisis (productos terminados)", dijo Beszedes. "Llamamos a este flujo de proceso la 'fábrica de datos' y, al igual que otros procesos de fabricación, debe estar sujeto a controles de calidad. La industria de datos debe tratar el sesgo de la IA como un problema de calidad.
"Desde la perspectiva del consumidor, los datos mal etiquetados dificultan, por ejemplo, la búsqueda en línea de imágenes/videos específicos", agregó Beszedes. "Con una IA desarrollada correctamente, puede etiquetar automáticamente, mucho más rápido y de forma más neutral que con el etiquetado manual".
Pero el modelo MIT todavía tiene algunas limitaciones. Por un lado, su investigación se centró en datos de dos fuentes a la vez, pero en el mundo real, los humanos encuentran muchos tipos de información simultáneamente, dijo Liu
"Y sabemos que 1000 palabras funcionan en este tipo de conjunto de datos, pero no sabemos si se puede generalizar a un problema del mundo real", agregó Liu.
Los investigadores del MIT dicen que su nueva técnica supera a muchos modelos similares. Si se puede entrenar a la IA para que comprenda los videos, es posible que con el tiempo puedas dejar de ver los videos de vacaciones de tus amigos y obtener un informe generado por computadora.