Conclusiones clave
- DeepZen utiliza IA (inteligencia artificial) para crear audiolibros asombrosamente realistas a partir de texto.
- La tecnología utiliza actores de voz humanos reales para proporcionar los componentes básicos.
- Amazon y Audible actualmente no aceptan audiolibros generados por computadora.
DeepZen es una empresa que crea voces de computadora utilizadas en audiolibros, basadas en las voces reales de actores humanos. La calidad es aterradora, lo suficientemente buena como para escucharla durante horas seguidas. El truco aquí es el componente de IA (inteligencia artificial), que puede leer el texto e inferir la respuesta emocional correcta según el contexto. Luego pone esa emoción en la voz.
Es impresionante y muy conveniente. Pero, ¿realmente queremos una experiencia de audiolibro homogeneizada? ¿Y qué hay de esos actores de doblaje?
"Desde la perspectiva del editor independiente, cualquier cosa que reduzca el costo de producción de un audiolibro es muy interesante", dijo Rick Carlile, propietario de la editorial independiente Carlile Media, a Lifewire por correo electrónico.
"Pero esa atracción supone que el producto sería de la misma calidad que la narración tradicional. No creo que estemos al cien por cien allí todavía. No me malinterpreten, DeepZen es asombrosamente bueno. Es un tremendo avance, y sus creadores merecen inmensos elogios y éxito. Pero aún no es perfecto".
Audio que es 'suficientemente bueno'
La mejor manera de comprender la calidad de DeepZen es escuchar las muestras. Si no sabía que fueron generados por computadora, es posible que ni siquiera se dé cuenta. No por un tiempo de todos modos. Supongamos que la IA de DeepZen es perfecta y que nunca malinterpreta las notas emocionales que se supone que debe tocar.
Incluso entonces, un ser humano puede ofrecer interpretaciones más matizadas y, a menudo, más sorprendentes. Un actor podría darle un giro inesperado a las palabras que una computadora ni siquiera consideraría. Y, en realidad, la interpretación de la IA seguramente no es tan buena como la de un actor de doblaje profesional.
"Como alguien que trabaja en películas y, más recientemente, en el mundo de la narración de audio, aunque estoy impresionado con la IA, sé con certeza que hay significados muy profundos que una máquina no puede interpretar", voz profesional el actor Paul Cram le dijo a Lifewire por correo electrónico.
"¿Habrá una oleada de autores desconocidos que lo usen? Te garantizo que lo habrá porque es 'suficientemente bueno'".
Ser lo suficientemente bueno, combinado con la conveniencia y el ahorro de costos, podría ser suficiente para llevar a los editores independientes al servicio.
"Los audiolibros pueden costar hasta $500 por hora terminada de audio (mucho más para la voz de una celebridad), y eso no incluye el costo del tiempo de gestión y administración", dice Carlile. "Poder reducir ese costo a la mitad simplemente cargando un manuscrito a un proveedor como DeepZen es extremadamente atractivo".
Problemas para hablar
Todavía no es tan fácil como despedir a los actores de doblaje y cargar los manuscritos en DeepZen. Actualmente hay una barrera para la fácil lectura de audiolibros con IA, y es de Amazon.
"Actualmente, ACX, la ruta del autoeditor para la distribución de audiolibros de Audible y Amazon, no aceptará audiolibros que no haya grabado un ser humano", dice Carlile.
¿Por qué? Calidad. Aquí está la entrada de preguntas frecuentes del sitio web:
"La conversión de texto a voz u otras grabaciones automatizadas no están permitidas. Los oyentes de Audible eligen audiolibros por la interpretación del material, así como por la historia. Para cumplir con esa expectativa, su audiolibro debe ser grabado por una persona."
Esto significa que los audiolibros generados por DeepZen están disponibles, al menos por ahora. Esto es pura especulación, pero DeepZen parecería una muy buena adquisición para Amazon, permitiéndole vender el servicio y mantenerlo únicamente para los libros de Audible. E incluso si eso no sucede, si la calidad de los audiolibros generados por computadora es tan buena, entonces parece haber pocas razones para no hacer una excepción a esta regla.
¿Te gustaría escuchar audiolibros hechos de esta manera? Cuando sucede, la mayoría de la gente ni siquiera sospechará. Algunos pueden preferir la perfección de las voces generadas por computadora porque estarán libres de los tics y hábitos vocales que a veces pueden distraer. La tecnología también es adecuada para videojuegos, anuncios de radio y televisión y cualquier otro escenario en el que contrataría a un actor de doblaje.
La tecnología de DeepZen también sería una excelente manera de crear automáticamente podcasts de noticias a partir de artículos escritos, lo que podría ser útil para el viaje.
¿Y qué pasa con esos actores de doblaje? Bueno, habrá al menos una oportunidad: pueden ir y trabajar para DeepZen.