La inteligencia artificial (IA) es la tecnología más poderosa de la actualidad, y con la llegada de ChatGPT, las Big Tech están cambiando los servicios que ofrecen a los usuarios en sus motores de búsqueda. Google, Safari o Edge no son los únicos afectados, debido a que los actores de doblaje son los próximos sujetos que se verán perjudicados por los avances de la IA respecto a la tecnología de texto a voz.
Hace unos meses, Apple lanzó una suite de audiolibros narrados por IA, y recientemente, el modelo VALL-E de Microsoft ha generado un habla muy realista con una gran variedad de idiomas para pasar de texto a voz, y viceversa.
Dicho avance es una red neuronal, está basado en la arquitectura Transformer para procesar el lenguaje natural de forma sencilla, puede replicar la voz de un usuario a la perfección con una muestra de audio de tres segundos y utiliza un modelo de lenguaje de códec natural.
Por otro lado, esta IA es capaz de traducir la voz de una persona a idiomas extranjeros, expresar emociones y representar tonos como si fuese indivudio.
Speaking foreign languages with your own voice + accent + emotion will soon be a reality.
— Lior⚡ (@AlphaSignalAI) March 8, 2023
Microsoft researchers recently extended VALL-E and trained a multi-lingual conditional codec language model to predict acoustic token sequences.
🔗https://t.co/nrRVzEKe8b
Sound ON 🔊 pic.twitter.com/1mhoChJzcC
La inteligencia artificial aún no está disponible, pero la demo compartida por Microsoft muestra cómo su IA traduce idiomas a partir de diversas muestras de texto, voz, acentos y emociones.
Dicha demo señala que "los resultados experimentales demuestran que puede generar habla de alta calidad en el idioma de destino a partir de un único enunciado en el idioma de origen, conservando la voz, la emoción y el entorno acústico del hablante invisible. Proponemos un modelo de lenguaje de códec neuronal multilingüe, VALL-E X, para la síntesis de voz multilingüe. Específicamente, ampliamos VALL-E y esta novedad alivia eficazmente los problemas de acento extranjero, que pueden controlarse mediante una identificación de idioma".
¿Hay un lado negativo?
Los autores afirman que "dado que VALL-E X puede sintetizar habla que mantiene la identidad del hablante, puede conllevar riesgos potenciales en el uso indebido del modelo, como la suplantación de la identificación de la voz o la suplantación de un hablante específico”.
"Realizamos los experimentos bajo el supuesto de que el usuario acepta ser el hablante objetivo en la síntesis del habla. Si el modelo se generaliza a hablantes no identificados en el mundo real, debería incluir un protocolo que garantice que el hablante aprueba el uso de su voz y de un modelo de detección de voz sintetizada", concluyen.
Apúntate a nuestra newsletter y recibe en tu correo las últimas noticias sobre tecnología.
Comentarios
Hemos bloqueado los comentarios de este contenido. Sólo se mostrarán los mensajes moderados hasta ahora, pero no se podrán redactar nuevos comentarios.
Consulta los casos en los que 20minutos.es restringirá la posibilidad de dejar comentarios