VALL-E, la IA de Microsoft que imita tu voz, mejora y ahora te convierte en políglota

La inteligencia artificial (IA) es la tecnología más poderosa de la actualidad, y con la llegada de ChatGPT, las Big Tech están cambiando los servicios que ofrecen a los usuarios en sus motores de búsqueda. Google, Safari o Edge no son los únicos afectados, debido a que los actores de doblaje son los próximos sujetos que se verán perjudicados por los avances de la IA respecto a la tecnología de texto a voz.

Hace unos meses, Apple lanzó una suite de audiolibros narrados por IA, y recientemente, el modelo VALL-E de Microsoft ha generado un habla muy realista con una gran variedad de idiomas para pasar de texto a voz, y viceversa.

Dicho avance es una red neuronal, está basado en la arquitectura Transformer para procesar el lenguaje natural de forma sencilla, puede replicar la voz de un usuario a la perfección con una muestra de audio de tres segundos y utiliza un modelo de lenguaje de códec natural.

Por otro lado, esta IA es capaz de traducir la voz de una persona a idiomas extranjeros, expresar emociones y representar tonos como si fuese indivudio.

Speaking foreign languages with your own voice + accent + emotion will soon be a reality.

Microsoft researchers recently extended VALL-E and trained a multi-lingual conditional codec language model to predict acoustic token sequences.

🔗https://t.co/nrRVzEKe8b

Sound ON 🔊 pic.twitter.com/1mhoChJzcC
— Lior⚡ (@AlphaSignalAI) March 8, 2023

La inteligencia artificial aún no está disponible, pero la demo compartida por Microsoft muestra cómo su IA traduce idiomas a partir de diversas muestras de texto, voz, acentos y emociones.

Dicha demo señala que "los resultados experimentales demuestran que puede generar habla de alta calidad en el idioma de destino a partir de un único enunciado en el idioma de origen, conservando la voz, la emoción y el entorno acústico del hablante invisible. Proponemos un modelo de lenguaje de códec neuronal multilingüe, VALL-E X, para la síntesis de voz multilingüe. Específicamente, ampliamos VALL-E y esta novedad alivia eficazmente los problemas de acento extranjero, que pueden controlarse mediante una identificación de idioma".

¿Hay un lado negativo?

Los autores afirman que "dado que VALL-E X puede sintetizar habla que mantiene la identidad del hablante, puede conllevar riesgos potenciales en el uso indebido del modelo, como la suplantación de la identificación de la voz o la suplantación de un hablante específico”.

"Realizamos los experimentos bajo el supuesto de que el usuario acepta ser el hablante objetivo en la síntesis del habla. Si el modelo se generaliza a hablantes no identificados en el mundo real, debería incluir un protocolo que garantice que el hablante aprueba el uso de su voz y de un modelo de detección de voz sintetizada", concluyen.

Apúntate a nuestra newsletter y recibe en tu correo las últimas noticias sobre tecnología.

VALL-E, la IA de Microsoft que imita tu voz, mejora y ahora te convierte en políglota

¿Hay un lado negativo?

Comentarios

Códigos Descuento