VALL-E, la IA de Microsoft que imita tu voz, mejora y ahora te convierte en políglota

Inteligencia Artificial
No hay una versión oficial.
Getty Images/iStockphoto
Inteligencia Artificial

La inteligencia artificial (IA) es la tecnología más poderosa de la actualidad, y con la llegada de ChatGPT, las Big Tech están cambiando los servicios que ofrecen a los usuarios en sus motores de búsqueda. Google, Safari o Edge no son los únicos afectados, debido a que los actores de doblaje son los próximos sujetos que se verán perjudicados por los avances de la IA respecto a la tecnología de texto a voz.

Hace unos meses, Apple lanzó una suite de audiolibros narrados por IA, y recientemente, el modelo VALL-E de Microsoft ha generado un habla muy realista con una gran variedad de idiomas para pasar de texto a voz, y viceversa.

Dicho avance es una red neuronal, está basado en la arquitectura Transformer para procesar el lenguaje natural de forma sencilla, puede replicar la voz de un usuario a la perfección con una muestra de audio de tres segundos y utiliza un modelo de lenguaje de códec natural.

Por otro lado, esta IA es capaz de traducir la voz de una persona a idiomas extranjeros, expresar emociones y representar tonos como si fuese indivudio. 

La inteligencia artificial aún no está disponible, pero la demo compartida por Microsoft muestra cómo su IA traduce idiomas a partir de diversas muestras de texto, voz, acentos y emociones.

Dicha demo señala que "los resultados experimentales demuestran que puede generar habla de alta calidad en el idioma de destino a partir de un único enunciado en el idioma de origen, conservando la voz, la emoción y el entorno acústico del hablante invisible. Proponemos un modelo de lenguaje de códec neuronal multilingüe, VALL-E X, para la síntesis de voz multilingüe. Específicamente, ampliamos VALL-E y esta novedad alivia eficazmente los problemas de acento extranjero, que pueden controlarse mediante una identificación de idioma".

¿Hay un lado negativo?

Los autores afirman que "dado que VALL-E X puede sintetizar habla que mantiene la identidad del hablante, puede conllevar riesgos potenciales en el uso indebido del modelo, como la suplantación de la identificación de la voz o la suplantación de un hablante específico”.

"Realizamos los experimentos bajo el supuesto de que el usuario acepta ser el hablante objetivo en la síntesis del habla. Si el modelo se generaliza a hablantes no identificados en el mundo real, debería incluir un protocolo que garantice que el hablante aprueba el uso de su voz y de un modelo de detección de voz sintetizada", concluyen.

Apúntate a nuestra newsletter y recibe en tu correo las últimas noticias sobre tecnología.

Mostrar comentarios

Códigos Descuento