Tecnología para clonar la voz: esta startup puede hacer que entrenes con Cristiano Ronaldo o Messi

Parte del equipo de la startup se encuentra ubicado en Barcelona.
El equipo de Aflorithmic está formado por unas 30 personas.
Aflorithmic
Parte del equipo de la startup se encuentra ubicado en Barcelona.

¿Y si pudieras hacer que con solo 30 segundos de la voz de tus padres se crearan audiolibros para tus hijos? Seguramente se irían a la cama muy contentos de haber escuchado a los abuelos leerles su cuento favorito. La tecnología de clonación de voz es esto... y mucho más.

Para entenderlo mejor en 20Bits hemos hablado con Björn Ühss y Matthias Lehmann, los directores de Comunicación y de Marketing de Aflorithmic, una startup muy puntera ubicada en Barcelona y Londres que se dedica a la producción automatizada de “audio escalable” mediante el uso de medios sintéticos, clonación de voz y masterización de audio, para luego distribuirlo en cualquier dispositivo, como webs, aplicaciones móviles o altavoces inteligentes.

¿Qué significa todo esto en palabras que los mortales podamos comprender? Aflorithmic Labs utiliza el audio, la voz, para personalizar productos sonoros de otras empresas. Un buen ejemplo sería el que mencionamos en el titular de esta noticia: su tecnología puede hacer que Cristiano Ronaldo o Leo Messi sean tus entrenadores virtuales en una app de fitness y, todavía más allá, que el entrenamiento sea tan personal que te llamen por tu propio nombre.

El equipo de Aflorithmic está formado por unas 30 personas.
Parte del equipo de la startup se encuentra ubicado en Barcelona.
Aflorithmic

Björn Ühss, que además es uno de los fundadores de la empresa, explica que la idea nació en 2018 como un intento de hacer que la creación de audio fuera tan sencilla “como crear un blog” -aunque no fue hasta 2019 cuando salieron al mercado-. Producir audio, continúa diciendo, ha sido tradicionalmente algo “caro y lento” de conseguir, e incluso ahora en plena ebullición digital sigue haciéndose de forma manual.

Con Aflorithmic solo hace falta escribir un texto y su tecnología lo convierte en voz, bien de una persona conocida -un famoso o un familiar, como decíamos más arriba- o de una generada y que esté en un banco de voces. Solo hacen falta unos segundos de la voz original y después se somete a un proceso de mastering automatizado en la nube, permitiendo producir tantos audios como el cliente quiere. Así de fácil.

La mejor parte es que cada usuario escuchará ‘su historia’, un discurso adaptado para él o ella. “Esto antes no era posible, no puedes pedirle a un actor que grabe infinitos mensajes, cada uno con el nombre de la persona a la que quieres dirigirlo”, comenta Ühss.

Aflorithmic se dirige principalmente a tres sectores: apps de deporte, educación y comercio social.
Aflorithmic se dirige a tres sectores: apps de deporte, educación y comercio social.
Aflorithmic

Para que la voz de un famoso aparezca en una plataforma es necesario que vaya a un estudio y grabarlo, con el consiguiente coste de este proceso. Además, después debes encontrar la música adecuada -y poseer los derechos de autor- y diseñar o ‘mezclar’ todo. Requiere de un montón de conocimientos de expertos y cuesta tiempo y dinero. “El status quo actual encarece los cambios dinámicos y no permite la escalabilidad ni la personalización”, dice la compañía.

Sin embargo, con la tecnología que ha creado Aflorithmic “cualquiera puede crear un audio con un sonido hermoso, desde un texto simple hasta incluir música e ingeniería de audio compleja sin necesidad de experiencia previa”.

En esencia, lo que ha desarrollado Aflorithmic es una plataforma de audio como servicio que democratiza el proceso tradicional de producción de audio. Con ella, cualquier empresa puede crear un audio “de sonido profesional y totalmente elaborado a partir de un texto en cuestión de minutos”, reduciendo drásticamente el tiempo de producción gracias a los últimos avances en la síntesis de voz por inteligencia artificial y la automatización de la producción de audio. Después, simplemente, la empresa que haya contratado el servicio podrá distribuir los contenidos de audio generados por diversos canales.

Los idiomas con los que está trabajando Aflorithmic son alemán, inglés y español y se dirige principalmente a tres sectores: aplicaciones enfocadas al deporte, personalización de cuentos para niños y marketing de 'influencers'. 

"El audio es el nuevo vídeo"

Llevamos años escuchando que la voz será el canal de comunicación que liderará la relación con nuestro entorno. Lo vemos día a día: le hablamos al móvil, dictamos nuestros mensajes, preguntamos la información a nuestros asistentes virtuales... incluso Clubhouse, la red social del momento, se basa en las conversaciones por voz. Por ello, para Aflorithmic, es el momento de democratizar esta tecnología. “El audio es el nuevo vídeo”, afirman.

Para Lehmann hay dos factores que han ayudado a destronar al vídeo en pro del audio: el vídeo consume muchos datos y capacidad en nuestros dispositivos y es algo menos privado, ya que si ves algo en la pantalla también pueden verlo los demás, pero si lo escuchas con auriculares el contenido es solo para ti.

Mensajes personalizados y dirigidos

Si todavía te quedan dudas, en este vídeo de demostración Aflorithmic pone como ejemplo cómo podría usarse la tecnología para una agencia inmobiliaria, en la que ‘alguien’ te hace un recorrido personalizado que te brinda toda la información relevante sobre la propiedad que te podría interesar comprar:

Ese ‘alguien’, que incluso te llama por tu nombre, no es una personal real y lo que consigue la plataforma de la startup es convertir la descripción de esta vivienda en un discurso, de manera que se puede crear un mensaje personalizado para cada usuario interesado -no solo dirigiéndote a esa persona por su nombre, sino mencionando sus lugares favoritos cercanos, presupuesto y otras características que sepas que le sean atractivas-.

Los riesgos del deepfake

Cuando oímos hablar de este tipo de clonación, nos suele preocupar la ‘facilidad’ con la que los malos podrían hacerse con tecnologías tan avanzadas como estas para, qué otra cosa si no, hacer el mal.

“Text-to-Speech (TTS) y Voice Cloning permiten crear versiones ilimitadas de fragmentos de audio utilizando parlantes sintéticos. Este campo se está desarrollando tan rápidamente que pronto no seremos capaces de distinguir un hablante real de uno artificial”, dice la propia Aflorithmic.

La Unión Europea establece una serie de normas para que la inteligencia artificial se utilice de una forma fiable:

  • La IA debe ser lícita, es decir, cumplir todas las leyes y reglamentos aplicables.
  • Ha de ser ética, de modo que se garantice el respeto de los principios y valores éticos.
  • Debe ser robusta, tanto desde el punto de vista técnico como social, puesto que los sistemas de IA, incluso si las intenciones son buenas, pueden provocar daños accidentales.

En Aflorithmic son tajantes: “No queremos dar la posibilidad de que se haga un mal uso de nuestra tecnología y por ello solo las empresas tienen acceso a ella, de manera que podemos controlar cómo y para qué propósito se utilizan nuestros servicios”. 

En cuanto a los derechos de la voz clonada, la compañía explica que el cliente que les contrata “debe tener todas las licencias en orden” para utilizarla, ya que “sería lo mismo que un derecho de imagen cuando haces una sesión fotográfica”.

Apúntate a nuestra newsletter y recibe en tu correo las últimas noticias sobre tecnología.

Mostrar comentarios

Códigos Descuento