Así es EMO, la nueva IA china para generar vídeos realistas a partir de una sola foto

La empresa dueña de la ecommerce AliExpress, Alibaba, ha compartido varios ejemplos de todo lo que es capaz de hacer su nueva herramienta de inteligencia artificial, que da 'vida' a dibujos animados o a artistas fallecidos. 
EMO, la nueva IA generadora de vídeos a partir de imágenes fijas y audios.
EMO, la nueva IA generadora de vídeos a partir de imágenes fijas y audios.
Alibaba Group
EMO, la nueva IA generadora de vídeos a partir de imágenes fijas y audios.

Alibaba Group, la empresa china detrás de AliExpress, acaba de presentar EMO, una inteligencia artificial (IA) generativa capaz de crear vídeos a partir de imágenes fijas. Su anuncio llega poco después de que OpenAI hablase de Sora, su herramienta para generar vídeos mediante prompts de texto, y que sus resultados se hiciesen virales en redes sociales.

El nombre de la herramienta de la compañía son las siglas de 'Emote Portrait Alive', que hace referencia a la capacidad que tiene de 'dar vida' a las instantáneas. La compañía lo ha definido como un sistema "de generación de retratos y vídeos basado en audio expresivo", por lo que probablemente no genere vídeos con todo tipo de fotos, sino solo con aquellas en formato retrato.

Sin embargo, Alibaba asegura que los usuarios podrán insertar un audio con la imagen de un retrato que deseen. De este modo, explican que obtendrán un vídeo retrato con una perfecta sincronización de labios y expresiones que se adapten al tono de voz.

Los resultados de EMO

La tecnológica asiática ha compartido varios ejemplos a través de una publicación en Git Hub. En uno de los vídeos de EMO, se ve a la fallecida actriz británica Audrey Hepburn cantando una cover de 'Perfect', un single de Ed Sheeran:

Audrey Hepburn cantando una canción de Ed Sheeran. Alibaba Group

En su presentación, explican que EMO permite hacer cantar a un retrato. Según especifican, la IA "puede generar vídeos de avatar vocal con expresiones faciales expresivas y varias poses de la cabeza [...], con cualquier duración dependiendo de la duración del audio de entrada".

Además, destacan la capacidad del sistema de admitir canciones en varios idiomas y no solo en chino, aunque no aclaran cuáles acepta. No solo eso, sino que "reconoce intuitivamente variaciones tonales de audio", lo que permite crear rostros dinámicos en diferentes estilos de dibujo o fotografías.

Más allá de cantar, EMO también puede darle voz a dibujos o fotos de personas reales, dotándolos de movimiento y un discurso. Asimismo, los resultados con los que ejemplifican todas sus funciones no se confunden con vídeos originales, por lo que aquellos preocupados con el hecho de que los deepfake puedan usarse para desinformar pueden estar tranquilos.

Apúntate a nuestra newsletter y recibe en tu correo las últimas noticias sobre tecnología.

Mostrar comentarios

Códigos Descuento