Así es EMO, la nueva IA china para generar vídeos realistas a partir de una sola foto

EMO, la nueva IA generadora de vídeos a partir de imágenes fijas y audios.
Alibaba Group

Alibaba Group, la empresa china detrás de AliExpress, acaba de presentar EMO, una inteligencia artificial (IA) generativa capaz de crear vídeos a partir de imágenes fijas. Su anuncio llega poco después de que OpenAI hablase de Sora, su herramienta para generar vídeos mediante prompts de texto, y que sus resultados se hiciesen virales en redes sociales.

El nombre de la herramienta de la compañía son las siglas de 'Emote Portrait Alive', que hace referencia a la capacidad que tiene de 'dar vida' a las instantáneas. La compañía lo ha definido como un sistema "de generación de retratos y vídeos basado en audio expresivo", por lo que probablemente no genere vídeos con todo tipo de fotos, sino solo con aquellas en formato retrato.

Sin embargo, Alibaba asegura que los usuarios podrán insertar un audio con la imagen de un retrato que deseen. De este modo, explican que obtendrán un vídeo retrato con una perfecta sincronización de labios y expresiones que se adapten al tono de voz.

Los resultados de EMO

La tecnológica asiática ha compartido varios ejemplos a través de una publicación en Git Hub. En uno de los vídeos de EMO, se ve a la fallecida actriz británica Audrey Hepburn cantando una cover de 'Perfect', un single de Ed Sheeran:

En su presentación, explican que EMO permite hacer cantar a un retrato. Según especifican, la IA "puede generar vídeos de avatar vocal con expresiones faciales expresivas y varias poses de la cabeza [...], con cualquier duración dependiendo de la duración del audio de entrada".

Además, destacan la capacidad del sistema de admitir canciones en varios idiomas y no solo en chino, aunque no aclaran cuáles acepta. No solo eso, sino que "reconoce intuitivamente variaciones tonales de audio", lo que permite crear rostros dinámicos en diferentes estilos de dibujo o fotografías.

Más allá de cantar, EMO también puede darle voz a dibujos o fotos de personas reales, dotándolos de movimiento y un discurso. Asimismo, los resultados con los que ejemplifican todas sus funciones no se confunden con vídeos originales, por lo que aquellos preocupados con el hecho de que los deepfake puedan usarse para desinformar pueden estar tranquilos.

Apúntate a nuestra newsletter y recibe en tu correo las últimas noticias sobre tecnología.