Así es EMO, la nueva IA china para generar vídeos realistas a partir de una sola foto

EMO, la nueva IA generadora de vídeos a partir de imágenes fijas y audios.

Alibaba Group, la empresa china detrás de AliExpress, acaba de presentar EMO, una inteligencia artificial (IA) generativa capaz de crear vídeos a partir de imágenes fijas. Su anuncio llega poco después de que OpenAI hablase de Sora, su herramienta para generar vídeos mediante prompts de texto, y que sus resultados se hiciesen virales en redes sociales.

El nombre de la herramienta de la compañía son las siglas de 'Emote Portrait Alive', que hace referencia a la capacidad que tiene de 'dar vida' a las instantáneas. La compañía lo ha definido como un sistema "de generación de retratos y vídeos basado en audio expresivo", por lo que probablemente no genere vídeos con todo tipo de fotos, sino solo con aquellas en formato retrato.

Freddie Mercury podría volver a los escenarios gracias a la inteligencia artificial.

La IA va a revivir a otra gran estrella: Freddie Mercury volverá a cantar 33 años después de su muerte

Sin embargo, Alibaba asegura que los usuarios podrán insertar un audio con la imagen de un retrato que deseen. De este modo, explican que obtendrán un vídeo retrato con una perfecta sincronización de labios y expresiones que se adapten al tono de voz.

Los resultados de EMO

La tecnológica asiática ha compartido varios ejemplos a través de una publicación en Git Hub. En uno de los vídeos de EMO, se ve a la fallecida actriz británica Audrey Hepburn cantando una cover de 'Perfect', un single de Ed Sheeran:

Audrey Hepburn cantando una canción de Ed Sheeran.

En su presentación, explican que EMO permite hacer cantar a un retrato. Según especifican, la IA "puede generar vídeos de avatar vocal con expresiones faciales expresivas y varias poses de la cabeza [...], con cualquier duración dependiendo de la duración del audio de entrada".

Microsoft introducirá "estándares fuertes" en el uso de la IA.

Microsoft publica 11 principios para controlar la IA: "Las empresas de tecnología deben crear barreras de seguridad"

Además, destacan la capacidad del sistema de admitir canciones en varios idiomas y no solo en chino, aunque no aclaran cuáles acepta. No solo eso, sino que "reconoce intuitivamente variaciones tonales de audio", lo que permite crear rostros dinámicos en diferentes estilos de dibujo o fotografías.

Más allá de cantar, EMO también puede darle voz a dibujos o fotos de personas reales, dotándolos de movimiento y un discurso. Asimismo, los resultados con los que ejemplifican todas sus funciones no se confunden con vídeos originales, por lo que aquellos preocupados con el hecho de que los deepfake puedan usarse para desinformar pueden estar tranquilos.

Apúntate a nuestra newsletter y recibe en tu correo las últimas noticias sobre tecnología.

Así es EMO, la nueva IA china para generar vídeos realistas a partir de una sola foto

Los resultados de EMO

Comentarios

Códigos Descuento