Microsoft desarrolla una IA capaz de crear vídeos de personas a partir de una sola foto

Vídeo que muestra cómo funciona VASA-1, la inteligencia artificial que a partir de una foto crea un vídeo.

Microsoft Research Asia, una división de la compañía fundada por Bill Gates, ha presentado VASA-1, un modelo de inteligencia artificial que puede crear un video animado sincronizado de una persona hablando o cantando a partir de una sola foto y una pista de audio existente.

El problema es que tal y como recoge el medio especializado Ars Technica, en el futuro este sistema podría impulsar avatares virtuales que se representen localmente y no requieran transmisiones de vídeo, o permitir que cualquier persona con herramientas similares coja una foto de una persona encontrada en internet y haga que parezca que dice lo que quiera.

"Allana el camino para interacciones en tiempo real con avatares realistas que emulan comportamientos conversacionales humanos", se lee en el resumen del artículo de investigación adjunto titulado VASA-1: Caras parlantes realistas impulsadas por audio generadas en tiempo real.

El marco VASA (abreviatura de Visual Affective Skills Animator) utiliza el aprendizaje automático para analizar una imagen estática junto con un clip de audio de voz.

Luego puede generar un vídeo realista con expresiones faciales precisas, movimientos de cabeza y sincronización de labios con el audio. No clona ni simula voces (como otras investigaciones de Microsoft), sino que se basa en una entrada de audio existente que podría grabarse o hablarse especialmente para un propósito particular.

Microsoft afirma que el modelo supera significativamente a los métodos anteriores de animación de voz en términos de realismo, expresividad y eficiencia. Tal y como recoge Ars Technica, es una mejora con respecto a los modelos de animación de una sola imagen anteriores.

Un catedrático español cree que la IA sustituirá a los profesionales médicos: "Duerme bien y no se coge bajas, es el esclavo perfecto"

Los esfuerzos de investigación de IA para animar una sola foto de una persona o personaje se remontan al menos a algunos años, pero más recientemente, los investigadores han estado trabajando para sincronizar automáticamente un vídeo generado con una pista de audio.

En febrero, un modelo de IA llamado EMO: Emote Portrait Alive del grupo de investigación del Instituto de Computación Inteligente de Alibaba creó expectación con un enfoque similar al VASA-1 que puede sincronizar automáticamente una foto animada con una pista de audio proporcionada (lo llaman Audio2Video).

Los investigadores de Microsoft entrenaron VASA-1 en el conjunto de datos VoxCeleb2 creado en 2018 por tres investigadores de la Universidad de Oxford.

Ese conjunto de datos contiene "más de un millón de declaraciones de 6.112 celebridades", según el sitio web VoxCeleb2, extraído de vídeos subidos a YouTube. VASA-1 puede generar vídeos con una resolución de 512x512 píxeles a hasta 40 cuadros por segundo con una latencia mínima, lo que significa que podría usarse para aplicaciones en tiempo real como videoconferencias.

Para mostrar el modelo, Microsoft creó una página de investigación VASA-1 que presenta muchos vídeos de muestra de la herramienta en acción, incluidas personas cantando y hablando en sincronización con pistas de audio pregrabadas.

Muestran cómo se puede controlar al modelo para que exprese diferentes estados de ánimo o cambie su mirada. Los ejemplos también incluyen algunas generaciones más fantasiosas, como la Mona Lisa rapeando con una pista de audio de Anne Hathaway interpretando la canción de Paparazzi en el programa de Conan O'Brien.

Microsoft just dropped VASA-1.

This AI can make single image sing and talk from audio reference expressively. Similar to EMO from Alibaba

10 wild examples:

1. Mona Lisa rapping Paparazzi pic.twitter.com/LSGF3mMVnD
— Min Choi (@minchoi) April 18, 2024

Los investigadores dicen que, por razones de privacidad, cada foto de ejemplo en su página fue generada por IA mediante StyleGAN2 o DALL-E 3 (aparte de la Mona Lisa). Pero es obvio que la técnica también podría aplicarse a fotografías de personas reales, aunque es probable que funcione mejor si una persona parece similar a una celebridad presente en el conjunto de datos de entrenamiento. Aún así, los investigadores dicen que falsificar a humanos reales no es su intención.

"Estamos explorando la generación de habilidades afectivas visuales para personajes virtuales e interactivos, NO haciéndonos pasar por ninguna persona en el mundo real. Esto es sólo una demostración de investigación y no hay ningún producto o plan de lanzamiento de API", dicen los creadores.

Si bien los investigadores de Microsoft promocionan posibles aplicaciones positivas, como mejorar la equidad educativa, mejorar la accesibilidad y brindar compañía terapéutica, la tecnología también podría usarse indebidamente. Por ejemplo, podría permitir que las personas falsifiquen videochats, hacer que personas reales parezcan decir cosas que en realidad nunca han dicho (especialmente cuando se combinan con una pista de voz clonada) o permitir el acoso a partir de una sola foto en las redes sociales.

En este momento, el vídeo generado todavía parece imperfecto en algunos aspectos, pero podría ser bastante convincente para algunas personas si no supieran que se trata una animación generada por IA. Los investigadores dicen que son conscientes de esto, razón por la cual no publican abiertamente el código que impulsa el modelo.

"Nos oponemos a cualquier comportamiento que cree contenidos engañosos o dañinos de personas reales y estamos interesados en aplicar nuestra técnica para avanzar en la detección de falsificaciones", escriben los investigadores.

"Actualmente, los vídeos generados por este método todavía contienen artefactos identificables, y el análisis numérico muestra que todavía hay una brecha para lograr la autenticidad de los vídeos reales", añaden.

Microsoft desarrolla una IA capaz de crear vídeos de personas a partir de una sola foto

Comentarios

Códigos Descuento