Así es CM3leon, la nueva IA de Meta para crear imágenes a partir de texto y viceversa

CM3leon puede trabajar tanto en la generación y edición de imágenes como en la creación de texto a partir de imágenes.
CM3leon puede trabajar tanto en la generación y edición de imágenes como en la creación de texto a partir de imágenes.
Meta
CM3leon puede trabajar tanto en la generación y edición de imágenes como en la creación de texto a partir de imágenes.

Meta presentó el pasado viernes CM3leon, el primer modelo multimodal de Inteligencia Artificial generativa con el que puede crear imágenes a partir de texto y texto a partir de imágenes. Según la marca, han obtenido un "rendimiento de última generación" con un entrenamiento que necesita cinco veces menos cómputo que los métodos anteriores.

La compañía afirma que su herramienta tiene versatilidad y mantenimiento de eficiencia, pero manteniendo los bajos costos de entrenamiento y eficiencia de inferencia. Gracias a ello, obtuvieron respuestas visuales a indicaciones de texto, pueden generar leyendas de imágenes y es capaz de unir distintos componentes que no tienen nada que ver entre sí, creando objetos compuestos complejos.

En las pruebas del modelo, los desarrolladores lo han comparado con el punto de referencia de generación de imágenes más utilizadas (Zero-shot MS-COCO) y han obtenido una puntuación FID (Distancia de inicio de Fréchet) de 4,88. Esto se traduce, según ellos, en un gran potencial "del aumento de recuperación y destaca el impacto de las estrategias de escalado en el rendimiento de los modelos autorregresivos·.

Entre sus capacidades, destaca la generación y edición de imágenes guiadas por texto. Tal y como señalan en el blog de Meta, modificar una ilustración por texto era todo "un desafío". Para lograrlo, era importante que CM3leon comprendiese tanto las instrucciones como la imagen. La IA es capaz de editarlas siguiendo las demandas de los usuarios con modificaciones "visualmente coherentes y contextualmente apropiadas".

Por otro lado, también puede crear imágenes de cero a partir de descripciones de texto, incluso si se habla de una imagen “potencialmente muy compositiva”.

Además, CM3leon lleva a cabo tareas de texto a partir de imágenes, pudiendo responder preguntas sobre ellas o generar pies de fotos cortos o largos.

Apúntate a nuestra newsletter y recibe en tu correo las últimas noticias sobre tecnología.

Mostrar comentarios

Códigos Descuento