Qué es Gemini 1.5 de Google y por qué está dando tanto que hablar

Google es una de las empresas que más está invirtiendo en el desarrollo de inteligencia artificial (IA). A finales del año pasado, anunció Gemini, un modelo que prometía ser el más flexible, más grande y más capaz que se había creado. Recientemente, cambiaron el nombre de ‘Bard’ definitivamente por 'Gemini' y, ayer, lanzaron una actualización de la IA en fase beta.

La nueva versión del modelo es Gemini 1.5 Pro y, de momento, solo está habilitado para un pequeño grupo de desarrolladores. No obstante, según el comunicado de Google, tiene la capacidad de procesar enormes cantidades de información de una sola vez, incluida una hora de vídeo, once horas de audio, 30.000 líneas de código y más de 700.000 palabras.

Gemini, la inteligencia artificial de Google.

Todo lo nuevo de la IA de Google: modelo de pago, versión móvil, cambio de nombre y Gemini Ultra, su motor más potente

La presentación de Gemini 1.5 Pro

El gigante tecnológico ha señalado que la actualización introduce una nueva arquitectura llamada 'Mixture-of-Experts' (MoE), que divide el modelo en pequeñas redes neuronales que operan como "expertas". Estas se activan dependiendo del tipo de información o de actividad requerida, lo que permite que Gemini 1.5 Pro pueda aprender tareas más complejas con mayor rapidez sin perder calidad en sus respuestas.

"Hace unos años memorizar u obtener el contexto de cientos de palabras era bastante difícil e incluso si miramos a la década de 1950, cuando Shannon [el matemático que inventó la teoría de la información] soñada con modelos de lenguaje, se estaba analizando dos palabras de contexto", afirma Oriol Vinyals, vicepresidente de investigación de DeepMind y CEO de Gemini. Con la actualización, el proceso de entrenamiento se vuelve más sencillo.

El director ejecutivo de Gemini mostró cómo el modelo era capaz de analizar un texto de 402 páginas de transcipciones del Apolo 11 y encontrar tres citas graciosas.

Además, explicó que el sistema entendía imágenes relacionadas con el primer viaje del ser humano a la Luna. Por ejemplo, Vinyals probó a mandar un dibujo de una bota pisando el suelo y le preguntó a la IA el momento exacto en el que había ocurrido con una cita del documento. "Ese es un pequeño paso para el hombre", respondió con la famosa frase de Neil A. Armstrong.

Comprensión de contextos largos con Gemini 1.5

La compañía ha explicado que la actualización llega primero a la versión Pro de su IA, la variante de tamaño mediano. Según aseguran, esta optimización permite que sea capaz de realizar una amplia variedad de tareas con un funcionamiento similar a Gemini 1.0 Ultra, el más grande de Google hasta la fecha.

En su presentación, la firma estadounidense ha aseverado que Gemini 1.5 Pro introuce como novedad la comprensión de contextos largos. Para ello, está equipado con una ventana de contexto estándar de 128.000 tokens.

Sin embargo, un grupo limitado de desarrolladores y clientes empresariales podrán probar una ventana contextual de hasta un millón de tokens desde AI Studio y Vertex AI. Sus pruebas permitirán mejorar la latencia y la experiencia de usuarios y reducir los requisitos computacionales antes de su lanzamiento a nivel mundial.

Apúntate a nuestra newsletter y recibe en tu correo las últimas noticias sobre tecnología.

Qué es Gemini 1.5 de Google y por qué está dando tanto que hablar

La presentación de Gemini 1.5 Pro

Comprensión de contextos largos con Gemini 1.5

Comentarios

Códigos Descuento