Gemini, la nueva inteligencia artificial de Google: qué es y cuáles son las principales diferencias con su rival ChatGPT

El entrenamiento de Gemini, la nueva IA de Google, es distinto al que se ha llevado a cabo para otros modelos multimodales de IA.

Google se ha puesto las pilas con el lanzamiento de sus herramientas de inteligencia artificial (IA) a lo largo de este año. Si en 2022 hablábamos de que la Big Tech se había quedado atrás en este tipo de tecnología, ya no podemos decir lo mismo. La empresa estadounidense ha demostrado que está al día con modelos como Bard, nuevas funciones en sus apps y, ahora, con Gemini.

La herramienta Gemini, que se lanzó ayer 6 de diciembre, aseguran que es la más potente del mercado, superando incluso a ChatGPT. La IA de OpenAI tiene actualmente más de 4 millones de usuarios en España y es la que más éxito está teniendo en el sector. No obstante, Google está dispuesto a desbancarla con su nueva propuesta, que estará disponible en tres diferentes tamaños:

Gemini Ultra: nuestro modelo más potente y de mayor tamaño, para tareas de gran complejidad.
Gemini Pro: nuestro mejor modelo para escalar en una amplia gama de tareas.
Gemini Nano: nuestro modelo más eficiente para ejecutar tareas directamente en un dispositivo, disponible para móviles.

Los investigadores que estudian el desarrollo de la inteligencia artificial general en OpenAI descubrieron que esta "podría amenazar a la humanidad", pero Microsoft le ha quitado hierro al asunto.

Microsoft desmiente que la crisis de OpenAI se haya debido al desarrollo de una inteligencia artificial peligrosa

¿Qué es Géminis?

Tal y como se define en la compañía tecnológica, Gemini es un modelo de IA multimodal. Es decir, es capaz de "generalizar y comprender, operar y combinar a la perfección distintos tipos de información", desde texto y audio hasta imágenes y vídeo, pasando por lenguajes de código.

En su presentación, Google señala que la nueva IA será la más flexible, más grande y más capaz que han creado hasta la fecha. Sus desarrolladores afirman que es el resultado de un arduo trabajo colaborativo a escala de múltiples equipos de su marca, incluidos los equipos de DeepMind y Google Research.

Gemini podrá ejecutarse de manera eficiente en dispositivos muy distintos entre ellos, desde móviles hasta centros de datos. En todos los casos, Google comenta que su modelo "mejorará significativamente la forma en que los desarrolladores y clientes empresariales construyen y escalan con IA".

La creación de Gemini de Google

La compañía de Mountain View explica que, hasta ahora, el desarrollo de modelos multimodales era posible al entrenar componentes separados para diferentes modalidades que, luego, se unían para imitar parte de dichas funcionalidades. La firma cuenta que esto permitía que los modelos pudiesen ser buenos a veces para realizar determinadas tareas, como describir imágenes, pero tenían dificultades a la hora de elaborar un razonamiento más conceptual y complejo.

Con Gemini, los desarrolladores han recurrido a un entrenamiento que, desde el principio, valora diferentes modalidades. De este modo, la herramienta es multimodal de forma nativa. Después, Google se ha encargado de pulir los datos multimodales adicionales, para optimizar su eficacia.

Gracias a la modificación de Google, Gemini es capaz de comprender y razonar perfectamente sobre diversos tipos de entradas desde cero. Así, dicen, su modelo es mucho mejor que otros ya existentes y dispone de capacidades "de última generación en casi todos los dominios".

ChatGPT puede filtrar datos personales con los que se ha entrenado si le pides que repita la palabra 'poema' o 'compañía'.

ChatGPT filtraba por error datos personales reales con solo usar este pequeño truco

¿Dónde se puede usar Gemini?

La versión 1.0 de Gemini ya está desplegándose en una amplia gama de productos y plataformas de Google, tanto para consumidores como para desarrolladores.

Según el comunicado de Google, Gemini Pro está disponible en Bard para más de 170 países y territorios, lo que mejora considerablemente las respuestas del chatbot. La empresa menciona que las optimizaciones podrán notarse en los resúmenes, tormentas de ideas, escrituras y planificaciones de la IA, aunque, de momento, solo está disponible en inglés.

Gemini también podrás disfrutar en uno de los últimos teléfonos de la marca, Pixel 8 Pro. En este caso, podrá notarse en funciones como 'Resumir' en la Grabadora, o en 'Respuesta Inteligente' en Gboard. Además, Google ha anunciado que, en los próximos meses, llegará a más productos y servicios, como Search, Ads, Chrome y Duet AI.

A partir del 13 de diciembre, podrán usar Gemini Pro destinado a desarrolladores y empresas a través de Google AI Studio (una herramienta gratuita para crear prototipos y lanzar aplicaciones rápidamente con una clave API), y de Vertex AI (que permite la personalización de Gemini con control total de datos y que se beneficia de funciones adicionales de Google Cloud para la seguridad empresarial, privacidad y gobernanza y cumplimiento de datos).

Asimismo, los desarrolladores de Android dispondrán de Gemini Nano gracias a AICore. Su modelo más eficiente para tareas en el dispositivo operativo estará en la actualización 14 del sistema operativo, solo disponible en Pixel 8 Pro y los modelos que salgan en adelante.

Por otro lado, Gemini Ultra estará disponible a través de un programa de acceso anticipado para desarrolladores, socios y empresas seleccionadas. Estos podrán enviar comentarios sobre su uso con el fin de que Google pueda realizar mejoras.

En los primeros meses de 2024, Google estará lanzar también Bard Advanced, que definen como "una nueva experiencia de IA de vanguardia", que dará acceso a sus mejores modelos y capacidades, como es el caso de Gemini Ultra para todos.

Las diferencias entre Gemini y ChatGPT

Los desarrolladores de Google han probado Gemini y lo han comparado con otros modelos actuales y consideran que es el más capaz existente. Según su comunicado, han evaluado el desempeño en una amplia variedad de tareas, desde la comprensión de imágenes naturales, audio y vídeo hasta el razonamiento matemático.

Sus investigaciones concluyen que Gemini Ultra supera los resultados de modelos actuales de última generación en 30 de 32 puntos de referencia académicas, ampliamente utilizados en la investigación y en el desarrollo de modelos de lenguaje grande (LLM).

Géminis es capaz, según Google, de soportar un contexto de aproximadamente 32.000 tokens en las preguntas, que equivale más o menos a unas 32.000 palabras. Esa es la misma cantidad que aguanta GPT-4. Sin embargo, una de las grandes ventajas de Gemini será su capacidad para razonar sus respuestas, dando resultados mejores que ChatGPT.

Además, la compañía adelanta que una de las grandes características de Gemini será su capacidad de codificar en los lenguajes de programación más conocidos, como Python, Java, C++ y Go.

Apúntate a nuestra newsletter y recibe en tu correo las últimas noticias sobre tecnología.