Google I/0 2024: llega Project Astra, muchas novedades de Gemini

Google ha celebrado su conferencia de desarrolladores I/O 2024 para dar a conocer todas las novedades de sus tecnologías justo una semana después del lanzamiento de los nuevos iPad Pro y iPad Air por parte de Apple y un día después de la presentación del modelo de lenguaje GPT-4o de OpenAI.

Nada más comenzar ya se mencionaban las palabras inteligencia artificial y con ellas han ido repasando los avances de la compañía en el campo de la IA. El primer anuncio de la tarde ha sido que AI Overviews llega a Estados Unidos y otros países, para mostrar información más relevante al realizar determinadas consultas en el buscador. Esto es todo lo que se ha presentado en el Google I/0 2024.

Gemini y Gemini 1.5 flash

Una vez en el escenario, Sundar Pichai ha anunciado que Gemini potenciará la aplicación fotos para poder encontrarlas más fácilmente con la llegada de Ask Photos, una función que permite realizar consultas a Google Fotos usando lenguaje natural. Gemini 1.5 Pro llega con una mayor capacidad de razonamiento y está disponible a nivel global para todos los desarrolladores, y percibe una mejora a nivel de tokens siendo el máximo de 2 millones.

También hemos visto novedades en cuanto a Google Workspace, pues Gemini se incorpora a Gmail y a otras aplicaciones como Google Meet, que grabara la conversación y nos facilitara lo más importante de la misma. Han realizado una demostración de NotebookLM con Gemini 1.5 Pro, destacando, sobre todo, la gran mejoría en el sistema de generación por voz, el cual es mucho más natural y humano.

Demis Hassabis, cofundador de Deepmind, ha anunciado Gemini 1.5 Flash, un modelo más liviano enfocado a la velocidad y eficiencia del modelo más avanzado de Google, que está centrado en ofrecer la menor latencia. Ya está disponible para todos los desarrolladores a través de AI Studio.

Llega Project Astra

Una de las grandes novedades del evento ha sido la llegada de Project Astra, que describen como un agente de IA que promete ser el futuro de los asistentes virtuales de cara a ser útiles en la vida cotidiana de la gente. Basado en Gemini, tiene la capacidad de identificar lo que tenemos a nuestro alrededor utilizando la cámara del smartphone y responder a consultas de manera natural.

Digamos que ayuda a comprender la información multimodal y a reducir el tiempo de respuesta. En un video mostrado en el evento, se puede apreciar a una usuaria interactuar con el modelo de IA sin mirar el móvil. También puede resolver problemas matemáticos. De momento, está en desarrollo.

@GoogleDeepMind exploring how a universal AI agent can be truly helpful in everyday life. Watch our prototype in action in two parts, each captured in a single take, in real time ↓ #GoogleIO pic.twitter.com/uMEjIJpsjO— Google (@Google) May 14, 2024 " data-id="https://twitter.com/GoogleDeepMind?ref_src=twsrc%5Etfw">@GoogleDeepMind exploring how a universal AI agent can be truly helpful in everyday life. Watch our prototype in action in two parts, each captured in a single take, in real time ↓ #GoogleIO pic.twitter.com/uMEjIJpsjO— Google (@Google) May 14, 2024 ">

"));

Novedades en creación de contenido

La compañía tecnológica ha presentado avances importantes en aspectos de generación de contenido. Concretamente, hablamos de Veo, Music AI Sandbox e Imagen 3. Veo es un nuevo modelo de generación de vídeo, capaz de transformar texto en vídeo a resolución 1080p. Está disponible en una nueva herramienta, llamada VeoFX.

Music AI Sandbox es una herramienta de generación de música, desarrollada en colaboración con algunos artistas populares, mientras que Imagen 3 es una versión mejorada de su modelo de generación de imágenes, ya disponible en ImageFX.

Novedades de IA en Google Search

Gemini se introducirá en el buscador de Google para que haga la búsqueda por nosotros y afirman que tiene los tres pilares necesarios para ofrecer la mejor búsqueda: capacidad para rastrear información en tiempo real, sistemas de calidad, y el poder de Gemini.

En el evento nos muestran un ejemplo al pedirle a Gemini los mejores lugares para practicar yoga y pilates, y el asistente trabajará para nosotros para que encontremos el mejor resultado. También puede planificar un evento. El objetivo es dejar que Google haga todo el trabajo por ti. Además, afirman también que la llegada de la IA generativa al buscador marcará un antes y un después.

El sistema multimodal de Gemini nos permite capturar la entrada de voz y vídeo para ofrecer respuestas, es decir, si tenemos cualquier artilugio y no funciona, simplemente podemos grabar un vídeo de ese artilugio y preguntarle por su solución.

#GoogleIO pic.twitter.com/JxldNjbqyn— Google (@Google) May 14, 2024 " data-id="https://twitter.com/hashtag/GoogleIO?src=hash&ref_src=twsrc%5Etfw">#GoogleIO pic.twitter.com/JxldNjbqyn— Google (@Google) May 14, 2024 ">

"));

Novedades de Gemini en Google Workspace

Lo más llamativo es que Gemini está disponible en la barra lateral de las herramientas de Workspace para todos los usuarios a partir del próximo mes. El correo de Google tendrá un botón con el icono de esta IA que nos permitirá generar un resumen rápidamente.

También ofrecerá acciones recomendadas como ayudarnos a organizar los recibos. Gemini nos proporcionará ayuda en las hojas de cálculos de Google para analizar datos y segmentarlos. Esto estará disponible a partir de septiembre de forma experimental.

Los usuarios podrán crear sus propios compañeros de trabajo en AI Teammate para que todos puedan ver las respuestas de los participantes de la conversación e interactuar con él, ya que Chip, que es el asistente, puede dar respuestas en relación con todos los documentos que tiene acceso.

"));

Gemini en los móviles

‘Circle to search’ estará disponible para un mayor número de usuarios e introducirá grandes mejoras. Una de ellas va a ser Gemini Life con la que podremos llevar conversaciones con un lenguaje natural, pudiendo incluso interrumpir al asistente mientras nos responde. Además de que se añadirán soporte para la visualización en tiempo real de lo que sucede alrededor gracias a la cámara.

También recibirán la función Gems, que son versiones personalizadas del chatbot que se adaptan a las necesidades descritas por el usuario. Quienes tengan la suscripción a Gemini Advanced tendrán una ventana de contexto más amplia y podrán subir un PDF de 500 páginas, vídeos de una hora de duración o hasta 30.000 líneas de código

Si estamos viendo un vídeo en YouTube y se requiere de Gemini, este podrá realizar consultas sobre el vídeo que estemos viendo. Tanto en YouTube como en cualquier plataforma de vídeos o fotos no será necesario que se abra una aplicación separada para utilizar Gemini, ya que se desarrollará en una ventana flotante. Todo esto se traduce en una mejor experiencia.

En cuanto a Gemini Nano, este será multimodal en los dispositivos Pixel, lo que significa que pondrá comprender más información en otros formatos como imágenes, sonidos y voz y no necesitará Internet. También tendremos novedades en cuanto a las llamadas, ya que si nos intentan estafar, el teléfono será capaz de detectarlo con una advertencia gracias a Gemini.

#GoogleIO pic.twitter.com/zFVu8yOWI1— Google (@Google) May 14, 2024 " data-id="https://twitter.com/hashtag/GoogleIO?src=hash&ref_src=twsrc%5Etfw">#GoogleIO pic.twitter.com/zFVu8yOWI1— Google (@Google) May 14, 2024 ">

"));

Apúntate a nuestra newsletter y recibe en tu correo las últimas noticias sobre tecnología.