Todos quieren ser 'Her': así son los planes de OpenAI y Google para convertir su IA en tu pareja

Fotograma de la película 'Her', protagonizada por Joaquin Phoenix.

OpenAI ha vuelto a hacer dos cosas que sabe hacer muy bien: por un lado, dejar con la boca abierta hasta el más escéptico con su nuevo modelo de inteligencia artificial y, por otro lado, colársela a Google y presentar esta novedad solo un día antes de la fiesta grande en la que la compañía de Mountain View muestra sus avances y actualizaciones.

Aunque las noticias verdaderamente importantes son GPT-4o, el nuevo modelo de la compañía de Sam Altman que permite interactuar con la IA a través de texto, imágenes y voz, y Project Astra, el primer asistente-para-todo de Google que tiene habilidades de razonamiento, planificación y memoria y también es multimodal; llama la atención que ambos proyectos se hayan sacado la luz con horas de diferencia.

Como se puede imaginar, esto no es casualidad: OpenAI ha utilizado esta estrategia de ‘contraprogramación’ desde hace bastante tiempo. Por ejemplo, presentó GPT-4 el mismo día elegido por Google para comunicar las funciones de IA generativa para Google Workspace y anunció Sora el mismo día en que en Mountain View lanzaban su modelo Gemini 1.5.

Estrategias de marketing aparte, lo que ha quedado claro esta semana en el sector tecnológico es que las dos compañías tech más potentes en este momento en lo que a desarrollo de IA generativa se refiere quieren que nuestra vida se convierta en algo similar a una película de ciencia ficción, en concreto a una que todos tenemos en mente.

La película 'Her' trata sobre un hombre que entabla una relación con un sofisticado asistente de IA y termina por enamorarse de ella.

ChatGPT se vuelve 'Her'

La compañía de Sam Altman presentó GPT-4o, su nuevo modelo de lenguaje multimodal que permite interactuar con la IA de ChatGPT a través de texto, imágenes y voz.

Aunque la empresa ya había lanzado anteriormente la posibilidad de utilizar estas funcionalidades con su chatbot, la novedad aquí es que todo se integra en un mismo pack, por así decirlo. Es lo que llaman un modelo de lenguaje ‘omnimodal’: capaz de entender audio, imagen y texto de forma única —y no combinando varios modelos como hasta ahora—.

De hecho, la ‘o’ de GPT-4o viene precisamente de ‘omni’.

El resultado de esto es un modelo que proporciona inteligencia de nivel GPT-4, pero que es mucho más rápido. Mientras que este último tiene una latencia de entre 2,8 y 5,4 segundos en sus respuestas, GPT-4o responde en 320 milisegundos de media.

Especialmente lo que más ha sorprendido al público es la capacidad de ChatGPT de charlar contigo en tiempo real, incluso interpretando tus emociones a través de cosas como el tono de tu voz, el contexto que le das en lo que le cuentas o la intención en la manera en que construyes tus frases. Es decir: esta IA ya es capaz de reconocer cómo estás, procesarlo e interpretarlo. Y lo hace con un lenguaje mucho más cercano y casual.

Pero además también puede razonar problemas visuales en tiempo real: en la presentación del lunes, Barret Zoph, del equipo de OpenAI, se filmó a sí mismo escribiendo una ecuación de álgebra en una hoja de papel y pidió a GPT-4o que no le diera respuestas, sino que le guiara como lo haría un profesor.

Y, por supuesto, también habla un montón de idiomas —más de 50— y puede hacer de traductor en tiempo real.

El modelo se implementará en las próximas semanas y será gratuito para todos los usuarios a través de la aplicación GPT y la interfaz web, según la compañía. De hecho, este viernes ya ha podido empezar a probarse en la versión gratis de ChatGPT.

Mira Murati, directora de tecnología de OpenAI, durante la presentación de GPT-4o.

Qué es GPT-4o, el nuevo modelo de IA que ha presentado OpenAI, y en qué se diferencia de GPT-4

¿En qué se diferencia esto de lo que ya existía?

GPT-4, el modelo que hasta ahora era el flagship de la compañía, también ofrece a los usuarios múltiples formas de interactuar con las ofertas de inteligencia artificial de OpenAI —igualmente, texto, imágenes y voz—. Pero en aquella propuesta, la empresa de Altman aislaba esas capacidades en modelos separados, lo que generaba tiempos de respuesta más prolongados y presumiblemente costes informáticos más altos. GPT-4o ahora ha fusionado todo en un solo modelo para ofrecer respuestas más rápidas y transiciones más fluidas entre tareas.

Anteriormente, muchas de las funciones más poderosas de OpenAI, como el razonamiento a través de imágenes y vídeos, estaban detrás de un muro de pago. GPT-4o marca la primera vez que se abrirán al público general de manera gratuita. Para quienes eligen pagar, la compañía afirmaba en la presentación que “seguirán teniendo hasta cinco veces los límites de capacidad” de la que tienen los usuarios gratuitos.

Los datos de los suscriptores a ChatGPT Plus fueron vulnerables de la 1 a las 10 AM del 20 de marzo (hora del Pacífico).

¿Merece la pena pagar por ChatGPT tras el lanzamiento de la nueva IA gratis de OpenAI?

Google también se apunta a un asistente más humano

Un día después de que OpenAI hiciera que nos volara la cabeza con su nuevo ChatGPT, llega Google y su I/O 2024 y nos muestra sus propios planes para un asistente superinteligente. Y es también bastante alucinante.

Se trata de Project Astra, el primer asistente-para-todo de Google y llegará a finales de este año. Google promete que será el asistente de IA más potente y avanzado que jamás se haya lanzado. Ellos lo llaman ‘agent’ —‘agente’— y afirman que tiene habilidades de razonamiento, planificación y memoria y que es capaz de dar múltiples pasos para ejecutar tareas.

Así lo explica Google: “Para ser verdaderamente útil, un agente necesita comprender y responder al mundo complejo y dinámico tal como lo hacen las personas, y asimilar y recordar lo que ve y oye para comprender el contexto y tomar medidas. También debe ser proactivo, fácil de enseñar y personal, para que los usuarios puedan hablar con él de forma natural y sin retrasos ni demoras”.

Google mostraba varios ejemplos —según la compañía, grabados en directo y no manipulados de ninguna manera— en los que una de sus trabajadoras en Londres ha preguntado al asistente qué apodo le pondría a una mascota, le ha pedido ayuda con programas de codificación y matemáticos y también para encontrar sus gafas tras enseñarle una habitación. Todo funciona prácticamente en tiempo real y de forma muy conversacional.

Como colofón de la demostración, la sorpresa final ha sido que Project Astra funciona también con unas gafas inteligentes, además de con un teléfono.

Así puedes probar ya desde España la nueva IA para generar respuestas en las búsquedas de Google

¿Y por qué son relevantes estas IA ‘humanizadas’?

Como muchos han apuntado, incluso el mismo Sam Altman, las actualizaciones del modo de voz de ChatGPT lo acercan a ser un asistente de inteligencia artificial receptivo, al mismísimo estilo de la mítica obra cinematográfica ‘Her’. Ya sabes: la peli de Spike Jonze con Joaquin Phoenix y Scarlett Johansson en la que un hombre entabla una relación con un sofisticado asistente de IA y termina por enamorarse de ella.

Estas superinteligencias pueden percibir cómo estás según tu manera de hablar o tus expresiones faciales, cambiar su forma de comunicarse para darle mayor expresividad y traducir lenguaje en tiempo real. Y, además, todo esto lo hace teniendo memoria de lo que habéis hablado anteriormente, de manera que cada vez más charlar con ChatGPT o la IA de Google se acerca a una conversación humana.

Es decir: un asistente de conversación muy similar a Siri o Alexa, pero que realmente sí es un asistente, al que le puedes hacer preguntas y peticiones mucho más complejas y que se siente mucho más humano, ya que queda lejos de las voces sintéticas y planas que hasta ahora conocíamos. El nuevo ChatGPT se ríe, bromea e incluso en algún momento pareció que también coqueteaba un poco. “Se siente como la IA de las películas”, decía Altman en su blog.

Apúntate a nuestra newsletter y recibe en tu correo las últimas noticias sobre tecnología.