Qué es Phi-2, el modelo de lenguaje pequeño que te permitirá llevar IA en tu PC o tu móvil

El modelo de lenguaje pequeño de Microsoft tiene un rendimiento igual o superior a modelos 25 veces más grandes.

La inteligencia artificial (IA) ha demostrado a lo largo de este 2023 que puede llegar a ser toda una revolución tecnológica, algo que el cofundador de Microsoft, Bill Gates, defiende en varias ocasiones en su blog personal. Su empresa es una de las más implicadas en el avance de este sector y una prueba de ello es su inversión en OpenAI, la empresa especializada detrás de modelos como ChatGPT, DALL-E o Whisper. Pero la multinacional quiere ir más allá y, recientemente, han lanzado un modelo de lenguaje pequeño con un rendimiento que supera a otros modelos.

Mientras Google intenta pisarle los talones a Microsoft con el avance en IA con la presentación de su modelo Gemini, que promete ser el más potente jamás creado, la otra Big Tech parece que sigue teniendo la delantera. El último anuncio se trata de Phi-2, un modelo de lenguaje que utiliza 2.700 millones de parámetros de razonamiento y comprensión de lenguaje con un rendimiento igual o incluso superior a modelos hasta 25 veces más grandes.

Gemini, inteligencia artificial de Google.

Estos son todos los cambios que trae Gemini, la nueva inteligencia artificial de Google

Generalmente, los modelos de lenguaje de grande (LLM) trabajan con millas de millones de parámetros. Phi-2 lo hace con menos de 3.000 millones. Esto demuestra que los existentes pueden reducir su tamaño sin que esto repercuta en sus capacidades, algo que Microsoft ha anunciado que quiere hacer.

¿Cómo es Phi-2, la nueva IA de Microsoft?

El modelo de lenguaje pequeño (SLM) de la marca de Bill Gates recurre a algunas estrategias para la capacitación, como la selección de datos, que es lo que permite que tenga un rendimiento similar a los LLM con solo 2,7 mil millones de parámetros.

En una publicación de la firma en X (antes Twitter), han asegurado que su nuevo programa de IA de texto a texto es "lo suficientemente pequeño como para ejecutarse en una computadora portátil o un dispositivo móvil"

Según ha recalcado Microsoft, Phi-2 está diseñado para usarse en campos como la investigación, la interpretación mecánica o las mejoras de ciberseguridad. Sus desarrolladores no se atreven a apuntar que su modelo es mejor que otros más grandes, pero sí dice que se debate en que tengan un rendimiento "igual o superior" que los que son hasta 25 veces mayores.

Las pruebas que han realizado sus investigadores demuestran que Phi-2 da mejores resultados que Llama 2 de Meta, en los parámetros 7B y 13B, y que Mistral. Sobre todo, el equipo de Microsoft destaca el rendimiento en tareas de cálculo de varios pasos, como las relacionadas con codificación y matemáticas.

De momento, el modelo está habilitado como parte del catálogo de herramientas de IA de Azure AI Studio. Asimismo, desde Microsoft, aclaran que solo puede usarse para "fines de investigación no comerciales y que no generen ingresos".

El entrenamiento de Phi-2: con datos de calidad de un libro de texto

Microsoft ha confirmado que, para su entrenamiento, se han centrado en la utilización de información "de calidad de libro de texto". Según explicaron en su presentación, los datos escogidos contienen conjuntos de datos sintéticos "creados específicamente para enseñar al modelo de razonamiento con sentido común y conocimientos generales".

La compañía recurrió a información sobre ciencia, a actividades diarias y la teoría de la mente, entre otras cosas. Los desarrolladores recalcan que seleccionaron los datos web que usaron en su entrenamiento "cuidadosamente", filtrándolos según su valor educativo y su calidad.

Su entrenamiento fue el fruto de 14 días usando un total de 96 tarjetas gráficas A100 de Nvidia. Además, las Big Tech han detallado que no han recurrido al aprendizaje reforzado a partir de la retroalimentación humana (RLHF) y, gracias a ello, han observado "un mejor comportamiento" con respecto a los sesgos o a las respuestas con toxicidad.

El entrenamiento y el uso de modelos de lenguaje grande consumen demasiada agua y energía, más de la que crees.

Las limitaciones de ChatGPT en España tras las aprobación de la Ley de Inteligencia Artificial

Phi-1, la versión anterior de la IA

El equipo de Microsoft Research lleva meses trabajando en Phi-2, sin embargo, antes ya disponía de una primera versión que funcionaba con 1.300 millones de parámetros. Este antecesor del nuevo SLM tenía gran capacidad de codificación Python.

Más adelante, llegó Phi-1.5, que tenía un rendimiento parecido a modelos de un tamaño cinco veces mayor. Sin embargo, lo que ha conseguido Microsoft con Phi-2 nunca antes se había visto.

Apúntate a nuestra newsletter y recibe en tu correo las últimas noticias sobre tecnología.