Harry Potter, 50 sombras de Grey, 1984, El código Da Vinci... Estos son los libros que han entrenado a ChatGPT

Que ChatGPT se enfoque en el proceso y no en el resultado facilitará su entrenamiento matemático.
Que ChatGPT se enfoque en el proceso y no en el resultado facilitará su entrenamiento matemático.
Viralyft de Unsplash
Que ChatGPT se enfoque en el proceso y no en el resultado facilitará su entrenamiento matemático.

David Bamman intentaba analizar Orgullo y prejuicio digitalmente. Bamman, científico de la información de la Universidad de Berkeley, utiliza los ordenadores para reflexionar sobre el arte y construir lo que denomina "dispositivos algorítmicos de medición de la cultura". En otras palabras, extrae datos de la literatura clásica sobre cosas como, por ejemplo, las relaciones entre varios personajes. En este caso, iba a empezar con una pregunta que sería fácil de responder incluso para un ser humano mínimamente alfabetizado: ¿Son Lizzie y Jane mejores amigas o solo hermanas?

Para divertirse, Bamman decidió primero preguntar a ChatGPT. Se preguntó qué pasaría si introdujera 4.000 palabras de Orgullo y prejuicio y planteara una pregunta sencilla como ¿cuáles son las relaciones entre los personajes?

Para su asombro, funcionó. La versión GPT-4 del chatbot fue asombrosamente precisa al describir el árbol genealógico de la familia Bennet. De hecho, era casi como si hubiera estudiado la novela de antemano. "Era tan bueno que me hizo sospechar. O se sabía muy bien la tarea, o había visto Orgullo y prejuicio en Internet un millón de veces, y conoce el libro muy bien", afirma Bamman.

El problema es que no había forma de saber cómo GPT-4 sabía lo que sabía. El funcionamiento interno de los grandes modelos lingüísticos es una caja negra; los conjuntos de datos con los que se entrenan son tan importantes para su funcionamiento que sus creadores los mantiene en secreto. Así que el equipo de Bamman decidió convertirse en "arqueólogos de datos". Para averiguar qué había leído GPT-4, hacían preguntas sobre varios libros. Dependiendo del grado de conocimiento que mostrase el chatbot, puntuaban su conocimiento sobre cada libro en cuestión. Cuanto más alta era, más probable era que el libro formara parte del conjunto de datos del robot, no solo para ayudarle a generar nuevo lenguaje, sino para memorizarlo.

El equipo presentó sus conclusiones en un primer artículo, que todavía debe ser revisado para ser publicado en una revista científica. De momento, es apenas una aproximación al canon del chatbot. Se incluyen, como era de esperar, los clásicos: desde Moby Dick y La letra escarlata hasta Las uvas de la ira y, sí, Orgullo y prejuicio. También hay un montón de novelas populares, desde Harry Potter y Sherlock Holmes hasta El Código Da Vinci y Cincuenta sombras de Grey. Pero lo más sorprendente es la cantidad de ciencia ficción y fantasía que conoce GPT-4. La lista es asombrosa: J.R.R. Tolkien, Ray Bradbury, William Gibson, Orson Scott Card, Philip K. Dick, Margaret Atwood, Juego de Tronos e incluso La guía del autoestopista galáctico.

Lo que hay en la lista de lectura de GPT-4 es más que una cuestión académica. Los bots no son inteligentes. No entienden el mundo de la misma forma que un ser humano. Pero si quieres conocer a alguien (o algo, en este caso), echar un vistazo a su estantería ayuda bastante. Los chatbots no solo inventan hechos falsos, repiten groserías y emiten una retahíla de palabras insípida y homogeneizada. Resulta que también son muy frikis.

Apúntate a nuestra newsletter y recibe en tu correo las últimas noticias sobre tecnología.

Mostrar comentarios

Códigos Descuento