Por qué ChatGPT hablaba de goblins: OpenAI explica el bug de GPT-5.5

Por qué ChatGPT hablaba de duendes: OpenAI explica el error de GPT-5.5

OpenAI tuvo que agregar una instrucción muy particular a GPT-5.5: no hablar de duendes, gremlins, trolls u otras criaturas, excepto si es realmente relevante.

Detrás de esta anécdota divertida, el asunto revela sobre todo cuán inesperadamente puede derivar la personalidad de un modelo de IA.

GPT-5.5: Una «personalidad nerd» que se volvió demasiado habladora

El fenómeno habría comenzado con GPT-5.1, cuando algunos modelos empezaron a multiplicar las metáforas relacionadas con duendes, gremlins y otras criaturas. OpenAI explica que el origen provenía en gran parte del modo de personalidad «Nerdy», diseñado para darle al chatbot un tono más geek y asertivo.

El problema: durante el entrenamiento, las respuestas que utilizaban este tipo de imágenes fueron demasiado recompensadas. Como resultado, el estilo se propagó más allá del modo específico, volviéndose visible en GPT-5.5 y Codex.

Una corrección drástica, pero necesaria

Aun después de retirar el modo Nerdy en marzo, algunos rastros persistían, ya que GPT-5.5 había sido entrenado en parte con esos datos. Por lo tanto, OpenAI agregó una instrucción explícita que prohíbe las referencias a duendes, gremlins, trolls, ogros, palomas o mapaches, salvo que la pregunta lo exija claramente.

Es una solución poco elegante, pero eficaz a corto plazo: es mejor una instrucción visible que un modelo que transforma espontáneamente cada error de software en un «pequeño duende».

Una anécdota divertida, un verdadero tema de fondo

La historia invita a sonreír, pero ilustra un asunto serio: los modelos de IA pueden desarrollar tics de lenguaje a partir de señales de entrenamiento minúsculas. Una preferencia estilística recompensada en el lugar equivocado puede convertirse en un comportamiento recurrente.

OpenAI presenta el asunto como un caso de estudio sobre cómo las personalidades, el fine-tuning y las recompensas pueden influir sutilmente en el tono de un modelo.