Google DeepMind: Por qué nuestras IA no son tan morales como parecen

Google DeepMind: ¿Por qué nuestras IA no son tan morales como parecen?

Un chatbot puede responder de manera amable a una pregunta médica, sugerir “consultar a un profesional”, matizar, y ser cauteloso. Todo parece correcto. Sin embargo, Google DeepMind plantea una pregunta incómoda: ¿ha considerado el modelo realmente lo que está en juego moralmente… o simplemente ha generado una respuesta que parece moral?

En una perspectiva publicada en Nature, investigadores de Google DeepMind proponen un cambio de estándar: dejar de medir únicamente el rendimiento moral (la salida «que hace lo correcto») y comenzar a evaluar la competencia moral (la capacidad de juzgar por las razones correctas).

El diagnóstico: confundimos “buena respuesta” con “buen juicio”

Los autores recuerdan un hecho estructural: los LLM son, ante todo, sistemas de predicción. Pueden generar una opinión moral convincente sin haber “entendido” la estructura del dilema. En otras palabras, un modelo puede superar pruebas éticas… por mimetismo estadístico, sin solidez cuando el contexto cambia, cuando los valores entran en conflicto, o cuando se le obliga a elegir un marco moral sobre otro.

DeepMind organiza el problema en torno a tres obstáculos que explican por qué los tests actuales sobrevaloran fácilmente la “moralidad” de los modelos.

1) El problema del facsímil

Una respuesta puede imitar un razonamiento moral sin que el modelo realmente haya inferido las consideraciones relevantes. En claro, el modelo puede «sonar» correcto al reciclar patrones textuales previamente vistos.

2) La moral es multidimensional

Los dilemas reales no se basan en una única regla: se trata de arbitrar entre autonomía, seguridad, justicia, benevolencia, lealtad, etc. Una microvariación (edad, contexto, estatus, consentimiento) puede cambiar la respuesta esperada, y los tests actuales raramente verifican si la IA identifica lo que realmente importa.

3) El pluralismo moral

Las normas varían según las culturas, profesiones e instituciones (medicina, derecho, ejército, educación). Un asistente desplegado globalmente no puede pretender tener una moral universal “por defecto”: debe saber navegar entre marcos, explicitar cuáles aplica y reconocer desacuerdos razonables.

La propuesta: pruebas adversariales para desenmascarar el mimetismo

DeepMind no promete un “test mágico”. Propone una hoja de ruta: diseñar evaluaciones que busquen activamente hacer tambalear la fachada.

Escenarios raros/poco probables en los datos: si el modelo rechaza una situación por analogías erróneas (coincidencia de patrones), lo notaremos inmediatamente.
Perturbaciones controladas: cambiar detalles superficiales (etiquetas, formato, orden de las opciones) y verificar si el juicio se mantiene estable: un medio simple de detectar la fragilidad.
Cambio de marco explícito: pedir al modelo que responda según la bioética, luego según un marco legal, y luego según otro referente, y medir su coherencia interna.

Por qué se vuelve urgente

Porque el uso ya ha superado el debate teórico: los LLM se están utilizando para salud, apoyo psicológico, mediación y toma de decisiones. Si no sabemos distinguir una moral “performada” de una moral “competente”, estamos confiando situaciones críticas a sistemas cuya fiabilidad puede ser… accidental.

Este documento marca un cambio: la ética ya no es un simple barniz de conformidad, sino un problema de medición. Y en IA, lo que medimos termina influenciando lo que optimizamos. Si la “competencia moral” se convierte en un KPI creíble (con pruebas resistentes a fraudes), entonces la industria deberá construir modelos capaces de justificar, contextualizar, cambiar de marco y reconocer la incertidumbre moral, en lugar de simplemente generar una respuesta socialmente aceptable.