Anthropic se retracta sobre Claude Fable 5 tras la polémica de las restricciones ocultas

Anthropic recule sobre Claude Fable 5 después de la polémica por las restricciones ocultas

Con su reciente lanzamiento, Claude Fable 5 ya se ve envuelto en una controversia. Anthropic ha admitido haber integrado restricciones invisibles en su nuevo modelo de inteligencia artificial y ahora se disculpa con la comunidad de investigación.

Frente a las críticas, la empresa ha anunciado un cambio importante: ahora los usuarios serán informados cuando ciertas protecciones de seguridad sean activadas. Esta decisión plantea una cuestión fundamental para toda la industria de la IA: ¿hasta dónde pueden los laboratorios controlar sus modelos sin sacrificar la transparencia?

Garde-fous invisibles que desataron la polémica

Claude Fable 5 es el primer modelo de consumo de la nueva generación “Mythos” de Anthropic, una familia de IA que la empresa ha descrito durante meses como lo suficientemente potente como para requerir medidas de seguridad adicionales.

Uno de los mecanismos más controvertidos se refería a la “destilación”, una técnica ampliamente utilizada en la industria para entrenar modelos más pequeños a partir de las respuestas de modelos más avanzados.

En su documentación técnica, Anthropic reveló que Fable 5 podía detectar ciertos intentos de destilación y degradar intencionadamente la calidad de sus respuestas. El problema: el usuario nunca fue informado de que sus resultados habían sido alterados.

En otras palabras, un investigador podía recibir una respuesta incompleta o deliberadamente debilitada sin saber que el sistema había activado una restricción.

Transparencia ahora asumida

Bajo la presión de la comunidad de IA, Anthropic finalmente decidió cambiar este enfoque. Ahora, cuando un usuario active una protección relacionada con la destilación, su solicitud será automáticamente redirigida a Claude Opus 4.8, el antiguo modelo insignia de la empresa. Más importante aún, se emitirá una notificación explícita que indicará que esta sustitución ha ocurrido.

Anthropic ha confirmado que este comportamiento será visible en cada activación de las protecciones.

Esta lógica ya se utiliza en otros ámbitos considerados sensibles, incluyendo: ciberseguridad, biología, química y ciertas solicitudes de alto riesgo.

En estos casos, Claude Fable 5 también cambia a Opus 4.8 o rechaza por completo la solicitud si esta se encuentra bajo las políticas de seguridad más estrictas de la empresa.

Cuando la seguridad se convierte en un problema de confianza

El verdadero desafío va mucho más allá de la mera cuestión de la destilación. Para muchos investigadores, el valor de un modelo de vanguardia se basa en la previsibilidad de su comportamiento. Cuando un sistema modifica discretamente sus respuestas, se convierte en difícil evaluar su rendimiento real o reproducir resultados científicos.

Esta crítica ha sido particularmente fuerte entre los especialistas en evaluación de modelos de IA, que temen que las protecciones invisibles distorsionen los benchmarks y las comparaciones entre sistemas.

Anthropic ahora reconoce este error.

En un mensaje publicado en X, la empresa explica que priorizó un enfoque invisible para limitar los falsos positivos y acelerar el despliegue del modelo. Según la compañía, esta elección resultó ser el compromiso equivocado.

Estamos implementando cambios para hacer visibles las salvaguardias de Fable 5 para el desarrollo de LLM de frontera.
A partir de esta semana, las solicitudes marcadas caerán visiblemente de nuevo a Opus 4.8, de la misma manera que nuestras salvaguardias para la ciberseguridad y la biología. Verás esto cada vez que ocurra. En la API, cualquier solicitud marcada…
— ClaudeDevs (@ClaudeDevs) 11 de junio de 2026

Una batalla estratégica en torno a la destilación

Detrás de esta controversia también se oculta una guerra tecnológica cada vez más intensa entre los grandes laboratorios de IA. Anthropic ve la destilación como un riesgo estratégico mayor. La compañía ha afirmado durante mucho tiempo que ciertas empresas utilizan las respuestas de modelos avanzados para entrenar sus propios sistemas a menor coste.

La empresa ha acusado previamente a algunos competidores chinos, como DeepSeek, de explotar este tipo de métodos a gran escala.

En su documentación técnica, Anthropic justificaba sus restricciones explicando que los modelos de nueva generación podrían acelerar el desarrollo de IA competitivas.

Esta posición ilustra la creciente tensión en el sector: los laboratorios quieren promover la innovación mientras protegen sus enormes inversiones en investigación e infraestructura.

El desafío de los modelos “demasiado potentes”

El episodio Fable 5 también revela las dificultades a las que se enfrentan los desarrolladores de IA de nueva generación. Anthropic intenta actualmente imponer un enfoque intermedio entre la apertura total y el bloqueo completo de sus tecnologías.

En lugar de prohibir sistemáticamente ciertas solicitudes, la empresa busca redirigir las peticiones sensibles a modelos menos potentes pero considerados más seguros.

Teóricamente, esta estrategia parece equilibrada.

En la práctica, sin embargo, plantea un problema de confianza: ¿deben los usuarios aceptar que un modelo modifique discretamente su comportamiento por razones de seguridad? La respuesta de la comunidad parece haber sido clara.

Una advertencia para toda la industria

El retroceso de Anthropic podría tener consecuencias que van más allá de Claude Fable 5. A medida que los modelos se vuelven más potentes y las cuestiones de seguridad ocupan un lugar central, los usuarios exigen ahora más visibilidad sobre los mecanismos que influyen en las respuestas de las IA.

OpenAI, Google, Anthropic y xAI probablemente enfrentarán el mismo desafío en los años venideros: proteger sus sistemas sin convertir sus salvaguardias en cajas negras.

Porque a medida que la inteligencia artificial se establece como una herramienta de investigación, desarrollo y toma de decisiones, la transparencia se vuelve casi tan importante como el rendimiento mismo.