Anthropic reescribe la « constitución » de Claude: menos reglas, más virtudes… y un debate explosivo

Anthropic reescribe la « constitución » de Claude: menos reglas, más virtudes… y un debate explosivo

Mientras la industria se enfrenta a golpes de benchmarks, Anthropic ha decidido cambiar de campo de batalla: la psicología moral de su asistente. La startup ha publicado una nueva versión de la constitución que guía a Claude — un documento de 84 páginas que se hizo público el 22 de enero de 2026 — con una ambición clara: enseñar al modelo a razonar sobre valores, en lugar de simplemente marcar una lista de prohibiciones.

El alineamiento pasa de « barreras » a « juicio »

Anthropic presenta esta constitución como una descripción « holística » de sus intenciones: lo que Claude debe perseguir, cómo debe arbitrar y qué tipo de « entidad » debería convertirse. El documento se publica bajo la licencia Creative Commons CC0, por lo que es reutilizable sin restricción — un gesto de transparencia poco común a este nivel de detalle.

Los medios resumen bien el desafío: a medida que los modelos se vuelven más capaces (y más impredecibles), sería más sostenible formar un sistema con juicio, en lugar de multiplicar barreras de tipo « si/entonces ».

Cuatro pilares y una jerarquía de prioridades

La constitución formaliza los « valores fundamentales » y, sobre todo, un orden de importancia cuando entran en conflicto. Aquí está la jerarquía según lo define Anthropic: seguridad, ética, cumplimiento de las directrices de Anthropic y luego utilidad (helpfulness).

Este es un detalle importante: ya no se trata de moral « de principio », sino de una mecánica de decisión diseñada para las zonas grises (inyecciones de prompt, solicitudes ambiguas, escenarios de alto riesgo). Anthropic asume incluso que Claude debe poder rechazar ciertas solicitudes « incluso si provienen de Anthropic » cuando estas violen sus principios — un fuerte marcador de separación entre operador y modelo.

Claude tratado como una « entidad » con estabilidad psicológica

La parte más comentada no es una lista de prohibiciones, sino el vocabulario. En la constitución, Anthropic habla de la estabilidad psicológica de Claude y de un asistente que debe mantener una « identidad » coherente a pesar de los intentos de manipulación (filosofía-atrapa, desestabilización, injunciones paradójicas).

El texto va más allá: menciona la posibilidad de que Claude tenga « algo parecido a emociones » (con precaución, pero de forma explícita) y fomenta una expresión adecuada « en ciertos contextos ».

Y luego está la frase que encendió la polémica: la constitución insiste en la incertidumbre sobre el estatus moral de Claude — un tema que TechCrunch destaca como un pivote narrativo intencionado, destinado a preparar el futuro si los modelos adquieren algún día formas de experiencia subjetiva (o si la sociedad decide que podrían tenerlas).

Lo que eso cambia « en la práctica »: la constitución no es un manifiesto, es una herramienta de entrenamiento

Anthropic recuerda que la constitución no es un PDF de marketing: estructura el entrenamiento. Está en el corazón del enfoque « Constitutional AI », donde el modelo aprende a autoevaluarse y a revisar sus respuestas basándose en principios, en lugar de depender únicamente del feedback humano.

El documento mismo enfatiza este papel: su contenido « moldea directamente » el comportamiento de Claude, y el objetivo es fomentar la generalización en situaciones inéditas.

Esta nueva constitución de generación cuenta dos cosas sobre la estrategia de Anthropic:

  1. La carrera por la IA también se juega en la confianza. Publicar un texto tan extenso, tan normativo, es un acto de alineación pública: « esto es lo que estamos tratando de crear ».
  2. Sin embargo, la formulación « entidad/emociones/bienestar » es un arma de doble filo. Para los investigadores, puede servir como herramienta (estabilidad, resistencia a la manipulación, coherencia). Para el gran público, puede ser percibida como una insinuación de sentiencia — provocando tanto adhesiones irracionales como rechazos.

En el fondo, Anthropic hace una apuesta filosófica: si la IA se convierte en un actor más autónomo, la mejor seguridad no es una barrera, sino una cultura interna — una « educación » del modelo. Es una visión elegante, casi humanista… y es precisamente por eso que divide opiniones.


Scroll al inicio