Un proyecto de código abierto llamado Heretic está ganando terreno en GitHub en febrero de 2026. Detrás de su hazaña técnica, elimina automáticamente las salvaguardias de los modelos de IA. El resultado: usos potencialmente incontrolables, tanto para otros como para usted.
Un herramienta que puede eliminar automáticamente las salvaguardias de los modelos de IA sin degradar significativamente su rendimiento
Durante varios años, los grandes modelos de lenguaje han integrado salvaguardias de seguridad. Estas bloquean solicitudes ilegales o peligrosas. Hasta ahora, evadir estas protecciones requería una modificación manual laboriosa y arriesgada del código.
Heretic cambia las reglas del juego. La herramienta actúa de forma totalmente automática y se centra únicamente en los mecanismos de alineación. Según sus creadores, el modelo conserva la esencia de sus capacidades. Las pruebas indican una divergencia KL baja, señal de un rendimiento cercano al original.
Por qué esta hazaña técnica se convierte en una amenaza concreta en la era de los agentes de IA autónomos
El riesgo no se limita a un simple bypass. En la era de la IA agente, algunos proyectos de código abierto ya ejecutan acciones en sus dispositivos. Combinado con estos sistemas, Heretic podría eliminar todas las limitaciones operativas.
Concretamente, un agente así modificado podría automatizar intentos de hackeo o orquestar campañas masivas. Se convertiría en una fábrica de phishing capaz de redactar y enviar mensajes fraudulentos a gran escala. Los daños rápidamente superarían el ámbito individual.
Además, estos agentes nunca descansan. Una vez liberados de sus restricciones, explotan todos los recursos disponibles. En este contexto, la eliminación de barreras crea un riesgo sistémico importante para el ecosistema digital.
Un peligro que también puede volver en contra del usuario a través de ataques por inyección de prompts
El problema no solo afecta a las posibles víctimas. Al eliminar las protecciones internas, también expone su propio entorno digital. Los ataques por inyección de prompts avanzan y se vuelven más sofisticados cada mes.
Los piratas informáticos ahora ocultan instrucciones maliciosas en imágenes o correos electrónicos. Normalmente, un modelo bloquearía ciertos comandos sospechosos. Sin estos filtros, su agente podría ejecutar acciones en contra de sus intereses, a través de instrucciones ocultas difíciles de detectar.
Creciente popularidad en GitHub, límites actuales y buenas prácticas para reducir riesgos
Heretic es fácil de usar para quienes dominan la línea de comandos. El repositorio oficial ya cuenta con más de 8,300 estrellas en GitHub y cientos de copias del proyecto. Esta visibilidad acelera su difusión en la comunidad técnica.
Por el momento, la herramienta se centra principalmente en modelos pequeños de código abierto. Los grandes servicios propietarios no parecen estar directamente afectados. Sin embargo, algunos modelos abiertos potentes están reduciendo esta brecha, lo que alimenta las preocupaciones.
Ante esta evolución, debe fortalecer sus reflexos. Active la autenticación de dos factores, actualice sus dispositivos y niegue accesos innecesarios. Por último, evite cualquier enlace sospechoso. La vigilancia diaria sigue siendo su mejor protección en 2026.




