Cloudflare: una falla mayor relacionada con Bot Management hace caer parte de la Web
La Web estuvo inestable durante varias horas. Este martes, Cloudflare experimentó su falla más grave desde 2019, paralizando una gran parte de Internet, desde X hasta ChatGPT, pasando por Downdetector.
¿El responsable? Un mal funcionamiento en el núcleo del sistema de Bot Management, diseñado para identificar y regular los crawlers automáticos.
Una falla sistémica en uno de los pilares de la infraestructura de la Web
Cloudflare ha estado anunciando durante años que aproximadamente el 20% del tráfico de Internet transita por su red. Su misión: absorber los picos de carga, bloquear masivos ataques DDoS y garantizar la disponibilidad de los sitios frente a variaciones bruscas de tráfico.
Pero el martes, fue la estructura misma la que falló.
El colapso hizo que múltiples servicios importantes se volvieran inaccesibles, recordando pannes previas a nivel global relacionadas con Microsoft Azure o Amazon Web Services. Una realidad que, una vez más, subraya la fragilidad de un Internet centralizado donde actores clave se convierten en puntos críticos de falla.
El problema no provenía de la IA generativa, ni del DNS, ni de un ataque
Matthew Prince, cofundador y CEO de Cloudflare, publicó un artículo detallado para rastrear el origen del problema. A diferencia de las primeras hipótesis —incluyendo un posible ataque tipo DDoS—, el incidente se debió a un mal funcionamiento interno, relacionado con el sistema de permisos de una base de datos.

Más precisamente, al componente encargado de generar las puntuaciones de bots, esenciales para distinguir entre solicitudes humanas y bots legítimos… o maliciosos.
Un cambio en ClickHouse como origen del problema
El machine learning que impulsa Bot Management depende de un archivo de configuración que se actualiza con frecuencia. Sin embargo, un cambio en el comportamiento de las solicitudes de ClickHouse responsables de este archivo introdujo una multiplicación de «feature rows» duplicadas.
Como resultado: el archivo de configuración creció en tamaño, superando los límites de memoria previstos, lo que terminó por hacer caer el proxy central que manejaba el tráfico dependiente del módulo de bots.
Los clientes que utilizaban reglas basadas en las puntuaciones generadas vieron su tráfico legítimo bloqueado —una gigantesca serie de falsos positivos.
Por el contrario, los clientes que no utilizaban estas puntuaciones… no se vieron afectados.
Los bots de IA no son la causa, pero la cuestión sigue siendo sensible
Cloudflare ha intensificado recientemente sus esfuerzos contra los crawlers utilizados para entrenar las IA generativas. Recordamos, en particular, el anuncio del sistema AI Labyrinth, diseñado para atrapar a los bots que ignoran las directrices «no crawl».

Sin embargo, Prince enfatiza: esta falla no tuvo relación alguna con las nuevas herramientas basadas en IA. Es un defecto de proceso, no una falla de la tecnología experimental.
Cloudflare promete cambios estructurales
Para evitar que un incidente como este se repita, la empresa anuncia cuatro medidas clave:
- Fortalecer la gestión de los archivos de configuración generados por Cloudflare, como si fueran de usuarios externos.
- Activar más switches globales, permitiendo desactivar rápidamente funcionalidades en caso de fallos.
- Limitar la capacidad de core dumps y errores del sistema para no agotar los recursos.
- Revisar todos los modos de falla de los módulos críticos del proxy.
Una respuesta técnica completa, pero que no resuelve la cuestión fundamental: la Web depende cada vez más de infraestructuras centralizadas, y cada falla se convierte en un riesgo sistémico.
Una falla que plantea una cuestión más amplia
Este incidente en Cloudflare se suma a una serie de fallas que han afectado a Microsoft, AWS y otros gigantes. A medida que la Web confía en unos pocos actores centrales, las pannes se vuelven menos frecuentes, pero mucho más impactantes.
La Internet moderna no es solo una red distribuida: es un ecosistema donde algunos nodos se han vuelto vitales. Y cuando uno de ellos falla, es una parte del mundo conectado la que tambalea.




