blog.cloudflare.com/18-november-20… Todos están analizando el informe del accidente, así que yo también le echaré un vistazo. Dejemos que la IA realice un análisis sencillo: 1. Cambiaron los permisos de una base de datos de ClickHouse (una operación rutinaria muy menor). 2. Una vez que se cambiaron los permisos, el comportamiento de consulta de ClickHouse cambió, lo que provocó que la misma fila de datos se escribiera decenas de miles de veces al generar el archivo de características de gestión de bots. 3. Normalmente este archivo de características es solo de unos pocos MB, pero esta vez se ha vuelto varias veces más grande. 4. Cientos de miles de servidores perimetrales en todo el mundo descargan automáticamente los archivos de características más recientes cada pocos minutos. 5. El código del módulo de gestión de bots que se ejecuta en el servidor tiene un límite de tamaño predefinido. 6. Si el número de archivos excede este límite, el módulo de gestión de bots fallará o se negará a cargarse. 7. Si este módulo falla, todo el sistema proxy central (Frontline, o FL y FL2 para abreviar) quedará inutilizable. Tras revisar el análisis, me di cuenta de que evitar problemas en un sistema tan grande es increíblemente difícil. Es tan complejo que nadie puede comprender todos los detalles por completo. Me atrevería a decir que quien escribió esta línea de configuración probablemente ni siquiera sabe que el equipo de gestión de bots ha establecido un límite de tamaño fijo. Cuanto mayor sea el sistema, más fácilmente podrá colapsar por un "error básico".
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.