blog.cloudflare.com/18-november-20… 大家都在分析事故報告我也來看下 簡單讓AI分析下: 1. 他們改變了一個ClickHouse 資料庫的權限(很小的常規操作)。 2. 權限一改,ClickHouse 的查詢行為變了,導致產生Bot Management 的feature file(特徵檔)時,同一行資料被重複寫了幾萬次。 3. 正常這個feature file 只有幾MB,這次直接變成原來的幾倍以上。 4. 全球數十萬台邊緣伺服器每幾分鐘會自動拉取最新的feature file。 5. 伺服器上跑的Bot Management 模組程式碼裡,有一個硬編碼的大小限制(hard limit)。 6. 檔案一超過這個限制,Bot Management 模組直接崩潰或拒絕載入。 7. 模組一崩,整個核心代理系統(Frontline,簡稱FL 和FL2)就乾不了活了 看了分析發現這種超級大的系統想避免問題真的太難了複雜到沒人能100% 看懂全部細節我敢說寫這行配置的人,可能根本不知道Bot Management 團隊寫了一個硬編碼的size limit。 越大的系統,越容易被一個「低階錯誤」操作乾翻。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。