blog.cloudflare.com/18-november-20… みんなが事故報告書を分析しているので、私も見てみることにします。 AIに簡単な分析をさせてみて下さい: 1. ClickHouse データベースの権限を変更しました (非常に小さな日常的な操作)。 2. 権限が変更されると、ClickHouse のクエリ動作が変更され、ボット管理機能ファイルの生成時に同じデータ行が数万回書き込まれるようになりました。 3. 通常、この機能ファイルは数 MB しかありませんが、今回は数倍の大きさになっています。 4. 世界中の何十万ものエッジ サーバーが、数分ごとに最新の機能ファイルを自動的に取得します。 5. サーバー上で実行されるボット管理モジュール コードには、ハードコードされたサイズ制限があります。 6. ファイル数がこの制限を超えると、Bot 管理モジュールがクラッシュするか、読み込みを拒否します。 7. このモジュールがクラッシュすると、コア プロキシ システム全体 (Frontline、略して FL および FL2) が使用できなくなります。 分析結果を確認した結果、これほど大規模なシステムで問題を回避するのは非常に困難であることがわかりました。あまりにも複雑なため、細部まで完全に理解できる人は誰もいません。この設定行を書いた人は、ボット管理チームがサイズ制限をハードコードしていることさえ知らないのではないでしょうか。 システムが大きくなればなるほど、「基本的なミス」によってシステムがダウンしやすくなります。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。