X (Twitter)

blog.cloudflare.com/18-november-20… Todo mundo está analisando o relatório do acidente, então eu também vou dar uma olhada. Deixe a IA fazer uma análise simples: 1. Eles alteraram as permissões de um banco de dados ClickHouse (uma operação muito simples e rotineira). 2. Após a alteração das permissões, o comportamento de consulta do ClickHouse mudou, fazendo com que a mesma linha de dados fosse gravada dezenas de milhares de vezes ao gerar o arquivo de recursos de gerenciamento de bots. 3. Normalmente, este arquivo de recursos tem apenas alguns MB, mas desta vez ele ficou várias vezes maior. 4. Centenas de milhares de servidores de borda em todo o mundo baixam automaticamente os arquivos de recursos mais recentes a cada poucos minutos. 5. O código do módulo de gerenciamento de bots em execução no servidor possui um limite de tamanho predefinido. 6. Se o número de arquivos exceder esse limite, o módulo de Gerenciamento de Bots irá falhar ou se recusará a carregar. 7. Se este módulo falhar, todo o sistema proxy principal (Frontline, ou FL e FL2 para abreviar) ficará inutilizável. Após analisar o problema, percebi que evitar problemas em um sistema tão grande é incrivelmente difícil. É tão complexo que ninguém consegue compreender todos os detalhes. Ouso dizer que a pessoa que escreveu essa linha de configuração provavelmente nem sabe que a equipe de Gerenciamento de Bots definiu um limite de tamanho fixo no código. Quanto maior o sistema, mais facilmente ele pode ser derrubado por um "erro básico".

Thread de Viking (@vikingmute)

Informações do autor

Conteúdo da thread