Matthew Prince (Foto: Divulgação)
A Cloudflare, uma das maiores empresas de distribuição de conteúdo em nuvem (CDN, na sigla em inglês), revelou que a instabilidade em seus serviços que parou a internet na última terça-feira, 18, foi causada por uma mudança na permissão de um dos sistemas de sua base de dados.
Matthew Prince, Chief Executive Officer (CEO) da companhia, esclareceu o ocorrido em um post publicado no blog da organização. Na publicação, o executivo garante que o incidente não foi resultado de um ataque cibernético ou atividades maliciosas de qualquer natureza.
Segundo Prince, o real motivo teria levado a base de dados a produzir diversas entradas em um arquivo usado pelo sistema de gestão por robôs da empresa.
Com a falha, o arquivo dobrou de tamanho, ultrapassando 200 funcionalidades, e se propagou para todas as máquinas da rede da Cloudflare. O software responsável pelo tráfego, por sua vez, alertou o sistema de robôs sobre uma possível ameaça.
Em um primeiro momento, a equipe da Cloudflare suspeitou de um ataque DDoS em larga escala, que logo foi descartado. Ao identificar a raiz do problema, a companhia interrompeu a propagação do arquivo, substituindo-o por uma versão antiga e estável.
De acordo com a empresa, o sistema foi rapidamente restabelecido, fazendo-se necessário concentrar esforços na mitigação da carga do tráfego em diversas partes de sua rede. No final da tarde da terça-feira, todos os sistemas estavam de volta à normalidade.
“Nós sentimos muito pelo impacto causado nos nossos clientes e na internet como um todo. Devido à importância da Cloudflare no ecossistema virtual, qualquer falha é inaceitável. Sabemos que nós os decepcionamos”, comentou Prince.
Na publicação, o CEO ainda reforçou que o pronunciamento é o começo, mas não o final do compromisso da empresa em garantir que uma falha como essa não se repita novamente.
Pensando nisso, a Cloudflare irá reforçar a ingestão de arquivos de configuração gerados internamente, assim como já faz com os gerados por usuários.
A empresa também prometeu seguir habilitando mais interruptores de desligamento globais, além de eliminar a habilidade de despejos de memória ou outros erros sobrecarregarem os sistemas e revisar modos de falhas para condições de erros em todos seus módulos de servidores intermediários centrais.
Conforme a companhia, esse foi seu pior incidente desde 2019, quando uma nova regra de segurança esgotou as CPUs em todos os núcleos de tráfego HTTP e HTTPS de sua rede globalmente.
Desde então, a empresa experimentou apenas indisponibilidades em seu dashboard e de funcionalidades recém-implementadas, eventos que não prejudicaram largamente o tráfego em suas redes.
