1 - Período do problema
2 - Como fomos avisados?
Identificamos a instabilidade dos serviços por meio do monitoramento ativo das métricas, durante o processo de manutenção de rotina na infraestrutura que estava em execução.
3 - O que aconteceu?
Identificamos um aumento abrupto na taxa de erros 500 retornados pela API de Busca Impulse, sendo que, a partir das 15:45, a taxa de erros foi reduzindo até a sua normalização integral às 16:15 horas.
4 - Impactos do problema
Boa parte dos nossos clientes foram de alguma forma afetados durante o período de instabilidade da API de Busca Impulse.
5 - Solução do problema
Processos internos de manutenção foram revisados, a fim de mitigar impactos em futuras mudanças do mesmo tipo.