Opportunity Description
Sobre a vaga
Estamos em busca de um(a) Site Reliability Engineer (SRE) Sênior com experiência em Microsoft Azure para fortalecer nosso time de engenharia de confiabilidade. Você será responsável por garantir a disponibilidade, performance e resiliência dos sistemas dos nossos clientes.
Responsabilidades
- Definir e monitorar SLIs, SLOs e Error Budgets para serviços críticos
- Projetar e implementar soluções de alta disponibilidade e disaster recovery no Azure
- Automatizar operações de infraestrutura e reduzir toil
- Implementar e manter stack de observabilidade (Azure Monitor, Grafana, Prometheus, ELK)
- Conduzir análises post-mortem e implementar ações corretivas
- Gerenciar clusters Kubernetes (AKS) em produção
- Desenvolver runbooks e playbooks para resposta a incidentes
- Implementar práticas de Chaos Engineering para testar resiliência
- Otimizar custos de infraestrutura e pe...
Interested in this opportunity? Apply now through Expertini.
Apply for this Position