SRE Senior
Descrição da vaga
No Banco ABC Brasil, a gente acredita na autenticidade de cada um. Afinal, temos nosso jeito de fazer as coisas, de se relacionar, de transformar negócios e construir um futuro sustentável, de maneira inclusiva, respeitosa e acolhedora. Porque a gente se interessa genuinamente pelas pessoas e cria relações verdadeiras, com confiança e proximidade.
Se você tem paixão por desafios e busca um ambiente onde possa crescer profissionalmente, com autonomia para tocar grandes projetos e sendo protagonista da sua carreira, aqui é o seu lugar! Com a gente, você vai ter oportunidade de atuar diariamente com especialistas do mercado financeiro e ter o acompanhamento e apoio de lideranças estratégicas para construir o seu futuro e contribuir para o nosso crescimento em conjunto.
A gente acredita que cuidar dos nossos colaboradores é o segredo do sucesso. Por isso, oferecemos:
• Benefícios que fazem a diferença
• Opções de desenvolvimento
• Um ambiente que inspira
Estamos em busca de um(a) SRE altamente sênior com perfil "mão na massa" para assumir a linha de frente da confiabilidade e estabilidade dos nossos sistemas mais críticos.
Nesta posição, você será o(a) guardião(ã) e investigador(a) técnico (a) do nosso ecossistema. Você atuará na resolução de incidentes de altíssima complexidade em ambientes multi-cloud, com um protagonismo vital no troubleshooting avançado em nosso ambiente. Seu papel é dominar a operação de baixo nível, garantindo eficiência, segurança e disponibilidade pautadas na cultura SRE.
Está pronto(a) para fazer parte de um time que transforma desafios em oportunidades? Vem com a gente!
Responsabilidades e atribuições
Como SRE Sr., o seu dia a dia terá foco em resolução de problemas estruturais. Suas principais missões serão:
Gestão de Confiabilidade, Incidentes e Cultura SRE
- Acompanhar métricas vitais (SLIs e SLOs);
- Atuar como Nível de Escalonamento Máximo para a Gestão de Problemas na área de SRE;
- Liderar investigações profundas de incidentes crônicos ou estruturais (Root Cause Analysis - RCA), transformando falhas repetitivas em backlog de engenharia para redução de débito técnico;
- Atuar em incidentes em crises severas e conduzir Post-Mortems rigorosos.
Planejamento de Capacidade (Capacity Planning) e DR
- Executar Capacity Planning preditivo para evitar gargalos em períodos de alta sazonalidade.
- Conduzir testes complexos e cenários reais de Disaster Recovery (DR).
Administração Avançada de SO
- Realizar troubleshooting complexo de performance em ambientes heterogêneos;
- Linux: Atuação a nível de Kernel (tuning de sysctl, namespaces, cgroups);
- Windows Server: Resolução de gargalos estruturais (IIS, WMI, Registry tuning), automação avançada via PowerShell e gestão de identidades (Active Directory / Entra ID);
- Atuar em throubleshooting avançado em redes (Nuvem e Onprem)
Governança Avançada, Resiliência e Operação de Kubernetes
- Operação e Estabilidade em Larga Escala: Liderar a operação, manutenção e evolução contínua de dezenas de clusters Kubernetes de missão crítica (EKS), garantindo a estabilidade extrema, atualização (upgrades) e saúde tanto do Control Plane quanto dos Worker Nodes.
- Padrões de Confiabilidade (SRE no K8s): Garantindo a correta utilização de Pod Disruption Budgets (PDBs), Resource Quotas, LimitRanges e Priority Classes, além de monitorar e ajustar a alocação de QoS (Quality of Service) para mitigar OOMKills e CPU Throttling.
- Troubleshooting e Tuning: Atuar como nível máximo de escalonamento para investigações complexas e incidentes críticos no ecossistema Kubernetes. Realizar tuning de performance do API Server e debug avançado de gargalos.
- Troubleshooting Avançado em Kubernetes (EKS): Atuar como escalonamento para problemas complexos em EKS. Você fará a investigação profunda de gargalos e falhas de rede (VPC CNI, CoreDNS, Ingress/Egress, Service Mesh), isolamento de CrashLoops obscuros, contenção de OOMKills, análise de latência no Control Plane, problemas de scheduling, escalabilidade (Cluster Autoscaler/Karpenter) e falhas em Persistent Volumes.
- Redução de Toil e Autorrecuperação: Eliminar o trabalho operacional manual (toil) garantindo a automação do ciclo de vida dos clusters e seus add-ons (estritamente via GitOps), além de atuar na implantação e troubleshooting de Custom Operators (CRDs) para automatizar a resposta a incidentes dentro do cluster.
Infraestrutura como Código (IaC), GitOps e FinOps
- Arquitetar e manter módulos complexos e reutilizáveis via Terraform e/ou CloudFormation, definindo a estratégia de State Management para times distribuídos;
- Atuar com GitOps (ArgoCD ou FluxCD), garantindo o repositório Git como única fonte da verdade (Single Source of Truth);
- Liderar a governança financeira (FinOps): estruturar tags para Chargeback/Showback, remover recursos ociosos, aplicar rightsizing agressivo e gerir instâncias Spot e compromissos (Savings Plans/RI).
Requisitos e qualificações
Requisitos e Qualificações
Formação Acadêmica:
- Graduação completa (Bacharelado ou Tecnólogo) em Ciência da Computação, Engenharia da Computação, Sistemas de Informação ou áreas correlatas.
Experiência Comprovada Exigida:
- Práticas de SRE e Engenharia de Confiabilidade (SLIs, SLOs, Error Budgets, Post-Mortems);
- Sistemas Operacionais (Linux nível Kernel e Windows avançado);
- Computação em Nuvem AWS;
- Computação em Nuvem Azure;
- Computação em Nuvem GCP;
- Containers e Orquestração (EKS, Service Mesh);
- Infraestrutura como Código (IaC) com foco em Terraform avançado e/ou CloudFormation;
- Observabilidade e Monitoramento (Datadog, Prometheus, Grafana, ELK Stack);
- CI/CD e Automação de Pipelines (GitLab CI, GitHub Actions, Azure DevOps);
- Práticas de GitOps (ArgoCD);
- Sistemas de mensageria (SNS/SQS, Kafka);
- Segurança Cloud / DevSecOps (IAM, Zero Trust, WAF, KMS, SAST/DAST);
- Vivência com FinOps e otimização de custos em nuvem.
Certificações Desejáveis / Diferenciais (Recomendadas para o nível da vaga):
- AWS: AWS Certified Solutions Architect - Professional e/ou AWS Certified DevOps Engineer - Professional;
- GCP: Google Cloud Professional Cloud Architect e/ou Professional Cloud DevOps Engineer;
- Azure: Microsoft Certified: Azure Solutions Architect Expert e/ou DevOps Engineer Expert;
- Cloud Native: CKA (Certified Kubernetes Administrator), CKS (Certified Kubernetes Security Specialist).
Informações adicionais
- Assistência Médica;
- Assistência Odontológica Omint;
- Seguro de Vida;
- PLR;
- PPR;
- ABC com Você: um programa que cuida dos colaboradores e seus familiares, com assistência jurídica, social, psicológica e financeira;
- Vale Refeição;
- Vale Alimentação;
- Licença Paternidade e Maternidade estendidas: paternidade 20 dias e maternidade 6 meses;
- Auxílio Creche/Babá;
- Day Off anual;
- Auxílio Home Office;
- Auxílio Infraestrutura para Home Office;
- TotalPass;
Etapas do processo
- Etapa 1: Cadastro
- Etapa 2: Entrevista - Atração de Talentos
- Etapa 3: Entrevista - Gestor
- Etapa 4: Contratação
Quem somos
Somos o ABC Brasil. O banco múltiplo com mais de 35 anos de história, especialistas em soluções financeiras e que impulsiona grandes negócios do país - combinando solidez internacional com a agilidade de uma gestão local, próxima e autônoma.
Com um portfólio completo de produtos e serviços, nosso foco está em gerar impacto real nos nossos clientes, evoluindo com o mercado e conforme as necessidades de cada um deles, sempre com responsabilidade, integridade e confiança mútua.
E esta forma de nos relacionarmos nos torna únicos. Acreditamos que conexões verdadeiras e com respeito às diferenças constrói um ambiente colaborativo, humano e inspirador. Aqui, cada pessoa pode ser quem é - e crescer com autonomia e protagonismo.
ABC Brasil. O banco de quem é singular.
#EuSouSingular #SouABCBrasil #ABCBrasil
Conheça mais sobre nós