SRE Senior

Descrição da vaga

No Banco ABC Brasil, a gente acredita na autenticidade de cada um. Afinal, temos nosso jeito de fazer as coisas, de se relacionar, de transformar negócios e construir um futuro sustentável, de maneira inclusiva, respeitosa e acolhedora. Porque a gente se interessa genuinamente pelas pessoas e cria relações verdadeiras, com confiança e proximidade.

Se você tem paixão por desafios e busca um ambiente onde possa crescer profissionalmente, com autonomia para tocar grandes projetos e sendo protagonista da sua carreira, aqui é o seu lugar! Com a gente, você vai ter oportunidade de atuar diariamente com especialistas do mercado financeiro e ter o acompanhamento e apoio de lideranças estratégicas para construir o seu futuro e contribuir para o nosso crescimento em conjunto.

A gente acredita que cuidar dos nossos colaboradores é o segredo do sucesso. Por isso, oferecemos:

• Benefícios que fazem a diferença

• Opções de desenvolvimento

• Um ambiente que inspira

Estamos em busca de um(a) SRE altamente sênior com perfil "mão na massa" para assumir a linha de frente da confiabilidade e estabilidade dos nossos sistemas mais críticos.

Nesta posição, você será o(a) guardião(ã) e investigador(a) técnico (a) do nosso ecossistema. Você atuará na resolução de incidentes de altíssima complexidade em ambientes multi-cloud, com um protagonismo vital no troubleshooting avançado em nosso ambiente. Seu papel é dominar a operação de baixo nível, garantindo eficiência, segurança e disponibilidade pautadas na cultura SRE.

Está pronto(a) para fazer parte de um time que transforma desafios em oportunidades? Vem com a gente!

Responsabilidades e atribuições

Como SRE Sr., o seu dia a dia terá foco em resolução de problemas estruturais. Suas principais missões serão:

Gestão de Confiabilidade, Incidentes e Cultura SRE

Acompanhar métricas vitais (SLIs e SLOs);
Atuar como Nível de Escalonamento Máximo para a Gestão de Problemas na área de SRE;
Liderar investigações profundas de incidentes crônicos ou estruturais (Root Cause Analysis - RCA), transformando falhas repetitivas em backlog de engenharia para redução de débito técnico;
Atuar em incidentes em crises severas e conduzir Post-Mortems rigorosos.

Planejamento de Capacidade (Capacity Planning) e DR

Executar Capacity Planning preditivo para evitar gargalos em períodos de alta sazonalidade.
Conduzir testes complexos e cenários reais de Disaster Recovery (DR).

Administração Avançada de SO

Realizar troubleshooting complexo de performance em ambientes heterogêneos;
Linux: Atuação a nível de Kernel (tuning de sysctl, namespaces, cgroups);
Windows Server: Resolução de gargalos estruturais (IIS, WMI, Registry tuning), automação avançada via PowerShell e gestão de identidades (Active Directory / Entra ID);
Atuar em throubleshooting avançado em redes (Nuvem e Onprem)

Governança Avançada, Resiliência e Operação de Kubernetes

Operação e Estabilidade em Larga Escala: Liderar a operação, manutenção e evolução contínua de dezenas de clusters Kubernetes de missão crítica (EKS), garantindo a estabilidade extrema, atualização (upgrades) e saúde tanto do Control Plane quanto dos Worker Nodes.
Padrões de Confiabilidade (SRE no K8s): Garantindo a correta utilização de Pod Disruption Budgets (PDBs), Resource Quotas, LimitRanges e Priority Classes, além de monitorar e ajustar a alocação de QoS (Quality of Service) para mitigar OOMKills e CPU Throttling.
Troubleshooting e Tuning: Atuar como nível máximo de escalonamento para investigações complexas e incidentes críticos no ecossistema Kubernetes. Realizar tuning de performance do API Server e debug avançado de gargalos.
Troubleshooting Avançado em Kubernetes (EKS): Atuar como escalonamento para problemas complexos em EKS. Você fará a investigação profunda de gargalos e falhas de rede (VPC CNI, CoreDNS, Ingress/Egress, Service Mesh), isolamento de CrashLoops obscuros, contenção de OOMKills, análise de latência no Control Plane, problemas de scheduling, escalabilidade (Cluster Autoscaler/Karpenter) e falhas em Persistent Volumes.
Redução de Toil e Autorrecuperação: Eliminar o trabalho operacional manual (toil) garantindo a automação do ciclo de vida dos clusters e seus add-ons (estritamente via GitOps), além de atuar na implantação e troubleshooting de Custom Operators (CRDs) para automatizar a resposta a incidentes dentro do cluster.

Infraestrutura como Código (IaC), GitOps e FinOps

Arquitetar e manter módulos complexos e reutilizáveis via Terraform e/ou CloudFormation, definindo a estratégia de State Management para times distribuídos;
Atuar com GitOps (ArgoCD ou FluxCD), garantindo o repositório Git como única fonte da verdade (Single Source of Truth);
Liderar a governança financeira (FinOps): estruturar tags para Chargeback/Showback, remover recursos ociosos, aplicar rightsizing agressivo e gerir instâncias Spot e compromissos (Savings Plans/RI).

Requisitos e qualificações

Requisitos e Qualificações

Formação Acadêmica:

Graduação completa (Bacharelado ou Tecnólogo) em Ciência da Computação, Engenharia da Computação, Sistemas de Informação ou áreas correlatas.

Experiência Comprovada Exigida:

Práticas de SRE e Engenharia de Confiabilidade (SLIs, SLOs, Error Budgets, Post-Mortems);
Sistemas Operacionais (Linux nível Kernel e Windows avançado);
Computação em Nuvem AWS;
Computação em Nuvem Azure;
Computação em Nuvem GCP;
Containers e Orquestração (EKS, Service Mesh);
Infraestrutura como Código (IaC) com foco em Terraform avançado e/ou CloudFormation;
Observabilidade e Monitoramento (Datadog, Prometheus, Grafana, ELK Stack);
CI/CD e Automação de Pipelines (GitLab CI, GitHub Actions, Azure DevOps);
Práticas de GitOps (ArgoCD);
Sistemas de mensageria (SNS/SQS, Kafka);
Segurança Cloud / DevSecOps (IAM, Zero Trust, WAF, KMS, SAST/DAST);
Vivência com FinOps e otimização de custos em nuvem.

Certificações Desejáveis / Diferenciais (Recomendadas para o nível da vaga):

AWS: AWS Certified Solutions Architect - Professional e/ou AWS Certified DevOps Engineer - Professional;
GCP: Google Cloud Professional Cloud Architect e/ou Professional Cloud DevOps Engineer;
Azure: Microsoft Certified: Azure Solutions Architect Expert e/ou DevOps Engineer Expert;
Cloud Native: CKA (Certified Kubernetes Administrator), CKS (Certified Kubernetes Security Specialist).

Informações adicionais

Assistência Médica;
Assistência Odontológica Omint;
Seguro de Vida;
PLR;
PPR;
ABC com Você: um programa que cuida dos colaboradores e seus familiares, com assistência jurídica, social, psicológica e financeira;
Vale Refeição;
Vale Alimentação;
Licença Paternidade e Maternidade estendidas: paternidade 20 dias e maternidade 6 meses;
Auxílio Creche/Babá;
Day Off anual;
Auxílio Home Office;
Auxílio Infraestrutura para Home Office;
TotalPass;

Etapas do processo

Etapa 1: Cadastro
Etapa 2: Entrevista - Atração de Talentos
Etapa 3: Entrevista - Gestor
Etapa 4: Contratação

Quem somos

Somos o ABC Brasil. O banco múltiplo com mais de 35 anos de história, especialistas em soluções financeiras e que impulsiona grandes negócios do país - combinando solidez internacional com a agilidade de uma gestão local, próxima e autônoma.

Com um portfólio completo de produtos e serviços, nosso foco está em gerar impacto real nos nossos clientes, evoluindo com o mercado e conforme as necessidades de cada um deles, sempre com responsabilidade, integridade e confiança mútua.

E esta forma de nos relacionarmos nos torna únicos. Acreditamos que conexões verdadeiras e com respeito às diferenças constrói um ambiente colaborativo, humano e inspirador. Aqui, cada pessoa pode ser quem é - e crescer com autonomia e protagonismo.

ABC Brasil. O banco de quem é singular.

#EuSouSingular #SouABCBrasil #ABCBrasil

Candidatar-se