Pular para o conteúdo principal

SRE Senior

Descrição da vaga

No Banco ABC Brasil, a gente acredita na autenticidade de cada um. Afinal, temos nosso jeito de fazer as coisas, de se relacionar, de transformar negócios e construir um futuro sustentável, de maneira inclusiva, respeitosa e acolhedora. Porque a gente se interessa genuinamente pelas pessoas e cria relações verdadeiras, com confiança e proximidade.

 

Se você tem paixão por desafios e busca um ambiente onde possa crescer profissionalmente, com autonomia para tocar grandes projetos e sendo protagonista da sua carreira, aqui é o seu lugar! Com a gente, você vai ter oportunidade de atuar diariamente com especialistas do mercado financeiro e ter o acompanhamento e apoio de lideranças estratégicas para construir o seu futuro e contribuir para o nosso crescimento em conjunto.

 

 A gente acredita que cuidar dos nossos colaboradores é o segredo do sucesso. Por isso, oferecemos:

• Benefícios que fazem a diferença

• Opções de desenvolvimento

• Um ambiente que inspira

 


Estamos em busca de um(a) SRE altamente sênior com perfil "mão na massa" para assumir a linha de frente da confiabilidade e estabilidade dos nossos sistemas mais críticos.

Nesta posição, você será o(a) guardião(ã) e investigador(a) técnico (a) do nosso ecossistema. Você atuará na resolução de incidentes de altíssima complexidade em ambientes multi-cloud, com um protagonismo vital no troubleshooting avançado em nosso ambiente. Seu papel é dominar a operação de baixo nível, garantindo eficiência, segurança e disponibilidade pautadas na cultura SRE.

 

 

Está pronto(a) para fazer parte de um time que transforma desafios em oportunidades? Vem com a gente!

Responsabilidades e atribuições

Como SRE Sr., o seu dia a dia terá foco em resolução de problemas estruturais. Suas principais missões serão:


Gestão de Confiabilidade, Incidentes e Cultura SRE

  • Acompanhar métricas vitais (SLIs e SLOs);
  • Atuar como Nível de Escalonamento Máximo para a Gestão de Problemas na área de SRE;
  • Liderar investigações profundas de incidentes crônicos ou estruturais (Root Cause Analysis - RCA), transformando falhas repetitivas em backlog de engenharia para redução de débito técnico;
  • Atuar em incidentes em crises severas e conduzir Post-Mortems rigorosos.

Planejamento de Capacidade (Capacity Planning) e DR

  • Executar Capacity Planning preditivo para evitar gargalos em períodos de alta sazonalidade.
  • Conduzir testes complexos e cenários reais de Disaster Recovery (DR).

Administração Avançada de SO

  • Realizar troubleshooting complexo de performance em ambientes heterogêneos;
  • Linux: Atuação a nível de Kernel (tuning de sysctl, namespaces, cgroups);
  • Windows Server: Resolução de gargalos estruturais (IIS, WMI, Registry tuning), automação avançada via PowerShell e gestão de identidades (Active Directory / Entra ID);
  • Atuar em throubleshooting avançado em redes (Nuvem e Onprem)


Governança Avançada, Resiliência e Operação de Kubernetes

  • Operação e Estabilidade em Larga Escala: Liderar a operação, manutenção e evolução contínua de dezenas de clusters Kubernetes de missão crítica (EKS), garantindo a estabilidade extrema, atualização (upgrades) e saúde tanto do Control Plane quanto dos Worker Nodes.
  • Padrões de Confiabilidade (SRE no K8s): Garantindo a correta utilização de Pod Disruption Budgets (PDBs), Resource Quotas, LimitRanges e Priority Classes, além de monitorar e ajustar a alocação de QoS (Quality of Service) para mitigar OOMKills e CPU Throttling.
  • Troubleshooting e Tuning: Atuar como nível máximo de escalonamento para investigações complexas e incidentes críticos no ecossistema Kubernetes. Realizar tuning de performance do API Server e debug avançado de gargalos.
  • Troubleshooting Avançado em Kubernetes (EKS): Atuar como escalonamento para problemas complexos em EKS. Você fará a investigação profunda de gargalos e falhas de rede (VPC CNI, CoreDNS, Ingress/Egress, Service Mesh), isolamento de CrashLoops obscuros, contenção de OOMKills, análise de latência no Control Plane, problemas de scheduling, escalabilidade (Cluster Autoscaler/Karpenter) e falhas em Persistent Volumes.
  • Redução de Toil e Autorrecuperação: Eliminar o trabalho operacional manual (toil) garantindo a automação do ciclo de vida dos clusters e seus add-ons (estritamente via GitOps), além de atuar na implantação e troubleshooting de Custom Operators (CRDs) para automatizar a resposta a incidentes dentro do cluster.

Infraestrutura como Código (IaC), GitOps e FinOps

  • Arquitetar e manter módulos complexos e reutilizáveis via Terraform e/ou CloudFormation, definindo a estratégia de State Management para times distribuídos;
  • Atuar com GitOps (ArgoCD ou FluxCD), garantindo o repositório Git como única fonte da verdade (Single Source of Truth);
  • Liderar a governança financeira (FinOps): estruturar tags para Chargeback/Showback, remover recursos ociosos, aplicar rightsizing agressivo e gerir instâncias Spot e compromissos (Savings Plans/RI).

Requisitos e qualificações

Requisitos e Qualificações


Formação Acadêmica:

  • Graduação completa (Bacharelado ou Tecnólogo) em Ciência da Computação, Engenharia da Computação, Sistemas de Informação ou áreas correlatas.

Experiência Comprovada Exigida:

  • Práticas de SRE e Engenharia de Confiabilidade (SLIs, SLOs, Error Budgets, Post-Mortems);
  • Sistemas Operacionais (Linux nível Kernel e Windows avançado);
  • Computação em Nuvem AWS;
  • Computação em Nuvem Azure;
  • Computação em Nuvem GCP;
  • Containers e Orquestração (EKS, Service Mesh);
  • Infraestrutura como Código (IaC) com foco em Terraform avançado e/ou CloudFormation;
  • Observabilidade e Monitoramento (Datadog, Prometheus, Grafana, ELK Stack);
  • CI/CD e Automação de Pipelines (GitLab CI, GitHub Actions, Azure DevOps);
  • Práticas de GitOps (ArgoCD);
  • Sistemas de mensageria (SNS/SQS, Kafka);
  • Segurança Cloud / DevSecOps (IAM, Zero Trust, WAF, KMS, SAST/DAST);
  • Vivência com FinOps e otimização de custos em nuvem.

Certificações Desejáveis / Diferenciais (Recomendadas para o nível da vaga):

  • AWS: AWS Certified Solutions Architect - Professional e/ou AWS Certified DevOps Engineer - Professional;
  • GCP: Google Cloud Professional Cloud Architect e/ou Professional Cloud DevOps Engineer;
  • Azure: Microsoft Certified: Azure Solutions Architect Expert e/ou DevOps Engineer Expert;
  • Cloud Native: CKA (Certified Kubernetes Administrator), CKS (Certified Kubernetes Security Specialist).

Informações adicionais

  • Assistência Médica;
  • Assistência Odontológica Omint;
  • Seguro de Vida;
  • PLR;
  • PPR;
  • ABC com Você: um programa que cuida dos colaboradores e seus familiares, com assistência jurídica, social, psicológica e financeira;
  • Vale Refeição;
  • Vale Alimentação;
  • Licença Paternidade e Maternidade estendidas: paternidade 20 dias e maternidade 6 meses;
  • Auxílio Creche/Babá;
  • Day Off anual;
  • Auxílio Home Office;
  • Auxílio Infraestrutura para Home Office;
  • TotalPass;

Etapas do processo

  1. Etapa 1: Cadastro
  2. Etapa 2: Entrevista - Atração de Talentos
  3. Etapa 3: Entrevista - Gestor
  4. Etapa 4: Contratação

Quem somos

Somos o ABC Brasil. O banco múltiplo com mais de 35 anos de história, especialistas em soluções financeiras e que impulsiona grandes negócios do país - combinando solidez internacional com a agilidade de uma gestão local, próxima e autônoma. 

 

Com um portfólio completo de produtos e serviços, nosso foco está em gerar impacto real nos nossos clientes, evoluindo com o mercado e conforme as necessidades de cada um deles, sempre com responsabilidade, integridade e confiança mútua. 

 

E esta forma de nos relacionarmos nos torna únicos. Acreditamos que conexões verdadeiras e com respeito às diferenças constrói um ambiente colaborativo, humano e inspirador. Aqui, cada pessoa pode ser quem é - e crescer com autonomia e protagonismo. 

 

ABC Brasil. O banco de quem é singular.

 

#EuSouSingular #SouABCBrasil #ABCBrasil