SRE Sênior

Descrição da vaga

No Banco ABC Brasil, a gente acredita na autenticidade de cada um. Afinal, temos nosso jeito de fazer as coisas, de se relacionar, de transformar negócios e construir um futuro sustentável, de maneira inclusiva, respeitosa e acolhedora. Porque a gente se interessa genuinamente pelas pessoas e cria relações verdadeiras, com confiança e proximidade.

Se você tem paixão por desafios e busca um ambiente onde possa crescer profissionalmente, com autonomia para tocar grandes projetos e sendo protagonista da sua carreira, aqui é o seu lugar! Com a gente, você vai ter oportunidade de atuar diariamente com especialistas do mercado financeiro e ter o acompanhamento e apoio de lideranças estratégicas para construir o seu futuro e contribuir para o nosso crescimento em conjunto.

A gente acredita que cuidar dos nossos colaboradores é o segredo do sucesso. Por isso, oferecemos:

• Benefícios que fazem a diferença

• Opções de desenvolvimento

• Um ambiente que inspira

Estamos em busca de um(a) SRE Sênior com perfil "mão na massa" para assumir a linha de frente da confiabilidade e estabilidade dos nossos sistemas mais críticos.

Nesta posição, você será o(a) guardião(ã) e investigador(a) técnico (a) do nosso ecossistema. Você atuará na resolução de incidentes de altíssima complexidade em ambientes multi-cloud, com um protagonismo vital no troubleshooting avançado em nosso ambiente. Seu papel é dominar a operação de baixo nível, garantindo eficiência, segurança e disponibilidade pautadas na cultura SRE.

Atuação no período das 14h às 23h.

Está pronto(a) para fazer parte de um time que transforma desafios em oportunidades? Vem com a gente!

Responsabilidades e atribuições

Gestão de Capacidade, Performance e Disponibilidade

• Planejar e ajustar continuamente a capacidade de recursos computacionais (compute, memoria, storage e rede) em AWS e on-premises, antecipando gargalos e evitando desperdício.

• Monitorar, analisar e otimizar a performance de serviços e infraestrutura, identificando degradações antes que impactem usuários finais (uso das metodologias USE e RED).

• Definir, implementar e manter SLOs, SLAs e error budgets, garantindo alta disponibilidade por meio de automações e runbooks bem documentados.

• Construir e manter controles automatizados que assegurem os KPIs de confiabilidade acordados com o negócio, com rastreabilidade e auditabilidade.

Automações e Engenharia de Confiabilidade

• Criar e evoluir automações de operação — scaling reativo e preditivo, remediação automática, provisionamento zero-touch — reduzindo toil e aumentando resiliência.

• Gerenciar e otimizar clusters EKS: provisionamento, escalabilidade (HPA / VPA / Cluster Autoscaler / Karpenter), redes, storage e troubleshooting de workloads em produção.

• Garantir infraestrutura versionada, reprodutivel e auditavel.

• Realizar chaos engineering para validar resiliencia de sistemas (simulacao de falhas controladas, game days).

Observabilidade

• Manter stacks completas de observabilidade: métricas, logs, tracing distribuído e alertas orientados a SLOs.

• Construir dashboards e alertas com Prometheus, Grafana e CloudWatch, com visibilidade de ponta a ponta sobre saúde da infraestrutura.

FinOps e Gestão de Custos

• Aplicar conceitos e práticas de otimização de custos em cloud: rightsizing, reserved instances, savings plans e spot instances.

• Produzir relatórios e recomendações de redução de custos em AWS, utilizando AWS Cost Explorer, Kubecost ou equivalente.

• Implementar tagging e chargeback para visibilidade de custo por serviço, squad ou produto, promovendo cultura FinOps no time.

Resposta a Incidentes e Lideranca Tecnica

• Atuar em escala de plantão (on-call), liderar resolução de incidentes de alta severidade e conduzir post-mortems sem cultura de culpa com action items concretos.

• Apoiar SREs, disseminando práticas de confiabilidade, observabilidade e cultura de engenharia de operações.

• Atuar como referência técnica para decisões de arquitetura de infraestrutura relacionadas a confiabilidade, capacidade e performance.

• Atuar com revisões técnicas de infraestrrutura com o time de engenharia cloud.

Requisitos e qualificações

Stack Tecnológica / Ferramentas Esperadas

icos

Cloud AWS: EC2, Auto Scaling, EKS, Lambda, RDS/Aurora, S3 (lifecycle/tiers), EBS (gp3/io2), EFS/FSx, VPC, Transit Gateway, ALB/NLB, Route53, IAM/SCP, CloudWatch, AWS Backup

Kubernetes / EKS: EKS, Helm, Kustomize, HPA, VPA, Cluster Autoscaler, Karpenter, Network Policies, CSI Drivers, Persistent Volumes, Istio ou Linkerd (desejavel)

Storage — Cloud e On-prem: EBS (gp3/io2), EFS, FSx, S3 lifecycle, CSI Drivers, SAN/NAS/NFS on-premises, Ceph (desejavel), AWS Backup, Commvault.

Infrastructure as Code: Terraform, Ansible, CloudFormation

CI/CD e GitOps: GitHub Actions, Azure DevOps, ArgoCD, Flux

Observabilidade: Prometheus, Grafana, Dynatrace ou Datadog, CloudWatch, Cloud trail.

FinOps: AWS Cost Explorer, Rightsizing, Reserved Instances, Savings Plans, Spot Instances.

On-Premises: VMware vSphere/ESXi, Bare-metal Linux (Ubuntu, RHEL), Redes corporativas (VLAN, BGP/OSPF básico), Dell EMC / HPE (desejavel)

Linguagens / Scripting: Python, Bash/Shell.

Seguranca (SRE-scope): IAM/SCP, RBAC no Kubernetes, Secrets Manager, Parameter Store, network policies.

Competências Técnicas

• Experiencia solida em gestão de capacidade e performance em ambientes híbridos (cloud + on-premises) com responsabilidade comprovada por SLOs e KPIs.

• Domínio avançado de AWS: compute, storage, rede, IAM e serviços gerenciados em escala de producao.

• Kubernetes/EKS em produção: provisionamento, troubleshooting, scaling e storage com experiencia mínima de 4 anos.

• Terraform em nível produção: módulos, remote state, workspaces e reconciliacao de drift.

• Observabilidade de ponta a ponta: metricas, logs, tracing, alertas orientados a SLOs e criação de dashboards operacionais.

• Storage hibrido: domínio de tipos EBS, EFS, FSx em cloud e SAN/NAS/NFS on-premises, incluindo planejamento de IOPS e capacidade.

• Python ou Bash para automações e ferramentas internas.

Diferenciais

• Experiencia multi-cloud (AWS + Azure ou AWS + GCP).

• Conhecimento em service mesh (Istio ou Linkerd) em produção.

• Experiencia com FinOps tools (Kubecost, CloudHealth, Spot.io).

• Participação em comunidades open source ou contribuições relevantes no GitHub.

• Experiencia com arquitetura orientada a eventos (Kafka/MSK, SQS/SNS) em contexto de SRE.

Soft Skills

• Pensamento analítico orientado a dados, métricas e KPIs de confiabilidade.

• Comunicação clara e objetiva com equipes técnicas e stakeholders de negócio.

• Autonomia e proatividade em ambientes de alta complexidade e ambiguidade.

• Liderança técnica sem necessidade de autoridade formal — influência pelo conhecimento.

• Resiliência e foco sob pressão em situações de incidente crítico.

• Perfil colaborativo e disposição genuína para mentorear e disseminar conhecimento.

Certificações

O candidato deve possuir ao menos uma certificação nas frentes de SRE e Cloud AWS. A ausência total de certificações em ambas as frentes, sem portfolio técnico solido comprovado, e fator eliminatório. A AWS Solutions Architect (Associate ou Professional) e o diferencial de maior peso dentro da frente cloud.

AWS Solutions Architect Associate ou Professional - Diferencial forte

AWS DevOps Engineer Professional - Diferencial

AWS SysOps Administrator Associate - Diferencial

Certified Kubernetes Administrator (CKA) - Diferencial

Certified Kubernetes Application Developer (CKAD) - Diferencial

HashiCorp Terraform Associate - Diferencial

Formação Acadêmica

• Graduação em Ciência da Computação, Engenharia de Software, Engenharia de Redes ou áreas correlatas.

• Pós-graduação, MBA ou especializações técnicas reconhecidas são diferenciais.

Informações adicionais

Assistência Médica;
Assistência Odontológica Omint;
Seguro de Vida;
PLR;
PPR;
ABC com Você: um programa que cuida dos colaboradores e seus familiares, com assistência jurídica, social, psicológica e financeira;
Vale Refeição;
Vale Alimentação;
Licença Paternidade e Maternidade estendidas: paternidade 20 dias e maternidade 6 meses;
Auxílio Creche/Babá;
Day Off anual;
Auxílio Infraestrutura para Home Office;
TotalPass;

Etapas do processo

Etapa 1: Cadastro
Etapa 2: Entrevista - Atração de Talentos
Etapa 3: Entrevista - Gestor
Etapa 4: Contratação

Quem somos

Somos o ABC Brasil. O banco múltiplo com mais de 35 anos de história, especialistas em soluções financeiras e que impulsiona grandes negócios do país - combinando solidez internacional com a agilidade de uma gestão local, próxima e autônoma.

Com um portfólio completo de produtos e serviços, nosso foco está em gerar impacto real nos nossos clientes, evoluindo com o mercado e conforme as necessidades de cada um deles, sempre com responsabilidade, integridade e confiança mútua.

E esta forma de nos relacionarmos nos torna únicos. Acreditamos que conexões verdadeiras e com respeito às diferenças constrói um ambiente colaborativo, humano e inspirador. Aqui, cada pessoa pode ser quem é - e crescer com autonomia e protagonismo.

ABC Brasil. O banco de quem é singular.

#EuSouSingular #SouABCBrasil #ABCBrasil

Candidatar-se