Pular para o conteúdo principal

SRE Sênior

Descrição da vaga

No Banco ABC Brasil, a gente acredita na autenticidade de cada um. Afinal, temos nosso jeito de fazer as coisas, de se relacionar, de transformar negócios e construir um futuro sustentável, de maneira inclusiva, respeitosa e acolhedora. Porque a gente se interessa genuinamente pelas pessoas e cria relações verdadeiras, com confiança e proximidade.

 

Se você tem paixão por desafios e busca um ambiente onde possa crescer profissionalmente, com autonomia para tocar grandes projetos e sendo protagonista da sua carreira, aqui é o seu lugar! Com a gente, você vai ter oportunidade de atuar diariamente com especialistas do mercado financeiro e ter o acompanhamento e apoio de lideranças estratégicas para construir o seu futuro e contribuir para o nosso crescimento em conjunto.

 

 A gente acredita que cuidar dos nossos colaboradores é o segredo do sucesso. Por isso, oferecemos:

• Benefícios que fazem a diferença

• Opções de desenvolvimento

• Um ambiente que inspira

 


Estamos em busca de um(a) SRE Sênior com perfil "mão na massa" para assumir a linha de frente da confiabilidade e estabilidade dos nossos sistemas mais críticos.

Nesta posição, você será o(a) guardião(ã) e investigador(a) técnico (a) do nosso ecossistema. Você atuará na resolução de incidentes de altíssima complexidade em ambientes multi-cloud, com um protagonismo vital no troubleshooting avançado em nosso ambiente. Seu papel é dominar a operação de baixo nível, garantindo eficiência, segurança e disponibilidade pautadas na cultura SRE.


Atuação no período das 14h às 23h.

 

 

Está pronto(a) para fazer parte de um time que transforma desafios em oportunidades? Vem com a gente!

Responsabilidades e atribuições

Gestão de Capacidade, Performance e Disponibilidade

•      Planejar e ajustar continuamente a capacidade de recursos computacionais (compute, memoria, storage e rede) em AWS e on-premises, antecipando gargalos e evitando desperdício.

•      Monitorar, analisar e otimizar a performance de serviços e infraestrutura, identificando degradações antes que impactem usuários finais (uso das metodologias USE e RED).

•      Definir, implementar e manter SLOs, SLAs e error budgets, garantindo alta disponibilidade por meio de automações e runbooks bem documentados.

•      Construir e manter controles automatizados que assegurem os KPIs de confiabilidade acordados com o negócio, com rastreabilidade e auditabilidade.



Automações e Engenharia de Confiabilidade

•      Criar e evoluir automações de operação — scaling reativo e preditivo, remediação automática, provisionamento zero-touch — reduzindo toil e aumentando resiliência.

•      Gerenciar e otimizar clusters EKS: provisionamento, escalabilidade (HPA / VPA / Cluster Autoscaler / Karpenter), redes, storage e troubleshooting de workloads em produção.

•      Garantir infraestrutura versionada, reprodutivel e auditavel.

•      Realizar chaos engineering para validar resiliencia de sistemas (simulacao de falhas controladas, game days).



Observabilidade

•      Manter stacks completas de observabilidade: métricas, logs, tracing distribuído e alertas orientados a SLOs.

•      Construir dashboards e alertas com Prometheus, Grafana e CloudWatch, com visibilidade de ponta a ponta sobre saúde da infraestrutura.



FinOps e Gestão de Custos

•      Aplicar conceitos e práticas de otimização de custos em cloud: rightsizing, reserved instances, savings plans e spot instances.

•      Produzir relatórios e recomendações de redução de custos em AWS, utilizando AWS Cost Explorer, Kubecost ou equivalente.

•      Implementar tagging e chargeback para visibilidade de custo por serviço, squad ou produto, promovendo cultura FinOps no time.



Resposta a Incidentes e Lideranca Tecnica

•      Atuar em escala de plantão (on-call), liderar resolução de incidentes de alta severidade e conduzir post-mortems sem cultura de culpa com action items concretos.

•      Apoiar SREs, disseminando práticas de confiabilidade, observabilidade e cultura de engenharia de operações.

•      Atuar como referência técnica para decisões de arquitetura de infraestrutura relacionadas a confiabilidade, capacidade e performance.

•      Atuar com revisões técnicas de infraestrrutura com o time de engenharia cloud.

Requisitos e qualificações

Stack Tecnológica / Ferramentas Esperadas

icos

Cloud AWS: EC2, Auto Scaling, EKS, Lambda, RDS/Aurora, S3 (lifecycle/tiers), EBS (gp3/io2), EFS/FSx, VPC, Transit Gateway, ALB/NLB, Route53, IAM/SCP, CloudWatch, AWS Backup

Kubernetes / EKS: EKS, Helm, Kustomize, HPA, VPA, Cluster Autoscaler, Karpenter, Network Policies, CSI Drivers, Persistent Volumes, Istio ou Linkerd (desejavel)

Storage — Cloud e On-prem: EBS (gp3/io2), EFS, FSx, S3 lifecycle, CSI Drivers, SAN/NAS/NFS on-premises, Ceph (desejavel), AWS Backup, Commvault.

Infrastructure as Code: Terraform, Ansible, CloudFormation

CI/CD e GitOps: GitHub Actions, Azure DevOps, ArgoCD, Flux

Observabilidade: Prometheus, Grafana, Dynatrace ou Datadog, CloudWatch, Cloud trail.

FinOps: AWS Cost Explorer, Rightsizing, Reserved Instances, Savings Plans, Spot Instances.

On-Premises: VMware vSphere/ESXi, Bare-metal Linux (Ubuntu, RHEL), Redes corporativas (VLAN, BGP/OSPF básico), Dell EMC / HPE (desejavel)

Linguagens / Scripting: Python, Bash/Shell.

Seguranca (SRE-scope): IAM/SCP, RBAC no Kubernetes, Secrets Manager, Parameter Store, network policies.



Competências Técnicas

•      Experiencia solida em gestão de capacidade e performance em ambientes híbridos (cloud + on-premises) com responsabilidade comprovada por SLOs e KPIs.

•      Domínio avançado de AWS: compute, storage, rede, IAM e serviços gerenciados em escala de producao.

•      Kubernetes/EKS em produção: provisionamento, troubleshooting, scaling e storage com experiencia mínima de 4 anos.

•      Terraform em nível produção: módulos, remote state, workspaces e reconciliacao de drift.

•      Observabilidade de ponta a ponta: metricas, logs, tracing, alertas orientados a SLOs e criação de dashboards operacionais.

•      Storage hibrido: domínio de tipos EBS, EFS, FSx em cloud e SAN/NAS/NFS on-premises, incluindo planejamento de IOPS e capacidade.

•      Python ou Bash para automações e ferramentas internas.



Diferenciais

•      Experiencia multi-cloud (AWS + Azure ou AWS + GCP).

•      Conhecimento em service mesh (Istio ou Linkerd) em produção.

•      Experiencia com FinOps tools (Kubecost, CloudHealth, Spot.io).

•      Participação em comunidades open source ou contribuições relevantes no GitHub.

•      Experiencia com arquitetura orientada a eventos (Kafka/MSK, SQS/SNS) em contexto de SRE.


Soft Skills

•      Pensamento analítico orientado a dados, métricas e KPIs de confiabilidade.

•      Comunicação clara e objetiva com equipes técnicas e stakeholders de negócio.

•      Autonomia e proatividade em ambientes de alta complexidade e ambiguidade.

•      Liderança técnica sem necessidade de autoridade formal — influência pelo conhecimento.

•      Resiliência e foco sob pressão em situações de incidente crítico.

•      Perfil colaborativo e disposição genuína para mentorear e disseminar conhecimento.


Certificações

O candidato deve possuir ao menos uma certificação nas frentes de SRE e Cloud AWS. A ausência total de certificações em ambas as frentes, sem portfolio técnico solido comprovado, e fator eliminatório. A AWS Solutions Architect (Associate ou Professional) e o diferencial de maior peso dentro da frente cloud.


AWS Solutions Architect Associate ou Professional - Diferencial forte

AWS DevOps Engineer Professional - Diferencial

AWS SysOps Administrator Associate - Diferencial

Certified Kubernetes Administrator (CKA) - Diferencial

Certified Kubernetes Application Developer (CKAD) - Diferencial

HashiCorp Terraform Associate - Diferencial



Formação Acadêmica

•      Graduação em Ciência da Computação, Engenharia de Software, Engenharia de Redes ou áreas correlatas.

•      Pós-graduação, MBA ou especializações técnicas reconhecidas são diferenciais.


Informações adicionais

  • Assistência Médica;
  • Assistência Odontológica Omint;
  • Seguro de Vida;
  • PLR;
  • PPR;
  • ABC com Você: um programa que cuida dos colaboradores e seus familiares, com assistência jurídica, social, psicológica e financeira;
  • Vale Refeição;
  • Vale Alimentação;
  • Licença Paternidade e Maternidade estendidas: paternidade 20 dias e maternidade 6 meses;
  • Auxílio Creche/Babá;
  • Day Off anual;
  • Auxílio Infraestrutura para Home Office;
  • TotalPass;

Etapas do processo

  1. Etapa 1: Cadastro
  2. Etapa 2: Entrevista - Atração de Talentos
  3. Etapa 3: Entrevista - Gestor
  4. Etapa 4: Contratação

Quem somos

Somos o ABC Brasil. O banco múltiplo com mais de 35 anos de história, especialistas em soluções financeiras e que impulsiona grandes negócios do país - combinando solidez internacional com a agilidade de uma gestão local, próxima e autônoma. 

 

Com um portfólio completo de produtos e serviços, nosso foco está em gerar impacto real nos nossos clientes, evoluindo com o mercado e conforme as necessidades de cada um deles, sempre com responsabilidade, integridade e confiança mútua. 

 

E esta forma de nos relacionarmos nos torna únicos. Acreditamos que conexões verdadeiras e com respeito às diferenças constrói um ambiente colaborativo, humano e inspirador. Aqui, cada pessoa pode ser quem é - e crescer com autonomia e protagonismo. 

 

ABC Brasil. O banco de quem é singular.

 

#EuSouSingular #SouABCBrasil #ABCBrasil