Candidaturas encerradas

SRE Pleno (Tarde/Noite)

Descrição da vaga

No Banco ABC Brasil, a gente acredita na autenticidade de cada um. Afinal, temos nosso jeito de fazer as coisas, de se relacionar, de transformar negócios e construir um futuro sustentável, de maneira inclusiva, respeitosa e acolhedora. Porque a gente se interessa genuinamente pelas pessoas e cria relações verdadeiras, com confiança e proximidade.

Se você tem paixão por desafios e busca um ambiente onde possa crescer profissionalmente, com autonomia para tocar grandes projetos e sendo protagonista da sua carreira, aqui é o seu lugar! Com a gente, você vai ter oportunidade de atuar diariamente com especialistas do mercado financeiro e ter o acompanhamento e apoio de lideranças estratégicas para construir o seu futuro e contribuir para o nosso crescimento em conjunto.

A gente acredita que cuidar dos nossos colaboradores é o segredo do sucesso. Por isso, oferecemos:

• Benefícios que fazem a diferença

• Opções de desenvolvimento

• Um ambiente que inspira

Buscamos um(a) SRE Pleno com foco em operação de ambientes híbridos (cloud multicloud e on-premises) para atuar como ponto de referência no acompanhamento contínuo de alertas de infraestrutura e requisições. O profissional será responsável por garantir a saúde operacional dos ambientes, atuando proativamente na resolução de ocorrências. Terá visão ampla do ambiente, operando com AWS, Azure, GCP, infraestrutura on-premises com VMware, Kubernetes, Linux, Windows Server e ferramentas de observabilidade.

Responsabilidades e atribuições

Responsabilidades Principais

Gestão de Incidentes

• Atuar como ponto de primeira resposta (N1/N2) no atendimento de incidentes em ambientes cloud (AWS, Azure, GCP) e on-premises, realizando triagem, classificação por severidade e registro formal seguindo ITIL.

• Executar diagnostico inicial de incidentes, investigando causa-raiz com base em logs, métricas e eventos de observabilidade (Zabbix, Grafana, CloudWatch e Dynatrace).

• Acionar e escalar corretamente para N2/N3 quando o incidente ultrapassar o escopo de atuação do nível, garantindo repasse preciso de informações e contexto.

• Documentar todos os incidentes com fidelidade: sintomas, ações tomadas, resolução, tempo de recuperação e lições aprendidas, alimentando a base de conhecimento da equipe.

• Participar da escala de plantão (on-call), garantindo cobertura e tempo de resposta dentro dos SLAs estabelecidos.

Monitoramento e Acompanhamento de Alertas

• Realizar o acompanhamento contínuo dos dashboards e alertas de infraestrutura, agindo proativamente antes que degradações se tornem incidentes críticos.

• Investigar alertas de capacidade, performance, disponibilidade e storage em ambientes cloud (AWS, Azure, GCP) e on-premises, tomando as ações corretivas necessárias ou escalando com contexto completo.

• Configurar e ajustar thresholds de alertas em Zabbix, Grafana e CloudWatch para reduzir falsos positivos e aumentar precisão do monitoramento.

• Manter visibilidade sobre a saúde dos clusters Kubernetes (EKS, AKS), pods, nodes e serviços, identificando e tratando instabilidades antes do impacto.

Gestão de Requisições

• Atender requisições de infraestrutura (provisionamento, ajuste de recursos, criação de acessos, configurações) dentro dos prazos e padrões estabelecidos.

• Executar tarefas operacionais de rotina: patches, backups, verificação de capacidade, limpeza de recursos obsoletos e atualização de inventario.

• Documentar todas as requisições e ações executadas no sistema ITSM, garantindo rastreabilidade completa.

Execução de GMUD — Gestão de Mudanças (ITIL)

• Planejar, documentar e executar GMUDs (Gestão de Mudanças) em ambientes de produção, seguindo o processo de Change Management do framework ITIL.

• Elaborar planos de mudança completos: escopo, janela de manutenção, plano de rollback, lista de impactos e critérios de sucesso.

• Apresentar e defender mudanças no CAB (Change Advisory Board) quando aplicável, com clareza sobre riscos e mitigações.

• Executar mudanças em janelas programadas, comunicando status em tempo real aos stakeholders e realizando verificação pós-mudança de saúde do ambiente.

Operação de Infraestrutura Cloud e On-Premises

• Operar e manter ambientes em AWS, Azure e GCP: provisionamento, monitoramento, ajuste de recursos e suporte a workloads em produção.

• Administrar infraestrutura on-premises: servidores VMware vSphere/ESXi, redes corporativas, storage e serviços Windows Server e Linux.

• Operar workloads em Kubernetes (EKS, AKS): verificação de saúde de pods, services e deployments; análise de logs e eventos de cluster; escalada de problemas de containers.

• Apoiar práticas básicas de FinOps: identificar recursos ociosos, sinalizar oportunidades de rightsizing e contribuir com relatórios de uso e custo.

Requisitos e qualificações

Coloque os requisitos que você gostaria que o perfil da pessoa candidata possua e que se encaixe com o que a área precisa/espera.

Stack Tecnológica / Ferramentas Esperadas

Cloud AWS: EC2, Auto Scaling, EKS, S3, EBS, EFS, VPC, IAM/SCP, CloudWatch, Route53, ALB/NLB

Cloud Azure: Virtual Machines, Blob Storage, Azure AD / Entra ID, NSG, Resource Groups, Azure DevOps

Kubernetes / Containers: EKS, AKS, Docker, Helm (leitura e operação), kubectl, logs e eventos de cluster

Storage — Cloud e On-prem: EBS, EFS, S3 lifecycle, SAN/NAS/NFS on-premises, AWS Backup ou equivalente, planejamento básico de IOPS e capacidade

Observabilidade: Zabbix, Grafana, Prometheus (consulta), CloudWatch, ELK Stack (leitura de logs), Dynatrace.

On-Premises: VMware vSphere/ESXi, Bare-metal Linux (Ubuntu, RHEL), Windows Server, Redes corporativas (VLAN, DNS, DHCP, VPN, firewalls)

Identidade e Acesso: Active Directory (AD DS, GPO, DNS, DHCP), Azure AD / Entra ID, IAM AWS

ITSM e ITIL: Jira Service Management ou equivalente; processos ITIL: Incident, Change, Request Management

Linguagens / Scripting: Bash/Shell, PowerShell, Python básico

CI/CD (operação básica): GitHub Actions, Azure DevOps — execução e acompanhamento de pipelines, não necessariamente construção

Competências Técnicas Obrigatórias

• Experiencia comprovada em operação de ambientes cloud AWS em produção, com capacidade de diagnostico e resolução de incidentes sem supervisão constante.

• Conhecimento solido em Linux e Windows Server: administração, logs, troubleshooting de serviços e conectividade.

• Experiência nas ferramentas de observabilidade (Zabbix, Grafana ou CloudWatch) para investigação de alertas e correlação de eventos.

• Experiencia com ITIL aplicado: abertura, classificação e resolução de incidentes; execução de GMUDs com plano de rollback.

• Active Directory: criação de usuários e grupos, GPOs, resolução de problemas de autenticação.

• Networking básico: TCP/IP, DNS, DHCP, VPN, firewalls, VLANs — suficiente para diagnosticar problemas de conectividade.

• Bash ou PowerShell em nível operacional para automação de tarefas rotineiras.

Diferenciais

• Experiencia em mais de uma cloud em ambiente produtivo (Azure + GCP).

• Kubernetes em operação: troubleshooting de pods, leitura de logs e eventos, escalonamento de problemas de cluster.

• Participação em CABs e elaboração de planos de mudança de alto impacto com rollback estruturado.

• Conhecimento básico em IaC (Terraform ou Ansible) para leitura e pequenas alterações de configuração.

• Noções de storage hibrido: tipos de volumes cloud (EBS, EFS) e storage on-premises (SAN/NAS).

Certificações

Candidatos com certificações adicionais nas frentes de Cloud e ITIL serão priorizados. A ausência total de certificações ou plano concreto de obtenção e fator de desempate negativo.

AWS Cloud Practitioner - Diferencial forte

AWS Solutions Architect Associate - Diferencial forte

AWS SysOps Administrator Associate - Diferencial

AZ-900 Azure Fundamentals - Desejável

AZ-104 Azure Administrator - Diferencial

CKA ou Docker Certified Associate - Diferencial

Formação Acadêmica

• Graduação em Ciência da Computação, Engenharia de Redes, Sistemas de Informação, Análise e Desenvolvimento de Sistemas ou áreas correlatas.

• Graduação em andamento será avaliada caso o candidato atenda plenamente os requisitos de experiencia prática e possua ao menos uma certificação técnica.

Informações adicionais

Assistência Médica;
Assistência Odontológica Omint;
Seguro de Vida;
PLR;
PPR;
ABC com Você: um programa que cuida dos colaboradores e seus familiares, com assistência jurídica, social, psicológica e financeira;
Vale Refeição;
Vale Alimentação;
Licença Paternidade e Maternidade estendidas: paternidade 20 dias e maternidade 6 meses;
Auxílio Creche/Babá;
Day Off anual;
Auxílio Infraestrutura para Home Office;
TotalPass;

Etapas do processo

Etapa 1: Cadastro
Etapa 2: Entrevista - Atração de Talentos
Etapa 3: Entrevista - Gestor
Etapa 4: Contratação

Quem somos

Somos o ABC Brasil. O banco múltiplo com mais de 35 anos de história, especialistas em soluções financeiras e que impulsiona grandes negócios do país - combinando solidez internacional com a agilidade de uma gestão local, próxima e autônoma.

Com um portfólio completo de produtos e serviços, nosso foco está em gerar impacto real nos nossos clientes, evoluindo com o mercado e conforme as necessidades de cada um deles, sempre com responsabilidade, integridade e confiança mútua.

E esta forma de nos relacionarmos nos torna únicos. Acreditamos que conexões verdadeiras e com respeito às diferenças constrói um ambiente colaborativo, humano e inspirador. Aqui, cada pessoa pode ser quem é - e crescer com autonomia e protagonismo.

ABC Brasil. O banco de quem é singular.

#EuSouSingular #SouABCBrasil #ABCBrasil