Pular para o conteúdo principal

SRE Pleno (Tarde/Noite)

Descrição da vaga

No Banco ABC Brasil, a gente acredita na autenticidade de cada um. Afinal, temos nosso jeito de fazer as coisas, de se relacionar, de transformar negócios e construir um futuro sustentável, de maneira inclusiva, respeitosa e acolhedora. Porque a gente se interessa genuinamente pelas pessoas e cria relações verdadeiras, com confiança e proximidade.

 

Se você tem paixão por desafios e busca um ambiente onde possa crescer profissionalmente, com autonomia para tocar grandes projetos e sendo protagonista da sua carreira, aqui é o seu lugar! Com a gente, você vai ter oportunidade de atuar diariamente com especialistas do mercado financeiro e ter o acompanhamento e apoio de lideranças estratégicas para construir o seu futuro e contribuir para o nosso crescimento em conjunto.

 

 A gente acredita que cuidar dos nossos colaboradores é o segredo do sucesso. Por isso, oferecemos:

• Benefícios que fazem a diferença

• Opções de desenvolvimento

• Um ambiente que inspira

 

Buscamos um(a) SRE Pleno com foco em operação de ambientes híbridos (cloud multicloud e on-premises) para atuar como ponto de referência no acompanhamento contínuo de alertas de infraestrutura e requisições. O profissional será responsável por garantir a saúde operacional dos ambientes, atuando proativamente na resolução de ocorrências. Terá visão ampla do ambiente, operando com AWS, Azure, GCP, infraestrutura on-premises com VMware, Kubernetes, Linux, Windows Server e ferramentas de observabilidade.

Responsabilidades e atribuições

Responsabilidades Principais


Gestão de Incidentes

•      Atuar como ponto de primeira resposta (N1/N2) no atendimento de incidentes em ambientes cloud (AWS, Azure, GCP) e on-premises, realizando triagem, classificação por severidade e registro formal seguindo ITIL.

•      Executar diagnostico inicial de incidentes, investigando causa-raiz com base em logs, métricas e eventos de observabilidade (Zabbix, Grafana, CloudWatch e Dynatrace).

•      Acionar e escalar corretamente para N2/N3 quando o incidente ultrapassar o escopo de atuação do nível, garantindo repasse preciso de informações e contexto.

•      Documentar todos os incidentes com fidelidade: sintomas, ações tomadas, resolução, tempo de recuperação e lições aprendidas, alimentando a base de conhecimento da equipe.

•      Participar da escala de plantão (on-call), garantindo cobertura e tempo de resposta dentro dos SLAs estabelecidos.


Monitoramento e Acompanhamento de Alertas

•      Realizar o acompanhamento contínuo dos dashboards e alertas de infraestrutura, agindo proativamente antes que degradações se tornem incidentes críticos.

•      Investigar alertas de capacidade, performance, disponibilidade e storage em ambientes cloud (AWS, Azure, GCP) e on-premises, tomando as ações corretivas necessárias ou escalando com contexto completo.

•      Configurar e ajustar thresholds de alertas em Zabbix, Grafana e CloudWatch para reduzir falsos positivos e aumentar precisão do monitoramento.

•      Manter visibilidade sobre a saúde dos clusters Kubernetes (EKS, AKS), pods, nodes e serviços, identificando e tratando instabilidades antes do impacto.


Gestão de Requisições

•      Atender requisições de infraestrutura (provisionamento, ajuste de recursos, criação de acessos, configurações) dentro dos prazos e padrões estabelecidos.

•      Executar tarefas operacionais de rotina: patches, backups, verificação de capacidade, limpeza de recursos obsoletos e atualização de inventario.

•      Documentar todas as requisições e ações executadas no sistema ITSM, garantindo rastreabilidade completa.


Execução de GMUD — Gestão de Mudanças (ITIL)

•      Planejar, documentar e executar GMUDs (Gestão de Mudanças) em ambientes de produção, seguindo o processo de Change Management do framework ITIL.

•      Elaborar planos de mudança completos: escopo, janela de manutenção, plano de rollback, lista de impactos e critérios de sucesso.

•      Apresentar e defender mudanças no CAB (Change Advisory Board) quando aplicável, com clareza sobre riscos e mitigações.

•      Executar mudanças em janelas programadas, comunicando status em tempo real aos stakeholders e realizando verificação pós-mudança de saúde do ambiente.


Operação de Infraestrutura Cloud e On-Premises

•      Operar e manter ambientes em AWS, Azure e GCP: provisionamento, monitoramento, ajuste de recursos e suporte a workloads em produção.

•      Administrar infraestrutura on-premises: servidores VMware vSphere/ESXi, redes corporativas, storage e serviços Windows Server e Linux.

•      Operar workloads em Kubernetes (EKS, AKS): verificação de saúde de pods, services e deployments; análise de logs e eventos de cluster; escalada de problemas de containers.

•      Apoiar práticas básicas de FinOps: identificar recursos ociosos, sinalizar oportunidades de rightsizing e contribuir com relatórios de uso e custo.

Requisitos e qualificações

Coloque os requisitos que você gostaria que o perfil da pessoa candidata possua e que se encaixe com o que a área precisa/espera.


Stack Tecnológica / Ferramentas Esperadas


Cloud AWS: EC2, Auto Scaling, EKS, S3, EBS, EFS, VPC, IAM/SCP, CloudWatch, Route53, ALB/NLB

Cloud Azure: Virtual Machines, Blob Storage, Azure AD / Entra ID, NSG, Resource Groups, Azure DevOps

Kubernetes / Containers: EKS, AKS, Docker, Helm (leitura e operação), kubectl, logs e eventos de cluster

Storage — Cloud e On-prem: EBS, EFS, S3 lifecycle, SAN/NAS/NFS on-premises, AWS Backup ou equivalente, planejamento básico de IOPS e capacidade

Observabilidade: Zabbix, Grafana, Prometheus (consulta), CloudWatch, ELK Stack (leitura de logs), Dynatrace.

On-Premises: VMware vSphere/ESXi, Bare-metal Linux (Ubuntu, RHEL), Windows Server, Redes corporativas (VLAN, DNS, DHCP, VPN, firewalls)

Identidade e Acesso: Active Directory (AD DS, GPO, DNS, DHCP), Azure AD / Entra ID, IAM AWS

ITSM e ITIL: Jira Service Management ou equivalente; processos ITIL: Incident, Change, Request Management

Linguagens / Scripting: Bash/Shell, PowerShell, Python básico

CI/CD (operação básica): GitHub Actions, Azure DevOps — execução e acompanhamento de pipelines, não necessariamente construção


Competências Técnicas Obrigatórias

•      Experiencia comprovada em operação de ambientes cloud AWS em produção, com capacidade de diagnostico e resolução de incidentes sem supervisão constante.

•      Conhecimento solido em Linux e Windows Server: administração, logs, troubleshooting de serviços e conectividade.

•      Experiência nas ferramentas de observabilidade (Zabbix, Grafana ou CloudWatch) para investigação de alertas e correlação de eventos.

•      Experiencia com ITIL aplicado: abertura, classificação e resolução de incidentes; execução de GMUDs com plano de rollback.

•      Active Directory: criação de usuários e grupos, GPOs, resolução de problemas de autenticação.

•      Networking básico: TCP/IP, DNS, DHCP, VPN, firewalls, VLANs — suficiente para diagnosticar problemas de conectividade.

•      Bash ou PowerShell em nível operacional para automação de tarefas rotineiras.


Diferenciais

•      Experiencia em mais de uma cloud em ambiente produtivo (Azure + GCP).

•      Kubernetes em operação: troubleshooting de pods, leitura de logs e eventos, escalonamento de problemas de cluster.

•      Participação em CABs e elaboração de planos de mudança de alto impacto com rollback estruturado.

•      Conhecimento básico em IaC (Terraform ou Ansible) para leitura e pequenas alterações de configuração.

•      Noções de storage hibrido: tipos de volumes cloud (EBS, EFS) e storage on-premises (SAN/NAS).



Certificações

Candidatos com certificações adicionais nas frentes de Cloud e ITIL serão priorizados. A ausência total de certificações ou plano concreto de obtenção e fator de desempate negativo.


AWS Cloud Practitioner - Diferencial forte

AWS Solutions Architect Associate - Diferencial forte

AWS SysOps Administrator Associate - Diferencial

AZ-900 Azure Fundamentals - Desejável

AZ-104 Azure Administrator - Diferencial

CKA ou Docker Certified Associate - Diferencial



Formação Acadêmica

•      Graduação em Ciência da Computação, Engenharia de Redes, Sistemas de Informação, Análise e Desenvolvimento de Sistemas ou áreas correlatas.

•      Graduação em andamento será avaliada caso o candidato atenda plenamente os requisitos de experiencia prática e possua ao menos uma certificação técnica.


Informações adicionais

  • Assistência Médica;
  • Assistência Odontológica Omint;
  • Seguro de Vida;
  • PLR;
  • PPR;
  • ABC com Você: um programa que cuida dos colaboradores e seus familiares, com assistência jurídica, social, psicológica e financeira;
  • Vale Refeição;
  • Vale Alimentação;
  • Licença Paternidade e Maternidade estendidas: paternidade 20 dias e maternidade 6 meses;
  • Auxílio Creche/Babá;
  • Day Off anual;
  • Auxílio Infraestrutura para Home Office;
  • TotalPass;

Etapas do processo

  1. Etapa 1: Cadastro
  2. Etapa 2: Entrevista - Atração de Talentos
  3. Etapa 3: Entrevista - Gestor
  4. Etapa 4: Contratação

Quem somos

Somos o ABC Brasil. O banco múltiplo com mais de 35 anos de história, especialistas em soluções financeiras e que impulsiona grandes negócios do país - combinando solidez internacional com a agilidade de uma gestão local, próxima e autônoma. 

 

Com um portfólio completo de produtos e serviços, nosso foco está em gerar impacto real nos nossos clientes, evoluindo com o mercado e conforme as necessidades de cada um deles, sempre com responsabilidade, integridade e confiança mútua. 

 

E esta forma de nos relacionarmos nos torna únicos. Acreditamos que conexões verdadeiras e com respeito às diferenças constrói um ambiente colaborativo, humano e inspirador. Aqui, cada pessoa pode ser quem é - e crescer com autonomia e protagonismo. 

 

ABC Brasil. O banco de quem é singular.

 

#EuSouSingular #SouABCBrasil #ABCBrasil