Site Reliability Engineer

Há 9 horas

Brazil Gauge Tempo inteiro

Somos uma empresa do Grupo Stefanini. Especializados em marketing digital, utilizamos uma abordagem integrada que combina tecnologia, inteligência de dados, design e profundo conhecimento do comportamento do consumidor. Nosso foco está em potencializar os resultados de nossos parceiros, oferecendo soluções que vão desde consultoria estratégica até a execução e acompanhamento dos projetos. Com um time dedicado e altamente qualificado, a Gauge se destaca por sua capacidade de entender as necessidades específicas de cada cliente e entregar resultados de alta performance.

Com forte presença na América Latina e em expansão nos Estados Unidos, estamos sempre na vanguarda, aplicando as últimas tendências de mercado e mantendo um olhar atento à inovação contínua.

🚀 Buscamos um Engenheiro de Confiabilidade de Site (SRE) qualificado, com expertise em automação, observabilidade e foco estratégico em desempenho. Junte-se a nós para liderar iniciativas em gerenciamento de nuvem, automação de CI/CD e promover uma cultura de engenharia de confiabilidade. Se você prospera em um ambiente dinâmico e voltado para a tecnologia, esta pode ser sua próxima mudança de carreira #SRE #AWS #DevOps #Observabilidade #Escalabilidade 💻🔍

Posição: SRE
Horário: Comercial
Modelo de atuação: Remoto

(SRE) – AWS | DevOps | Observabilidade | Escalabilidade

Resumo da Posição:

Buscamos um(a) Site Reliability Engineer (SRE) com forte atuação em ambientes AWS, automação de infraestrutura e foco estratégico em confiabilidade, escalabilidade e performance. Este profissional será responsável por garantir a resiliência de ambientes altamente distribuídos, com uso intensivo de soluções serverless e containers, além de liderar iniciativas de observabilidade, automação e melhoria contínua com base em métricas e indicadores de negócio.

Responsabilidades Principais:

Gestão Estratégica de Ambientes Cloud (AWS):

Liderar a operação e evolução de ambientes complexos e altamente replicáveis na AWS, com foco em alta disponibilidade, performance e escalabilidade horizontal, utilizando serviços como EC2, ECS, Lambda, RDS, S3, entre outros.

Confiabilidade e Observabilidade:

Implementar e evoluir práticas de observabilidade ponta a ponta, utilizando ferramentas como New Relic, CloudWatch e dashboards customizados, com foco em SLIs, SLOs e SLAs. Atuar proativamente na identificação de gargalos e incidentes, promovendo ações corretivas e preventivas.

Automação e Eficiência Operacional (CI/CD):

Projetar e manter pipelines de CI/CD robustos e seguros com Jenkins, Bitbucket e GitOps, garantindo entregas contínuas e confiáveis de microserviços e workloads serverless.

Cultura de Engenharia de Confiabilidade:

Promover práticas de engenharia de confiabilidade, como chaos engineering, postmortems, blameless culture e automação de tarefas operacionais, reduzindo o toil e aumentando a eficiência da equipe.

Segurança e Governança:

Integrar práticas de DevSecOps ao ciclo de vida da aplicação, com foco em IAM, redes seguras, monitoramento de vulnerabilidades e conformidade com políticas de segurança.

Documentação e Disseminação de Conhecimento:

Criar e manter documentação técnica clara e acessível sobre arquitetura, automações, incidentes e boas práticas, promovendo a autonomia e capacitação da equipe.

Habilidades Técnicas Desejadas:

Cloud AWS (Avançado):

Profundo conhecimento em serviços AWS e infraestrutura como código (Terraform ou CloudFormation). Experiência com ambientes distribuídos, escaláveis e resilientes.

CI/CD e Automação:

Experiência sólida com Jenkins, Bitbucket, GitOps e integração contínua de microserviços e aplicações serverless.

Observabilidade e Performance:

Domínio de ferramentas como New Relic, CloudWatch, Prometheus ou similares. Capacidade de definir e acompanhar métricas de confiabilidade e desempenho.

Segurança em Nuvem:

Práticas de segurança em ambientes cloud, com foco em IAM, redes privadas, criptografia e monitoramento contínuo.

Microserviços e Serverless:

Experiência com arquitetura baseada em microserviços, containers (ECS) e funções serverless (Lambda), com foco em resiliência, escalabilidade e custo-benefício.

Certificações Recomendadas:

Obrigatória: AWS Certified Cloud Practitioner

Desejável: AWS Certified SysOps Administrator – Associate

Diferencial: Certificações em SRE, observabilidade ou segurança em nuvem

🥳 O que oferecemos :

• Vale Refeição/Vale Alimentação

• Assistência médica

• Assistência odontológica

• Day Off

• Gympass

• Auxílio Creche

• Assistência Pet

• Auxílio Combustível

• Auxílio Home Office

• Reembolso Educacional

• E-learning - Academia Stefanini com diversos cursos

• Mentoring - Plataforma de Mentoria (Essa é uma oportunidade para conhecer pessoas, desenvolver habilidades e compartilhar experiências.)

• Descontos em instituições para Graduação, Pós Graduação, Idiomas e Cursos

• Vantagens e descontos nos melhores estabelecimentos

• Programa de Formação de Líderes

Senior Site Reliability Engineer

1 semana atrás

Brazil/Remote Articul8 Tempo inteiro US$90.000 - US$120.000 por ano

About Us Articul8 AI is at the forefront of Generative AI innovation, delivering cutting-edge SaaS products that transform how businesses operate. Our platform empowers organizations to leverage the power of artificial intelligence in a reliable, scalable, and secure environment. Position Overview We are seeking an experienced Site Reliability Engineer...
Site Reliability Engineer

1 dia atrás

Brazil, BR HCLTech Tempo inteiro

Your role and responsabilities:Handling major incidents via CIRS (Critical Issue Response System) and providing frequent updates until resolution.Performing deep-dive application troubleshooting and identifying preventive actions.Managing CIRS-related requests including deployments, feature toggles, and data fixes.Following up on major production incidents...
Site Reliability Engineer

Há 9 horas

Brazil HCLTech Tempo inteiro

Your role and responsabilities:Handling major incidents via CIRS (Critical Issue Response System) and providing frequent updates until resolution.Performing deep-dive application troubleshooting and identifying preventive actions.Managing CIRS-related requests including deployments, feature toggles, and data fixes.Following up on major production incidents...
Chief AWS Site Reliability Engineer

2 semanas atrás

Buenos Aires, Espírito Santo, Brazil EPAM Systems Tempo inteiro

OverviewEPAM Systems is looking for a Chief AWS SRE Engineer who fully understands and practices SRE activities and philosophy to join the global engineering team that ensures fleet services reliability and availability under the SRE model.If you're passionate about innovation, we invite you to apply and become part of our teamResponsibilitiesCollaborate...
BSAtech | Recife

2 semanas atrás

Manaus, Pernambuco, Brazil BSATech Tempo inteiro

A BSAtech é uma empresa especializada no desenvolvimento de jogos de entretenimento com alcance global. Nosso compromisso é entregar experiências digitais de alta qualidade, combinando inovação, criatividade e tecnologia.Estamos em um momento de expansão e buscamos profissionais excepcionais para nos ajudar a ampliar nossas áreas de negócio e...
Senior DevOps Engineer Latam

1 semana atrás

Remote, São Paulo, Brazil Wizdaa Tempo inteiro US$90.000 - US$120.000 por ano

Level: Senior (5+ years) | Department: Foundation/Platform Engineering Role Overview Lead development of internal Kubernetes platform enabling scalable application deployment through GitOps. Engineer solutions for deployment complexity, database migrations, multi-environment management, and developer productivity. Drive DevOps practices including CI/CD...
Site Reliability Engineer

Há 14 horas

Federative Republic Of Brazil HCLTech Tempo inteiro

Your role and responsabilities:Handling major incidents via CIRS (Critical Issue Response System) and providing frequent updates until resolution. Performing deep-dive application troubleshooting and identifying preventive actions. Managing CIRS-related requests including deployments, feature toggles, and data fixes. Following up on major production...
DevOps Engineer

1 dia atrás

Brazil, BR Flowmentum, Inc. Tempo inteiro

We’re Flowmentum and our clients are fast-moving teams building reliable, scalable, and secure infrastructure for companies shaping the future of AI, fintech, cloud services, and beyond.Our engineers work on high-traffic, mission-critical systems that power millions of users across the globe.We believe in autonomy, ownership, and solving hard problems —...
DevOps Engineer

Há 15 horas

Brazil Flowmentum, Inc. Tempo inteiro

We’re Flowmentum and our clients are fast-moving teams building reliable, scalable, and secure infrastructure for companies shaping the future of AI, fintech, cloud services, and beyond. Our engineers work on high-traffic, mission-critical systems that power millions of users across the globe. We believe in autonomy, ownership, and solving hard problems...
DevOps Engineer

Há 9 horas

Brazil Flowmentum, Inc. Tempo inteiro

We’re Flowmentum and our clients are fast-moving teams building reliable, scalable, and secure infrastructure for companies shaping the future of AI, fintech, cloud services, and beyond.Our engineers work on high-traffic, mission-critical systems that power millions of users across the globe.We believe in autonomy, ownership, and solving hard problems —...

Américas

Europa

Ásia / Oceania

África

Site Reliability Engineer