Sre pleno
2 semanas atrás
competências essenciais (experiência sólida esperada) aws: ecs, eks,, s3, rds, iam, vpc. iac: terraform ou pulumi. sistemas operacionais: linux e shell script. containers: docker. orquestração: kubernetes (helm). ci/cd: jenkins, github actions, aws codepipelinei. métricas e logs: datadog, prometheus/grafana, graylog, opensearch. linguagens de scripting: python ou golang. princípios de segurança: redes, iam, hardening. gerenciamento de segredos: hashicorp vault, aws secrets manager. mensageria: kafka, sqs/sns. bancos de dados: nosql e relacionais. perfil comportamental proatividade: você não apenas resolve problemas, mas busca ativamente por oportunidades de melhoria sistêmica, analisando tendências de alertas e propondo projetos de automação. colaboração e comunicação eficaz: você atua como uma ponte entre as equipes de desenvolvimento e operações, utilizando dados (slos, métricas) para embasar suas argumentações. mentalidade de engenharia de sistemas: você aborda problemas operacionais com a mentalidade de um engenheiro de software, buscando soluções de código que resolvam classes de problemas de forma definitiva. resiliência e foco em aprendizado: você encara incidentes como oportunidades de aprendizado e é um defensor da cultura de post-mortems. engenharia de confiabilidade e performance: desenvolver e implementar soluções para garantir que os sistemas atinjam os slos de disponibilidade e latência, conduzindo análises de capacidade (capacity planning) para picos de tráfego. projetar e implementar arquiteturas resilientes, utilizando padrões como redundância, failover automático e degradação graciosa. realizar análises de performance e otimização de custos (finops), identificando gargalos e propondo soluções eficientes. automação e evolução da plataforma: automatizar o provisionamento e gerenciamento da infraestrutura aws utilizando infraestrutura como código (iac) com terraform, garantindo ambientes consistentes. implementar e evoluir práticas de gitops (com github actions ou aws codepipeline) para gerenciar o ciclo de vida de aplicações em ecs e kubernetes de forma declarativa e segura. desenvolver ferramentas internas e scripts (python) para automatizar tarefas operacionais e reduzir o toil. observabilidade avançada: implementar e gerenciar uma stack de observabilidade completa, incluindo métricas (prometheus, datadog), logs (graylog, opensearch) e tracing distribuído (opentelemetry). criar dashboards e alertas significativos que relacionam métricas técnicas com indicadores de negócio. utilizar dados de tracing distribuído para diagnosticar problemas de latência e erros em transações complexas que atravessam múltiplos microsserviços. resposta a incidentes e aprendizado contínuo: participar do rodízio de on-call, atuando na triagem, mitigação e resolução de incidentes. conduzir post-mortems após incidentes, focando na identificação de causas-raiz sistêmicas e na criação de planos de ação. manter e aprimorar a documentação de sistemas e os playbooks de resposta a incidentes. segurança integrada (devsecops): integrar ferramentas de análise de segurança (sast, container scanning) nos pipelines de ci/cd. automatizar a aplicação de políticas de segurança na infraestrutura como código e nas configurações de kubernetes (security-as-code). acompanhar o ciclo de vida de segredos e credenciais de forma segura (hashicorp vault, aws secrets manager). mentoria e colaboração: atuar como um consultor de confiabilidade para as equipes de desenvolvimento, participando de revisões de design de arquitetura. compartilhar conhecimento e melhores práticas de sre, atuando como mentor para engenheiros de nível júnior.
-
Sre
2 semanas atrás
HOME OFFICE, Brasil Vericode Tempo inteiroSe você gosta de desafios e quer mostrar todo o seu potencial, queremos te conhecer! A Vericode preza por um time inclusivo e repleto de diversidade, nas suas mais variadas representações. Todas as nossas vagas estão abertas para pessoas com deficiência! #VemSerVericoder Responsabilidades e atribuições: 1. Atuação como Facilitador(a) e Interface:...
-
Analista infraestrutura pleno | sre | csre.cel
2 semanas atrás
HOME OFFICE, Brasil Magazine Luiza Tempo inteiroA Magalu Cloud é a plataforma de serviços de computação em nuvem criada pela maior e mais inovadora empresa de varejo do país, a Magazine Luiza. Nascemos em 2020, com o propósito claro: Impulsionar a competitividade do Brasil através da tecnologia. Oferecemos serviços de nuvem hyperscale com engenharia local, interface descomplicada, preços em reais...
-
Desenvolvedor(a) pleno sre
Há 2 dias
HOME OFFICE, Brasil Magazine Luiza Tempo inteiroVocê curte resolver problemas complexos, automatizar processos manuais e deixar sistemas mais estáveis e eficientes? Então essa vaga é pra você! Estamos montando um time de SRE dentro da Tribo de Plataforma & Full do Magalu Entregas, com o propósito de aumentar a confiabilidade, disponibilidade e automação das nossas plataformas que sustentam o...
-
Analista command center pleno
1 semana atrás
HOME OFFICE, Brasil Grupo Taking Tempo inteiroResponsabilidades: Acompanhar fila de chamados e alertas via ServiceNow; Analisar incidentes de Nível 1 relacionados a demandas SRE; Executar atividades de restarts e recuperação do ambiente; Analisar logs de ferramentas e aplicações (Dynatrace); Montar e liderar salas de crise; Escalar e efetuar abertura de chamados junto a fornecedores; Realizar...
-
Site reliability engineer pleno
1 semana atrás
HOME OFFICE, Brasil Premiersoft Tempo inteiroNa Premiersoft, transformamos desafios em soluções. Com mais de uma década de pioneirismo em desenvolvimento mobile, somos movidos por um propósito claro: criar experiências tecnológicas que impulsionam o crescimento e a transformação dos nossos clientes. Nosso time, formado por mais de 200 #Heroes, combina expertise técnica com o nosso DNA: Team...
-
Devops - pleno
2 semanas atrás
HOME OFFICE, Brasil Paciente 360 Tempo inteiroRequisitos mínimos: 3+ anos atuando com AWS em produção. Experiência com GitHub e GitHub Actions (ou GitLab CI/Jenkins, disposto a migrar). Docker e fundamentos de redes (VPC, subnets, NAT, SG, DNS). Conhecimento prático em PostgreSQL e MongoDB (tuning básico, backup/restore). Sólida base de Linux, observabilidade (métricas, logs, traces) e...
-
Dbre pleno
2 semanas atrás
HOME OFFICE, Brasil Lisa IT Tempo inteiroVaga: DBRE (Database Reliability Engineer)Estamos em busca de um(a) DBRE (Database Reliability Engineer) para atuar na construção, manutenção e evolução de produtos e soluções tecnológicas. Se você é apaixonado por tecnologia, banco de dados, confiabilidade e infraestrutura como código (IaC), esta oportunidade é para você. Você está pronto...
-
Analista de devops
1 semana atrás
HOME OFFICE, Brasil Digix Tempo inteiroSobre nós:Em 2001 nascemos de um pensamento: usar a tecnologia para facilitar a gestão pública e a vida das pessoas. De lá pra cá, adaptamos e melhoramos processos por onde passamos, investimos em agilidade e trouxemos inovação para o setor público. A tecnologia que criamos proporciona desde merenda escolar de qualidade para mais de 210 mil crianças...
-
Sofware engineering iii
Há 6 dias
HOME OFFICE, Brasil Dock Tempo inteiroQuem é a Dock? Há mais de 20 anos, cumprimos a missão de democratizar o acesso a serviços financeiros, tornando experiências financeiras mais simples e acessíveis. Somos um time de pessoas obstinadas, que acreditam na tecnologia e nos serviços como os principais facilitadores para a evolução de nossos clientes e a transformação do papel das...
-
Analista de infraestrutura cloud sr
2 semanas atrás
HOME OFFICE, Brasil Vericode Tempo inteiroSe você gosta de desafios e quer mostrar todo o seu potencial, queremos te conhecer! A Vericode preza por um time inclusivo e repleto de diversidade, nas suas mais variadas representações. Todas as nossas vagas estão abertas para pessoas com deficiência! #VemSerVericoder Responsabilidades: Implementar práticas de Infrastructure as Code e processos de...