SRE Architect

Há 5 dias


São Bernardo do Campo, Brasil EPAM Systems Tempo inteiro

Overview We are seeking a highly skilled Site Reliability Engineer/Architect (SRE) to join our innovative and fast-paced team. In this role, you will be responsible for designing and implementing modern SRE practices to enhance the reliability and scalability of our enterprise-grade Generative AI (GenAI) integration platform. You will play a vital role in driving operational excellence by adopting advanced methodologies and tools while collaborating with key stakeholders across technical and business units. Responsibilities Define Service Level Objectives (SLOs) and Service Level Indicators (SLIs) to establish reliability standards and monitor system health Architect resilient production systems using methodologies like canary deployments, shadow traffic, and testing-in-production Develop incident management strategies and automate on-call operations to minimize downtime and improve system stability Enhance observability frameworks with logging, tracing, and monitoring for real-time visibility and proactive troubleshooting Automate tasks related to scalability, performance optimization, and operational processes for improved efficiency Collaborate with engineering teams to integrate SRE principles into system design and development Provide strategic leadership for implementing site reliability solutions in multi-cloud, multi-tenant environments for enterprise applications Advise executive stakeholders with insights and recommendations to align SRE strategies with organizational goals Promote a culture of innovation and operational reliability through mentoring and industry-leading best practices Ensure the platform’s infrastructure supports high availability and scalability in partnership with architecture and DevOps teams Drive continuous improvement by identifying opportunities for process innovation and optimization Requirements 10+ years of professional experience in SRE, DevOps, or related areas, including managing production systems Expertise in SRE practices such as SLOs, SLIs, canary testing, and incident management Proficiency with cloud technologies like AWS, Google Cloud Platform, or Azure, with hands-on experience in multi-cloud setups Background in observability tools such as Prometheus, Grafana, or ELK Stack, as well as monitoring distributed systems Skills in automation platforms such as Terraform, Ansible, or Kubernetes, enabling infrastructure-as-code adoption Familiarity with programming languages like Python, Go, or Bash for building automation solutions Strong understanding of CI/CD pipelines, containerization technologies, and orchestration frameworks Competency in system architecture for fault tolerance, redundancy, and performance optimization History of collaborating effectively with diverse stakeholders, from technical teams to executive management Background in managing enterprise-scale systems and multi-tenant platform deployments Nice to have Knowledge of Generative AI platforms and integration techniques Understanding of managed database services, including Amazon RDS, Google Spanner, or Azure SQL Familiarity with security practices for enterprise platforms and multi-cloud infrastructures Background in contributing to technical roadmaps for distributed systems at scale Capability to lead initiatives involving Chaos Engineering or disaster recovery strategies We offer International projects with top brands Work with global teams of highly skilled, diverse peers Employee financial programs Paid time off and sick leave Upskilling, reskilling and certification courses Unlimited access to the LinkedIn Learning library and 22,000+ courses Global career opportunities Volunteer and community involvement opportunities EPAM Employee Groups Award-winning culture recognized by Glassdoor, Newsweek and LinkedIn Seniority level Mid-Senior level Employment type Full-time Job function Information Technology, Engineering, and Business Development Industries Software Development, IT Services and IT Consulting, and Venture Capital and Private Equity Principals Referrals increase your chances of interviewing at EPAM Systems. Get notified about new Site Reliability Engineer jobs in Brazil . #J-18808-Ljbffr


  • Arquiteto cloud

    2 semanas atrás


    São Paulo, Brasil Netvagas Tempo inteiro

    Buscamos alguém que: Pensa e age a partir das perspectivas dos clientes. Demonstra interesse e curiosidade de conhecer os clientes, seus comportamentos e preferências para atender e superar suas expectativas; Demonstra compromisso permanente em aprender, ensinar e desenvolver, contribuindo para um ambiente descontraído, respeitoso e colaborativo,...


  • São Paulo, Brasil NIO Tempo inteiro

    Na NIO, acreditamos que a tecnologia conecta pessoas e transforma o futuro. Somos uma empresa inovadora e focada em excelência, operando com uma cultura dinâmica e colaborativa. Nosso time trabalha com autonomia, paixão e compromisso, sempre em busca dos melhores resultados. **Responsabilidades e atribuições** - Avaliar soluções e apoiar a...


  • São Paulo, Brasil Nio Tempo inteiro

    Na NIO, acreditamos que a tecnologia conecta pessoas e transforma o futuro. Somos uma empresa inovadora e focada em excelência, operando com uma cultura dinâmica e colaborativa. Nosso time trabalha com autonomia, paixão e compromisso, sempre em busca dos melhores resultados. Estamos em busca de um(a) Arquiteto(a) Especialista DevOps & SRE para liderar a...

  • Analista Devops/Sre Sênior

    2 semanas atrás


    São Paulo, Brasil Engineering Brasil Tempo inteiro

    Qual será o seu papel? Buscamos um profissional experiente e apaixonado por tecnologia para se juntar à nossa equipe como Analista DevOps/SRE. Você será responsável por projetar, implementar e gerenciar soluções em nuvem para atender às necessidades dos nossos clientes. Responsabilidades: Projetar e implementar arquiteturas de nuvem escaláveis,...

  • Analista DevOps/SRE Sênior

    2 semanas atrás


    São Paulo, Brasil Engineering Brasil Tempo inteiro

    Qual será o seu papel? Buscamos um profissional experiente e apaixonado por tecnologia para se juntar à nossa equipe como Analista DevOps/SRE. Você será responsável por projetar, implementar e gerenciar soluções em nuvem para atender às necessidades dos nossos clientes. Responsabilidades: - Projetar e implementar arquiteturas de nuvem escaláveis,...

  • Analista Devops/Sre Sênior

    2 semanas atrás


    São Paulo, Brasil Engineering Brasil Tempo inteiro

    Qual será o seu papel?😉 Buscamos um profissional experiente e apaixonado por tecnologia para se juntar à nossa equipe como Analista DevOps/SRE. Você será responsável por projetar, implementar e gerenciar soluções em nuvem para atender às necessidades dos nossos clientes. Responsabilidades: - Projetar e implementar arquiteturas de nuvem...

  • Analista DevOps/SRE Sênior

    2 semanas atrás


    São Paulo, Brasil Engineering Brasil Tempo inteiro

    Qual será o seu papel?Buscamos um profissional experiente e apaixonado por tecnologia para se juntar à nossa equipe como Analista DevOps/SRE. Você será responsável por projetar, implementar e gerenciar soluções em nuvem para atender às necessidades dos nossos clientes.Responsabilidades: Projetar e implementar arquiteturas de nuvem escaláveis,...

  • Devops Sre

    Há 7 dias


    Caxias do Sul, Brasil Gft Group Tempo inteiro

    O que buscamos:DevOps/SRE, responsável por projetar, implementar e manter a segurança de ambientes em nuvem — com foco principal em AWS — garantindo a proteção de infraestrutura, redes e aplicações.Atua de forma integrada com equipes de DevOps, SRE e Desenvolvimento, aplicando práticas de segurança, automação e governança para assegurar...

  • Analista Devops/Sre Sênior

    2 semanas atrás


    São Paulo, SP, Brasil Engineering Brasil Tempo inteiro

    Qual será o seu papel? Buscamos um profissional experiente e apaixonado por tecnologia para se juntar à nossa equipe como Analista DevOps/SRE. Você será responsável por projetar, implementar e gerenciar soluções em nuvem para atender às necessidades dos nossos clientes. Responsabilidades: Projetar e implementar arquiteturas de nuvem escaláveis,...

  • Analista DevOps/SRE Sênior

    2 semanas atrás


    São Paulo, SP, Brasil Engineering Brasil Tempo inteiro

    Qual será o seu papel? Buscamos um profissional experiente e apaixonado por tecnologia para se juntar à nossa equipe como Analista DevOps/SRE. Você será responsável por projetar, implementar e gerenciar soluções em nuvem para atender às necessidades dos nossos clientes. Responsabilidades: Projetar e implementar arquiteturas de nuvem escaláveis,...