Hace 2 sem
Senior Site Reliability Engineer
Si el reclutador te contacta podrás conocer el sueldo
Sobre el empleo
Descripción
Buscamos un Senior Site Reliability Engineer (SRE) con amplia experiencia en infraestructura en la nube, automatización y observabilidad. Este rol es fundamental para garantizar la confiabilidad, escalabilidad y eficiencia operativa de nuestros sistemas. Trabajarás en estrecha colaboración con equipos de desarrollo e infraestructura para mejorar la resiliencia del sistema, optimizar procesos y minimizar tiempos de inactividad.
Responsabilidades Principales:
Infraestructura como Código (IaC): Diseñar, implementar y gestionar infraestructura en la nube utilizando Terraform y Terragrunt.
Cloud & Virtualización: Mantener y optimizar servicios en AWS, incluyendo Elastic Beanstalk, así como administrar estrategias de virtualización.
CI/CD Pipelines: Desarrollar y mejorar pipelines de despliegue automatizado mediante CircleCI para garantizar integraciones y entregas fluidas.
Observabilidad & Monitoreo: Implementar y mantener prácticas de observabilidad utilizando New Relic para supervisar el rendimiento del sistema y abordar problemas de manera proactiva.
Confiabilidad & Rendimiento: Definir y gestionar SLOs, SLIs y SLAs para mejorar la resiliencia y confiabilidad del sistema.
Gestión de Incidentes: Diagnosticar y resolver incidentes en producción, contribuir a análisis post-mortem y promover mejoras continuas.
Automatización & Escalabilidad: Crear herramientas y automatizaciones para reducir el trabajo manual y mejorar la eficiencia del sistema, asegurando la escalabilidad de la infraestructura según sea necesario.
Requisitos:
Experiencia sólida en la implementación y administración de infraestructura en la nube, preferiblemente en AWS.
Conocimiento avanzado en Terraform y Terragrunt para la gestión de infraestructura como código.
Experiencia en el diseño y mantenimiento de pipelines CI/CD con CircleCI.
Dominio de herramientas de monitoreo y observabilidad, especialmente New Relic.
Habilidad para definir y gestionar SLOs, SLIs y SLAs.
Experiencia en gestión de incidentes y mejora continua en entornos de producción.
Capacidad para desarrollar automatizaciones y optimizar la infraestructura para mejorar la eficiencia y escalabilidad.
Nivel de inglés avanzado, tanto escrito como hablado.
ID: 20285320
También puedes buscar
Refina la ubicación de tu búsqueda