Job Description
Estamos a contratar um/a
Site Reliability Engineer (SRE)
com experiência em ambientes cloud-native Azure, para integrar equipas responsáveis pelo desenvolvimento de data products suportados por pipelines e workloads executados em Cloud. A missão do SRE será garantir a fiabilidade, saúde operacional, escalabilidade e eficiência de custos das plataformas Cloud e AI.
Responsabilidades
- Garantir a fiabilidade e operação das plataformas;
- Assegurar a saúde das plataformas cloud e de dados (Azure App Environments);
- Definir e implementar SLAs / SLOs;
- Definir modelos de operação e estratégias de Disaster Recovery;
- Gerir incidentes, alarmística e promover a melhoria contínua da operação;
- Implementar e manter observabilidade e monitorização com Azure Monitor e Application Insights;
- Utilizar telemetria como base para métricas, alertas e dashboards;
- Monitorizar performance, disponibilidade, custos e consumos o...
Ready to Apply?
Take the next step in your AI career. Submit your application to Xtedder today.
Submit Application