Job Description
Estamos a contratar um/a Site Reliability Engineer (SRE) com experiência em ambientes cloud-native Azure, para integrar equipas responsáveis pelo desenvolvimento de data products suportados por pipelines e workloads executados em Cloud. A missão do SRE será garantir a fiabilidade, saúde operacional, escalabilidade e eficiência de custos das plataformas Cloud e AI.
Responsabilidades
Garantir a fiabilidade e operação das plataformas;
Assegurar a saúde das plataformas cloud e de dados (Azure App Environments);
Definir e implementar SLAs / SLOs;
Definir modelos de operação e estratégias de Disaster Recovery;
Gerir incidentes, alarmística e promover a melhoria contínua da operação;
Implementar e manter observabilidade e monitorização com Azure Monitor e Application Insights;
Utilizar telemetria como base para métricas, alertas e dashboards;
Monitorizar performance, disponibilidade, custos e consumos operacionais;
Definir e implementar automações alinhadas com a...
Responsabilidades
Garantir a fiabilidade e operação das plataformas;
Assegurar a saúde das plataformas cloud e de dados (Azure App Environments);
Definir e implementar SLAs / SLOs;
Definir modelos de operação e estratégias de Disaster Recovery;
Gerir incidentes, alarmística e promover a melhoria contínua da operação;
Implementar e manter observabilidade e monitorização com Azure Monitor e Application Insights;
Utilizar telemetria como base para métricas, alertas e dashboards;
Monitorizar performance, disponibilidade, custos e consumos operacionais;
Definir e implementar automações alinhadas com a...
Ready to Apply?
Take the next step in your AI career. Submit your application to Xtedder today.
Submit Application