Job Description

Estamos a contratar um/a
Site Reliability Engineer (SRE)
com experiência em ambientes cloud-native Azure, para integrar equipas responsáveis pelo desenvolvimento de data products suportados por pipelines e workloads executados em Cloud. A missão do SRE será garantir a fiabilidade, saúde operacional, escalabilidade e eficiência de custos das plataformas Cloud e AI.

Responsabilidades

  • Garantir a fiabilidade e operação das plataformas;
  • Assegurar a saúde das plataformas cloud e de dados (Azure App Environments);
  • Definir e implementar SLAs / SLOs;
  • Definir modelos de operação e estratégias de Disaster Recovery;
  • Gerir incidentes, alarmística e promover a melhoria contínua da operação;
  • Implementar e manter observabilidade e monitorização com Azure Monitor e Application Insights;
  • Utilizar telemetria como base para métricas, alertas e dashboards;
  • Monitorizar performance, disponibilidade, custos e consumos o...

Ready to Apply?

Take the next step in your AI career. Submit your application to Xtedder today.

Submit Application