É a 3ª melhor prática dentro das áreas do DevOps. Inclui disponibilidade, performance, segurança e todos outros fatores que permitem entregar capacidade aos usuários. O SRE (Site Reliability Engineer) foi um termo popularizado pelo Google com esta abordagem. O Google possui times de suporte a seus serviços até atingirem um certo nível de tráfego e maturidade.

SREFonte: IBM

Reliability
É a habilidade de um sistema ou componente funcionar sob condições inadequadas por um período de tempo.

APM (Application Performance Management)
As ferramentas APM analisam toda a arquitetura da aplicação de forma leve. Contribui na análise por períodos, métricas e identificação de gargalos e lentidões.

Feedback loops do ambiente de produção ao time de desenvolvimento. As 6 áreas recomendadas para monitoramento:

SRE-book 1. Service performance e uptime
2. Métricas dos componentes da aplicação
3. Métricas de sistema
4. App metrics
5. Performance
6. Segurança

SRE Operate for design: Logging
Os logs são grandes ferramentas de monitoramento e contribuem para o ciclo de feedback. Alguns bons princípios de Log:

  1. Não coletar dados que você nunca planeja utilizar
  2. Mantenha os dados pelo tempo suficiente para uso
  3. Log tudo que você puder, mas alerte somente o que necessita de ação
  4. Não tente fazer o seu Log mais disponível (ou mais seguro) que seu stack de produção (Lean approach – log deve atender a necessidade do negócio, não excedê-la)
  5. Logs change

Ferramentas: Pingdom, Datadog, Netuitive, New Relic, Librato, AppDynamics, Ruxit, etc.5-w-SRE