Inclui disponibilidade, performance, segurança e todos outros fatores que permitem entregar capacidade aos usuários. O SRE (Site Reliability Engineer) foi um termo popularizado pelo Google com esta abordagem. O Google possui times de suporte a seus serviços até atingirem um certo nível de tráfego e maturidade.
Fonte: IBM
Reliability
É a habilidade de um sistema ou componente funcionar sob condições inadequadas por um período de tempo.
APM (Application Performance Management)
As ferramentas APM analisam toda a arquitetura da aplicação de forma leve. Contribui na análise por períodos, métricas e identificação de gargalos e lentidões.
Feedback loops do ambiente de produção ao time de desenvolvimento. As 6 áreas recomendadas para monitoramento:
![]() |
1. Service performance e uptime 2. Métricas dos componentes da aplicação 3. Métricas de sistema 4. App metrics 5. Performance 6. Segurança |
SRE – Operate for design: Logging
Os logs são grandes ferramentas de monitoramento e contribuem para o ciclo de feedback. Alguns bons princípios de Log:
- Não coletar dados que você nunca planeja utilizar
- Mantenha os dados pelo tempo suficiente para uso
- Log tudo que você puder, mas alerte somente o que necessita de ação
- Não tente fazer o seu Log mais disponível (ou mais seguro) que seu stack de produção (Lean approach – log deve atender a necessidade do negócio, não excedê-la)
- Logs change
Ferramentas: Pingdom, Datadog, Netuitive, New Relic, Librato, AppDynamics, Ruxit, etc.