Метрики и алерты
метрики — числовые сигналы о состоянии системы; алерты оповещают о проблемах.
Почему это важно: Метрики и алерты превращают 'реактивное' реагирование на жалобы пользователей в 'проактивное' обнаружение проблем.
Главная идея
Четыре golden signals: latency, traffic, errors, saturation. Алерты стройте на SLO, а не на инфраструктурных метриках.
Как это выглядит на практике
- Приложение экспортирует метрики в Prometheus-совместимом формате.
- Prometheus регулярно скрейпит эндпоинт /metrics.
- Grafana визуализирует данные в дашбордах.
- Alertmanager отправляет уведомления при нарушении SLO.
Что происходит под капотом
- Counter: монотонно растущий счётчик (запросы, ошибки).
- Gauge: мгновенное значение (температура, активные соединения).
- Histogram: распределение значений (latency p50/p95/p99).
- SLO: Service Level Objective, целевой показатель (например, 99.9% запросов быстрее 200ms).
Типичные ошибки и заблуждения
- Ошибка: метрики на CPU/RAM достаточно. Они не говорят о поведении приложения.
- Ошибка: алерт на всё подряд. Alert fatigue приводит к игнорированию алертов.
- Ошибка: среднее время ответа показательно. p99 важнее, чем avg, для пользовательского опыта.
- Ошибка: алерты = мониторинг. Алерты — это триггеры действий, дашборды — инструменты анализа.
Ключевые выводы
- Четыре golden signals покрывают большинство случаев.
- SLO-based alerting эффективнее чем threshold на метриках.
- p99 важнее avg.
- Alert fatigue убивает команду — алерты должны быть actionable.
Термины урока
Связь с работой backend-разработчика
Хорошие метрики и алерты — разница между 'узнали от пользователей' и 'починили до жалоб'. Это основа надёжности сервиса.
Мини-разбор реальной ситуации
Команда настроила алерт на 'CPU > 80%'. Он срабатывал каждую ночь при бэкапах, все его игнорировали, и никто не заметил, как сервис реально упал на час.
Что запомнить
- Алерты должны требовать действий.
- SLO > пороги на метриках.
- p99 > avg.
Итог
Метрики и алерты — не роскошь, а обязательная часть production-grade сервиса.
Комментарии к уроку
Войдите, чтобы оставить комментарий.
Пока нет комментариев — будьте первым.