О компании

Кейсы

Решения

Продукты

О компании

Решения

Продукты

Сферы использования

Специализация

CIO

APM

Детекция аномалий на основе динамических бейзлайнов

Мониторинг бизнес-процессов и клиентских путей

Мониторинг инфраструктуры

Здоровье бизнеса

OpenTelemetry & Prometheus

Мониторинг 1С

Мониторинг SAP

Мониторинг карты сервисов

Система оповещения об инцидентах (алертинг)

Мобильный мониторинг (RUM mobile)

Распределенная трассировка транзакций

Карточка инцидента

Мониторинг внешних интеграций

Мониторинг frontend (RUM Web)

Новинка

[{"lid":"1681828789469","ls":"10","loff":"","li_parent_id":"","li_type":"nm","li_ph":"\u0418\u043c\u044f \u0424\u0430\u043c\u0438\u043b\u0438\u044f","li_name":"name","li_req":"y","li_nm":"name"},{"lid":"1681828789470","ls":"20","loff":"","li_parent_id":"","li_type":"ph","li_name":"phone","li_masktype":"a","li_maskcountry":"RU","li_req":"y","li_nm":"phone"},{"lid":"1770384517240","ls":"30","loff":"","li_parent_id":"","li_type":"in","li_ph":"\u041a\u043e\u043c\u043f\u0430\u043d\u0438\u044f","li_name":"company","li_req":"y","li_nm":"company"},{"lid":"1764515713750","ls":"40","loff":"","li_parent_id":"","li_type":"sb","li_title":"\u0426\u0435\u043b\u044c \u043e\u0431\u0440\u0430\u0449\u0435\u043d\u0438\u044f","li_variants":"\u041f\u043e\u0432\u044b\u0441\u0438\u0442\u044c \u043d\u0430\u0434\u0435\u0436\u043d\u043e\u0441\u0442\u044c \u0418\u0422 \u0441\u0438\u0441\u0442\u0435\u043c\n\u0423\u0441\u043a\u043e\u0440\u0438\u0442\u044c \u0440\u0435\u0430\u043a\u0446\u0438\u044e \u043d\u0430 \u0438\u043d\u0446\u0438\u0434\u0435\u043d\u0442\u044b\n\u0421\u043e\u043a\u0440\u0430\u0442\u0438\u0442\u044c \u0432\u0440\u0435\u043c\u044f \u043f\u0440\u043e\u0441\u0442\u043e\u044f\n\u041f\u043e\u0432\u044b\u0441\u0438\u0442\u044c \u043a\u0430\u0447\u0435\u0441\u0442\u0432\u043e \u0440\u0435\u043b\u0438\u0437\u043e\u0432 \u041f\u041e\n\u041f\u043e\u0432\u044b\u0441\u0438\u0442\u044c \u043a\u0430\u0447\u0435\u0441\u0442\u0432\u043e \u0440\u0435\u043b\u0438\u0437\u043e\u0432 \u041f\u041e\n\u0423\u043b\u0443\u0447\u0448\u0438\u0442\u044c CJM\n\u0412\u0441\u0435 \u0441\u0440\u0430\u0437\u0443\n\u0414\u0440\u0443\u0433\u043e\u0435","li_name":"reason","li_selfirstvar":"\u0412\u044b\u0431\u0435\u0440\u0438\u0442\u0435 \u0432\u0430\u0440\u0438\u0430\u043d\u0442 \u0438\u0437 \u0441\u043f\u0438\u0441\u043a\u0430","li_req":"y","li_nm":"reason"},{"lid":"1681828789473","ls":"50","loff":"","li_parent_id":"","li_type":"cb","li_label":"<span style=\"font-weight: 400; color: rgb(0, 28, 71);\">\u042f \u043e\u0437\u043d\u0430\u043a\u043e\u043c\u0438\u043b\u0441\u044f \u0441 \u0443\u0441\u043b\u043e\u0432\u0438\u044f\u043c\u0438 \u0438 \u0434\u0430\u044e <\/span><a href=\"#soglasielead\" style=\"color: rgb(0, 28, 71); border-bottom: 1px solid rgb(0, 28, 71); box-shadow: none; text-decoration: none; font-weight: 400;\">\u0421\u043e\u0433\u043b\u0430\u0441\u0438\u0435 \u043d\u0430 \u043e\u0431\u0440\u0430\u0431\u043e\u0442\u043a\u0443 \u043f\u0435\u0440\u0441\u043e\u043d\u0430\u043b\u044c\u043d\u044b\u0445 \u0434\u0430\u043d\u043d\u044b\u0445<\/a>","li_name":"sogl-personal-data","li_req":"y","li_nm":"sogl-personal-data"},{"lid":"1754573352453","ls":"60","loff":"","li_parent_id":"","li_type":"cb","li_label":"<span style=\"color: rgb(0, 28, 71); font-weight: 400;\">\u042f \u043e\u0437\u043d\u0430\u043a\u043e\u043c\u0438\u043b\u0441\u044f \u0441 \u0443\u0441\u043b\u043e\u0432\u0438\u044f\u043c\u0438 \u0438 \u0434\u0430\u044e <\/span><a href=\"#soglasie-ads\" style=\"color: rgb(0, 28, 71); font-weight: 400; border-bottom: 1px solid rgb(0, 28, 71); box-shadow: none; text-decoration: none;\">\u0421\u043e\u0433\u043b\u0430\u0441\u0438\u0435 \u043d\u0430 \u043f\u043e\u043b\u0443\u0447\u0435\u043d\u0438\u0435 \u0440\u0435\u043a\u043b\u0430\u043c\u043d\u043e\u0439 \u0438 \u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0446\u0438\u043e\u043d\u043d\u043e\u0439 \u0440\u0430\u0441\u0441\u044b\u043b\u043a\u0438<\/a>","li_name":"sogl-ads","li_nm":"sogl-ads"}]

Мы готовы провести персональную демонстрацию решения под ваш запрос

Заполните форму

Главная
/
Блог
/
Цель уровня обслуживания (SLO) – что это и зачем она нужна

Цель уровня обслуживания (SLO) — что это и зачем она нужна

Конкурентоспособность цифрового продукта во многом определяется качеством пользовательского опыта. Его основа – стабильная работа приложения, высокая скорость отклика и прозрачность процессов. Бизнес должен поддерживать высокий уровень сервиса, соответствующий ожиданиям клиентов и требованиям рынка.

Но одного лишь определения заявленных стандартов недостаточно. Важно регулярно измерять реальные результаты – только так возможно достижение целевых значений ключевых показателей. Эту задачу решает SLO.

Рассмотрим подробнее, что представляет собой метрика и каким образом она помогает выстраивать предсказуемый и качественный сервис.

SLO, SLA и SLI: в чем разница

Термины часто используются вместе, но имеют разное назначение:

Цель уровня обслуживания (SLO, Service Level Objective)

Это внутренняя управленческая цель, выраженная в процентах за период. Показатель состоит из трех ключевых элементов:

1. Метрика — измеряемое число (уровень доступности, время отклика, доля успешных транзакций или объем простоев).
2. Цель — конкретное значение, которого нужно достичь (99,9% успешных запросов за 7 дней или <200 мс времени ответа).
3. Время — срок, за который измеряется метрика (месяц, квартал или другой отчетный цикл).

В отличие от алертов, которые часто настраиваются «на все подряд», SLO фиксируют именно то, что влияет на бизнес.
Соглашение об уровне обслуживания (SLA, Service Level Agreement)

Это договор между поставщиком и клиентом, в котором описываются измеримые показатели работы сервиса (формальный документ или устная договоренность внутри компании между ИТ и бизнесом).
Индикатор уровня обслуживания (SLI, Service Level Indicator)
Это метрика, отражающая фактическое состояние сервиса. Именно на основе SLI оценивается достижение целевых значений, установленных в рамках SLO. Есть два основных способа его задать:
- Через количество событий. Например, количество запросов без ошибок делится на все запросы. Если из 28 млн запросов за неделю 500 тысяч завершились с ошибкой, ваш SLI = (28M − 0.5M) / 28M ≈ 98,2%.
- Через интервалы времени. Иногда нужной метрики в виде счетчика нет. Допустим, вы хотите, чтобы запросы были быстрее 1 секунды, но у вас есть только среднее время за минуту. Тогда SLI считается как: количество минут, в которые среднее время запроса было меньше 1 секунды, делится на общее количество минут.

Про бюджет ошибок

Также в рамках разработки SLO ключевую роль играет бюджет ошибок (Error budget), который показывает допустимые отклонения от целевого уровня обслуживания — «сколько нам осталось до нарушения». Бизнесу важно не только поддерживать стабильность, но и развивать продукт: выпускать новые функции, обновлять архитектуру, проводить A/B‑тесты и оптимизировать производительность. Бюджет ошибок задает количественные границы допустимого риска и помогает балансировать эти задачи.

Допустим, SLO — 98% успешных запросов за 7 дней. Текущий SLI — 98,3%. Бюджет ошибок уже не 100%, а примерно 17%, потому что из допустимого запаса ошибок вы уже израсходовали часть. Если ошибок станет больше и SLI упадет до 98% - бюджет обнулится, обещание нарушено.

Если SLI уйдет ниже SLO, бюджет станет отрицательным: −66% означает, что вы кратно превысили допустимый уровень ошибок.

Однако бюджет ошибок может восстанавливаться. Если у вас было 500 тыс ошибочных запросов на фоне 28 млн хороших, а потом нагрузка выросла и вы обработали 600 млн хороших запросов при тех же 500 тыс ошибок — в процентном соотношении стало лучше, и показатель восстановился.

Графики бюджета ошибок и скорости сгорания в GMONIT

Про скорость сгорания

Метрика скорости сгорания (Burn Rate) показывает, с какой интенсивностью расходуется бюджет ошибок. Для наглядности ее можно представить по принципу светофора:

Зеленый (<1) — бюджет ошибок стабилен. Все в порядке.
Желтый (1−3) — повышенный расход; возможно нарушение SLO.
Красный (>3) — нарушение SLO ожидается в ближайшее время.

Именно на скорости сгорания ставятся предиктивные алерты: система срабатывает только тогда, когда показатель превышает порог одновременно в коротком окне (5−60 минут) и в длинном (6−72 часа). Это подход заимствован из Google SRE.

При создании цели уровня обслуживания автоматически создаются три алерта:

1. SLI < SLO — обещание уже нарушено.
2. Фастберн (Fast burn) — бюджет ошибок сгорает быстро, проблема прямо сейчас.
3. Слоуберн (Slow burn) — бюджет ошибок медленно тает, проблема в перспективе.

Как это работает в GMONIT

В платформе наблюдаемости есть несколько способов задать SLI — от простого к сложному:

Отношение метрик — можно выбрать метрику ошибок и метрику всех событий, система сама рассчитает SLI и предложит цель. Настройка занимает меньше 1 минуты.

Форма создания SLI с выбором метрик в GMONIT

SQL-условия — для случаев, когда нужна проверка порогового значения: например, «среднее время запроса <1 секунды за 5 минут». Нужно выбрать метрику, агрегацию, оператор сравнения и порог.

Произвольный SLI — полная свобода: любой источник данных, любые запросы. Можно подключить метрики из Prometheus, Zabbix или кастомные бизнес-метрики. Единственное требование — запрос должен возвращать значение от 0 до 1.

При создании вы сразу видите превью: текущий SLI, рекомендованную цель, остаток бюджета ошибок и графики. Можно поменять цель и увидеть, как изменится бюджет, еще до сохранения.

Кроме ручной настройки, есть библиотека шаблонов: готовые SLO для APM (доля ошибок транзакций, Apdex), браузерных метрик (скорость появления главного контента (LCP, Largest Contentful Paint), визуальная стабильность веб-страницы (CLS, Cumulative Layout Shift) и др.), инфраструктуры (CPU, память, диск, перезагрузки хостов).

Библиотека шаблонов SLO в GMONIT

Для каждого SLO можно добавить фильтр по приложению, настроить лейблы для маршрутизации алертов в нужный канал и привязать к Карточке инцидента.

SLO — это полноценный инструмент системного управления надежностью сервисов. В связке с аналитикой GMONIT целевой уровень обслуживания позволяет не только контролировать выполнение SLA, но и создавать прозрачную, измеримую и управляемую среду для команд разработки и эксплуатации. Они обеспечивают раннее выявление сбоев, помогают с приоритезацией в ИТ, минимизируют риски для бизнеса и поддерживают высокий уровень удовлетворенности клиентов.

Использование платформ наблюдаемости превращает управление продуктов из реактивного процесса в стратегически выверенную, предсказуемую и эффективную практику, где решения принимаются на основе объективных данных, а не догадок или постфактум-оценок.

FAQ