Изначально у клиента было 12 быстрорастущих команд разработки и 200−300 задач в спринте. Все это приводило к росту энтропии в стабильности проекта. В течение двух лет ритейлер развивал собственный мониторинг e-com проекта посредством ClickHouse, Grafana, Telegram для нотификации, Zabbix, которые включали порядка 50 дашбордов. Позже Hoff создал отдел, который отвечал за контроль производительности и стабильности сервиса, развивал собственный мониторинг на Open Source. Однако в процессе его работы был выявлен ряд непокрытых областей проекта в части трейсов ошибок. Для решения этих задач, в дополнение к уже развитому мониторингу ИТ-инфраструктуры, ритейлер принял решение интегрировать APM-инструмент GMonit при технической поддержке Hoff Tech, обеспечивающей функционирование ИТ-инфраструктуры торговой сети.
Меню каталога для мобильного приложения
Анализ случаев деградаций производительности и ошибок
Алерты по состоянию здоровья сервиса
На основании полученных результатов было принято решение о масштабировании проекта на боевые приложения, включая мобильные приложения Hoff.
Первичные исследования на основании собранных метрик позволили выявить узкие места, сформировать рекомендации по повышению эффективности работы сервиса.
Интеграция GMonit осуществлялась в несколько этапов:
Специалисты GMonit разделили MySQL и ClickHouse, протестировали обращения (единая точка входа) и протегировали все основные запросы, чтобы с помощью фильтра проще получать информацию, т.к. изначально многие запросы «склеивались» в единое обращение без какой-либо конкретики. Также настроили:
- Кастомный дашборд баз данных.
- Алерт по здоровью приложения.
Для удобства ритейлера Hoff Tech выделил ограниченный контур — стенд для испытаний, на котором командой GMonit были установлены агенты ИТ-продукта.
Развернули:
- APM для среды разработки.
- APM для продуктовой среды.
- Инфраструктурные агенты.
- Мониторинг баз данных: Elasticsearch, MySQL, Redis.