В компаниях с продуктовыми сервисами наступает момент, когда мониторинг из вспомогательного инструмента превращается в полноценную платформу. Тысячи метрик телеметрии (трафик, логи, Kafka lag, RPS) требуют постоянного внимания, ведь раннее обнаружение аномалий — существенная экономия. Однако классические подходы могут информировать поздно или с большим количеством ложных срабатываний, а ручные скрипты писать сложно — это приводит к фрагментации экспертизы и низкому покрытию. Возникает вопрос: может ли ML детектить любую аномалию и стать универсальным инструментом мониторинга?
В выступлении расскажу, как это привело к созданию сервиса обнаружения аномалий для десятков тысяч метрик в платформе наблюдаемости Sage — от создания заявки к реалтайм-оповещениям. Освещу явные и неявные требования (экономика, точность/полнота, особенности реалтайма) и их ограничения, типы аномалий телеметрии, архитектуру решения. Разберу эксперименты, выбор подхода — с фокусом на то, что ML ловит только понятное, а границы детекции задаёт человеческий фактор.
Доклад полезен SRE и ML-специалистам; интересен всем, кто борется с ложными оповещениями.
Метрики и мониторинг / Алерты, Perfomance в ML / AI
Бэкенд-разработчик, Специалист по данным / Специалист по машинному обучению, Продуктовый менеджер
Средний
Специалист по машинному обучению с продуктовым уклоном, магистр ITMO AI Talent Hub, разрабатывает сервис обнаружения аномалий в метриках продуктов внутри наблюдаемой платформы Sage.