Top.Mail.Ru

Может ли ML детектить любую аномалию? Пределы мониторинга

Наблюдаемость систем
Управление продуктом и проектами

Тезисы

В компаниях с продуктовыми сервисами наступает момент, когда мониторинг из вспомогательного инструмента превращается в полноценную платформу. Тысячи метрик телеметрии (трафик, логи, Kafka lag, RPS) требуют постоянного внимания, ведь раннее обнаружение аномалий — существенная экономия. Однако классические подходы могут информировать поздно или с большим количеством ложных срабатываний, а ручные скрипты писать сложно — это приводит к фрагментации экспертизы и низкому покрытию. Возникает вопрос: может ли ML детектить любую аномалию и стать универсальным инструментом мониторинга?

В выступлении расскажу, как это привело к созданию сервиса обнаружения аномалий для десятков тысяч метрик в платформе наблюдаемости Sage — от создания заявки к реалтайм-оповещениям. Освещу явные и неявные требования (экономика, точность/полнота, особенности реалтайма) и их ограничения, типы аномалий телеметрии, архитектуру решения. Разберу эксперименты, выбор подхода — с фокусом на то, что ML ловит только понятное, а границы детекции задаёт человеческий фактор.

Доклад полезен SRE и ML-специалистам; интересен всем, кто борется с ложными оповещениями.


Ключевые темы и технологии

Метрики и мониторинг / Алерты, Perfomance в ML / AI


Аудитория

Бэкенд-разработчик, Специалист по данным / Специалист по машинному обучению, Продуктовый менеджер


Уровень сложности

Средний

ТБанк
Михаил Кандрюков

Специалист по машинному обучению с продуктовым уклоном, магистр ITMO AI Talent Hub, разрабатывает сервис обнаружения аномалий в метриках продуктов внутри наблюдаемой платформы Sage.

Другие спикеры трека Наблюдаемость систем