Может ли ML детектить любую аномалию? Пределы мониторинга

Наблюдаемость систем

Управление продуктом и проектами

Михаил Кандрюков

Зал №4

Тезисы

В компаниях с продуктовыми сервисами наступает момент, когда мониторинг из вспомогательного инструмента превращается в полноценную платформу. Тысячи метрик телеметрии (трафик, логи, Kafka lag, RPS) требуют постоянного внимания, ведь раннее обнаружение аномалий — существенная экономия. Однако классические подходы могут информировать поздно или с большим количеством ложных срабатываний, а ручные скрипты писать сложно — это приводит к фрагментации экспертизы и низкому покрытию. Возникает вопрос: может ли ML детектить любую аномалию и стать универсальным инструментом мониторинга?

В выступлении расскажу, как это привело к созданию сервиса обнаружения аномалий для десятков тысяч метрик в платформе наблюдаемости Sage — от создания заявки к реалтайм-оповещениям. Освещу явные и неявные требования (экономика, точность/полнота, особенности реалтайма) и их ограничения, типы аномалий телеметрии, архитектуру решения. Разберу эксперименты, выбор подхода — с фокусом на то, что ML ловит только понятное, а границы детекции задаёт человеческий фактор.

Доклад полезен SRE и ML-специалистам; интересен всем, кто борется с ложными оповещениями.