Top.Mail.Ru

ИИ vs инциденты. Как мы помогаем решать инциденты быстрее с помощью AI

Экспертный хаб

Тезисы

В экосистеме МТС ежедневно проходят тысячи инцидентов. Их полный цикл — от выявления мониторингом до PostMortem — требует большого объёма ручных усилий. Инженеры тратят время на сбор данных из разрозненных систем, и это замедляет реакцию и повышает субъективность анализа.

Предлагаемое решение — агенты AI в нашей централизованной ITSM, которые берут на себя рутину и добавляют объективности. PostMortem Copilot анализирует инцидент и за миллисекунды находит схожие случаи в базе из более одного миллиона отчётов, генерируя гипотезы причин и меры. Solution Copilot сопровождает инцидент от регистрации до решения, давая контекстные рекомендации на основе данных мониторинга, схожих ему инцидентов, а также с интегрируемыми сущностями (merge requests, работы, инциденты и пр.).

В докладе расскажем, как создавалось работающее решение и почему это сложнее, чем просто подключить LLM с промптом. Ключевые вызовы — обеспечение безопасной работы в закрытом контуре, интеграция с внутренними системами наблюдаемости и инцидентов, а также исключение галлюцинаций AI.

Наша цель — единая AI OPS экосистема, полностью снимающая рутину с инженеров на всех этапах.


Аудитория

Для всех


Уровень сложности

Начальный

MTС Web Services
Евгений Лачугин

Миссия — управление надёжностью экосистемы МТС: от оперативного реагирования до системных улучшений.

Как руководитель команды дежурной смены 24/7 в Mission Control Center отвечает за координацию реагирования на инциденты в МТС. Команда координирует реагирование на сбои, работает с инцидентами в режиме 24/7 и анализирует их причины в рамках PostMortem, чтобы минимизировать влияние на бизнес и пользователей.

Как руководитель продуктов Contexter преобразует этот опыт в технологические решения. Команда создаёт инструменты на основе данных и AI, которые направлены для анализа данных, автоматизации рутинных задач и помощи командам в быстром устранении инцидента, чтобы повышать устойчивость сервисов на системном уровне.

Цель — перевести управление надёжностью из реактивного режима в режим проактивного контроля.

MTС Web Services
Алексей Рунов

В структурах МТС более 11 лет. Руководил командами эксплуатации, внедрял продуктовую культуру, занимался разработкой внутренних ИТ-сервисов компании. В настоящий момент занимается внедрением ИИ-инициатив в платформе мониторинга и наблюдаемости RelyOps. Есть несколько стартапов в Iot-сфере. Увлекается яхтингом и организует парусные туры.

Другие спикеры Экспертный хаб