В экосистеме МТС ежедневно проходят тысячи инцидентов. Их полный цикл — от выявления мониторингом до PostMortem — требует большого объёма ручных усилий. Инженеры тратят время на сбор данных из разрозненных систем, и это замедляет реакцию и повышает субъективность анализа.
Предлагаемое решение — агенты AI в нашей централизованной ITSM, которые берут на себя рутину и добавляют объективности. PostMortem Copilot анализирует инцидент и за миллисекунды находит схожие случаи в базе из более одного миллиона отчётов, генерируя гипотезы причин и меры. Solution Copilot сопровождает инцидент от регистрации до решения, давая контекстные рекомендации на основе данных мониторинга, схожих ему инцидентов, а также с интегрируемыми сущностями (merge requests, работы, инциденты и пр.).
В докладе расскажем, как создавалось работающее решение и почему это сложнее, чем просто подключить LLM с промптом. Ключевые вызовы — обеспечение безопасной работы в закрытом контуре, интеграция с внутренними системами наблюдаемости и инцидентов, а также исключение галлюцинаций AI.
Наша цель — единая AI OPS экосистема, полностью снимающая рутину с инженеров на всех этапах.
Для всех
Начальный
Миссия — управление надёжностью экосистемы МТС: от оперативного реагирования до системных улучшений.
Как руководитель команды дежурной смены 24/7 в Mission Control Center отвечает за координацию реагирования на инциденты в МТС. Команда координирует реагирование на сбои, работает с инцидентами в режиме 24/7 и анализирует их причины в рамках PostMortem, чтобы минимизировать влияние на бизнес и пользователей.
Как руководитель продуктов Contexter преобразует этот опыт в технологические решения. Команда создаёт инструменты на основе данных и AI, которые направлены для анализа данных, автоматизации рутинных задач и помощи командам в быстром устранении инцидента, чтобы повышать устойчивость сервисов на системном уровне.
Цель — перевести управление надёжностью из реактивного режима в режим проактивного контроля.
В структурах МТС более 11 лет. Руководил командами эксплуатации, внедрял продуктовую культуру, занимался разработкой внутренних ИТ-сервисов компании. В настоящий момент занимается внедрением ИИ-инициатив в платформе мониторинга и наблюдаемости RelyOps. Есть несколько стартапов в Iot-сфере. Увлекается яхтингом и организует парусные туры.