Top.Mail.Ru

Путь к Chaos As A Service: как (и зачем) мы построили платформу для Chaos Engineering

Процессы и культура качества
Тестирование и автотесты

Тезисы

В какой-то момент мы захотели искать Action-item’ы не только в разборах постмортемов, но и во время контролируемых сбоев, которые можно было бы прекратить в любой момент. Так нам потребовался инструмент для проведения Chaos Engineering.

CE — достаточно распространённая практика. Уже существуют развитые OpenSource решения, позволяющие не только ломать всякое, но и проверять метрики доступности, останавливать влияние автоматически и готовить отчёты для постанализа. Казалось бы — бери и пользуйся! Но выяснилось, что эти комбайны плохо натягиваются на крупные инфраструктуры со своими требованиями и платформами.

Расскажу, в какие ограничения упёрлись OpenSource комбайны в нашем случае, вокруг чего мы строили своё решение, какие этапы прошёл написанный на коленке питоний MVP, чтобы переродиться в платформенный сервис, а также про грабли, поджидавшие нас на этом пути.


Ключевые темы и технологии

SRE, Хаос-инженеринг, Внутренние продукты


Аудитория

Бэкенд-разработчик, Руководитель команды / Технический руководитель, Технический директор / Архитектор


Уровень сложности

Средний

Т-Банк
Лев Алимов

Перекатился с завода в IT до того, как это стало мейнстримом. Прошёл путь от Главного Специалиста По Нажиманию «Любой Кнопки (Any Key)» в городской поликлинике до Staff Engineer.

В роли TechLead развивает платформу Chaos Engineering в Т-Банке.

Другие спикеры трека Процессы и культура качества