В какой-то момент мы захотели искать Action-item’ы не только в разборах постмортемов, но и во время контролируемых сбоев, которые можно было бы прекратить в любой момент. Так нам потребовался инструмент для проведения Chaos Engineering.
CE — достаточно распространённая практика. Уже существуют развитые OpenSource решения, позволяющие не только ломать всякое, но и проверять метрики доступности, останавливать влияние автоматически и готовить отчёты для постанализа. Казалось бы — бери и пользуйся! Но выяснилось, что эти комбайны плохо натягиваются на крупные инфраструктуры со своими требованиями и платформами.
Расскажу, в какие ограничения упёрлись OpenSource комбайны в нашем случае, вокруг чего мы строили своё решение, какие этапы прошёл написанный на коленке питоний MVP, чтобы переродиться в платформенный сервис, а также про грабли, поджидавшие нас на этом пути.
SRE, Хаос-инженеринг, Внутренние продукты
Бэкенд-разработчик, Руководитель команды / Технический руководитель, Технический директор / Архитектор
Средний
Перекатился с завода в IT до того, как это стало мейнстримом. Прошёл путь от Главного Специалиста По Нажиманию «Любой Кнопки (Any Key)» в городской поликлинике до Staff Engineer.
В роли TechLead развивает платформу Chaos Engineering в Т-Банке.