В Ozon мы стараемся строить инфраструктуру исходя из принципа максимальной доступности. Мы хотим не переживать, не только когда выходит из строя один диск или один хост, — мы хотим быть уверены в доступности наших сервисов даже при отключении целого дата-центра. И чтобы в этом убедиться, регулярно проводим учения и испытания.
Для stateless-сервисов в Kubernetes подход типичный и достаточно понятный. Но что делать, если нужно обеспечить те же требования для больших объектных хранилищ? Как гарантировать доступность десятков или даже сотен петабайт данных в S3? Я расскажу, как мы этого добились и как проводим учебные отключения дата-центра для нашего S3-хранилища.
Object Storage, S3, Ceph
Backend-разработчик, Team Lead / Engineering Manager, CTO / Архитектор
Средний
Работает в платформе Ozon tech. Вместе с командой занимается созданием и развитием хранилищ данных.
Направления профессиональных интересов: объектные S3-совместимые хранилища; блочные хранилища; применение их для задач быстрого доступа к данным или, наоборот, для долговременных холодных бекапов.