Top.Mail.Ru

Про базу векторных баз

Базы данных
Архитектура и анализ

Тезисы

Расскажу про фундамент векторных поисков, напомню про фундамент обычных БД, поясню, почему они склеиваются неидеально. Вместо советов подёргать за настройку X в базе Y дам общий обзор «рынка» и попробую научить базе баз, то есть плюс-минус корректно сравнивать и тюнить _любые_ реализации векторного поиска, причём с пониманием, что там внутри. Времени на детали, как обычно, не хватит, поэтому на докладе быстро пробежимся по верхам! Глянем на важные ключевые концепции векторного поиска (метрики «расстояний», precision/recall, dimensionality curse, квантизация всех сортов). Обсудим два с половиной основных метода реализации векторного поиска (IVF и HNSW) и почему они субоптимально влазят в обычные СУБД (спойлер: потому что OLAP и транзакции, плюс B-деревья эти дурацкие).

Умеете натюнить любой векторный поиск? Знаете, чем FAISS отличается от Qdrant? Понимаете, почему pgvector никогда не обгонит специализированную базу? Отлично, тогда НЕ приходите на этот доклад (но давайте спишемся телегой), вам он не нужен.


Ключевые темы и технологии

Структуры данных, Устройство БД, Проектирование систем


Аудитория

Для всех


Уровень сложности

Начальный

AvitoTech
Андрей Аксенов

Программирует программы, командует командами, докладывает доклады. Гоняет векторные поиски в продакшне Авито уже 5+ лет, присматривает за инфраструктурой поиска, пилит поисковой движок Sphinx.