От публичных бенчмарков к модельной стратегии: как выбирать LLM для продуктов компании

ИИ в разработке ПО

Архитектура и анализ

Олег Бобриков

Зал №6

Тезисы

Публичные бенчмарки помогают увидеть общую картину, но плохо предсказывают, как модель поведёт себя в конкретном продукте. На реальных данных и task-specific метриках расстановка сил между моделями может заметно меняться: одни хуже работают с доменной терминологией, другие не выдерживают нужный формат ответа, третьи дают приемлемое качество, но выигрывают по стоимости или снижают зависимость от внешнего провайдера.

В докладе расскажу, как мы в 2ГИС оцениваем и сравниваем LLM на задачах продуктовых сервисов — от классификации и извлечения фактов до function calling и SQL generation. Покажу, как учитывать не только качество, но и стоимость, ограничения по sensitive data, self-hosted сценарии и инфраструктурные риски. Обсудим, как разрабатывать внутренний benchmark-сервис и как он помогает принимать решения о выборе, замене и сочетании моделей, а также формировать модельную стратегию для большого числа сервисов.