Top.Mail.Ru

От публичных бенчмарков к модельной стратегии: как выбирать LLM для продуктов компании

ИИ в разработке ПО
Архитектура и анализ

Тезисы

Публичные бенчмарки помогают увидеть общую картину, но плохо предсказывают, как модель поведёт себя в конкретном продукте. На реальных данных и task-specific метриках расстановка сил между моделями может заметно меняться: одни хуже работают с доменной терминологией, другие не выдерживают нужный формат ответа, третьи дают приемлемое качество, но выигрывают по стоимости или снижают зависимость от внешнего провайдера.

В докладе расскажу, как мы в 2ГИС оцениваем и сравниваем LLM на задачах продуктовых сервисов — от классификации и извлечения фактов до function calling и SQL generation. Покажу, как учитывать не только качество, но и стоимость, ограничения по sensitive data, self-hosted сценарии и инфраструктурные риски. Обсудим, как разрабатывать внутренний benchmark-сервис и как он помогает принимать решения о выборе, замене и сочетании моделей, а также формировать модельную стратегию для большого числа сервисов.


Ключевые темы и технологии

Использование AI, Benchmarking, Оценка качества и метрики


Аудитория

Для всех


Уровень сложности

Начальный

2ГИС
Олег Бобриков

Инженер по оценке качества LLM в 2ГИС.

Начинал карьеру в тестировании: ручное тестирование и автоматизация. Написал от идеи до реализации фреймворк E2E тестов для приложения, в котором создаются и редактируются геоданные 2ГИС.

Сейчас занимается оценкой языковых моделей для внутренних сервисов компании; разрабатывает сервис бенчмарков LLM.

Другие спикеры трека ИИ в разработке ПО