Публичные бенчмарки помогают увидеть общую картину, но плохо предсказывают, как модель поведёт себя в конкретном продукте. На реальных данных и task-specific метриках расстановка сил между моделями может заметно меняться: одни хуже работают с доменной терминологией, другие не выдерживают нужный формат ответа, третьи дают приемлемое качество, но выигрывают по стоимости или снижают зависимость от внешнего провайдера.
В докладе расскажу, как мы в 2ГИС оцениваем и сравниваем LLM на задачах продуктовых сервисов — от классификации и извлечения фактов до function calling и SQL generation. Покажу, как учитывать не только качество, но и стоимость, ограничения по sensitive data, self-hosted сценарии и инфраструктурные риски. Обсудим, как разрабатывать внутренний benchmark-сервис и как он помогает принимать решения о выборе, замене и сочетании моделей, а также формировать модельную стратегию для большого числа сервисов.
Использование AI, Benchmarking, Оценка качества и метрики
Для всех
Начальный
Инженер по оценке качества LLM в 2ГИС.
Начинал карьеру в тестировании: ручное тестирование и автоматизация. Написал от идеи до реализации фреймворк E2E тестов для приложения, в котором создаются и редактируются геоданные 2ГИС.
Сейчас занимается оценкой языковых моделей для внутренних сервисов компании; разрабатывает сервис бенчмарков LLM.