Современные LLM уже неплохо пишут код, но объективно оценивать качество сгенерированных unit-тестов намного сложнее: простых метрик и изолированных примеров здесь недостаточно. Вместе с Т-Банком мы исследовали, как оценивать кодовые модели в условиях, близких к реальной разработке.
Сначала расскажу про TAM-Eval — бенчмарк и evaluation-фреймворк для задач создания, исправления и обновления unit-тестов. Он работает на уровне файлов и смотрит не на формальные совпадения, а на прикладные сигналы: статус запуска, покрытие и мутационный анализ. Бенчмарк включает реальные сценарии из проектов на Python, Java и Go и показывает, где LLM уже полезны, а где ограничены.
Во второй части покажу, как мы пришли к RM-RF — Reward Model for Run-Free Unit Test Evaluation — лёгкой reward-модели, которая приближает execution-based оценку без компиляции и запуска кода. Она предсказывает, пройдёт ли запуск, вырастет ли покрытие и повысится ли устойчивость к мутациям. По сути, это доклад о практическом построении систем оценки LLM в задачах кодогенерации.
AI / LLM в тестировании, Бенчмарки и сравнение LLM, SDLC
Специалист по данным / Специалист по машинному обучению
Средний
Старший разработчик-исследователь в «Сибирских нейросетях».
Занимается исследованиями в Лаборатории прикладных цифровых технологий НГУ, разработкой и внедрением LLM-решений, RAG-пайплайнами, обработкой кода и мультимодальными моделями. Опыт в компьютерном зрении, робототехнике, обработке аудио- и цифровых сигналов.