Execute Order RM -RF: компромисс в оценке сгенерированных unit-тестов

Тестирование и автотесты

ИИ в разработке ПО

Роман Дерунец

Зал №6

Тезисы

Современные LLM уже неплохо пишут код, но объективно оценивать качество сгенерированных unit-тестов намного сложнее: простых метрик и изолированных примеров здесь недостаточно. Вместе с Т-Банком мы исследовали, как оценивать кодовые модели в условиях, близких к реальной разработке.

Сначала расскажу про TAM-Eval — бенчмарк и evaluation-фреймворк для задач создания, исправления и обновления unit-тестов. Он работает на уровне файлов и смотрит не на формальные совпадения, а на прикладные сигналы: статус запуска, покрытие и мутационный анализ. Бенчмарк включает реальные сценарии из проектов на Python, Java и Go и показывает, где LLM уже полезны, а где ограничены.

Во второй части покажу, как мы пришли к RM-RF — Reward Model for Run-Free Unit Test Evaluation — лёгкой reward-модели, которая приближает execution-based оценку без компиляции и запуска кода. Она предсказывает, пройдёт ли запуск, вырастет ли покрытие и повысится ли устойчивость к мутациям. По сути, это доклад о практическом построении систем оценки LLM в задачах кодогенерации.