Top.Mail.Ru

Execute Order RM -RF: компромисс в оценке сгенерированных unit-тестов

Тестирование и автотесты
ИИ в разработке ПО

Тезисы

Современные LLM уже неплохо пишут код, но объективно оценивать качество сгенерированных unit-тестов намного сложнее: простых метрик и изолированных примеров здесь недостаточно. Вместе с Т-Банком мы исследовали, как оценивать кодовые модели в условиях, близких к реальной разработке.

Сначала расскажу про TAM-Eval — бенчмарк и evaluation-фреймворк для задач создания, исправления и обновления unit-тестов. Он работает на уровне файлов и смотрит не на формальные совпадения, а на прикладные сигналы: статус запуска, покрытие и мутационный анализ. Бенчмарк включает реальные сценарии из проектов на Python, Java и Go и показывает, где LLM уже полезны, а где ограничены.

Во второй части покажу, как мы пришли к RM-RF — Reward Model for Run-Free Unit Test Evaluation — лёгкой reward-модели, которая приближает execution-based оценку без компиляции и запуска кода. Она предсказывает, пройдёт ли запуск, вырастет ли покрытие и повысится ли устойчивость к мутациям. По сути, это доклад о практическом построении систем оценки LLM в задачах кодогенерации.


Ключевые темы и технологии

AI / LLM в тестировании, Бенчмарки и сравнение LLM, SDLC


Аудитория

Специалист по данным / Специалист по машинному обучению


Уровень сложности

Средний

Сибирские нейросети
Роман Дерунец

Старший разработчик-исследователь в «Сибирских нейросетях».

Занимается исследованиями в Лаборатории прикладных цифровых технологий НГУ, разработкой и внедрением LLM-решений, RAG-пайплайнами, обработкой кода и мультимодальными моделями. Опыт в компьютерном зрении, робототехнике, обработке аудио- и цифровых сигналов.

Другие спикеры трека Тестирование и автотесты