От ручной разметки к ежеднев­ному контролю качества: онлайн-оценка LLM-продукта в проде

Observability
Использования AI в SDLC

Тезисы

Выступление посвящено оценке качества LLM-based продукта в продакшене на примере инвестиционного ассистента. Поведение LLM недетерминировано, а деградации качества часто остаются незаметными для бизнеса. Классические тесты и фиксированные датасеты не дают своевременный сигнал о проблемах.

Покажем практическую архитектуру решения: LLM-ассистент как объект оценки, инструмент LLM-as-a-Judge (open-source или кастомный), prompt-based evaluation rules как формализацию критериев качества, оркестрацию расчётов в Apache Airflow, слой наблюдаемости в Langfuse и реализацию пайплайнов на Python.

Доклад ориентирован на разных участников: одним он будет полезен со стороны бизнеса, другим — с технической стороны и с точки зрения способов проверки LLM.


Ключевые темы и технологии

Python, AI / LLM в тестировании, Оценка качества и метрики


Аудитория

QA-инженер / Тестировщик, Системный аналитик, Team Lead / Engineering


Уровень сложности

Средний

Т-Банк
Елизавета Антонова

QA-специалист в Т-Банке, работает над Инвест-ассистентом (продуктом, основанном на GenAI), развивает систему оценки его качества. Внедрила систему offline- и online-evaluation на основе LLM-as-a-Judge для автоматизированной проверки ответов ассистента.

Т-Банк
Владислав Акимов

QA-специалист в новом продукте T-Банка, о котором скоро все узнают! Создаёт автотесты на Kotlin для бэка. Имеет багаж знаний по LLM-продуктам и опыт тестирования недетерминированных систем. Участвовал в разработке AI-ассистентов.