От ручной разметки к ежедневному контролю качества: онлайн-оценка LLM-продукта в проде

Наблюдаемость систем

ИИ в разработке ПО

Тезисы

Выступление посвящено оценке качества LLM-based продукта в продакшене на примере инвестиционного ассистента. Поведение LLM недетерминировано, а деградации качества часто остаются незаметными для бизнеса. Классические тесты и фиксированные датасеты не дают своевременный сигнал о проблемах.

Покажем практическую архитектуру решения: LLM-ассистент как объект оценки, инструмент LLM-as-a-Judge (open-source или кастомный), prompt-based evaluation rules как формализацию критериев качества, оркестрацию расчётов в Apache Airflow, слой наблюдаемости в Langfuse и реализацию пайплайнов на Python.

Доклад ориентирован на разных участников: одним он будет полезен со стороны бизнеса, другим — с технической стороны и с точки зрения способов проверки LLM.