Бэнчмаркинг

Тест 1. Сырой лог событий.
Сгенерировал журнал в классическом формате: id экземпляра процесса, название этапа, временная метка завершения. Всего 20,5 тысяч записей, 1,6 тысячи экземпляров процесса. Внутри спрятал 200 типовых аномалий: зацикливания, bottleneck, избыточные этапы и т.д. Модель получала таблицу «как есть» - без подсказок и форматирования. Оценка: +1 балл за верно найденный кейс, -0,25 за ложное срабатывание. Итог рассчитывался как процент от максимально возможных 200 баллов. Если модель трижды молчала или выдавала «всё идеально» или какую-то ерунду, то ставился ноль.

Тест 2. Регламент с шумом.
Текстовый документ с описанием процесса: этапы, роли, условия переходов. Но также там было добавлено и много "воды" слабо относящейся к самому процессу. В этом тексте-"регламенте" было спрятано 100 неэффективностей. Та же система баллов, рассчитывалась доля найденных кейсов, за галлюцинирование штрафы по минус 0,25 балла за каждую галлюцинацию.

Тест 3. Визуальная схема.
PNG с диаграммой BPMN: 20 блоков, около сотни переходов. На схеме было 20 логических ошибок: циклы без условия выхода, неиспользуемые шлюзы, избыточные маршруты, повисшие этапы и т.д.. Проверял, система оценки таже +1 балл за найденный кейс, -0,25 балла за глюк, и считался процент от всех спрятанных проблем.

Финальный скор считался с весами: 80% - анализ лога(таблица с журналом событий) , 10% - текст-"регламент", 10% - картинка с BPMN.

LLM по навыку анализа бизнес-процессов