標杆管理
測試 1:原始事件日誌。
我以經典格式生成了日誌:流程實例ID、階段名稱、完成時間戳。總共20,500條記錄,1,600個流程實例。其中隱藏了200個典型異常:循環、瓶頸、多餘階段等。模型接收的是「原始」表格——未經提示或格式化的原始數據。評分方式:正確發現一個案例得+1分,誤報一次扣0.25分。最終得分計算為相對於最高可能分數200分的百分比。如果模型三次沉默,或輸出「一切完美」或任何無意義內容,則該項得分為零。

測試 2:帶有雜訊的流程規範文檔。
這是一份描述流程的文字檔,包含:階段、角色、轉換條件。但其中也添加了大量與流程本身關聯不大的「冗餘內容」。在這份「規範」文本中,隱藏了100處效率低下的問題。採用相同的評分系統,計算發現問題的比例,每出現一次幻覺(誤報)則扣0.25分。

測試 3:可視化流程圖。
這是一張BPMN圖片的PNG檔案:包含20個活動節點,約一百條轉換路徑。圖中有20個邏輯錯誤:缺少退出條件的循環、未使用的網關、多餘的路徑、懸掛的步驟等。檢查方式,評分系統同上:正確發現一個案例得+1分,每出現一個錯誤(誤報)扣0.25分,最終計算相對於所有隱藏問題的百分比。

最終分數按權重計算:80% 來自日誌分析(事件日誌表格),10% 來自文本「規範」,10% 來自BPMN圖片。
具備業務流程分析技能的大型語言模型