標杆管理

測試 1：原始事件日誌。
我以經典格式生成了日誌：流程實例ID、階段名稱、完成時間戳。總共20,500條記錄，1,600個流程實例。其中隱藏了200個典型異常：循環、瓶頸、多餘階段等。模型接收的是「原始」表格——未經提示或格式化的原始數據。評分方式：正確發現一個案例得+1分，誤報一次扣0.25分。最終得分計算為相對於最高可能分數200分的百分比。如果模型三次沉默，或輸出「一切完美」或任何無意義內容，則該項得分為零。

測試 2：帶有雜訊的流程規範文檔。
這是一份描述流程的文字檔，包含：階段、角色、轉換條件。但其中也添加了大量與流程本身關聯不大的「冗餘內容」。在這份「規範」文本中，隱藏了100處效率低下的問題。採用相同的評分系統，計算發現問題的比例，每出現一次幻覺（誤報）則扣0.25分。

測試 3：可視化流程圖。
這是一張BPMN圖片的PNG檔案：包含20個活動節點，約一百條轉換路徑。圖中有20個邏輯錯誤：缺少退出條件的循環、未使用的網關、多餘的路徑、懸掛的步驟等。檢查方式，評分系統同上：正確發現一個案例得+1分，每出現一個錯誤（誤報）扣0.25分，最終計算相對於所有隱藏問題的百分比。

最終分數按權重計算：80% 來自日誌分析（事件日誌表格），10% 來自文本「規範」，10% 來自BPMN圖片。

具備業務流程分析技能的大型語言模型