從「結果對不對」到「過程可追溯」:新一代 AI 評估與合規工具長什麼樣?
你有沒有發現,現在大家在講「AI 評估」時,還是很習慣問一個問題:
這個模型準不準?
比如:考試幾分、Pass@1 多高、Bleu/Rouge 幾分、Win Rate 打贏 GPT-4 幾%。
但當 AI 真的進到工作流程、產品線、甚至走進法規監管的世界,這個問題其實遠遠不夠。
更關鍵的反而是:
它是怎麼得到這個結果的?這個過程,能不能攤在陽光下?
這篇文想聊的是:
– 為什麼「看結果」已經不夠
– 六條正在匯流的研究線索:
– FactReview:把論文審稿變成「有證據、可重現」的流程
– Compliance-by-Construction:用 argument graph + RAG 做安全認證級合規
– Beyond Fluency:在 Agentic IR 裡,每一步都要設 verification gate
– OpenEval:為什麼 AI 評估需要「item-level benchmark」
– QualAnalyzer:把質性分析切成可審計的 atom
– Context Engineering:靠結構化上下文提高「第一次就做對」的機率
– 最後收斂成一組實用 checklist:未來你在公司導入 AI 工具時,應該要求哪些「可追溯」與「流程級評估」能力
一句話先破題:
過去是「對或錯」,未來會是「為什麼是這樣、證據在哪?」
如果你只看模型最後吐出的答案,其實有點像:只看考試最後幾分,不看每一題的作答方式,也不知道監考老師有沒有睡著。
在低風險情境,這樣用 AI 還撐得過去;但在四種場景,很快就會不夠用:
- 學術審稿:你敢讓一個黑箱 AI 決定論文收不收?
- 安全/法規合規:出事時,誰做的決策、依據是什麼,說得清嗎?
- 研究工作(尤其是質性研究):審查委員問你「這個結論怎麼來的」,你不能回答「AI 覺得」。
- 一般知識工作(PM、法務、顧問、分析師):一年後回頭看決策,你有沒有辦法復原當時的脈絡?
下面我們用這四種場景,把六篇研究串一串,看新一代「可追溯 AI」大概會長什麼樣。
場景一:論文審稿 —— FactReview 把「主觀審」變成「有證據的審」
傳統審稿有幾個痛點:
– 審稿人時間不夠,只能「掃一掃」
– 很吃「論文寫得好不好看」,文筆好可能加分不少
– 主張對不對,常常要靠 reviewer 印象或手動翻文獻
– 更別說「真的去跑作者的 code」這件事,現實是多數人做不到
FactReview 的核心想法是:
不要只看投稿的故事,而是把「主張→證據→重現」變成一條可以機器協助的鏈。
它做了幾件事:
- 主張萃取(claim extraction)
-
把論文拆成一條條主張:
- 提出什麼方法?
- 相較於哪些 baseline?
- 哪些任務上「顯著更好」?
-
文獻定位(literature positioning)
-
自動去檢索相關工作,幫你看:
- 這篇真的比「最接近」的工作好嗎?
- 有沒有漏引、或者「重新包裝舊方法」?
-
執行式驗證(execution-based claim verification)
- 有開源 code 的情況下,直接跑 repo,在有限資源下重現關鍵實驗。
-
然後對每個主張打標:
- 支持 / 部分支持 / 衝突 / 無法驗證
-
生成審稿與證據報告
- LLM 幫你把上面這些整理成一份「有段落、有引用、有重現結果」的 review。
作者在 CompGCN 案例裡,真的跑出一個有趣的狀況:
– 某些任務真的重現了作者結果 → 支持
– 但在圖分類任務,整體性能主張只被「部分支持」
這就從「我覺得作者誇大了」變成「我實際跑過、結果在這」,整個審稿過程突然有一種「工程化」的味道。
重點不是 AI 幫你寫 review,而是:AI 幫你把 review 變成一條「證據鏈」。
場景二:合規/安全認證 —— Compliance-by-Construction:從黑箱到「每個 claim 都要有證據」
在高風險系統裡(醫療、航空、金融風控、關鍵基礎設施),有一個關鍵問題:
你怎麼證明「這個系統是安全、合規」的?
傳統做法是寫一堆文件、報告,手動整理「設計→實作→測試→審查」的證據。這種東西一來超花人力,二來其實很容易斷鏈(文件沒更新、測試沒對齊實作等等)。
Compliance-by-Construction 想做的是一個蠻激進的改變:
把整個合規流程,變成一張形式化的 argument graph,每一個節點都是「可以被檢查的 claim」。
再加上 LLM + RAG,去幫你建構和維護這張圖。
核心組件有四個:
- Argument Graph(論證圖)
- 把合規聲明拆成很多層級的 claim:
- 系統是安全的
- 因為控制 A、B、C 存在
- 控制 A 的證據是測試 X、設計文檔 Y
-
每個 claim 必須被「下層 claim + 證據」支持。
-
RAG(檢索增強生成)
-
LLM 不再亂掰,而是:
- 對每個 claim,去現有文件、測試報告、log 裡找證據
- 找不到,就標記缺口,而不是硬生生成一段看起來合理的說法。
-
推理驗證核心(reasoning core)
- 限制 LLM 的推理邏輯,讓它不能「跳步」或做出不合理的推論。
-
例如:嚴格要求每個 claim 都要有明確證據指向,不能只有語義上好像合理。
-
溯源日誌(provenance logging)
- 每個 claim 是怎麼被建立、修改、接受的,都有 log。
- 日後 audit,能把整張 graph 走一遍。
這種設計有一個很重要的精神:
AI 不是「幫你寫一份漂亮的合規報告」,而是「幫你組裝一張可以被驗證的 argument graph」。
對公司端的影響很直接:
– 你可以具體回答「某個合規聲明是基於哪些測試、哪些文件」
– 出事時能回溯是「哪個 claim、哪段證據」有問題
– 監管機關要看時,不會只看到一份 narrative,而是能看到全圖
場景三:Agentic IR —— Beyond Fluency:語言再順,也不能蓋掉「路線走錯」
很多人現在在玩「AI Agent」:
– 會自己規劃任務
– 自己去搜尋資料、調用工具
– 自己迭代思考,最後給你結果
聽起來很酷,但現實是:
只要前面某一步稍微偏軌,後面就會一路放大錯誤,最後看起來超流暢,但整條路徹底走錯。
Beyond Fluency: Toward Reliable Trajectories in Agentic IR 把這個問題講得很白:
- Agentic IR(代理式資訊檢索)其實是一個 Reason → Act → Observe 的長鏈
- 錯誤可能發生在:
- 規劃(plan 錯了題目)
- 檢索(查錯資料)
- 推理(解讀錯資訊)
- 執行(tool 用錯)
- 最可怕的是:
- 語言流暢度完全不會反映錯誤程度
- 它可以非常有自信地,優雅地,講一段完全錯的故事
作者主張:
不要只看「最後答得對不對」,要開始看「整條 trajectory 有沒有 integrity」。
具體做法:Verification Gates
在每一個「互動單元」加上 verification gate:
– 規劃完 → 有沒有檢查「這個 plan 是否覆蓋了問題關鍵」?
– 檢索結果 → 有沒有檢查「這些文件真的跟 query 有關」?
– 推理步驟 → 有沒有 cross-check「結論有沒有被文本支持」?
– 執行工具 → 有沒有檢查 API 回傳是不是符合預期格式?
甚至在高不確定性時,要勇於選擇「不執行」或「適度退出」,而不是硬把任務完成。
這其實就是把 agent 從:「一次跑到底,看結果」
變成:「每一步都過關,整條路才算數」。
換成產品語言:
未來你在導入 Agentic 系統時,不該只問「它完成任務的成功率」,還要問:「它有沒有內建 step-wise verification?」
場景四:AI 評估本身 —— OpenEval:沒有 item-level,就談不上嚴肅的評估科學
AI 評估現在也有一個很大的盲點:
- 許多 benchmark 只公布「總分」或「平均 accuracy」
- 研究者微調 prompt、換模型,看 leaderboard 排名
- 但我們其實不知道:
- 哪些題目是模型的「死穴」?
- 是不是某個子類型題目完全失效?
- 量表本身設計有沒有偏誤?
Position: Science of AI Evaluation Requires Item-level Benchmark Data 直接開炮:
要建立嚴肅的「AI 評估科學」,item-level data 是必要條件。
所謂 item-level,很簡單:
– 不只要有「一個 benchmark 的總分」
– 還要能看到:
– 每一個題目(item)模型怎麼答
– 每一題的 metadata(難度、題型、能力構面)
– 標記者的分歧在哪裡
這樣才有機會:
– 做細粒度診斷:
– 模型是否特別擅長某個子類型?
– 評估本身是不是只測到某種偏狹的能力?
– 檢驗 benchmark 的有效度(validity):
– 我們以為在測「推理能力」,結果題目其實都在考「常識填空」。
作者也推出了 OpenEval 倉庫,牽頭推這套做法。
實務上,這件事對企業也非常 relevant:
當你宣稱「我們用 X 個 benchmark 評估這個模型」,在高風險場景下,監管機關很可能會追問:
– 這些 benchmark 的 item-level 表現長怎樣?
– 你怎麼知道它沒在某個角度完全失明?
質性研究:QualAnalyzer 把「一整份訪談」拆成一顆顆可審計的 atom
質性研究一直很依賴人類的「閱讀 → 詮釋 → 編碼」。
引入 LLM 之後,很快出現兩種極端:
– 一種是:完全信 AI,丟整份訪談給它,讓它幫忙找主題
– 另一種是:完全不信,因為「看不懂它怎麼得出這個結論」
QualAnalyzer 提出一個蠻優雅的折衷:
把 LLM 的分析流程切到「非常細粒度(atomistic)」:
– 每一小段資料(比如一個段落、一個回合)獨立處理
– 每一顆「分析 atom」都留存完整的:prompt、input、output
他們做了一個 Chrome extension,嵌在 Google Workspace 裡,實際演示兩個案例:
– 論文整體性評分
– 訪談稿的演繹主題編碼
關鍵不是工具本身,而是方法論:
- 分析不是一次「黑箱處理」,而是由很多小決策組成
- 每個小決策都可以被審計:
- 這段訪談為什麼會被編碼成這個主題?
- AI 當時看到的上下文是什麼?
- 如果人類不同意,可以精確指出哪個 atom 有問題
對質性研究而言,這是大事:
– 審查委員要的是「方法透明」
– 有了這種 atom-level audit trail,
– 你可以說:「這不是我瞎用 AI,而是一套可被審查的流程。」
這概念其實可以平移到很多知識工作場景:
– 客服 QA 標註
– 內部文件分類
– 品牌聲量質性分析
只要你的任務是「看一堆文字 → 做判斷」,都應該問:
我能不能把這個過程拆成很多小決策,每一個小決策都有 log?
把錯一次做對:Context Engineering 用「結構化上下文」提升成功率
前面幾個工作都在講「怎麼 audit 過程」,
Context Engineering 則比較像是:
在事情發生之前,先把「上下文」工程化,降低出錯機率。
作者的觀察是:
- 大家很愛聊「prompt 技巧」,但實務上更關鍵的是:
- 你給模型的「上下文」是不是完整而結構化?
於是他們提出:
五種上下文角色(AEC-RM):
- Authority:權威來源
-
告訴模型「應該以誰的聲音說話、遵循哪個權威標準」
-
Exemplar:範例
-
給幾個好的輸入→輸出樣本,讓模型對齊風格與格式
-
Constraint:限制
-
明確哪些不能做、不能編造、不能超出範圍
-
Rubric:評分規範
-
告訴模型「什麼叫好的輸出」,有點像給它一份自我評分表
-
Metadata:元資料
- 任務背景、使用者角色、目標受眾等
再加上四階段 pipeline:Reviewer → Designer → Builder → Auditor
– 不是一個人憑直覺寫 prompt,而是有明確角色分工
實驗結果蠻直白:
– 沒有好上下文的情況下:
– 72% 的互動需要來回多次
– 平均 3.8 次互動才搞定一件事
– 「第一次就做對」只有 32%
– 用結構化上下文之後:
– 平均互動次數降到 2.0
– 首次通過率升到 55%
– 若允許多次迭代,最終成功率達 91.5%
這件事跟「過程可追溯」也完全連在一起:
當上下文是結構化、可版本控制的,你才能在事後說:
「這次模型做錯,是因為 Exemplar 給得不好,還是 Constraint 定義不清?」
收斂:未來導入 AI 工具,應該檢查的「可追溯 & 流程級評估」清單
把上面幾條線索拉在一起,我會把未來的 AI 工具能力拆成兩大塊:
- 過程可追溯(Process Traceability)
- 流程級評估(Process-level Evaluation)
以下是一份給「公司導入 AI 工具」用的實務 checklist,
你可以直接拿去問 vendor、內部 AI 團隊,甚至拿來檢視自己做的系統。
A. 過程可追溯:這個工具的「路線圖」,你看得到嗎?
- 步驟級 log
- 模型是不是把任務拆成多步?
-
每一步的輸入、輸出、使用的工具(API / 檢索)是不是都有記錄?
-
主張(claim)與證據的對齊
- 對於關鍵結論,能不能追溯到:
- 是哪幾段文本、哪幾筆數據支持?
-
有沒有類似 FactReview 或 argument graph 的機制,
把「主張 → 證據 →狀態(支持/部分支持/衝突)」串起來? -
上下文版本控制
- Prompt / context 是否可版本化管理?
-
每次輸出,可以回到當時的 Authority / Exemplar / Constraint / Rubric / Metadata?
-
細粒度單元(atoms/items)
-
對於「長文件處理/大量樣本分析」,
有沒有像 QualAnalyzer & OpenEval 那樣的:- atom-level / item-level log?
- 可以一題一題、一段一段檢查與抽樣?
-
溯源日誌(provenance)
- 能不能回答:
- 這個結果在哪個時間、由哪個模型版本、在什麼上下文下產生?
B. 流程級評估:不是只看「準不準」,而是「整條流程穩不穩」
- Step-wise evaluation
- 有沒有對每個步驟的品質做評估?
-
Agent 的 plan / retrieve / reason / execute,有沒有各自的 metrics?
-
Verification gates
- 關鍵步驟前後,有沒有自動或半自動的檢查?
-
高風險場景:
- 模型是否在信心不足時「選擇不執行」?
- 是否會 escalate 給人類?
-
Item-level benchmark data
-
對於內部評估集:
- 是否保留每一題的模型輸出?
- 是否可以做子群體分析(某類問題表現特別差)?
-
人類在迴路中的角色(Human-in-the-loop)
-
人類 reviewer / auditor 能不能有效介入:
- 看每一個 atom/item 的決策
- 覆寫錯誤
- 把這些 feedback 餵回系統?
-
合規/責任追蹤(Accountability)
-
當模型建議被採用變成決策時:
- 系統能不能記錄「誰看過、誰按下批准」?
- 日後 audit 能不能還原「這個決策背後的 argument graph」?
-
Context Engineering 能力
- 工具有沒有把上下文顯式結構化?
- 有沒有方法去評估「上下文品質」對結果的影響,
而不是只調模型參數或 prompt 關鍵字?
結尾:AI 工具的新標準——「我不只要答案,還要你給我故事的全紀錄」
如果要用一句話總結這篇:
未來真正成熟的 AI 系統,
不會只跟你說「答案是什麼」,而是會把「我是怎麼走到這個答案」完整攤開。
- FactReview 告訴我們:審稿不該只看故事,要看主張 + 文獻 + 重現
- Compliance-by-Construction 告訴我們:合規不該只是文件,而是一張可驗證的 argument graph
- Beyond Fluency 提醒我們:Agent 不該只看最後結果,而要有每一步的 verification gate
- OpenEval 在推:沒有 item-level data,談不上嚴肅的 AI 評估科學
- QualAnalyzer 展示:即便是質性研究,也可以做到 atom-level audit trail
- Context Engineering 則說:把上下文工程化,是讓 AI 第一次就做對 的關鍵
如果你在公司裡負責導入 AI 工具,接下來可以慢慢把標準從:
- 「這個模型分數比別人高嗎?」
升級到:
- 「這個系統能不能讓我:
- 看懂它的推理過程?
- 驗證它的證據?
- 追溯每個決策的上下文與責任?」
當我們開始用這套標準選 AI,整個生態會慢慢被推向一個更健康的方向:
– 少一點漂亮的 demo
– 多一點「可以挺過 audit」的實戰系統
如果你現在就在設計 AI 產品,也可以試著問自己:
「我能不能讓使用者,不只得到答案,還能獲得一條清楚的『推理與證據路線圖』?」
這,可能會是下一代 AI 工具真正的競爭力所在。
延伸閱讀
- FactReview: Evidence-Grounded Reviews with Literature Positioning and Execution-Based Claim Verification — https://arxiv.org/abs/2604.04074
- Compliance-by-Construction Argument Graphs — https://arxiv.org/abs/2604.04103
- Beyond Fluency: Toward Reliable Trajectories in Agentic IR — https://arxiv.org/abs/2604.04269
- Position: Science of AI Evaluation Requires Item-level Benchmark Data (OpenEval) — https://arxiv.org/abs/2604.03244
- Affording Process Auditability with QualAnalyzer — https://arxiv.org/abs/2604.03820
- Context Engineering: A Practitioner Methodology for Structured Human-AI Collaboration — https://arxiv.org/abs/2604.04258

發佈留言