分類: AI 技術

Claude Opus 4.7 實作可控 Agent 平台
📌 本文重點
- Opus 4.7 更適合長上下文、多步任務與自我校對
- 可作為常駐 coding / ops Supervisor Agent
- 透過工具層與治理設計，接手真實 CI / PR pipeline
Opus 4.7 解決的痛點很直接：以前你不太敢把多步任務完全丟給 LLM 自動跑——上下文記不住、自我檢查不足、程式碼改著改著就壞掉、Agent 亂調工具、成本爆炸。Opus 4.7 把這幾個點同時強化：長上下文 + 自我校對 + agentic coding，讓它不再只是「聊天模型」，而是可以放進持續運行 pipeline 的一個穩定元件。

重點說明：Opus 4.7 對 Agent 能力的實質升級

1. 長上下文 + 自我校對 = 多步任務可「放手」

Opus 4.7 官方強調：
- 更長上下文：可以在一次對話裡管理整個任務歷史、spec、log、既有程式碼與錯誤紀錄，減少你自己在應用層做 chunk & stitching。
- 自我核查輸出：模型在回傳前會傾向先「檢查」自己的推論、程式碼或計算結果，等於內建一層 lightweight critic。
💡 關鍵： 更長上下文搭配自我核查，實際上讓多步任務可以交給單一模型從頭管到尾，而不是切給一堆臨時腳本與輔助模型。

對多步 pipeline（例如：分析 log → 找 root cause → 編輯程式碼 → 產 PR）最大的好處是：
- 可以讓 Supervisor Agent 一次看到完整任務 timeline，而不是一段一段 patch；
- 減少你在系統外再包一層「審題 / 校對」模型的需求（但關鍵步驟仍建議顯式加 guardrail）。
2. Agentic Coding：如何讓 Opus 4.7 當常駐 coding / ops agent

Opus 4.7 在 程式碼規劃 + 工具調用 上的品質明顯提高，實務上你可以讓它做：
- 長期追蹤一組 repo 的變更，持續提出 refactor / bugfix 建議；
- 自動跑 CI log 分析 → 開 issue → 出 patch → 發 PR；
- ops 向：監看監控告警 → 初步診斷 → 呼叫 runbook 工具。
💡 關鍵： 把「讀檔、改檔、跑測試、開 PR」封裝成工具給 Opus 4.7 用，它就能長期常駐在 repo / pipeline 中當實際執行者，而不是只當輔助聊天夥伴。

核心設計重點：
1. 工具調用（Tool use）
2. 用 /v1/messages + tools 讓 Opus 負責選擇何時 call tool、填參數；
3. 將「讀檔、改檔、跑 test、開 PR」抽成安全封裝的工具，不讓模型直接操作 Git。
4. 程式碼修改與回滾
5. 永遠透過 「diff-based API」 修改程式碼，而不是讓模型輸出整檔；
6. 由工具層實作版本管理（Git branch/commit），模型只負責描述修改 intent。
7. 安全護欄設計
8. 用 角色+權限 限制工具：code_writer 不能直接 deploy，ops_agent 只能操作 sandbox；
9. 重要操作強制走「人審 + MCP gateway」流程。
3. 在多代理系統中的定位：Supervisor / Orchestrator 角色

以「Supervisor Agent」架構來看（類似 Towards AI 提到的 blueprint）：
- Opus 4.7 很適合擔任 Supervisor / Orchestrator：
- 拆解使用者目標 → 任務樹；
- 安排子代理：搜尋 Agent、執行 Agent、評估/QA Agent；
- 維護整個任務的 context & memory。
- MCP 或你自建的工具層則提供：
- 可治理的工具執行（權限、審計 log、版本管理）；
- 與企業內部 API / 資料庫 / CI/CD / issue tracker 的橋接。
重點：Supervisor 不直接做所有事，而是負責問對問題、調對工具、把任務切給對的子代理。Opus 4.7 的長上下文 +較穩定規劃能力，剛好補上這個角色。

實作範例：自動 triage issue → 修 bug → 開 PR

以下示意使用 Claude API + MCP / 自建工具，流程：
1. 新 issue 建立 → Webhook 觸發 Supervisor；
2. Supervisor（Opus 4.7）分析 issue，決定是否可自動處理；
3. 呼叫 repo 工具 找到相關檔案、測試；
4. 呼叫 code-agent（也是 LLM 或工具） 產生 patch；
5. 呼叫 git/pr 工具 開 PR，必要時標記需要人工 review。
1. Supervisor 的 messages 結構
```
POST /v1/messages
{
  "model": "claude-3-opus-4.7",  // **關鍵：Supervisor 指定 Opus 4.7**
  "system": "你是Supervisor Agent，負責協調工具與子代理.\n" +
    "規則：\n" +
    "1. 僅在需要時使用工具，不要自己幻想結果。\n" +
    "2. 高風險操作（寫檔、開PR）前，一定先提出計畫並自我檢查。\n" +
    "3. 若不確定，改為標記需要人工審核.",
  "tools": [
    { "name": "repo_search", "input_schema": {"type": "object", ...} },
    { "name": "repo_read_file", "input_schema": {"type": "object", ...} },
    { "name": "repo_edit_file_diff", "input_schema": {"type": "object", ...} },
    { "name": "run_tests", "input_schema": {"type": "object", ...} },
    { "name": "create_pr", "input_schema": {"type": "object", ...} }
  ],
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "有新的 GitHub issue：#1234 API 回傳 500，log ID=abcd...\n" +
                   "請決定是否可以自動修復，若可以，直接走：分析→修改→測試→開PR。"
        }
      ]
    }
  ]
}
```
2. 工具呼叫：diff-based 程式碼修改

在第一次 tool call 前，先讓 Supervisor 規劃：
```
1. 讀取相關檔案與測試檔。
2. 產生修改計畫與預期影響範圍。
3. 套用最小 diff 修改程式碼。
4. 執行相關測試。
5. 測試通過後建立 PR，標記『自動修復，請人工 review』。
```
接著模型會回覆一個 tool 呼叫（格式依 SDK）：
```
{
  "role": "assistant",
  "content": [
    {
      "type": "tool_use",
      "id": "toolu_1",
      "name": "repo_search",
      "input": {
        "query": "500 error log id abcd", 
        "max_results": 10
      }
    }
  ]
}
```
你的應用層接到後：
1. 執行 repo_search（你實作的服務，可能包 Git grep / code search）；
2. 把結果以 tool_result 回餵：
```
{
  "role": "tool",
  "tool_use_id": "toolu_1",
  "content": [{
    "type": "text",
    "text": "找到可能相關檔案: src/api/user.ts, src/service/userService.ts ..."
  }]
}
```
之後 Supervisor 可能呼叫：
```
{
  "type": "tool_use",
  "name": "repo_edit_file_diff",
  "input": {
    "path": "src/service/userService.ts",
    "diff": "@@ -42,6 +42,10 @@\n- const result = await dao.getUser(id);\n+ const result = await dao.getUser(id).catch(e => {\n+   logger.error('getUser failed', { id, err: e });\n+   throw new HttpError(500, 'USER_LOOKUP_FAILED');\n+ });"
  }
}
```
這裡的關鍵是：
- repo_edit_file_diff 工具會：
- 把原始檔讀出來；
- 套用 diff（可用 git apply 或自寫 patch 邏輯）；
- commit 到專用 branch；
- 回傳新的 snippet / commit id；
- 回滾就交給 Git：若後續測試失敗，由 Supervisor 呼叫 git_reset_to_commit（另一個工具），或人工介面一鍵 rollback。
3. MCP / 自建工具層設計示意（pseudo code）
```
// MCP Gateway / 工具伺服器（Node 範例）

import express from 'express';
import { searchRepo, editFileWithDiff, runTests, createPR } from './infra';

const app = express();
app.use(express.json());

function requireRole(role: string) {
  return (req, res, next) => {
    const callerRole = req.headers['x-agent-role'];
    if (callerRole !== role) return res.status(403).send('forbidden');
    next();
  };
}

app.post('/tools/repo_edit_file_diff', requireRole('supervisor'), async (req, res) => {
  const { path, diff } = req.body;
  // 審計 log
  console.log('[AUDIT] edit_file_diff', { path, by: 'supervisor' });
  const result = await editFileWithDiff(path, diff);
  res.json(result);
});

// 其他工具類似實作...

app.listen(3001);
```
Supervisor Agent 呼叫工具時，由你的 orchestrator 轉成 HTTP request，並加上 x-agent-role: supervisor 等標頭，實作權限與審計。

建議與注意事項：成本、延遲與治理

1. 成本與延遲控制
- 長上下文 ≠ 無腦塞所有東西：
- 為 Supervisor 設計 分層上下文：
  - 任務規格（長期保持）；
  - 當前子任務狀態（中期）；
  - 最近工具回傳、log（短期）。
- 透過你的應用層做 context summarization / state store，不要每次把整個任務歷史丟進去。
- 對長跑任務（例如多輪 patch + test）：
- 使用 max_tokens / tool_temperature 控制回覆長度與探索度；
- 將「細節 log」放在外部存儲，必要時讓模型用工具查詢，而不是全部當成 prompt。
2. 避免過度「自作主張」

Opus 4.7 的推理與自我校對更強，副作用是它會更願意自己決定事情。控制方式：
- 在 system 提前定義 contract：
- 任務邊界：可修改哪些 repo / namespace；
- 停機條件：
  - 測試連續失敗 N 次 → 停止修改，標記需要人工；
  - 連續無法重現 bug → 輸出完整調查報告，停止嘗試；
- 審核步驟：
  - 高風險變更必須產生「變更說明 + 風險清單」給人看。
範例 system 片段：
```
你是後端修 bug 的 Supervisor Agent，遵守以下 contract：
- 只能操作 repo `my-service`，不可動 infra repo。
- 若連續 2 次修改導致測試新增失敗，立即停止，輸出調查報告，等待人工處理。
- 不得直接部署，只能開 PR，並在 PR 描述中列出：問題原因、修改內容、風險與 rollback 方式。
```
3. 對話風格變更對既有工作流的影響

Opus 4.7 更傾向「先思考再回答」，你會看到：
- 回覆結構更完整，但文字量可能變多，對老工作流可能：
- 冗長說明擾亂你原本靠 pattern matching 的 parser；
- 原本 prompt 期待的 JSON 結構會被「多講兩句」破壞。
💡 關鍵： 若你的系統嚴重依賴固定輸出格式，必須明確要求「只輸出 JSON」，並用 schema 驗證與重試機制包住模型。

建議：
- 儘量讓模型輸出 單一結構化 payload，多餘說明放在欄位內：
```
{
  "plan": "文字說明…",
  "actions": [ ... ],
  "needs_human_review": true
}
```
- 在 system 明確要求：僅輸出 JSON，不要額外文字，並在應用層加 schema 驗證，若解析失敗就回饋「格式錯誤，請重新輸出」。
結論：Opus 4.7 的能力重點不是「更會聊天」，而是更適合當有邊界、有工具、有治理的 Agent 核心。只要把它放在 Supervisor 位置，搭配 MCP 或自建工具層，控制好 contract / 成本 / 權限，你就可以開始放心讓它接手一部分真實的 coding / ops pipeline，而不只是做輔助建議。
🚀 你現在可以做的事
- 在現有 LLM 應用中，先挑一條「分析 log → 修 bug → 開 PR」的小流程改由 Opus 4.7 當 Supervisor 嘗試落地
- 設計一組 repo_search、repo_edit_file_diff、run_tests、create_pr 工具，並封裝成 MCP 或內部 HTTP 服務
- 為 Opus 4.7 Supervisor 撰寫明確的 system contract（任務邊界、停機條件、審核規則），再逐步擴大可自動處理的任務範圍
2026 年 4 月 19 日
實戰 Agentic RAG 與 Hybrid Search
📌 本文重點
- 單一檢索策略讓 RAG 在真實場景很容易翻車
- Hybrid Search 能互補向量與關鍵字的盲點
- 讓 Agent 負責檢索策略與多輪重試能顯著提升穩定度
- 不換模型也能透過 eval、Hybrid 與權限控管大幅升級 RAG
在實際專案裡，多數 RAG 翻車不是因為模型不夠聰明，而是檢索策略太單一：只用向量會被專有名詞和代碼玩死，只用關鍵字又抓不到語義相近的長文件內容。Agentic RAG + Hybrid Search 的組合，重點就是讓「檢索」變成可調度、可重試、可觀測的一級公民，而不是一個寫死的 search(query) 函式。

重點說明

1. 為什麼單一檢索在真實專案會翻車？

常見四種翻車場景：
1. 長文件 / 手冊
2. 只用向量：整份手冊被切成很多 chunk，語義太接近，top-k 都很像，但真正要的那一段不一定排前面。
3. 只用 BM25：查詢句子太口語，關鍵字重疊度不高，直接 miss。
4. 專有名詞 / 法規條文 / 內部代號
5. 向量模型常常把 DS-104、DS-140 當成類似，專案實際上兩者完全不同。
6. 法規編號、API 名稱、Ticket ID 等，關鍵字檢索反而更穩。
7. 程式碼、表格、錯誤訊息
8. 向量對縮排、符號、stack trace 的敏感度很差。
9. Log ID 或錯誤碼這類「硬字串」，BM25/關鍵字幾乎是必要條件。
10. 跨語言 / 口語查詢
11. 使用者用自然語言描述問題，文件是正式用語或英文，公司內還混雜縮寫。
12. 需要先用 LLM 做 query 改寫，再讓向量與 BM25 各自發揮。
Hybrid Search（向量 + BM25） 的實際好處：
- 可以 補各自的盲點：專有名詞用 BM25 鎖定，模糊描述用向量補齊。
- 可以針對不同類型文件設定 權重策略（例如法規 > 內部 wiki > Slack 摘要）。
- 可以後面用 rerank 模型 做第二次排序，穩定提升回答可靠度。
💡 關鍵： 單一檢索在長文件與專有名詞場景很容易漏抓關鍵內容，Hybrid Search 能同時顧到語義相似與精確字串匹配，明顯降低 RAG 翻車率。

2. 讓 Agent 負責檢索策略，而不是把檢索寫死

典型 Agentic RAG 設計：
- 一個 Orchestrator Agent（對話主控）
- 多個 retriever 工具：keyword_retriever、vector_retriever、hybrid_retriever、legal_retriever 等
Agent 的工作不是「自己產生答案」，而是先判斷：
1. 要用哪種檢索策略？
2. 查錯誤碼或 ticket：優先 關鍵字 → 再向量精抽
3. 問概念解釋：優先向量 → 再用 BM25 找原始定義
4. 法規/權威階層：改用 分層 retriever（例如每一層級至少取 1–2 筆）
5. 要不要改寫 Query？
6. 第一輪命中文件相關度低時，讓 Agent 自動：
  - 摘出關鍵詞
  - 加上同義詞 / 全名（例如：DS → Data Steward）
  - 限縮 domain（例如：限定 product=core-banking）
7. 多輪重試與合併結果
8. 第一輪檢索後如果信心不足（例如 top-3 相似度都 < 0.7），
9. Agent 改寫 query 或更換 retriever，再抓一次，最後合併去重後送入 LLM。
這樣做的實際好處：
- 檢索策略可迭代：只要調整工具 / prompt，不必重寫服務架構。
- 容易在線上 A/B：只換掉 Orchestrator 的 prompt 或 routing 邏輯即可。
- 可以針對不同客戶 / 部門掛不同的工具組合。
3. 架構骨架：Orchestrator + 多 retriever + Hybrid Search

一個可落地的組合：
- LLM：OpenAI（gpt-4.1）、Anthropic（claude-3.7）皆可
- 檢索：
- Elasticsearch：BM25 + dense vector + hybrid score
- 或 Weaviate / Qdrant：向量 + keyword filter
簡化架構：
```
User → Orchestrator Agent → (tool calls) →
  - keyword_retriever (Elasticsearch BM25)
  - vector_retriever  (Weaviate / ES dense vector)
  - hybrid_retriever  (ES rank_feature / script_score)
→ merge + dedup + rerank → LLM answer
```
實作範例

1. Orchestrator Agent Prompt（決定使用哪個 retriever）

假設用 OpenAI Assistants API 或自行封裝 tools：
```
系統指示（Orchestrator）：
你是一個檢索協調代理，負責從多種檢索器取得最相關的企業知識。

- 若使用者詢問：
  - 錯誤碼、ticket ID、法規條號、API 名稱 → 優先使用 **keyword_retriever**。
  - 抽象概念、最佳實踐、流程說明 → 優先使用 **vector_retriever**。
  - 法律 / 合規問題，且需多層級來源 → 使用 **legal_hybrid_retriever**。

流程：
1. 先決定要呼叫哪些工具（可以多個）。
2. 若第一輪檢索結果的「來源數量 < 3」或「相關度評估偏低」，
   - 自行改寫查詢（更精簡、加入關鍵字），再重試一次。
3. 最終將所有檢索結果去重、排序，回傳給後續回答模型。
禁止自行編造公司內部資料，所有答案必須可追溯到文件片段。
```
2. Elasticsearch Hybrid Search 設定範例

索引 mapping：
```
PUT knowledge_base
{
  "mappings": {
    "properties": {
      "content": { "type": "text" },
      "content_vec": { "type": "dense_vector", "dims": 1536, "index": true },
      "source_type": { "type": "keyword" },   
      "tenant_id": { "type": "keyword" }
    }
  }
}
```
簡化版 hybrid 查詢（BM25 + 向量）：
```
POST knowledge_base/_search
{
  "size": 20,
  "query": {
    "script_score": {
      "query": {
        "bool": {
          "must": [
            {"match": {"content": "GDPR data retention"}},
            {"term": {"tenant_id": "acme_corp"}}
          ]
        }
      },
      "script": {
        "source": "0.6 * _score + 0.4 * cosineSimilarity(params.q_vec, 'content_vec')",
        "params": {"q_vec": [/* query embedding */]}
      }
    }
  }
}
```
關鍵點：
- BM25 與向量權重（例子中 0.6 / 0.4）要透過線上 A/B 或離線 eval 調整。
- tenant_id filter 做多租戶權限隔離，非常重要。
💡 關鍵： 在同一個查詢裡用 script score 同時結合 BM25 分數與 cosine similarity，能控制兩者權重，調整出最適合自己資料分佈的 Hybrid 策略。

3. Chunking 與 max context 的工程細節

基本原則：
- 以 語義切分（semantic splitting）+ 適度 overlap 為主，而不是死切 512 tokens。
- 避免 chunk 過長導致：
- 向量語義太混濁，top-k 噪音變高。
- LLM context 塞滿 retrieval 噪音，回答變模糊。
實作骨架（pseudo-code）：
```
from semantic_splitter import split_semantic

def chunk_doc(text: str):
    sections = split_semantic(text, max_chars=1200)
    chunks = []
    overlap = 150  # 字元級 overlap
    for sec in sections:
        if len(sec) <= 1200:
            chunks.append(sec)
        else:
            # 針對長 section 再做 sliding window
            for i in range(0, len(sec), 1200 - overlap):
                chunks.append(sec[i:i+1200])
    return chunks
```
與 max context tokens 的關係：
- 假設 LLM context 32k，系統 prompt + 對話占 4k，其實留給 RAG 的只有約 28k。
- 若每個 chunk 約 400 tokens，你實際能塞 約 50–60 個 chunk 就爆，但通常 8–16 個 chunk 就夠，更多只會拉高成本與噪音。
rerank 與去重：
- 先取寬一點的 top_k（例如 30–50），再用輕量 rerank（如 bge-reranker）縮到 8–12 個。
- 去重邏輯可以用：same doc_id + 高度相似 直接只留一個，減少重複內容浪費 context。
💡 關鍵： 雖然 context 可能有 32k tokens，但實務上只保留約 8–16 個高質量 chunk，通常就能兼顧成本與效果，塞太多反而害答題品質下滑。

建議與注意事項

1. 不要只做 embedding，不做 eval

常見錯誤流程：
1. 把全部文件 embed → 塞進向量庫 → 上線。
2. 發現回答怪怪的 → 開始懷疑模型。
比較健康的流程：
1. 先準備一組 標記好的 QA/Eval 集（10–50 題也好）。
2. 對同一組問題，分別跑：
3. 純 BM25
4. 純向量
5. Hybrid + 不同權重
6. 用簡單指標（hit@k、人工評分）挑一個 baseline，再上線 A/B。
2. 向量庫維護：重建 / 追加 / 版本化
- Embedding 模型版本變更 時：
- 盡量用新 index 重建（kb_v2），舊版保留一段時間做對照。
- 不要在同一個 index 裡混不同 embedding 模型的向量。
- 大量文件更新策略：
- 批次追加新文檔時，要記錄 批次 ID / 資料版本，方便 rollback。
- 下線文件要標記 is_active=false 或直接 soft delete，避免回答引用過期政策。
3. 多租戶與權限過濾
- 在 Elasticsearch / Weaviate 中務必存：tenant_id、visibility、role 等欄位。
- 檢索 query 層一定要加：
```
"filter": [
  {"term": {"tenant_id": "${current_tenant}"}},
  {"terms": {"visibility": ["public", "internal"]}}
]
```
- 不要指望 LLM 自己遵守權限，權限控制一定要在檢索階段完成。
4. 線上評測與 A/B 驗證

簡易做法：
1. 選一組真實高頻 query（客服 ticket、搜尋 log）。
2. 設計兩條路線：
3. A：純向量 RAG
4. B：Agentic RAG + Hybrid Search
5. 隨機分流流量，收集：
6. 使用者是否重問 / 追問率
7. 是否需要人工接手
8. CSR / domain expert 的 1–5 分主觀評分
通常在企業知識庫場景，只要加上 Hybrid Search + Agent 重試，就能看到 10–30% 的 query 成功率提升，而且失誤類型會明顯變少（比較少「答錯法規條」、「引用過期政策」）。

總結：如果你現在的 RAG 還是「單一向量庫 + top-k 塞給 LLM」，要提升穩定性，不一定要換更大的模型，先把 Hybrid Search 與 Agentic 檢索策略補上，通常是成本最低、效果最直接的升級路線。
🚀 你現在可以做的事
- 從現有專案中抽出 10–50 則真實 query，分別用純 BM25、純向量與 Hybrid 跑一次，記錄 hit@k 與人工評分
- 在現有 RAG 服務前面加一個簡單 Orchestrator，把關鍵字與向量檢索拆成兩個 tool，用 prompt 控制選用策略
- 在搜尋層加入 tenant_id 與 visibility 欄位與 filter，先確保權限過濾正確，再進一步調整 Hybrid 權重與 rerank 策略
2026 年 4 月 16 日
GAIA 本地多代理實戰指南
📌 本文重點
- 本地多代理更可控
- sandbox 與權限隔離
- 先選小模型再優化
- Workflow 可 checkpoint
在本地硬體上跑 GAIA 多代理 workflow，直接解決三個實際痛點：

💡 關鍵： 本地部署的核心價值，不只是省雲端費用，更是把隱私、延遲和權限控制都收回自己手上。
1. 隱私與合規：內網知識庫、檔案內容不出機器，減少 DLP 顧慮。
2. 可控成本與延遲：不綁雲端 API，長任務與大量工具呼叫的成本與延遲可預期。
3. 更細緻的權限隔離與除錯：工具執行在你設計的 sandbox 內，log、資源監控都在本機可觀測。
以下以「本地檔案整理 + 內網知識庫助理」為具體任務，示範如何用 GAIA 在單機上組出一個可用的多代理系統，並說清楚在 Apple Silicon / GPU / 純 CPU 場景下要怎麼選 LLM 和調整架構。

重點說明

1. GAIA 的基本心智模型：Agent / 任務 / 工具

GAIA 的抽象其實很單純：
- Agent：有「目標 + 能力」的行為體，通常綁一個 LLM + 一組工具。
- 任務（Task / Workflow）：定義起點、終點，以及 Agent 如何接力。
- 工具（Tools）：一組可呼叫的函式，如檔案系統、HTTP、向量搜索，GAIA 會把它們包成可被 LLM 呼叫的函式呼叫介面。
實務上你會這樣切：
- 一個 Planner Agent 負責拆解高階目標：例如「整理 ~/Downloads 並產出 README」。
- 一個 FileOps Agent 只負責檔案遍歷、分類、改名，綁定檔案系統工具，權限嚴格限制。
- 一個 Knowledge Agent 使用向量庫對內網 markdown/PDF 做檢索與摘要。
2. 在單機協調多代理：比你想像中輕量

GAIA 不是重型的分散式框架，而是偏 本地 Orchestrator：
- 用一個主 loop 或 workflow engine 管理 Agent 呼叫順序、中間狀態與錯誤。
- 每個 Agent 呼叫相同或不同 LLM（例如：Planner 用小模型，Knowledge Agent 用大模型）。
- 即使只有一張 GPU 或一台 Apple Silicon，透過限流與序列化調度一樣能跑多代理，只是併發要保守。
3. 本地 LLM 選擇策略（Apple / GPU / CPU）

Apple Silicon（M1–M4）：
- 優先考慮 MLX + Qwen3.5 / Gemma 4 / Llama 家族的 8–9B 量化。
- 善用像 Reddit 提到的 DFlash 推測解碼：在 9B 級模型上可有 ~4× decoding 加速，對多代理回合式對話很有感。
💡 關鍵： ~4× decoding 加速代表回合式多代理互動的體感差異會非常明顯，特別是在本地裝置上。
- 32GB RAM 以上：可以考慮 27B 量級，但要注意 context 與 batch size 的 trade-off。
桌機 GPU（NVIDIA）：
- llama.cpp / vLLM / TensorRT-LLM 都可；若用 llama.cpp，可利用社群的 llm-server v2 --ai-tune 自動調 flags，實測 Qwen3.5-27B 可 +50% tok/s 以上，對長任務吞吐提升很明顯。
💡 關鍵： +50% tok/s 以上的提升，對長任務與大量工具呼叫會直接反映在整體吞吐量上。

純 CPU：
- 參考 Gemma 4 在 CPU 的實測，8B 級模型仍可用，但要：
- 選擇更小模型 + 更 aggressive 量化（如 Q4_K_M）；
- 控制 max_tokens，避免一次生成太長；
- 任務設計上用更多工具、多輪互動，降低單次生成長度。
實作範例：從零到一的本地多代理 workflow

假設你要在 Mac（M2 Pro + 32GB）上做一個：

指定資料夾路徑 → 自動整理檔案並產出整理報告 → 同時讓知識庫助理可以回答「這次整理做了什麼？」

以下用簡化版 pseudo-code 示意 GAIA 專案結構與關鍵程式碼。

專案結構
```
my-gaia-local-agents/
├── gaia_config.yaml       # GAIA 全域設定（LLM, 日誌, sandbox）
├── agents/
│   ├── planner_agent.py
│   ├── fileops_agent.py
│   └── knowledge_agent.py
├── tools/
│   ├── file_tools.py      # 檔案操作工具
│   └── vectordb_tools.py  # 內網知識庫檢索
├── workflows/
│   └── organize_and_report.py
└── main.py
```
1. 定義本地 LLM backend

假設你用 Ollama + Qwen2.5 7B 作為通用模型（Apple / GPU / CPU 都能跑）：
```
# gaia_config.yaml
llm_backends:
  default:
    type: http
    base_url: "http://localhost:11434/v1"
    model: "qwen2.5:7b"
    # 重要：明確限制 context 和輸出長度，避免拖慢整體 workflow
    params:
      max_tokens: 512
      temperature: 0.3
      top_p: 0.9

logging:
  level: INFO
  file: "logs/gaia.log"

sandbox:
  file_root: "./sandbox_root"   # FileOps 只允許在這之下操作
  allow_network: false           # 預設工具無網路
```
實際好處：
- 用 HTTP LLM backend，你可以隨時切換到 llama.cpp server / MLX server / vLLM 而不用改 Agent 邏輯。
- max_tokens + temperature 控制對本地效能非常關鍵，避免一個 Agent 把整個 context 塞爆。
2. 定義工具：檔案操作與向量檢索
```
# tools/file_tools.py
from gaia import tool
from pathlib import Path

SANDBOX_ROOT = Path("./sandbox_root").resolve()

@tool(name="list_files", description="列出目錄下的檔案與大小")
def list_files(path: str) -> dict:
    root = (SANDBOX_ROOT / path).resolve()
    assert root.is_dir() and str(root).startswith(str(SANDBOX_ROOT)), "path out of sandbox"
    files = []
    for p in root.iterdir():
        if p.is_file():
            files.append({"name": p.name, "size": p.stat().st_size})
    return {"files": files}

@tool(name="move_file", description="移動檔案到新資料夾")
def move_file(src: str, dst: str) -> str:
    src_path = (SANDBOX_ROOT / src).resolve()
    dst_path = (SANDBOX_ROOT / dst).resolve()
    assert str(src_path).startswith(str(SANDBOX_ROOT))
    assert str(dst_path).startswith(str(SANDBOX_ROOT))
    dst_path.parent.mkdir(parents=True, exist_ok=True)
    src_path.rename(dst_path)
    return f"moved {src} to {dst}"
```
幾個關鍵點：
- 用 @tool 裝飾器，GAIA 會自動產生給 LLM 用的工具 schema。
- 使用 sandbox_root + startswith 檢查，避免 Agent 亂動整個檔案系統。
向量檢索工具（略寫）：
```
# tools/vectordb_tools.py
from gaia import tool
from my_vectordb import search

@tool(name="kb_search", description="在內網知識庫中搜尋相關文件")
def kb_search(query: str, top_k: int = 5) -> list:
    return search(query, top_k=top_k)
```
3. 定義 Agents
```
# agents/planner_agent.py
from gaia import Agent
from gaia.llm import LLMClient

llm = LLMClient.from_config("default")

planner = Agent(
  name="planner",
  llm=llm,
  tools=[],  # Planner 不直接動檔案
  system_prompt="""
你是任務規劃專家。使用簡短 JSON 回覆，包含 steps，
每個 step 指定要由哪個 agent 執行（fileops 或 knowledge）。
"""
)
```
```
# agents/fileops_agent.py
from gaia import Agent
from gaia.llm import LLMClient
from tools.file_tools import list_files, move_file

llm = LLMClient.from_config("default")

fileops = Agent(
  name="fileops",
  llm=llm,
  tools=[list_files, move_file],
  system_prompt="""
你負責安全地整理檔案，只能使用提供的工具操作 sandbox 內的路徑。
每次操作前先列出檔案，再決定如何移動。
"""
)
```
```
# agents/knowledge_agent.py
from gaia import Agent
from gaia.llm import LLMClient
from tools.vectordb_tools import kb_search

llm = LLMClient.from_config("default")

knowledge = Agent(
  name="knowledge",
  llm=llm,
  tools=[kb_search],
  system_prompt="""
你是內網知識庫助理，先呼叫 kb_search 找到相關內容，
再用找到的內容回答使用者問題。
"""
)
```
4. Workflow：協調多代理 + 任務恢復
```
# workflows/organize_and_report.py
import json
from gaia import Workflow
from agents.planner_agent import planner
from agents.fileops_agent import fileops
from agents.knowledge_agent import knowledge

class OrganizeWorkflow(Workflow):
    def run(self, target_dir: str):
        # 1) 用 planner 拆解任務
        plan = planner.run_sync(f"請為資料夾 {target_dir} 制定整理計畫，輸出 JSON 格式。")
        steps = json.loads(plan["content"]).get("steps", [])

        history = []
        for step in steps:
            agent_name = step["agent"]
            instruction = step["instruction"]

            if agent_name == "fileops":
                result = fileops.run_sync(instruction)
            elif agent_name == "knowledge":
                result = knowledge.run_sync(instruction)
            else:
                continue

            history.append({"agent": agent_name, "instruction": instruction, "result": result})
            self.save_checkpoint(history)  # **關鍵：長任務可恢復**

        return history

    def save_checkpoint(self, state):
        with open("./state/organize_checkpoint.json", "w") as f:
            json.dump(state, f, ensure_ascii=False, indent=2)
```
最後入口：
```
# main.py
from workflows.organize_and_report import OrganizeWorkflow

if __name__ == "__main__":
    wf = OrganizeWorkflow()
    history = wf.run("downloads")
    print("任務完成，歷史記錄：")
    print(history)
```
實際好處：
- Workflow + checkpoint 讓你可以安全跑幾十分鐘的整理任務，中途 crash 可恢復。
- 檔案操作與知識庫檢索被清楚拆成不同 Agent，權限與日誌都更好控管。
建議與注意事項

1. 模型大小與上下文限制：先決策、再堆功能
- 本地 Agent 系統最常見的坑是 一開始就選太大模型 + 太大 context：
- Apple 32GB + 27B 模型 + 128k context 幾乎一定卡。
- 建議流程：
- 先用 7–9B 模型 + 8k–16k context 做 MVP。
- 觀察 GAIA 的日誌與 latency 再決定是否升級模型或 context。
- 用「多輪互動 + 工具」彌補模型容量，而不是盲目換大模型。
2. 工具執行安全 & sandbox 設計
- 檔案操作請一定：
- 使用 sandbox root + path 檢查（如上例）。
- 禁用 rm -rf 類型操作，必要時只暴露「移動到 trash」工具。
- 若 Agent 需要網路：
- 以 proxy 工具封裝（如 http_get），不要讓 Agent 任意發 HTTP。
- 在工具層加 domain allowlist。
3. 長任務與錯誤恢復
- GAIA workflow 必須：
- 對每個工具呼叫與 Agent 回應寫入結構化 log（JSON）。
- 週期性 checkpoint 中間狀態（如上例 save_checkpoint）。
- 常見錯誤種類：
- LLM 回 JSON 解析失敗 → 在 workflow 層加入重試 + 自我修復 prompt（要求模型只回合法 JSON）。
- 工具拋例外（路徑不存在、權限錯）→ 在工具層 catch，回傳結構化錯誤訊息給 Agent 解讀，而不是直接 crash。
4. 本地 vs 雲端 Agent：怎麼選？

適合用 GAIA 本地落地的場景：
- 需要處理敏感檔案 / 內網知識庫（法務、醫療、R&D 原始碼）。
- 需要低延遲 + 高互動頻率的工具呼叫（檔案整理、CI/CD 助理、開發環境助手）。
- 有穩定的本地硬體（Mac Studio / 工作站 / 甚至改造手機當常駐節點，如 Xiaomi + Ollama 案例）。
仍應用雲端 Agent 平台的情境：
- 短期 PoC，需要快速試多種 SOTA 模型（如 GPT-4.1, Claude 3.7）。
- 任務高度 bursty，需要按需擴容，或併發數百以上的 Agent 任務。
- 需要平台級功能（RBAC、審計、隊列管理）而你不想自己實作。
實務建議：
- 先在雲端 Agent 平台驗證 prompt、工具設計、整體 UX。
- 穩定後再把核心工作流搬到 GAIA + 本地 LLM 上，對敏感資料與長任務特別划算。
總結：GAIA 提供的是一個 在本地硬體上「可觀測、可控、可擴展」的多代理骨架。搭配 Apple Silicon/桌機 GPU 的本地 LLM 加速（--ai-tune、DFlash 等），你可以在單機上跑出相當實用的 AI Agents，而不再被雲端 API 綁死。關鍵是：先把 Agent / 工具 / Workflow 的邊界切清楚，再談模型與效能優化。
🚀 你現在可以做的事
- 先在 Ollama 或 llama.cpp 上跑一個 7B 模型
- 按本文結構拆出 planner、fileops、knowledge 三個 Agent
- 先用 sandbox_root 做安全檔案操作，再逐步加上 checkpoint 與 kb_search
2026 年 4 月 15 日

Kubernetes 安全跑 AI Agent 的四種隔離架構

📌 本文重點

不要讓 Agent 直接在應用 Pod 裡執行 shell

把程式碼執行抽象成獨立 Exec API

依需求從 Sidecar 演進到 Dispatcher + microVM

在 Kubernetes 上跑 AI Agent，最大痛點不是「模型怎麼接」，而是：我要讓 Agent 能執行程式碼，但又不想整個 cluster 變成 root shell 即時互動環境。這一篇用四種實戰隔離模式，從 完全禁止 exec 到 短暫 sandbox，給你一個能落地、能演進、不會把未來自己鎖死的設計路線。

兩個基本原則先講清楚：
1. 不要讓 Agent 直接在應用 Pod 裡 exec /bin/sh
2. 把「執行程式碼」當成一個獨立產品線，至少要有 API、隔離與審計

重點說明

1. 四種 Exec 隔離模式與威脅模型

No-Exec 基線
威脅模型：Agent 只能讀資料、呼叫 API，不允許任意程式碼或 shell。防止「自動化腳本變挖礦機」。
使用情境：報表、客服、內部 FAQ、只讀資料查詢。
成本/延遲：最低；只要你有 Agent，就應該先有這個 baseline。

💡 關鍵： 先建立 No-Exec 基線，把「不執行程式碼也能運作」當成預設安全狀態，之後才有空間加能力而不是拆炸彈。

Sidecar Exec Server
Agent Pod 旁邊掛一個 sidecar 容器，提供 受限的程式碼執行 API（例如只允許 Python，禁網路）。
威脅模型：Agent 若被 prompt 注入，最多傷到 該 Pod 的 sandbox，不會拿到整個 node。
使用情境：需要頻繁、小量運算（轉檔、格式化、查詢小 DB）。
成本/延遲：啟動快、延遲低，但隔離仍與主容器共享同個 Pod 命名空間，需嚴控權限。
獨立 Exec Pod（長駐）
用 單獨 Deployment/Pod 提供 Exec API，Agent 透過 Service/HTTP 呼叫。
威脅模型：即使 Agent 被攻擊，影響範圍收斂在 Exec Pod 的 namespace / RBAC。
使用情境：多 Agent 共用運算資源、內部「程式碼執行服務」。
成本/延遲：多一跳網路，但隔離與資源配額更好控制。
短暫性 Exec Dispatcher（Job / ephemeral Pod）
每次高風險程式碼執行，Agent 呼叫 Dispatcher API → 建立一次性 Job/Pod → 執行完就刪。
威脅模型：攻擊者很難長期駐留，每次都是新 sandbox；配合 NetworkPolicy、seccomp，接近 microVM 的防護。
使用情境：自動修 production bug、CI 內部 code 修補、批次資料轉換。
成本/延遲：啟動開銷高，但安全性最佳、審計最容易。

💡 關鍵： 短暫性 Dispatcher 每次執行都重建 sandbox，換取較高延遲，換來接近 microVM 等級的隔離與容易審計。

2. 把 Exec 抽象成 API：Agent 只看見一個能力

不論選哪種模式，推薦都做成一個 Exec API 抽象層：

Agent 視角：呼叫 /exec，送程式碼和限制（language、timeout、resources），拿回 stdout/stderr。
基礎設施視角：背後可以從 Sidecar → 獨立 Pod → Dispatcher/Job 演進，而介面不變。

這樣可以避免那種常見悲劇：

「先在應用容器裡 subprocess.run 上線，等 Agent 用到 everywhere 之後才發現安全有洞，想拆出來卻動不了。」

💡 關鍵： 先穩定 Exec API 介面，再替換背後實作，可以避免一開始圖方便埋下日後無法重構的安全技術債。

3. 與 microVM（如 SuperHQ）怎麼搭配？

像 SuperHQ 這種 microVM 沙盒 的隔離更硬（虛擬化層級），但成本與管理更重。實務上可以：

Kubernetes 內部先用 短暫性 Exec Dispatcher 做 cluster 級隔離。
對於「真的可能動 production」的改動，Dispatcher 再往下調用像 SuperHQ 的 microVM sandbox，做二層隔離。

關鍵是：不要一開始就把 microVM 當銀彈，反而要先把 API、審計、RBAC 的基本盤打好。

實作範例

1. 給 Agent 的 Exec API 抽象

假設你在後端提供一個 POST /exec 給 Agent 使用：

// TypeScript / pseudo-code
interface ExecRequest {
  language: 'python' | 'bash';
  code: string;
  timeout_ms?: number;
  memory_mb?: number;
  audit_metadata?: {
    agent_id: string;
    user_id: string;
    task_id: string;
  };
}

interface ExecResponse {
  stdout: string;
  stderr: string;
  exit_code: number;
  sandbox_id: string;
  started_at: string;
  finished_at: string;
}

// Agent 只呼叫這個
async function agentExec(req: ExecRequest): Promise<ExecResponse> {
  const resp = await fetch("https://exec-gateway.internal/exec", {
    method: 'POST',
    headers: { 'Content-Type': 'application/json' },
    body: JSON.stringify(req),
  });
  return resp.json();
}

背後可以是 Sidecar、獨立 Pod 或 Dispatcher，Agent 完全不需要知道。

2. Sidecar Exec Server：最小可行安全版

Pod 範例（主容器 + Sidecar）：

apiVersion: v1
kind: Pod
metadata:
  name: agent-with-sidecar
spec:
  containers:
    - name: agent
      image: myorg/agent:latest
      env:
        - name: EXEC_SERVER_URL
          value: "http://127.0.0.1:8080"  # 只在 Pod 內可達

    - name: exec-sidecar
      image: myorg/exec-sandbox:py3
      securityContext:
        runAsNonRoot: true
        runAsUser: 1000
        allowPrivilegeEscalation: false
        readOnlyRootFilesystem: true
        seccompProfile:
          type: RuntimeDefault
        capabilities:
          drop: ["ALL"]
      volumeMounts:
        - name: tmp
          mountPath: /tmp
  volumes:
    - name: tmp
      emptyDir: {}

注意幾點：

Sidecar 用 readOnlyRootFilesystem: true，只給一個 emptyDir 當 scratch space。
用 seccompProfile: RuntimeDefault + capabilities: drop: ["ALL"] 擋掉大多數系統呼叫。
exec server 只在 localhost 對 agent 開放。

Sidecar 容器內部可用像這樣的 server：

# exec-sidecar main.py (簡化示意)
from fastapi import FastAPI
import subprocess, tempfile, textwrap

app = FastAPI()

@app.post("/exec")
async def exec_code(req: dict):
    code = req["code"]
    timeout = min(req.get("timeout_ms", 5000) / 1000, 10)
    with tempfile.NamedTemporaryFile(suffix=".py", dir="/tmp", delete=False) as f:
        f.write(code.encode("utf-8"))
        path = f.name
    p = subprocess.run(
        ["python", path],
        stdout=subprocess.PIPE,
        stderr=subprocess.PIPE,
        timeout=timeout,
        check=False,
        text=True,
    )
    return {
        "stdout": p.stdout,
        "stderr": p.stderr,
        "exit_code": p.returncode,
    }

3. 獨立 Exec Pod + NetworkPolicy 限制網路

Exec Service Deployment：

apiVersion: apps/v1
kind: Deployment
metadata:
  name: exec-service
  namespace: agent-exec
spec:
  replicas: 2
  selector:
    matchLabels:
      app: exec-service
  template:
    metadata:
      labels:
        app: exec-service
    spec:
      securityContext:
        runAsNonRoot: true
      containers:
        - name: exec
          image: myorg/exec-sandbox:py3
          securityContext:
            allowPrivilegeEscalation: false
            readOnlyRootFilesystem: true
            seccompProfile:
              type: RuntimeDefault
          resources:
            limits:
              cpu: "1"
              memory: "1Gi"

NetworkPolicy：只允許 Agent Namespace 打進來，不允許對外上網：

apiVersion: networking.k8s.io/v1
kind: NetworkPolicy
metadata:
  name: exec-deny-egress
  namespace: agent-exec
spec:
  podSelector: { matchLabels: { app: exec-service } }
  policyTypes: ["Ingress", "Egress"]
  ingress:
    - from:
        - namespaceSelector:
            matchLabels:
              name: agent
  egress: []  # 不允許任何外連

搭配 RBAC：只給 Agent ServiceAccount 能呼叫 Exec Service，不給其他 Pod 用。

4. 短暫性 Exec Dispatcher：一次一個 Job

Dispatcher 可以是一個常駐服務，收到 Agent 的 Exec Request 後，動態建一個 Job：

apiVersion: batch/v1
kind: Job
metadata:
  generateName: exec-task-
  namespace: agent-exec
spec:
  ttlSecondsAfterFinished: 60
  template:
    spec:
      restartPolicy: Never
      containers:
        - name: runner
          image: myorg/exec-runner:py3
          command: ["python", "/runner/run.py"]
          env:
            - name: CODE_B64  # 程式碼以 base64 傳入
              value: "{{ .code_b64 }}"
          securityContext:
            runAsNonRoot: true
            allowPrivilegeEscalation: false
            readOnlyRootFilesystem: true
            seccompProfile:
              type: RuntimeDefault

Dispatcher 伺服器（簡化 pseudo-code）：

// create Job + watch logs/exit code
async function handleExec(req: ExecRequest): Promise<ExecResponse> {
  const jobName = await k8sCreateJobFromTemplate(req.code);
  const { logs, exitCode } = await waitForJobAndCollectLogs(jobName);
  await writeAuditLog({
    sandbox_id: jobName,
    ...req.audit_metadata,
    code_hash: hash(req.code),
    exit_code: exitCode,
  });
  return {
    stdout: logs.stdout,
    stderr: logs.stderr,
    exit_code: exitCode,
    sandbox_id: jobName,
    started_at: new Date().toISOString(), // 真實實作請用 Job status
    finished_at: new Date().toISOString(),
  };
}

好處：

多租戶隔離：可依 tenant 建不同 namespace，Dispatcher 根據 audit_metadata.tenant_id 選 namespace。
審計完整：所有指令、結果都在 Job + audit log 裡，符合合規需求。

建議與注意事項

1. 多租戶 / 多 Agent：Namespace + RBAC 要先設計好

每個 tenant / 敏感業務線，用不同 namespace + ServiceAccount。
用 RBAC 控制：
哪些 Agent 可以呼叫哪些 Exec Service / Dispatcher API。
哪些 ServiceAccount 可以在哪些 namespace 建 Job。
禁用 kubectl exec 這類廣泛權限，改成只允許建立特定 label 的 Job。

2. 記錄與審計：把 Agent 當「能下命令的人」對待

最少要記：

誰發的指令：agent_id, user_id, tenant_id。
執行了什麼：程式碼 hash / snippet、image name、namespace。
結果：exit code、stdout/stderr 片段、耗時、資源消耗。

實務建議：

把審計資料寫到 集中 log（如 Loki / Elasticsearch），設 index pattern 方便 incident 回溯。
敏感環境可以啟用 只讀審計存儲（append-only S3、WORM 存儲）。

3. 選型決策表：怎麼組合四種模式？

公司安全等級 / 場景	建議模式組合
內網 demo、無敏感資料	No-Exec 基線；需要運算再加 Sidecar Exec。
一般內部工具，允許 Agent 自動改測試 / 小腳本	獨立 Exec Pod + NetworkPolicy + RBAC；高風險任務用 Dispatcher。
有合規需求（金融、醫療）、多租戶 SaaS	短暫性 Exec Dispatcher + 多 namespace + 強 RBAC + 完整改審計。
能直接動 production（自動修 bug、自動部署）	Dispatcher + microVM（如 SuperHQ）疊加；需要人類 review gate + 強審計。

實務路線建議：

先上 No-Exec baseline：把所有「執行程式碼」需求集中到一個 Exec API 服務。
需求變多 → 用 獨立 Exec Pod + NetworkPolicy 接手 Sidecar。
需要自動動 production → 引入 短暫性 Exec Dispatcher +（選配）microVM。

最後再提醒一次：最危險的不是沒用 sandbox，而是先圖方便在應用容器裡直接 exec shell，等 Agent 真的有價值時，整個 cluster 已經跟它綁死，誰都不敢動。現在就把 Exec 抽出來，之後演進才有空間。

🚀 你現在可以做的事

檢查現有 Agent 是否在應用 Pod 內直接 exec 或 subprocess.run，列出需遷移的路徑

在開發環境先實作一個簡單的 POST /exec 抽象層，後端先接到一個獨立 Exec Pod

為高風險任務 PoC 一個「短暫性 Exec Dispatcher + Job」流程，並加上最基本的審計欄位

2026 年 4 月 14 日

讓 LLM 真的會做研究：拆解 ResearchEVO
📌 本文重點
- ResearchEVO 讓 LLM 直接在程式碼空間做演化搜尋
- 論文寫作以 sentence-level RAG 確保可檢索與可驗證
- 可拆解為可落地的 Auto-Research / Auto-ABTest / Auto-Feature-Engineering 流程
多數所謂「AI 做研究」還停留在幫你寫 code、寫報告；ResearchEVO 解決的痛點是：讓 LLM 直接在程式碼空間裡做演化搜尋、自己排實驗、自己寫論文。從工程角度看，它提供了一個可實作的 blueprint，讓你能在公司內做 Auto-Research / Auto-ABTest / Auto-Feature-Engineering，而不是只多一個聊天機器人。

重點說明

1. 演化階段：LLM 驅動的「程式碼空間搜索」

ResearchEVO 的核心是 LLM + 演化算法 操作「程式碼本身」：
1. 程式碼空間表示
2. 個體 = 一份可執行程式碼（例如一個 train.py 或一個 model 定義 + config）。
3. 用 LLM 實作 變異 / 交配：
  - 變異：改損失函數、網路結構、優化器、訓練 schedule。
  - 交配：將兩個高適應度方案的關鍵設計融合。
4. 不做 AST 級別操作也可以，實務上多數情況直接用 自然語言 prompt + code diff 就夠用。
5. fitness 評估與搜索控制
6. fitness 只看 metrics：例如 val_accuracy、AUC、latency。
7. Search loop：
  1. LLM 生成/修改程式碼。
  2. 提交到 GPU/雲端排程系統跑實驗。
  3. 收集結果 → 更新種群 → 再交給 LLM 反思與生成。
8. 用 約束控制 避免亂飛：
  - 硬約束：只允許改特定檔案 / 函數；強制保持 I/O 介面不變。
  - 軟約束：LLM prompt 中加入「只動這幾個維度」「保留下列設計」。
💡 關鍵： 把 fitness 完全交給客觀 metrics（如 val_accuracy、latency），可以讓 LLM 的創意探索與實際效能緊密對齊。
1. 對接現有 GPU / 雲端排程
2. ResearchEVO 本身不是新的 scheduler，而是：
  - 上游：LLM 生成/修改 code & config。
  - 下游：把 job 提交給你已有的 Kubernetes / Slurm / Airflow / SageMaker / Vertex AI。
3. 你只需要做一層 adapter，把 ExperimentSpec → Job 映射好。
2. 寫作階段：sentence-level RAG + 驗證

演化出最佳演算法後，ResearchEVO 的寫作階段是在做 「可檢索、可驗證」的自動論文生成：
1. 論文結構模板
2. 先固定一個論文 schema（Title / Abstract / Intro / Method / Exp / Discussion / Related Work）。
3. 每個 section 再細分成 段落 level 的子任務，讓 LLM 聚焦生成。
4. 句子級 RAG（sentence-level RAG）
5. 檢索單位不是 chunk，而是句子：
  - 實驗 log、表格、程式碼註解、對照文獻都 embed 成 sentence vector。
  - 每當 LLM 要生成一個句子，就檢索最相關的 3~5 個 evidence。
6. 這樣可以：
  - 降低 context 噪音。
  - 讓每句話都有「引用依據」。
💡 關鍵： 以「句子」為檢索單位，讓每一句論文敘述能精確對應到 3–5 條證據，大幅降低幻覺與錯引。
1. 事實核查與防幻覺
2. 對每一句包含數字、claim 的句子，送到 Verifier agent：
  - 檢查是否能在實驗結果 / log / paper corpus 中找到支持證據。
  - 找不到就要求 LLM 重寫或改成不那麼強的 claim。
3. 論文內引用的實驗表格、圖表，ID 必須能對回到真實跑出的 artifacts（例如 MLflow run id / S3 path）。
3. 如何落地 Auto-Research / Auto-ABTest / Auto-Feature-Engineering

你不一定要重現完整 ResearchEVO。實務上可以拆成：
- 一個 orchestrator（Airflow / Prefect / Dagster / LangGraph）
- 幾個 LLM agent（code 生成 / 反思 / 寫作）
- 一個實驗調度器（K8s / Slurm / 自家平台）
- 一個結果分析工具（MLflow / Weights & Biases / 自製 dashboard）
核心流程：
1. 目標定義
2. LLM 生成候選方案
3. 實驗排程跑
4. 收集結果 & 自動分析
5. LLM 反思改進
6. 收斂後自動產出報告/論文
💡 關鍵： 把「做研究」拆成可編排的 6 步驟流程後，Auto-Research 就變成一組可插拔模組，而不是神秘黑盒。

實作範例

以下用 Python + Airflow/LangGraph 說明一個簡化版 pipeline。

1. 演化 loop 的 code 表示與變異

假設我們把「演算法個體」抽象成一個簡單的 spec：
```
from pydantic import BaseModel
from typing import Dict, Any

class AlgoSpec(BaseModel):
    name: str
    base_script: str              # 參考模板路徑
    hyperparams: Dict[str, Any]   # 学习率, layer 数等
    patches: str                  # LLM 產生的程式碼 patch (diff-like)
```
讓 LLM 做「變異」：
```
SYSTEM_PROMPT = """你是資深 ML 研究員，幫我在保持 I/O 介面不變的前提下，
只修改 loss function、網路架構與訓練策略。輸出 unified diff 格式的 patch。"""

user_msg = f"""
目前的程式碼：
{current_code}

本輪實驗結果：
val_accuracy = {metrics['val_acc']}
train_loss_curve = {metrics['loss_curve'][:10]}

請根據結果給出改進 patch。"""

resp = llm.chat([
    {"role": "system", "content": SYSTEM_PROMPT},
    {"role": "user", "content": user_msg},
])

patch = extract_patch(resp)  # 解析成純文本 diff
new_spec = AlgoSpec(
    name=f"algo_v{gen_id}",
    base_script="templates/train_base.py",
    hyperparams={"lr": 3e-4, "hidden_dim": 512},
    patches=patch,
)
```
接著用簡單的 patch engine 把 diff 套進檔案，產生下一版 train.py。

2. 串接實驗排程（以 K8s Job 為例）

假設有一個內部的 submit_experiment(spec: AlgoSpec) -> str 會幫你：
1. 打包 code + config 到 image/volume。
2. 生成 K8s Job yaml。
3. 提交到 cluster，回傳 job_id。
簡化 pseudo-code：
```
import kubernetes as k8s

def submit_experiment(spec: AlgoSpec) -> str:
    job = build_k8s_job(spec)  # 填入 image, args, resource 限制
    api = k8s.client.BatchV1Api()
    resp = api.create_namespaced_job(namespace="research", body=job)
    return resp.metadata.name

# fitness 評估：等 job 完成，讀取 metrics.json

def fetch_fitness(job_id: str) -> float:
    # 假設每個 job 在 /results/metrics.json 寫入 val_acc
    metrics = load_from_object_store(f"results/{job_id}/metrics.json")
    return metrics["val_acc"]
```
你只要確保：
- 所有實驗都寫出 統一格式的 metrics.json / config.json。
- job name、run id 能對應回實驗記錄系統（MLflow、W&B）。
3. Orchestrator：以 LangGraph 為例構建演化 DAG

LangGraph 可以把 LLM、工具、迭代邏輯包成圖：
```
from langgraph.graph import StateGraph, END

class EvoState(BaseModel):
    population: list[AlgoSpec]
    history: list[dict]
    generation: int


def propose_candidates(state: EvoState) -> EvoState:
    # 用 LLM 對每個 top-k spec 做變異
    ...


def run_experiments(state: EvoState) -> EvoState:
    # 提交所有 candidates，等待完成，回寫 fitness
    ...


def select_and_check_stop(state: EvoState) -> str:
    if state.generation >= MAX_GEN:
        return END
    return "propose"


graph = StateGraph(EvoState)

graph.add_node("propose", propose_candidates)
graph.add_node("run", run_experiments)

graph.add_edge("propose", "run")

graph.add_conditional_edges("run", select_and_check_stop, {"propose": "propose", END: END})

evo_app = graph.compile()
```
後面你可以在另一個 graph 裡接上 writing phase：以最優 AlgoSpec + 實驗結果為輸入，調用 sentence-level RAG agent 生成報告或論文。

4. sentence-level RAG 實作簡例
```
from sentence_transformers import SentenceTransformer
from qdrant_client import QdrantClient

encoder = SentenceTransformer("all-mpnet-base-v2")
qdrant = QdrantClient(host="localhost", port=6333)

# 建 index：把實驗 log、表格、文獻拆成句子

def index_sentences(sentences: list[str], meta: list[dict]):
    vecs = encoder.encode(sentences)
    qdrant.upsert(
        collection_name="research_corpus",
        points=[{"id": i, "vector": v, "payload": meta[i]} for i, v in enumerate(vecs)],
    )


def retrieve_evidence(query_sentence: str, k: int = 5):
    qvec = encoder.encode([query_sentence])[0]
    hits = qdrant.search("research_corpus", query_vector=qvec, limit=k)
    return hits

# LLM 每寫一句話前，先取 evidence

claim = "在 QEC 任務上，我們的演算法平均錯誤率降低了 12.3%。"
evidences = retrieve_evidence(claim)
llm_context = format_evidence(evidences)

resp = llm.chat([
    {"role": "system", "content": "根據下面的實驗證據，生成一個對應的結論句。"},
    {"role": "user", "content": llm_context},
])
```
再加一個 Verifier：重新檢索一次，看 claim 是否可被證據支持，不行就標記為需重寫。

建議與注意事項

1. 實驗結果格式不一致
- 坑：每個實驗 script 隨意 print，LLM/agent 很難 parse，fitness 評估混亂。
- 建議：
- 強制所有實驗輸出 統一 schema 的 JSON，例如：
  - metrics.json（{"val_acc": 0.92, "train_time": 360}）
  - config.json（完整 hyperparams）。
- 用 schema 驗證（Pydantic）檢查 artifact；不合法就標記這個個體為低適應度。
2. LLM 收斂到壞思路 / mode collapse
- 坑：LLM 易過度放大小樣本成功設計，反覆微調同一個局部解，失去探索。
- 建議：
- 搜索策略上引入 探索度控制：族群裡保留一部分「純隨機變異」個體。
- 每 N 代重啟一次高多樣性的種群（借鑑 evolutionary algo 的 restart 策略）。
- LLM prompt 中顯式要求「給出三類不同思路」，避免只改超參數。
3. 成本與資源控制
- 坑：LLM + GPU 雙重成本，很容易跑成燒錢機器。
- 建議：
- 在 orchestrator 層面設 hard budget：最大世代數、最大 job 數、最大雲端花費。
- 用低成本模型做日常迭代，大模型只用在 跨世代總結 / 報告撰寫。
- 優先讓 LLM 做 靜態檢查（例如檢查明顯錯誤設計）再送去跑 GPU。
4. LLM 對數據科學工具的錯用
- 坑：LLM 可能亂用 API（例如 pandas groupby 用錯、Sklearn split 漏掉 stratify），結果漂亮但不可信。
- 建議：
- 對關鍵 API（train/test split、metrics 計算、cross-validation）儘量做成 封裝好的 utility 函數，禁止 LLM 自己寫這些低級邏輯。
- 在 pipeline 裡加入 sanity check step：
  - label 分布是否合理？
  - baseline 是否被超過？
  - 結果是否疑似 data leakage？
5. 開始時先做「窄版」
- 不要一開始就做「全自動研究員」。較務實的起點：
- Auto-ABTest：讓 LLM 只改部分業務策略 / feature 配置，實驗系統沿用現有 AB 平台。
- Auto-Feature-Engineering：LLM 只負責產生特徵轉換 pipeline（例如 SQL / PySpark），模型訓練沿用既有框架。
- 寫作階段先只產出 自動實驗報告（非論文），幫團隊省時間。
從工程的角度看，ResearchEVO 真正帶來的啟發是：

把「做研究」拆成可編排的演化搜尋 + sentence-level RAG 寫作兩個 pipeline，然後用現成的 LLM、orchestrator、GPU 排程系統拼起來。

只要你公司已經有基本的實驗平台，做一個自己的「輕量版 ResearchEVO」其實沒有想像中難，但能快速幫你把實驗速度和研究產出拉一個量級。
🚀 你現在可以做的事
- 先為現有實驗腳本統一輸出 metrics.json / config.json schema，打好 Auto-Research 地基
- 選一個任務，用一個 LLM agent + 既有 K8s/Slurm 搭出最小可用的演化搜尋 loop
- 把歷史實驗 log 拆成句子建一個向量索引，試做 sentence-level RAG 自動實驗報告生成
2026 年 4 月 12 日
In-Place Test-Time Training 讓模型邊推理邊變強
📌 本文重點
- In-Place TTT 讓 LLM 在推理時就地微調
- 只更新 MLP projection，成本可控又穩定
- 對小模型與超長 context 任務效果特別明顯
傳統 「先訓練後部署」 的模型，在上線後面對新 domain、新長文檔，只能靠 prompt/RAG「繞著問題走」，權重本身完全不會變。In-Place Test-Time Training（In-Place TTT）要解決的就是：

在不重新訓練整個模型、不影響服務穩定性的前提下，讓 LLM 在推理過程中針對當前 context 做「就地微調」，即用即學。

對開發者的直接好處：
- 小模型 + 超長 context 的 任務表現大幅提升（paper 裡 0.4B 模型在 128k context 明顯變強）
- 某些固定 domain（公司內知識庫、特定專案）可以在 session 內 自動做 domain adaptation，不用頻繁 retrain
- 不需要新架構、不改 attention，只在 MLP projection 上動手腳，工程改動可控
💡 關鍵： In-Place TTT 用少量 MLP 投影更新，就能在 128k 這種超長 context 下明顯強化 0.4B 等小模型的表現，達到「小模型大任務」的效果

重點說明

1. TTT 是什麼？為什麼舊做法不適合 LLM？

Test-Time Training（TTT） 的想法很簡單：
1. 推理時，先根據當前輸入做一點訓練（更新一小部分參數 = 快權重 fast weights）
2. 再用更新後的模型做真正的預測
在 CV/小模型上，常見做法是加一個小 head、對自監督目標（rotation、jigsaw 等）做幾步 gradient update。

但直接搬到 LLM 會踩坑：
- 架構不兼容：很多 TTT 方案假設有額外 head 或特定 feature，LLM 一般沒有設計這種 TTT head
- 計算太貴：如果動 transformer block 的多數權重，長 context 下反向傳播非常重
- 目標不對齊：TTT 的 loss 不是 next-token prediction，會和原本的語言建模目標衝突，容易越調越壞
In-Place TTT 的貢獻，就是解決這三個問題：
- 不改架構，只把 MLP 最終 projection matrix 視為快權重
- 只在這些 projection 上做反向，成本可控
- 設計與 自回歸 NTP（next-token prediction）對齊 的訓練目標
2. 為什麼選 MLP 最終 projection 當快權重？

以典型 transformer block 的 FFN 為例：
```
x -> W1 -> act -> W2 -> 殘差加回
```
In-Place TTT 把 W2（MLP 最終 projection） 變成可更新快權重，原因：
1. 局部但影響力大：W2 直接把非線性特徵投回主 hidden space，調這一層可以改變 token 的語義表徵，但不動 attention 結構
2. 參數量適中：比動整個 block 或 embedding 便宜得多，長 context 反向成本可接受
3. 穩定性好：不動 attention，有助於保持原模型的「語言能力」，在此之上做局部適配
實務上的感受是：這種類似 LoRA 但只開在 MLP output projection 的調整方式，對長上下文裡的 pattern 適配非常有效，且容易控制範圍。

💡 關鍵： 只動 MLP 的最後投影 W2，等於用最小的權重區塊，撬動整個 hidden space 的語義調整，兼顧效果與穩定性

3. 如何設計與 next-token prediction 對齊的 TTT 目標？

In-Place TTT 不再另外設計自監督任務，而是直接基於 自回歸 NTP：
- 你有一段長 context：[x1, x2, ..., xT]
- 原本推理只 forward，loss 不回傳
- 現在在部分 token 上：
- 用原模型 logits 做 next-token cross-entropy
- 但只對 MLP W2 回傳梯度並更新（其他權重 frozen）
為了讓計算量可控，實作上會：
- 把長 context 切成多個 blocks（例如每 512 或 1024 tokens）
- 每個 block：
- 先 forward 得到 loss
- 只在該 block 上做一兩步梯度更新
- 不回頭修正舊 block 的輸出（in-place）
這樣：
- 目標和原 pretrain 任務完全一致，不會「學歪」
- 計算複雜度近似於「多做一輪 forward+backward」，可以和現有 KV cache/長 context 優化一起用
4. 分塊更新如何兼容長上下文與多請求並行？

對系統工程師來說，最大問題是：

長 context + 反向傳播 + 多 request，會不會把 GPU 打爆？

In-Place TTT 的分塊策略大致如下：
- Block-wise TTT：
- Example：128k context，每 1k tokens 一塊，共 128 個 block
- 每個 block：forward、算 loss、只更新 W2 的少量參數
- 不需要保留整段的中間梯度，只需要當前 block 的 activations
- 和 KV cache 相容：
- KV cache 還是照原本自回歸生成方式累積
- TTT 僅對當前 block 的 MLP projection 做 backward，不需要對 KV 做反向
- 多請求並行：
- 每個 request 自己帶一組「快權重 state」（或 delta）
- 服務層可以：
  - 把 base 模型權重設為 read-only
  - 為每個 session 存一個 快權重 buffer（例如低秩 delta 或 mask 更新）
這點和 KV cache 管理框架（vLLM, InfiniGen, H2O 等） 類似：
- KV cache 管 context-dependent activations
- 快權重則是 context-dependent 權重偏移
兩者一起用時要特別小心記憶體分配和 eviction 策略：TTT 的 state 不宜無限制累積。

💡 關鍵： 把 TTT 的更新設計成 per-session 的小型權重偏移，就能在保持多並發與穩定性的前提下，讓每個請求都「自己學自己」

實作範例：在推理服務中加一層簡單的 In-Place TTT

以下用 PyTorch 風格虛擬碼示意，重點是流程與邊界，而非完整訓練程式。

1. 模型改造：標記可更新的 MLP projection
```
class TTTMLP(nn.Module):
    def __init__(self, inner_dim, hidden_dim, enable_ttt=False):
        super().__init__()
        self.w1 = nn.Linear(hidden_dim, inner_dim)
        self.act = nn.GELU()
        self.w2 = nn.Linear(inner_dim, hidden_dim)

        # 只在 TTT 模式下允許 w2 被更新
        self.enable_ttt = enable_ttt
        for p in self.w1.parameters():
            p.requires_grad = False
        for p in self.w2.parameters():
            p.requires_grad = enable_ttt

    def forward(self, x):
        return self.w2(self.act(self.w1(x)))
```
在整個 transformer 裡，只需要把原本 MLP 換成 TTTMLP（或只在指定層啟用 enable_ttt）。

2. 推理 + In-Place TTT loop（單 request）
```
def run_with_ttt(model, tokenizer, input_ids,
                 max_new_tokens=128,
                 ttt_block_size=1024,
                 ttt_steps=1,
                 ttt_lr=1e-4):
    """
    model: 已載入的 LLM，除了 MLP.w2 之外都 frozen
    input_ids: 長 context token ids
    """
    device = next(model.parameters()).device
    input_ids = input_ids.to(device)

    # 建一個專用 optimizer，只管 MLP.w2
    ttt_params = [p for n, p in model.named_parameters()
                  if p.requires_grad and 'mlp.w2' in n]
    optimizer = torch.optim.AdamW(ttt_params, lr=ttt_lr)

    model.eval()

    # === 1) 先在 context 上做 block-wise TTT ===
    for start in range(0, input_ids.size(1) - 1, ttt_block_size):
        end = min(start + ttt_block_size, input_ids.size(1) - 1)
        block = input_ids[:, start:end+1]  # [B, L_block+1]

        with torch.enable_grad():
            logits = model(block[:, :-1])  # predict next token
            target = block[:, 1:]
            loss = torch.nn.functional.cross_entropy(
                logits.reshape(-1, logits.size(-1)),
                target.reshape(-1),
            )

            optimizer.zero_grad()
            loss.backward()
            # 只會更新 MLP.w2
            optimizer.step()

    # === 2) 使用更新後的模型繼續生成 ===
    generated = model.generate(
        input_ids=input_ids,
        max_new_tokens=max_new_tokens,
        do_sample=False,
        use_cache=True,
    )
    return generated
```
重點：
- 在 TTT 階段：
- torch.enable_grad() 打開梯度
- 只在 context token 上跑 1~數步更新
- 在 生成階段：
- 關掉梯度，只用更新後的快權重
3. 服務層：何時開啟／關閉 TTT？

可以在 serving config 裡加一個 flag：
```
model:
  name: my-ttt-llm
  enable_ttt: true
  ttt_block_size: 1024
  ttt_steps: 1
  ttt_lr: 1e-4
  ttt_max_tokens: 32768   # 超過就不再做 TTT，避免過度漂移

policy:
  enable_ttt_for:
    - domain: "enterprise_qa"
    - domain: "long_doc_summarization"
  disable_ttt_for:
    - domain: "safety_sensitive"
    - domain: "code_generation_prod"
```
路由層可以依「任務類型」或「租戶設定」決定是否啟用 TTT。

建議與注意事項

1. 哪些任務適合／不適合開 TTT？

適合：
- Domain adaptation：企業內知識庫 QA、專案文件解讀、特定產品 FAQ
- 超長 context 理解：法律條文、技術規格書、長期會議紀錄
- 單 session 可犧牲一點穩定性、換取更高表現 的任務（例如 research 助理）
不太適合：
- 安全敏感場景（合規、法務、金融決策）：
- TTT 可能放大 prompt 中的偏見或惡意樣本
- 多人共用同一快權重的情境：
- 不建議跨 user 共用 TTT state，否則有「資訊污染」風險
- 需要行為高度穩定可重現 的任務（例如 production codegen、評測 pipeline）
建議做法：
- 預設 關閉 TTT，只對少數實驗/內部使用場景逐步開啟
- 透過 A/B 測 和離線 eval 確認收益和風險
2. 如何限制更新範圍，避免「越調越壞」？

可以採幾個防護措施：
1. 學習率和步數上限：
2. ttt_lr 通常比 finetune 更小（例如 1e-4 或更低）
3. 每個 block 最多 1~2 步更新即可
4. Layer 範圍限制：
5. 只開啟 中後段幾層的 MLP.w2，減少對基本語言能力的影響
6. 正則化 / 參考權重：
7. 在 loss 中加入對 base 權重的 L2 正則
8. 或採 低秩 delta/adapter（權重不直接改動，易於 reset）
9. TTL / Reset 策略：
10. TTT state 掛在 session 上，session 結束就丟棄
11. 長 session 內可定期 reset：例如每處理 64k token reset 一次
3. 與 RAG、cache、LoRA 等架構的整合與踩坑

與 RAG：
- RAG 解決「資料更新」，TTT 解決「怎麼更好地用同一份長 context」
- 組合策略：
- RAG 提供切好的 chunks
- In-Place TTT 在讀完多個 chunks 後，讓模型更懂這批文件中常見的 schema/名詞
- 踩坑：
- 若檢索結果品質不穩，TTT 可能被噪音「帶偏」，建議在高 confidence 檢索結果上才啟用 TTT
與 KV cache：
- 注意 權重更新與 KV cache 一致性：
- 一般做法是 TTT 階段只用來更新權重，不直接用於生成
- 開始生成時，重新用更新後權重+原 context 做一次 forward 建立 KV（或只從 TTT 後的 block 開始）
- 若使用 vLLM 類似框架，要確保：
- 同一 session 的 KV cache 與 TTT 權重版本對齊，避免「舊權重產生的 KV」搭配「新權重」
與 LoRA / adapters：
- 一種實務上更穩的做法：
- base 模型 frozen
- 安裝一個 LoRA-adapter 只開在 MLP.w2
- TTT 只更新 LoRA 權重
- 好處：
- 快權重是「外掛」，可以 per-session 建立、銷毀
- 也可以在 A/B 測時方便地比較「有/無 TTT adapter」
4. 小模型 + 超長 context：何時值得導入？

In-Place TTT 對 參數較小、context 很長 的組合特別有價值：
- 小模型在長 context 內本來就容易「記不住 pattern」，TTT 可以在當前 session 內補強
- 和 LongSpec 等 長 context + speculative decoding 技術搭配：
- 先用 LongSpec 等提升解碼效率
- 再用 In-Place TTT 提升長文本任務表現
可以用以下 heuristics 判斷是否值得導入：
- 模型 ≤ 7B，context ≥ 32k，而且任務高度依賴長文本理解 → 強烈建議實驗 TTT
- 模型很大（70B+）且 context 不長（≤ 8k） → TTT 收益相對有限
- 對 latency/成本極敏感的線上服務 → 可以先在 async 或批次任務（離線總結、分析）試水溫
總結：In-Place TTT 提供了一個工程上可落地的途徑，讓 LLM 在推理時針對當前長 context 做小幅度、可控的「就地學習」。

若你正在：
- 用小模型硬扛超長 context
- 常常為某個固定 domain 調 prompt/RAG 卻仍覺得不穩
那麼在 pipeline 中加入 MLP projection 級別的 In-Place TTT，是很值得 A/B 測的一步升級。
🚀 你現在可以做的事
- 在現有 LLM 服務中挑選一個長文本任務（如長文總結）實作一版只更新 MLP W2 的 In-Place TTT PoC
- 針對「開/關 TTT」設計離線與線上 A/B 測試，觀察長 context 任務指標與 latency、成本變化
- 若已有 RAG pipeline，在高信心檢索場景下試著加入 block-wise TTT，評估對 domain QA 準確率的提升
2026 年 4 月 12 日
LatentAudit：用殘差幾何盯住 RAG 幻覺
📌 本文重點
- 光看檢索分數與事後自評難以即時監控幻覺
- LatentAudit 直接讀殘差流幾何結構估真實度分數
- 可在 RAG pipeline 中低延遲加入實時 guardrail
在實務 RAG 專案裡，光靠「檢索品質 + 事後自評/投票」抓幻覺是不夠的：
– 檢索成功 ≠ 回答一定忠於證據（模型還是會自由發揮）
– 自評 / judge 模型會 吃額外 Token 和延遲，流量大時成本爆炸
– 多輪對話、串接工具後，哪一步開始幻覺常常完全沒監控

💡 關鍵： 只靠檢索分數和事後評審，既無法即時阻斷幻覺，又會讓延遲與成本大幅增加。

LatentAudit 提供另一條路：直接讀取生成模型的 殘差流（residual stream）幾何結構，在推理中測量「模型內部狀態」與檢索證據之間的 馬氏距離，做到：
- 不需要額外 judge 模型
- sub-millisecond 延遲、可 16-bit 固定點實作
- 少量標註就能校準成實用的 真實度分數，在 API 層或 UI 層直接觸發 fallback
重點說明

1. 為什麼傳統 RAG 監控做不到「實時 + 便宜」

實務上的典型做法：
1. 只看檢索分數：例如 cosine 相似度、BM25 分數
2. 問題：檢索到對的文獻，但模型回答的細節錯了（over-generalize, mis-attribute）完全抓不到。
3. 事後自評 / 多模型投票：
4. 用 judge LLM 問「這個回答是否根據檢索到的內容？」
5. 或讓多個模型生成，再投票 / 聚合。
6. 問題：
  - 推理路徑變成：檢索 → 回答 → 評審，延遲翻倍以上
  - 成本和吞吐量吃不消，很難在大規模 production 開啟
  - judge 模型本身也會幻覺，還得再校準
7. log 後離線分析：
8. 用人審 / labeling 分析錯誤 pattern
9. 問題：無法 實時阻斷 危險輸出（醫療/法律/金融）
LatentAudit 直接把監控塞進 生成時的 forward pass：
- 白盒讀取中後段 殘差流 activation
- 與「證據 representation」做幾何對齊度測量
- 即時計算 距離 → 真實度分數 → 決策（放行 / fallback）
💡 關鍵： 把監控邏輯塞進 forward pass，能在幾乎零額外延遲下拿到可用的真實度分數。

2. LatentAudit 的核心做法（殘差幾何 + 馬氏距離）

架構概念：
1. 選定幾層殘差流：例如 Llama-3-8B 的 layer 20–30 殘差向量 ( h_l )
2. 建一個 evidence representation ( e )：
3. 通常來自：
  - 把所有檢索到的 passages 拼在一起，取 encoder / 第一層 decoder 的 CLS / BOS 向量
  - 或平均檢索 chunks 的 embedding
4. 在訓練（校準）階段：
5. 收集 (question, evidence, answer) 三元組，並有「忠於證據 / 不忠」標註
6. 對每個樣本取出中後段殘差流，做 pooling（例如平均或拼接）：
  
  [
  z = P(h_{l_1}, …, h_{l_k})
  ]
7. 在 latent 空間中估計「忠實」分佈的均值 ( \mu ) 和協方差 ( \Sigma )
8. 定義馬氏距離規則：
9. 把 residual 表示 ( z ) 投影到 evidence 表示空間，或做簡單線性對齊，最後計算
  
  [
  d_M(z, e) = (z – W e – b)^T \Sigma^{-1} (z – W e – b)
  ]
10. 這就是 LatentAudit 的核心：一條二次判別規則（不需要深 judge 模型）
11. 校準成真實度分數：
12. 用 held-out 集合做 threshold / logistic calibration，得到：
  
  [
  s_{faith} = \sigma(\alpha \cdot d_M(z,e) + \beta)
  ]
13. ( s_{faith} ) 越接近 1 表示越「有可能忠於證據」。
因為只做矩陣乘、向量內積和少量逆協方差運算，
可以用 16-bit fixed point 實作，延遲在 0.x ms 級別，可進一步配合 Groth16 做可驗證計算（不展開細節）。

💡 關鍵： 使用 16-bit 固定點與馬氏距離，使得真實度評估可以在 sub-millisecond 延遲下完成。

如何嵌入既有 RAG pipeline

你需要：
– 可白盒存取的模型（Llama、Qwen、Mistral 等開源或自託管）
– 在 forward 裡 hook activation，並在生成過程中同步喂入 evidence 表示

常見 stack：
- OpenAI compatible API（自託管 vLLM / Ollama 上掛開源模型）
- 各種向量庫（PGVector、Milvus、Weaviate、Qdrant、Elastic，…）
典型 pipeline：
1. user query → 檢索（向量庫） → 構造 prompt + evidence
2. 呼叫 自託管模型（非黑盒雲 API）生成
3. 在生成中，LatentAudit 模塊監控殘差流 → 算馬氏距離 → 輸出真實度分數
4. API 返回：{ answer, faithfulness_score }
5. 前端 / Orchestrator 根據 score 做 fallback 策略。
實作範例

以下以 vLLM + Llama3 自託管為例，展示核心落地點（偽碼 + Python 範例）。

1. 在 HF 模型上 hook 殘差層
```
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

MODEL_NAME = "meta-llama/Meta-Llama-3-8B-Instruct"
model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME, torch_dtype=torch.bfloat16, device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)

TARGET_LAYERS = [20, 24, 28]
residual_acts = []


def make_hook(layer_idx):
    def hook(module, input, output):
        # input[0] 通常是 residual stream
        # 只取最後一個 token 的向量，減少開銷
        h = input[0][:, -1, :].detach().to(torch.float32)
        residual_acts.append((layer_idx, h))
    return hook


for idx, blk in enumerate(model.model.layers):
    if idx in TARGET_LAYERS:
        blk.register_forward_hook(make_hook(idx))
```
2. 建立 evidence representation

假設你已經從向量庫拿到 top-k passages：
```
def build_evidence_rep(passages: list[str]):
    text = "\n".join(passages)[:4096]  # 避免太長
    inputs = tokenizer(text, return_tensors="pt").to(model.device)
    with torch.no_grad():
        out = model.model(**inputs, output_hidden_states=True)
    # 用最後一層 hidden state 的 BOS / 第一 token 表示
    e = out.hidden_states[-1][:, 0, :].detach().to(torch.float32)
    return e  # shape: [1, d]
```
3. 馬氏距離計算 + 校準

事前你要離線擬合：
– W、b、Σ^{-1}、α、β（可用 sklearn 或手寫）

線上部分簡化為：
```
# 假設以下參數已離線訓練好並載入
W = torch.load("wa_projection.pt")         # [d_residual, d_e]
b = torch.load("wa_bias.pt")              # [d_residual]
Sigma_inv = torch.load("wa_sigma_inv.pt")  # [d_residual, d_residual]
alpha, beta = torch.load("wa_logistic.pt")


def latent_audit_score(evidence_vec, residual_acts):
    # pooling residual: 取指定層平均
    hs = [h for idx, h in residual_acts if idx in TARGET_LAYERS]
    H = torch.stack(hs, dim=1).mean(dim=1)  # [1, d_residual]

    # 對 evidence 做線性對齊
    e_proj = (evidence_vec @ W.T) + b  # [1, d_residual]

    diff = (H - e_proj)  # [1, d_residual]
    # 馬氏距離
    d_M = (diff @ Sigma_inv @ diff.transpose(0,1))[0,0]

    # logistic 校準成 [0,1]
    score = torch.sigmoid(alpha * d_M + beta).item()
    return score
```
生成時流程：
```
def rag_answer_with_faith(query, passages):
    residual_acts.clear()

    evidence_vec = build_evidence_rep(passages)  # [1,d]

    prompt = build_rag_prompt(query, passages)  # 你的 RAG prompt 模板
    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)

    with torch.no_grad():
        out = model.generate(
            **inputs,
            max_new_tokens=256,
            do_sample=False,
        )

    answer = tokenizer.decode(out[0][inputs.input_ids.shape[1]:], skip_special_tokens=True)
    score = latent_audit_score(evidence_vec, residual_acts)

    return {
        "answer": answer,
        "faithfulness_score": score,
    }
```
這邊只在 一次 forward + generate 裡多做幾個矩陣運算，延遲增量極小；你可以把結果包成 OpenAI 兼容 API 回傳：
```
{
  "id": "chatcmpl-...",
  "object": "chat.completion",
  "choices": [
    {
      "message": {
        "role": "assistant",
        "content": "...",
        "faithfulness_score": 0.82
      }
    }
  ]
}
```
前端或 Orchestrator 可以直接讀 faithfulness_score 做決策。

💡 關鍵： 直接在 API 回傳中加入 faithfulness_score，可讓前端與協調層即時採用不同的 fallback 策略。

4. Fallback 策略示例（醫療 / 法律 / 客服）

簡單策略：
```
THRESHOLD_WARN = 0.7
THRESHOLD_BLOCK = 0.4


def route_by_faithfulness(result):
    s = result["faithfulness_score"]

    if s < THRESHOLD_BLOCK:
        # 高風險：重新檢索 + 明確要求引用 evidence，或升級人工
        return {
            "mode": "escalate",
            "message": "本次回答可信度較低，已轉交人工處理。",
        }
    elif s < THRESHOLD_WARN:
        # 中風險：要求模型引用更多 evidence / 提示使用者核對
        return {
            "mode": "warn",
            "message": "以下回答可能不完全可靠，請以實際條文/文獻為準。",
        }
    else:
        # 正常放行
        return {
            "mode": "ok",
            "message": "",
        }
```
實際場景：
- 醫療問答：mode == "escalate" 時強制顯示「非醫療建議」，並把 case 丟進人工客服隊列
- 法律諮詢：mode == "warn" 模式時要求模型 列出具體條文/條號 並顯示原文片段
- 客服查詢：低分時先做 重新檢索（不同索引 or 更寬鬆 query） 再生成一次，若仍低分再轉人工
多模型 / 多輪對話：
– 對每輪回答都算一個 faithfulness_score，記錄在對話 state
– 對 工具返回 / 多模型投票輸出 也可以跑 LatentAudit，看哪個候選與 evidence 更對齊，再做投票加權

建議與注意事項

1. 必須白盒存取模型
- 無法在 OpenAI / Anthropic 純雲端黑盒模型上做（拿不到殘差流）
- 適合：
- 自託管 Llama / Qwen / Mistral 等
- Ollama / vLLM，但要在本地 wrap core HF 模型 做 hook，而不是只用遠端 HTTP
2. 殘差層選擇與標準化影響很大
- 中後段層（例如 60–80% depth）通常信號最好
- 建議在校準時網格搜尋：
- 選幾組 layer subset + pooling 策略（最後 token / mean / concat）
- 對每組分別訓練 W、Σ^{-1}，選 AUROC / AUPRC 最佳
- 標準化：
- 建議對 residual 做 per-dimension z-score 或 whitening，有助於 Σ^{-1} 穩定
3. 校準集的 domain mismatch 是大坑
- 如果你用 PubMedQA 上的校準結果直接套到法律問答，誤報 / 漏報會很嚴重
- 建議：
- 至少針對你的業務 domain 收集 數百到數千個標註樣本
- type 要包含：
  - 正確且完全有證據支撐
  - 幻覺 / 瞎掰
  - 部分支持（evidence 裡只有一半說法）
4. 隱私與合規下收集校準資料
- 若資料有 PHI / PII：
- 在內網做標註與訓練，不要把 prompt / evidence / answer 傳出公司
- 可以只存 殘差向量 + 二元標籤，丟棄原文內容，以降低隱私風險
- 若需要對外可驗證（尤其在金融 / 公共服務）：
- 考慮用論文中的 16-bit fixed-point 實作 + Groth16，在不洩漏權重/activation 的前提下提供「監控邏輯正確執行」的證明
5. 與現有評估/監控系統的整合
- LatentAudit 不是用來取代離線評估（BLEU, Rouge, factuality benchmark），而是：
- 補上一層 以模型「內在狀態」為基準的實時 guardrail
- 建議實務策略：
- 離線：用 benchmark / 人工評估確認 RAG pipeline 基本可靠
- 線上：啟用 LatentAudit，只作「低分拋錯/告警」，不要一開始就用來做 aggressive block
- 每隔一段時間（例如每週）抽樣「被 block / warn 的案例」做人工 review，調整 threshold / 校準
對你的專案的實際好處：
– 在不引入第二個 LLM 的前提下，把幻覺監控塞進現有 RAG 路徑，几乎不加延遲
– 增加一個 可量化、可調整的真實度分數，方便 API / UI / workflow 做自動化 fallback
– 線上問題不再只有「出事後看 log」，而是可以 即時標記高風險回答，甚至直接攔截，特別適合醫療、法律、金融、客服等高風險場景。
🚀 你現在可以做的事
- 在現有自託管 Llama / Qwen / Mistral 專案中，加上殘差層 hook 並輸出簡單的 faithfulness_score
- 針對你的業務 domain 收集一批「忠於證據 / 幻覺 / 部分支持」標註樣本，用來擬合 W、Σ^{-1} 與校準參數
- 在 API 回傳中加入 faithfulness_score，並在前端或 Orchestrator 中實作最簡版本的 warn / block / escalate 策略
2026 年 4 月 10 日
Compiled AI：把提示變成可審計工作流
📌 本文重點
- 用 LLM 在編譯階段產生狹義程式碼，執行期不再依賴 LLM
- 業務邏輯可測試、可審計，安全面積與成本大幅下降
- 特別適合高要求、高流量且規則穩定的企業級工作流
在多數專案裡，我們會每個請求都叫一次模型，把非結構化的 prompt 丟給 LLM，期待它「大致照規則」行事。問題是：結果不穩、難回溯、成本高，還容易被 prompt injection 玩壞。Compiled AI 要解的是這個痛點：

把原本寫在 prompt 里的業務邏輯，在編譯階段用 LLM 產生狹義程式碼，透過型別檢查、靜態分析與測試驗收，一旦通過就當成普通程式部署，執行期不再依賴 LLM。

對開發者的直接好處：
- 結果可預測且可審計：輸出由 deterministic code 決定，不是每次抽樣
- 安全面縮小：執行期不再接受任意自然語言指令
- 成本與延遲大幅下降：大量交易共用同一份已編譯邏輯，token 成本被攤薄
💡 關鍵： Compiled AI 把「每次都叫 LLM」改成「先編譯一次，再重複執行」，大幅提升穩定性並攤平成本。

重點說明

1. 架構：LLM 只在「編譯階段」出現

典型 Compiled AI 架構可以拆成三層：
1. 模板／SDK 層（受控框架）
2. 你先定義好已驗證的 workflow 模板與 SDK，例如：HTTP 呼叫、DB 查詢、RAG 檢索、權限檢查等
3. LLM 只能在模板內部空洞生成狹義業務邏輯函式，例如 select_customer_segment()、build_rag_query()
4. 編譯管線（有 LLM）
5. Step 1 – Prompt 設計：描述任務、提供 API 規格 & 範例，要求輸出符合特定語言/框架（如 TypeScript + 自家 SDK）
6. Step 2 – 產生 code artifact：LLM 產生一份或多份候選程式碼
7. Step 3 – 謝與測試：型別檢查、靜態分析、單元測試/合約測試，不過關就自動 loop 回 LLM 要求修正
8. Step 4 – 人工審核 + 簽章（視風險）：例如醫療或金流流程
9. 執行期（無 LLM）
10. 線上請求只執行已編譯出的 code artifact，全程 deterministic，可以完整 log & replay
核心概念：限制 LLM 的自由度，換取可測試、可版本控管的業務邏輯程式碼。

2. 工作流設計：把一個傳統 RAG / Agent 重構成 Compiled AI

以一個典型 RAG QA 流程為例：

使用者問問題 → LLM 根據 prompt 決定如何搜尋 → 呼叫向量庫 → LLM 基於檢索結果生成答案

在傳統設計中，LLM 負責檢索策略 + 答案生成，兩段都高度隨機。重構成 Compiled AI，可以這樣拆：
1. 編譯階段
2. 用 LLM 生成一個狹義函式：build_search_plan(question: string) => SearchPlan，被嵌在已驗證的 RAG 模板中
3. SearchPlan 僅包含：要查哪個 index、使用哪些 filter、topK、是否需要 fallback 等
4. 再用 LLM 生成：synthesize_answer(question, contexts) => string，但這個函式需遵守強約束（例如：不可編造、必須引用 context id）
5. 執行階段
6. 每次 QA 時：
  - 用 deterministic code 呼叫 build_search_plan() → 打 DB / 向量庫
  - 把檢索到的 contexts 丟給 synthesize_answer()（也是普通函式）
7. 整個過程再也不直接丟自然語言給 LLM，所有 decision path 都是可測試、可覆盤的程式碼
8. 版本控管與灰度發布
9. 每次重新編譯：產出新版本如 rag_workflow_v3.ts
10. 用 Git tag & CI pipeline 把版本與測試報告綁在一起
11. 線上：用 routing 或 feature flag 灰度流量，對比 v2 / v3 的成功率、平均延遲、查詢成本
3. 工程實務：與「每請求叫一次模型」的差異

基於現有研究與業界實測，Compiled AI 在幾個維度的典型差異：
- 可靠性（確定性 vs 隨機）
- 傳統：每次請求都用 sampling（temperature > 0），同一輸入結果可能不同
- Compiled AI：執行期只跑 deterministic code + DB/RAG，相同輸入必然同樣輸出
- 安全
- 傳統：使用者輸入直接進 prompt，prompt injection 面積很大
- Compiled AI：執行期輸入只餵進已定義的函式參數（string / enum / id 等），無法直接改變控制流
- 成本與延遲
- 編譯階段比較貴，但只做一次，之後可在大量請求上攤平
- 實務上常見：十幾次交易後就開始比傳統架構便宜，長期 token 使用量可降數十倍
💡 關鍵： 只要請求次數夠多，執行期省下的 token 成本與延遲，會很快抵消一次性的編譯開銷。

實作範例

以下用 TypeScript + 假想 SDK 示範一個簡化版 pipeline。

1. 已驗證模板／SDK
```
// sdk.ts - 由你維護的安全 SDK

export type SearchPlan = {
  index: 'faq' | 'policy' | 'logs';
  topK: number;
  filters?: Record<string, string>;
};

export async function runRagWorkflow(
  question: string,
  buildSearchPlan: (q: string) => SearchPlan,
  synthesizeAnswer: (q: string, ctxs: string[]) => string
): Promise<string> {
  const plan = buildSearchPlan(question);
  const contexts = await vectorSearch(plan.index, question, plan.topK, plan.filters);
  return synthesizeAnswer(question, contexts);
}

async function vectorSearch(
  index: string,
  query: string,
  topK: number,
  filters?: Record<string, string>
): Promise<string[]> {
  // 已驗證的檢索實作
  /* ... */
  return [];
}
```
2. LLM 產生的狹義業務邏輯（編譯產物）

在編譯階段，你用一個 prompt 要求模型只實作兩個函式：
```
// generated_v3.ts - 由 LLM 產生，但要通過型別檢查與測試

import { SearchPlan } from './sdk';

export function buildSearchPlan(question: string): SearchPlan {
  const q = question.toLowerCase();

  if (q.includes('退款') || q.includes('billing') || q.includes('invoice')) {
    return { index: 'policy', topK: 5, filters: { category: 'refund' } };
  }

  if (q.includes('錯誤') || q.includes('error code')) {
    return { index: 'logs', topK: 10 };
  }

  return { index: 'faq', topK: 8 };
}

export function synthesizeAnswer(question: string, contexts: string[]): string {
  // 嚴格規定：
  // 1. 不得回答與 contexts 無關內容
  // 2. 必須在文末列出引用的 context 索引
  const summary = summarizeWithRules(question, contexts); // 你事先實作好的工具
  const citations = contexts
    .map((_, i) => `[#${i + 1}]`)
    .join(' ');

  return `${summary}\n\n引用來源：${citations}`;
}
```
3. 編譯 pipeline（CI 裡跑）
```
// compile.ts - 只在 CI / 開發環境執行

import { z } from 'zod';
import { callLLM } from './llm_client';
import { execSync } from 'child_process';

const schema = z.object({
  code: z.string(),
});

async function generateCode() {
  const prompt = `
你是一個 TypeScript AI，請只輸出一個檔案內容，實作：
- export function buildSearchPlan(question: string): SearchPlan
- export function synthesizeAnswer(question: string, contexts: string[]): string

必須符合已存在的型別定義：
- SearchPlan { index: 'faq' | 'policy' | 'logs'; topK: number; filters?: Record<string, string> }

禁止：
- 呼叫任何未在註解中允許的函式
- 使用 eval / new Function
- 動態匯入
  `;

  const raw = await callLLM({
    model: '**gpt-4.1**',
    temperature: 0,
    response_format: { type: 'json_schema', schema },
    messages: [{ role: 'user', content: prompt }],
  });

  const { code } = schema.parse(JSON.parse(raw));
  return code;
}

async function main() {
  const code = await generateCode();
  require('fs').writeFileSync('generated_v3.ts', code, 'utf8');

  // 1) 型別檢查
  execSync('npx tsc --noEmit', { stdio: 'inherit' });

  // 2) 靜態分析
  execSync('npx eslint generated_v3.ts', { stdio: 'inherit' });

  // 3) 測試
  execSync('npm test -- generated_v3.test.ts', { stdio: 'inherit' });
}

main().catch((err) => {
  console.error(err);
  process.exit(1);
});
```
搭配 CI/CD：
- CI：觸發 compile.ts → 產出 generated_v3.ts → 跑測試 → 產出報表
- CD：若通過，打 tag rag_workflow_v3，並更新配置讓 5% 流量導到 v3；監控成功率、latency、成本指標再逐步擴大
💡 關鍵： 把 LLM 產物納入 CI/CD（型別檢查、靜態分析、測試與灰度發佈），就能像管理普通程式碼一樣管理 AI 邏輯。

建議與注意事項

1. 業務規則變更頻率

Compiled AI 適合：
- 規則相對穩定、但正確性要求高的流程（客服 QA、金融函數呼叫、醫療文件處理）
不適合：
- 每天都在改規則、或依賴即時實驗的場景，因為每次改都要走「重新編譯 + 測試」流程
- 高度探索型、open-ended 任務（創作、策略 brainstorm、UX 研究等）
實務建議：
- 把流程拆成兩層：核心決策邏輯用 Compiled AI，外層的探索與創意仍然用即時 LLM
2. 測試覆蓋不足 = 把錯誤「編進系統」

Compiled AI 的風險是：一旦編譯出的邏輯有 bug，它會一直穩定地錯。

必做：
- 為生成函式設計合約測試：同一輸入 → 必須產出指定的 SearchPlan / 函式呼叫序列
- 對關鍵場景建立 golden QA 測試集，每次編譯都跑完整 regression
- 對模型產物加上防呆檢查（如：topK 不可大於 50，index 只能是白名單）
3. 安全與最小權限
- 模板 / SDK 層要實施 最小權限：
- 不給生成函式直接打 DB 連線，只能呼叫封裝好的 queryCustomerById(id) 等高階 API
- 不允許檔案寫入、外網 request 等敏感操作
- 透過靜態分析檢查：是否有 eval、動態 import、直接執行 shell 等 pattern
4. 成本模型與「何時值得編譯」

可以用簡單估算：
- 編譯一次成本：C_compile（幾萬 token）
- 傳統架構每次請求成本：C_online
- Compiled AI 每次請求成本：C_compiled（通常 ≪ C_online）
只要請求數 N 滿足：

C_compile + N * C_compiled < N * C_online

就值得改成 Compiled AI。研究與實務常見：十幾到幾十次請求後就開始回本，高流量業務會很划算。

5. 與現有專案整合的落地步驟
1. 先挑一個穩定且高流量的子流程（例如：FAQ RAG 檢索策略、金融 function calling 的參數整理）
2. 為它抽象出一個窄介面函式（例如 buildSearchPlan、prepareFunctionCallParams）
3. 建立 minimal 的編譯 pipeline（LLM → 生成 code → tsc + 測試）
4. 先 offline 對比：新老流程在測試集上的正確率 / 成本
5. 小流量灰度上線，配合 metrics 監控，逐步拓展到更多流程
結論：Compiled AI 的核心不是「用 LLM 寫程式」，而是把 prompt 中模糊的規則，轉成可測試、可簽章、可審計的程式碼工件。對需要穩定性、安全與成本控制的企業工作流，特別是 RAG、function calling、金融與醫療場景，是非常值得實驗的架構升級方向。
🚀 你現在可以做的事
- 在現有系統中挑一段高流量、規則穩定的 RAG 或 function calling 流程，先抽象出一個窄介面函式如 buildSearchPlan
- 建一個最小可行的編譯 pipeline：用 LLM 產生 TypeScript 函式 → 跑 tsc + 單元/合約測試 → 輸出 generated_v1.ts
- 用 feature flag 灰度導入新流程，監控正確率、延遲與 token 成本，評估轉為 Compiled AI 的回本點
2026 年 4 月 8 日

分類: AI 技術

重點說明：Opus 4.7 對 Agent 能力的實質升級

1. 長上下文 + 自我校對 = 多步任務可「放手」

2. Agentic Coding：如何讓 Opus 4.7 當常駐 coding / ops agent

3. 在多代理系統中的定位：Supervisor / Orchestrator 角色

實作範例：自動 triage issue → 修 bug → 開 PR

1. Supervisor 的 messages 結構

2. 工具呼叫：diff-based 程式碼修改

3. MCP / 自建工具層設計示意（pseudo code）

建議與注意事項：成本、延遲與治理

1. 成本與延遲控制

2. 避免過度「自作主張」

3. 對話風格變更對既有工作流的影響

重點說明

1. 為什麼單一檢索在真實專案會翻車？

2. 讓 Agent 負責檢索策略，而不是把檢索寫死

3. 架構骨架：Orchestrator + 多 retriever + Hybrid Search

實作範例

1. Orchestrator Agent Prompt（決定使用哪個 retriever）

2. Elasticsearch Hybrid Search 設定範例

3. Chunking 與 max context 的工程細節

建議與注意事項

1. 不要只做 embedding，不做 eval

2. 向量庫維護：重建 / 追加 / 版本化

3. 多租戶與權限過濾

4. 線上評測與 A/B 驗證

重點說明

1. GAIA 的基本心智模型：Agent / 任務 / 工具

2. 在單機協調多代理：比你想像中輕量

3. 本地 LLM 選擇策略（Apple / GPU / CPU）

實作範例：從零到一的本地多代理 workflow

專案結構

1. 定義本地 LLM backend

2. 定義工具：檔案操作與向量檢索

3. 定義 Agents

4. Workflow：協調多代理 + 任務恢復

建議與注意事項

1. 模型大小與上下文限制：先決策、再堆功能

2. 工具執行安全 & sandbox 設計

3. 長任務與錯誤恢復

4. 本地 vs 雲端 Agent：怎麼選？

重點說明

1. 四種 Exec 隔離模式與威脅模型

2. 把 Exec 抽象成 API：Agent 只看見一個能力

3. 與 microVM（如 SuperHQ）怎麼搭配？

實作範例

1. 給 Agent 的 Exec API 抽象

2. Sidecar Exec Server：最小可行安全版

3. 獨立 Exec Pod + NetworkPolicy 限制網路

4. 短暫性 Exec Dispatcher：一次一個 Job

建議與注意事項

1. 多租戶 / 多 Agent：Namespace + RBAC 要先設計好

2. 記錄與審計：把 Agent 當「能下命令的人」對待

3. 選型決策表：怎麼組合四種模式？

重點說明

1. 演化階段：LLM 驅動的「程式碼空間搜索」

2. 寫作階段：sentence-level RAG + 驗證

3. 如何落地 Auto-Research / Auto-ABTest / Auto-Feature-Engineering

實作範例

1. 演化 loop 的 code 表示與變異

2. 串接實驗排程（以 K8s Job 為例）

3. Orchestrator：以 LangGraph 為例構建演化 DAG

4. sentence-level RAG 實作簡例

建議與注意事項

1. 實驗結果格式不一致

2. LLM 收斂到壞思路 / mode collapse

3. 成本與資源控制

4. LLM 對數據科學工具的錯用

5. 開始時先做「窄版」

重點說明

1. TTT 是什麼？為什麼舊做法不適合 LLM？

2. 為什麼選 MLP 最終 projection 當快權重？

3. 如何設計與 next-token prediction 對齊的 TTT 目標？

4. 分塊更新如何兼容長上下文與多請求並行？

實作範例：在推理服務中加一層簡單的 In-Place TTT

1. 模型改造：標記可更新的 MLP projection

2. 推理 + In-Place TTT loop（單 request）

3. 服務層：何時開啟／關閉 TTT？

建議與注意事項

1. 哪些任務適合／不適合開 TTT？

1. GAIA 的基本心智模型：`Agent` / 任務 / 工具

3. 本地 `LLM` 選擇策略（Apple / GPU / CPU）

1. 定義本地 `LLM` backend

3. 定義 `Agents`

4. `Workflow`：協調多代理 + 任務恢復

2. 工具執行安全 & `sandbox` 設計

4. 本地 vs 雲端 `Agent`：怎麼選？