標籤: AI 技術

Claude Opus 4.7 實作可控 Agent 平台
📌 本文重點
- Opus 4.7 更適合長上下文、多步任務與自我校對
- 可作為常駐 coding / ops Supervisor Agent
- 透過工具層與治理設計，接手真實 CI / PR pipeline
Opus 4.7 解決的痛點很直接：以前你不太敢把多步任務完全丟給 LLM 自動跑——上下文記不住、自我檢查不足、程式碼改著改著就壞掉、Agent 亂調工具、成本爆炸。Opus 4.7 把這幾個點同時強化：長上下文 + 自我校對 + agentic coding，讓它不再只是「聊天模型」，而是可以放進持續運行 pipeline 的一個穩定元件。

重點說明：Opus 4.7 對 Agent 能力的實質升級

1. 長上下文 + 自我校對 = 多步任務可「放手」

Opus 4.7 官方強調：
- 更長上下文：可以在一次對話裡管理整個任務歷史、spec、log、既有程式碼與錯誤紀錄，減少你自己在應用層做 chunk & stitching。
- 自我核查輸出：模型在回傳前會傾向先「檢查」自己的推論、程式碼或計算結果，等於內建一層 lightweight critic。
💡 關鍵： 更長上下文搭配自我核查，實際上讓多步任務可以交給單一模型從頭管到尾，而不是切給一堆臨時腳本與輔助模型。

對多步 pipeline（例如：分析 log → 找 root cause → 編輯程式碼 → 產 PR）最大的好處是：
- 可以讓 Supervisor Agent 一次看到完整任務 timeline，而不是一段一段 patch；
- 減少你在系統外再包一層「審題 / 校對」模型的需求（但關鍵步驟仍建議顯式加 guardrail）。
2. Agentic Coding：如何讓 Opus 4.7 當常駐 coding / ops agent

Opus 4.7 在 程式碼規劃 + 工具調用 上的品質明顯提高，實務上你可以讓它做：
- 長期追蹤一組 repo 的變更，持續提出 refactor / bugfix 建議；
- 自動跑 CI log 分析 → 開 issue → 出 patch → 發 PR；
- ops 向：監看監控告警 → 初步診斷 → 呼叫 runbook 工具。
💡 關鍵： 把「讀檔、改檔、跑測試、開 PR」封裝成工具給 Opus 4.7 用，它就能長期常駐在 repo / pipeline 中當實際執行者，而不是只當輔助聊天夥伴。

核心設計重點：
1. 工具調用（Tool use）
2. 用 /v1/messages + tools 讓 Opus 負責選擇何時 call tool、填參數；
3. 將「讀檔、改檔、跑 test、開 PR」抽成安全封裝的工具，不讓模型直接操作 Git。
4. 程式碼修改與回滾
5. 永遠透過 「diff-based API」 修改程式碼，而不是讓模型輸出整檔；
6. 由工具層實作版本管理（Git branch/commit），模型只負責描述修改 intent。
7. 安全護欄設計
8. 用 角色+權限 限制工具：code_writer 不能直接 deploy，ops_agent 只能操作 sandbox；
9. 重要操作強制走「人審 + MCP gateway」流程。
3. 在多代理系統中的定位：Supervisor / Orchestrator 角色

以「Supervisor Agent」架構來看（類似 Towards AI 提到的 blueprint）：
- Opus 4.7 很適合擔任 Supervisor / Orchestrator：
- 拆解使用者目標 → 任務樹；
- 安排子代理：搜尋 Agent、執行 Agent、評估/QA Agent；
- 維護整個任務的 context & memory。
- MCP 或你自建的工具層則提供：
- 可治理的工具執行（權限、審計 log、版本管理）；
- 與企業內部 API / 資料庫 / CI/CD / issue tracker 的橋接。
重點：Supervisor 不直接做所有事，而是負責問對問題、調對工具、把任務切給對的子代理。Opus 4.7 的長上下文 +較穩定規劃能力，剛好補上這個角色。

實作範例：自動 triage issue → 修 bug → 開 PR

以下示意使用 Claude API + MCP / 自建工具，流程：
1. 新 issue 建立 → Webhook 觸發 Supervisor；
2. Supervisor（Opus 4.7）分析 issue，決定是否可自動處理；
3. 呼叫 repo 工具 找到相關檔案、測試；
4. 呼叫 code-agent（也是 LLM 或工具） 產生 patch；
5. 呼叫 git/pr 工具 開 PR，必要時標記需要人工 review。
1. Supervisor 的 messages 結構
```
POST /v1/messages
{
  "model": "claude-3-opus-4.7",  // **關鍵：Supervisor 指定 Opus 4.7**
  "system": "你是Supervisor Agent，負責協調工具與子代理.\n" +
    "規則：\n" +
    "1. 僅在需要時使用工具，不要自己幻想結果。\n" +
    "2. 高風險操作（寫檔、開PR）前，一定先提出計畫並自我檢查。\n" +
    "3. 若不確定，改為標記需要人工審核.",
  "tools": [
    { "name": "repo_search", "input_schema": {"type": "object", ...} },
    { "name": "repo_read_file", "input_schema": {"type": "object", ...} },
    { "name": "repo_edit_file_diff", "input_schema": {"type": "object", ...} },
    { "name": "run_tests", "input_schema": {"type": "object", ...} },
    { "name": "create_pr", "input_schema": {"type": "object", ...} }
  ],
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "有新的 GitHub issue：#1234 API 回傳 500，log ID=abcd...\n" +
                   "請決定是否可以自動修復，若可以，直接走：分析→修改→測試→開PR。"
        }
      ]
    }
  ]
}
```
2. 工具呼叫：diff-based 程式碼修改

在第一次 tool call 前，先讓 Supervisor 規劃：
```
1. 讀取相關檔案與測試檔。
2. 產生修改計畫與預期影響範圍。
3. 套用最小 diff 修改程式碼。
4. 執行相關測試。
5. 測試通過後建立 PR，標記『自動修復，請人工 review』。
```
接著模型會回覆一個 tool 呼叫（格式依 SDK）：
```
{
  "role": "assistant",
  "content": [
    {
      "type": "tool_use",
      "id": "toolu_1",
      "name": "repo_search",
      "input": {
        "query": "500 error log id abcd", 
        "max_results": 10
      }
    }
  ]
}
```
你的應用層接到後：
1. 執行 repo_search（你實作的服務，可能包 Git grep / code search）；
2. 把結果以 tool_result 回餵：
```
{
  "role": "tool",
  "tool_use_id": "toolu_1",
  "content": [{
    "type": "text",
    "text": "找到可能相關檔案: src/api/user.ts, src/service/userService.ts ..."
  }]
}
```
之後 Supervisor 可能呼叫：
```
{
  "type": "tool_use",
  "name": "repo_edit_file_diff",
  "input": {
    "path": "src/service/userService.ts",
    "diff": "@@ -42,6 +42,10 @@\n- const result = await dao.getUser(id);\n+ const result = await dao.getUser(id).catch(e => {\n+   logger.error('getUser failed', { id, err: e });\n+   throw new HttpError(500, 'USER_LOOKUP_FAILED');\n+ });"
  }
}
```
這裡的關鍵是：
- repo_edit_file_diff 工具會：
- 把原始檔讀出來；
- 套用 diff（可用 git apply 或自寫 patch 邏輯）；
- commit 到專用 branch；
- 回傳新的 snippet / commit id；
- 回滾就交給 Git：若後續測試失敗，由 Supervisor 呼叫 git_reset_to_commit（另一個工具），或人工介面一鍵 rollback。
3. MCP / 自建工具層設計示意（pseudo code）
```
// MCP Gateway / 工具伺服器（Node 範例）

import express from 'express';
import { searchRepo, editFileWithDiff, runTests, createPR } from './infra';

const app = express();
app.use(express.json());

function requireRole(role: string) {
  return (req, res, next) => {
    const callerRole = req.headers['x-agent-role'];
    if (callerRole !== role) return res.status(403).send('forbidden');
    next();
  };
}

app.post('/tools/repo_edit_file_diff', requireRole('supervisor'), async (req, res) => {
  const { path, diff } = req.body;
  // 審計 log
  console.log('[AUDIT] edit_file_diff', { path, by: 'supervisor' });
  const result = await editFileWithDiff(path, diff);
  res.json(result);
});

// 其他工具類似實作...

app.listen(3001);
```
Supervisor Agent 呼叫工具時，由你的 orchestrator 轉成 HTTP request，並加上 x-agent-role: supervisor 等標頭，實作權限與審計。

建議與注意事項：成本、延遲與治理

1. 成本與延遲控制
- 長上下文 ≠ 無腦塞所有東西：
- 為 Supervisor 設計 分層上下文：
  - 任務規格（長期保持）；
  - 當前子任務狀態（中期）；
  - 最近工具回傳、log（短期）。
- 透過你的應用層做 context summarization / state store，不要每次把整個任務歷史丟進去。
- 對長跑任務（例如多輪 patch + test）：
- 使用 max_tokens / tool_temperature 控制回覆長度與探索度；
- 將「細節 log」放在外部存儲，必要時讓模型用工具查詢，而不是全部當成 prompt。
2. 避免過度「自作主張」

Opus 4.7 的推理與自我校對更強，副作用是它會更願意自己決定事情。控制方式：
- 在 system 提前定義 contract：
- 任務邊界：可修改哪些 repo / namespace；
- 停機條件：
  - 測試連續失敗 N 次 → 停止修改，標記需要人工；
  - 連續無法重現 bug → 輸出完整調查報告，停止嘗試；
- 審核步驟：
  - 高風險變更必須產生「變更說明 + 風險清單」給人看。
範例 system 片段：
```
你是後端修 bug 的 Supervisor Agent，遵守以下 contract：
- 只能操作 repo `my-service`，不可動 infra repo。
- 若連續 2 次修改導致測試新增失敗，立即停止，輸出調查報告，等待人工處理。
- 不得直接部署，只能開 PR，並在 PR 描述中列出：問題原因、修改內容、風險與 rollback 方式。
```
3. 對話風格變更對既有工作流的影響

Opus 4.7 更傾向「先思考再回答」，你會看到：
- 回覆結構更完整，但文字量可能變多，對老工作流可能：
- 冗長說明擾亂你原本靠 pattern matching 的 parser；
- 原本 prompt 期待的 JSON 結構會被「多講兩句」破壞。
💡 關鍵： 若你的系統嚴重依賴固定輸出格式，必須明確要求「只輸出 JSON」，並用 schema 驗證與重試機制包住模型。

建議：
- 儘量讓模型輸出 單一結構化 payload，多餘說明放在欄位內：
```
{
  "plan": "文字說明…",
  "actions": [ ... ],
  "needs_human_review": true
}
```
- 在 system 明確要求：僅輸出 JSON，不要額外文字，並在應用層加 schema 驗證，若解析失敗就回饋「格式錯誤，請重新輸出」。
結論：Opus 4.7 的能力重點不是「更會聊天」，而是更適合當有邊界、有工具、有治理的 Agent 核心。只要把它放在 Supervisor 位置，搭配 MCP 或自建工具層，控制好 contract / 成本 / 權限，你就可以開始放心讓它接手一部分真實的 coding / ops pipeline，而不只是做輔助建議。
🚀 你現在可以做的事
- 在現有 LLM 應用中，先挑一條「分析 log → 修 bug → 開 PR」的小流程改由 Opus 4.7 當 Supervisor 嘗試落地
- 設計一組 repo_search、repo_edit_file_diff、run_tests、create_pr 工具，並封裝成 MCP 或內部 HTTP 服務
- 為 Opus 4.7 Supervisor 撰寫明確的 system contract（任務邊界、停機條件、審核規則），再逐步擴大可自動處理的任務範圍
2026 年 4 月 19 日
實戰 Agentic RAG 與 Hybrid Search
📌 本文重點
- 單一檢索策略讓 RAG 在真實場景很容易翻車
- Hybrid Search 能互補向量與關鍵字的盲點
- 讓 Agent 負責檢索策略與多輪重試能顯著提升穩定度
- 不換模型也能透過 eval、Hybrid 與權限控管大幅升級 RAG
在實際專案裡，多數 RAG 翻車不是因為模型不夠聰明，而是檢索策略太單一：只用向量會被專有名詞和代碼玩死，只用關鍵字又抓不到語義相近的長文件內容。Agentic RAG + Hybrid Search 的組合，重點就是讓「檢索」變成可調度、可重試、可觀測的一級公民，而不是一個寫死的 search(query) 函式。

重點說明

1. 為什麼單一檢索在真實專案會翻車？

常見四種翻車場景：
1. 長文件 / 手冊
2. 只用向量：整份手冊被切成很多 chunk，語義太接近，top-k 都很像，但真正要的那一段不一定排前面。
3. 只用 BM25：查詢句子太口語，關鍵字重疊度不高，直接 miss。
4. 專有名詞 / 法規條文 / 內部代號
5. 向量模型常常把 DS-104、DS-140 當成類似，專案實際上兩者完全不同。
6. 法規編號、API 名稱、Ticket ID 等，關鍵字檢索反而更穩。
7. 程式碼、表格、錯誤訊息
8. 向量對縮排、符號、stack trace 的敏感度很差。
9. Log ID 或錯誤碼這類「硬字串」，BM25/關鍵字幾乎是必要條件。
10. 跨語言 / 口語查詢
11. 使用者用自然語言描述問題，文件是正式用語或英文，公司內還混雜縮寫。
12. 需要先用 LLM 做 query 改寫，再讓向量與 BM25 各自發揮。
Hybrid Search（向量 + BM25） 的實際好處：
- 可以 補各自的盲點：專有名詞用 BM25 鎖定，模糊描述用向量補齊。
- 可以針對不同類型文件設定 權重策略（例如法規 > 內部 wiki > Slack 摘要）。
- 可以後面用 rerank 模型 做第二次排序，穩定提升回答可靠度。
💡 關鍵： 單一檢索在長文件與專有名詞場景很容易漏抓關鍵內容，Hybrid Search 能同時顧到語義相似與精確字串匹配，明顯降低 RAG 翻車率。

2. 讓 Agent 負責檢索策略，而不是把檢索寫死

典型 Agentic RAG 設計：
- 一個 Orchestrator Agent（對話主控）
- 多個 retriever 工具：keyword_retriever、vector_retriever、hybrid_retriever、legal_retriever 等
Agent 的工作不是「自己產生答案」，而是先判斷：
1. 要用哪種檢索策略？
2. 查錯誤碼或 ticket：優先 關鍵字 → 再向量精抽
3. 問概念解釋：優先向量 → 再用 BM25 找原始定義
4. 法規/權威階層：改用 分層 retriever（例如每一層級至少取 1–2 筆）
5. 要不要改寫 Query？
6. 第一輪命中文件相關度低時，讓 Agent 自動：
  - 摘出關鍵詞
  - 加上同義詞 / 全名（例如：DS → Data Steward）
  - 限縮 domain（例如：限定 product=core-banking）
7. 多輪重試與合併結果
8. 第一輪檢索後如果信心不足（例如 top-3 相似度都 < 0.7），
9. Agent 改寫 query 或更換 retriever，再抓一次，最後合併去重後送入 LLM。
這樣做的實際好處：
- 檢索策略可迭代：只要調整工具 / prompt，不必重寫服務架構。
- 容易在線上 A/B：只換掉 Orchestrator 的 prompt 或 routing 邏輯即可。
- 可以針對不同客戶 / 部門掛不同的工具組合。
3. 架構骨架：Orchestrator + 多 retriever + Hybrid Search

一個可落地的組合：
- LLM：OpenAI（gpt-4.1）、Anthropic（claude-3.7）皆可
- 檢索：
- Elasticsearch：BM25 + dense vector + hybrid score
- 或 Weaviate / Qdrant：向量 + keyword filter
簡化架構：
```
User → Orchestrator Agent → (tool calls) →
  - keyword_retriever (Elasticsearch BM25)
  - vector_retriever  (Weaviate / ES dense vector)
  - hybrid_retriever  (ES rank_feature / script_score)
→ merge + dedup + rerank → LLM answer
```
實作範例

1. Orchestrator Agent Prompt（決定使用哪個 retriever）

假設用 OpenAI Assistants API 或自行封裝 tools：
```
系統指示（Orchestrator）：
你是一個檢索協調代理，負責從多種檢索器取得最相關的企業知識。

- 若使用者詢問：
  - 錯誤碼、ticket ID、法規條號、API 名稱 → 優先使用 **keyword_retriever**。
  - 抽象概念、最佳實踐、流程說明 → 優先使用 **vector_retriever**。
  - 法律 / 合規問題，且需多層級來源 → 使用 **legal_hybrid_retriever**。

流程：
1. 先決定要呼叫哪些工具（可以多個）。
2. 若第一輪檢索結果的「來源數量 < 3」或「相關度評估偏低」，
   - 自行改寫查詢（更精簡、加入關鍵字），再重試一次。
3. 最終將所有檢索結果去重、排序，回傳給後續回答模型。
禁止自行編造公司內部資料，所有答案必須可追溯到文件片段。
```
2. Elasticsearch Hybrid Search 設定範例

索引 mapping：
```
PUT knowledge_base
{
  "mappings": {
    "properties": {
      "content": { "type": "text" },
      "content_vec": { "type": "dense_vector", "dims": 1536, "index": true },
      "source_type": { "type": "keyword" },   
      "tenant_id": { "type": "keyword" }
    }
  }
}
```
簡化版 hybrid 查詢（BM25 + 向量）：
```
POST knowledge_base/_search
{
  "size": 20,
  "query": {
    "script_score": {
      "query": {
        "bool": {
          "must": [
            {"match": {"content": "GDPR data retention"}},
            {"term": {"tenant_id": "acme_corp"}}
          ]
        }
      },
      "script": {
        "source": "0.6 * _score + 0.4 * cosineSimilarity(params.q_vec, 'content_vec')",
        "params": {"q_vec": [/* query embedding */]}
      }
    }
  }
}
```
關鍵點：
- BM25 與向量權重（例子中 0.6 / 0.4）要透過線上 A/B 或離線 eval 調整。
- tenant_id filter 做多租戶權限隔離，非常重要。
💡 關鍵： 在同一個查詢裡用 script score 同時結合 BM25 分數與 cosine similarity，能控制兩者權重，調整出最適合自己資料分佈的 Hybrid 策略。

3. Chunking 與 max context 的工程細節

基本原則：
- 以 語義切分（semantic splitting）+ 適度 overlap 為主，而不是死切 512 tokens。
- 避免 chunk 過長導致：
- 向量語義太混濁，top-k 噪音變高。
- LLM context 塞滿 retrieval 噪音，回答變模糊。
實作骨架（pseudo-code）：
```
from semantic_splitter import split_semantic

def chunk_doc(text: str):
    sections = split_semantic(text, max_chars=1200)
    chunks = []
    overlap = 150  # 字元級 overlap
    for sec in sections:
        if len(sec) <= 1200:
            chunks.append(sec)
        else:
            # 針對長 section 再做 sliding window
            for i in range(0, len(sec), 1200 - overlap):
                chunks.append(sec[i:i+1200])
    return chunks
```
與 max context tokens 的關係：
- 假設 LLM context 32k，系統 prompt + 對話占 4k，其實留給 RAG 的只有約 28k。
- 若每個 chunk 約 400 tokens，你實際能塞 約 50–60 個 chunk 就爆，但通常 8–16 個 chunk 就夠，更多只會拉高成本與噪音。
rerank 與去重：
- 先取寬一點的 top_k（例如 30–50），再用輕量 rerank（如 bge-reranker）縮到 8–12 個。
- 去重邏輯可以用：same doc_id + 高度相似 直接只留一個，減少重複內容浪費 context。
💡 關鍵： 雖然 context 可能有 32k tokens，但實務上只保留約 8–16 個高質量 chunk，通常就能兼顧成本與效果，塞太多反而害答題品質下滑。

建議與注意事項

1. 不要只做 embedding，不做 eval

常見錯誤流程：
1. 把全部文件 embed → 塞進向量庫 → 上線。
2. 發現回答怪怪的 → 開始懷疑模型。
比較健康的流程：
1. 先準備一組 標記好的 QA/Eval 集（10–50 題也好）。
2. 對同一組問題，分別跑：
3. 純 BM25
4. 純向量
5. Hybrid + 不同權重
6. 用簡單指標（hit@k、人工評分）挑一個 baseline，再上線 A/B。
2. 向量庫維護：重建 / 追加 / 版本化
- Embedding 模型版本變更 時：
- 盡量用新 index 重建（kb_v2），舊版保留一段時間做對照。
- 不要在同一個 index 裡混不同 embedding 模型的向量。
- 大量文件更新策略：
- 批次追加新文檔時，要記錄 批次 ID / 資料版本，方便 rollback。
- 下線文件要標記 is_active=false 或直接 soft delete，避免回答引用過期政策。
3. 多租戶與權限過濾
- 在 Elasticsearch / Weaviate 中務必存：tenant_id、visibility、role 等欄位。
- 檢索 query 層一定要加：
```
"filter": [
  {"term": {"tenant_id": "${current_tenant}"}},
  {"terms": {"visibility": ["public", "internal"]}}
]
```
- 不要指望 LLM 自己遵守權限，權限控制一定要在檢索階段完成。
4. 線上評測與 A/B 驗證

簡易做法：
1. 選一組真實高頻 query（客服 ticket、搜尋 log）。
2. 設計兩條路線：
3. A：純向量 RAG
4. B：Agentic RAG + Hybrid Search
5. 隨機分流流量，收集：
6. 使用者是否重問 / 追問率
7. 是否需要人工接手
8. CSR / domain expert 的 1–5 分主觀評分
通常在企業知識庫場景，只要加上 Hybrid Search + Agent 重試，就能看到 10–30% 的 query 成功率提升，而且失誤類型會明顯變少（比較少「答錯法規條」、「引用過期政策」）。

總結：如果你現在的 RAG 還是「單一向量庫 + top-k 塞給 LLM」，要提升穩定性，不一定要換更大的模型，先把 Hybrid Search 與 Agentic 檢索策略補上，通常是成本最低、效果最直接的升級路線。
🚀 你現在可以做的事
- 從現有專案中抽出 10–50 則真實 query，分別用純 BM25、純向量與 Hybrid 跑一次，記錄 hit@k 與人工評分
- 在現有 RAG 服務前面加一個簡單 Orchestrator，把關鍵字與向量檢索拆成兩個 tool，用 prompt 控制選用策略
- 在搜尋層加入 tenant_id 與 visibility 欄位與 filter，先確保權限過濾正確，再進一步調整 Hybrid 權重與 rerank 策略
2026 年 4 月 16 日
GAIA 本地多代理實戰指南
📌 本文重點
- 本地多代理更可控
- sandbox 與權限隔離
- 先選小模型再優化
- Workflow 可 checkpoint
在本地硬體上跑 GAIA 多代理 workflow，直接解決三個實際痛點：

💡 關鍵： 本地部署的核心價值，不只是省雲端費用，更是把隱私、延遲和權限控制都收回自己手上。
1. 隱私與合規：內網知識庫、檔案內容不出機器，減少 DLP 顧慮。
2. 可控成本與延遲：不綁雲端 API，長任務與大量工具呼叫的成本與延遲可預期。
3. 更細緻的權限隔離與除錯：工具執行在你設計的 sandbox 內，log、資源監控都在本機可觀測。
以下以「本地檔案整理 + 內網知識庫助理」為具體任務，示範如何用 GAIA 在單機上組出一個可用的多代理系統，並說清楚在 Apple Silicon / GPU / 純 CPU 場景下要怎麼選 LLM 和調整架構。

重點說明

1. GAIA 的基本心智模型：Agent / 任務 / 工具

GAIA 的抽象其實很單純：
- Agent：有「目標 + 能力」的行為體，通常綁一個 LLM + 一組工具。
- 任務（Task / Workflow）：定義起點、終點，以及 Agent 如何接力。
- 工具（Tools）：一組可呼叫的函式，如檔案系統、HTTP、向量搜索，GAIA 會把它們包成可被 LLM 呼叫的函式呼叫介面。
實務上你會這樣切：
- 一個 Planner Agent 負責拆解高階目標：例如「整理 ~/Downloads 並產出 README」。
- 一個 FileOps Agent 只負責檔案遍歷、分類、改名，綁定檔案系統工具，權限嚴格限制。
- 一個 Knowledge Agent 使用向量庫對內網 markdown/PDF 做檢索與摘要。
2. 在單機協調多代理：比你想像中輕量

GAIA 不是重型的分散式框架，而是偏 本地 Orchestrator：
- 用一個主 loop 或 workflow engine 管理 Agent 呼叫順序、中間狀態與錯誤。
- 每個 Agent 呼叫相同或不同 LLM（例如：Planner 用小模型，Knowledge Agent 用大模型）。
- 即使只有一張 GPU 或一台 Apple Silicon，透過限流與序列化調度一樣能跑多代理，只是併發要保守。
3. 本地 LLM 選擇策略（Apple / GPU / CPU）

Apple Silicon（M1–M4）：
- 優先考慮 MLX + Qwen3.5 / Gemma 4 / Llama 家族的 8–9B 量化。
- 善用像 Reddit 提到的 DFlash 推測解碼：在 9B 級模型上可有 ~4× decoding 加速，對多代理回合式對話很有感。
💡 關鍵： ~4× decoding 加速代表回合式多代理互動的體感差異會非常明顯，特別是在本地裝置上。
- 32GB RAM 以上：可以考慮 27B 量級，但要注意 context 與 batch size 的 trade-off。
桌機 GPU（NVIDIA）：
- llama.cpp / vLLM / TensorRT-LLM 都可；若用 llama.cpp，可利用社群的 llm-server v2 --ai-tune 自動調 flags，實測 Qwen3.5-27B 可 +50% tok/s 以上，對長任務吞吐提升很明顯。
💡 關鍵： +50% tok/s 以上的提升，對長任務與大量工具呼叫會直接反映在整體吞吐量上。

純 CPU：
- 參考 Gemma 4 在 CPU 的實測，8B 級模型仍可用，但要：
- 選擇更小模型 + 更 aggressive 量化（如 Q4_K_M）；
- 控制 max_tokens，避免一次生成太長；
- 任務設計上用更多工具、多輪互動，降低單次生成長度。
實作範例：從零到一的本地多代理 workflow

假設你要在 Mac（M2 Pro + 32GB）上做一個：

指定資料夾路徑 → 自動整理檔案並產出整理報告 → 同時讓知識庫助理可以回答「這次整理做了什麼？」

以下用簡化版 pseudo-code 示意 GAIA 專案結構與關鍵程式碼。

專案結構
```
my-gaia-local-agents/
├── gaia_config.yaml       # GAIA 全域設定（LLM, 日誌, sandbox）
├── agents/
│   ├── planner_agent.py
│   ├── fileops_agent.py
│   └── knowledge_agent.py
├── tools/
│   ├── file_tools.py      # 檔案操作工具
│   └── vectordb_tools.py  # 內網知識庫檢索
├── workflows/
│   └── organize_and_report.py
└── main.py
```
1. 定義本地 LLM backend

假設你用 Ollama + Qwen2.5 7B 作為通用模型（Apple / GPU / CPU 都能跑）：
```
# gaia_config.yaml
llm_backends:
  default:
    type: http
    base_url: "http://localhost:11434/v1"
    model: "qwen2.5:7b"
    # 重要：明確限制 context 和輸出長度，避免拖慢整體 workflow
    params:
      max_tokens: 512
      temperature: 0.3
      top_p: 0.9

logging:
  level: INFO
  file: "logs/gaia.log"

sandbox:
  file_root: "./sandbox_root"   # FileOps 只允許在這之下操作
  allow_network: false           # 預設工具無網路
```
實際好處：
- 用 HTTP LLM backend，你可以隨時切換到 llama.cpp server / MLX server / vLLM 而不用改 Agent 邏輯。
- max_tokens + temperature 控制對本地效能非常關鍵，避免一個 Agent 把整個 context 塞爆。
2. 定義工具：檔案操作與向量檢索
```
# tools/file_tools.py
from gaia import tool
from pathlib import Path

SANDBOX_ROOT = Path("./sandbox_root").resolve()

@tool(name="list_files", description="列出目錄下的檔案與大小")
def list_files(path: str) -> dict:
    root = (SANDBOX_ROOT / path).resolve()
    assert root.is_dir() and str(root).startswith(str(SANDBOX_ROOT)), "path out of sandbox"
    files = []
    for p in root.iterdir():
        if p.is_file():
            files.append({"name": p.name, "size": p.stat().st_size})
    return {"files": files}

@tool(name="move_file", description="移動檔案到新資料夾")
def move_file(src: str, dst: str) -> str:
    src_path = (SANDBOX_ROOT / src).resolve()
    dst_path = (SANDBOX_ROOT / dst).resolve()
    assert str(src_path).startswith(str(SANDBOX_ROOT))
    assert str(dst_path).startswith(str(SANDBOX_ROOT))
    dst_path.parent.mkdir(parents=True, exist_ok=True)
    src_path.rename(dst_path)
    return f"moved {src} to {dst}"
```
幾個關鍵點：
- 用 @tool 裝飾器，GAIA 會自動產生給 LLM 用的工具 schema。
- 使用 sandbox_root + startswith 檢查，避免 Agent 亂動整個檔案系統。
向量檢索工具（略寫）：
```
# tools/vectordb_tools.py
from gaia import tool
from my_vectordb import search

@tool(name="kb_search", description="在內網知識庫中搜尋相關文件")
def kb_search(query: str, top_k: int = 5) -> list:
    return search(query, top_k=top_k)
```
3. 定義 Agents
```
# agents/planner_agent.py
from gaia import Agent
from gaia.llm import LLMClient

llm = LLMClient.from_config("default")

planner = Agent(
  name="planner",
  llm=llm,
  tools=[],  # Planner 不直接動檔案
  system_prompt="""
你是任務規劃專家。使用簡短 JSON 回覆，包含 steps，
每個 step 指定要由哪個 agent 執行（fileops 或 knowledge）。
"""
)
```
```
# agents/fileops_agent.py
from gaia import Agent
from gaia.llm import LLMClient
from tools.file_tools import list_files, move_file

llm = LLMClient.from_config("default")

fileops = Agent(
  name="fileops",
  llm=llm,
  tools=[list_files, move_file],
  system_prompt="""
你負責安全地整理檔案，只能使用提供的工具操作 sandbox 內的路徑。
每次操作前先列出檔案，再決定如何移動。
"""
)
```
```
# agents/knowledge_agent.py
from gaia import Agent
from gaia.llm import LLMClient
from tools.vectordb_tools import kb_search

llm = LLMClient.from_config("default")

knowledge = Agent(
  name="knowledge",
  llm=llm,
  tools=[kb_search],
  system_prompt="""
你是內網知識庫助理，先呼叫 kb_search 找到相關內容，
再用找到的內容回答使用者問題。
"""
)
```
4. Workflow：協調多代理 + 任務恢復
```
# workflows/organize_and_report.py
import json
from gaia import Workflow
from agents.planner_agent import planner
from agents.fileops_agent import fileops
from agents.knowledge_agent import knowledge

class OrganizeWorkflow(Workflow):
    def run(self, target_dir: str):
        # 1) 用 planner 拆解任務
        plan = planner.run_sync(f"請為資料夾 {target_dir} 制定整理計畫，輸出 JSON 格式。")
        steps = json.loads(plan["content"]).get("steps", [])

        history = []
        for step in steps:
            agent_name = step["agent"]
            instruction = step["instruction"]

            if agent_name == "fileops":
                result = fileops.run_sync(instruction)
            elif agent_name == "knowledge":
                result = knowledge.run_sync(instruction)
            else:
                continue

            history.append({"agent": agent_name, "instruction": instruction, "result": result})
            self.save_checkpoint(history)  # **關鍵：長任務可恢復**

        return history

    def save_checkpoint(self, state):
        with open("./state/organize_checkpoint.json", "w") as f:
            json.dump(state, f, ensure_ascii=False, indent=2)
```
最後入口：
```
# main.py
from workflows.organize_and_report import OrganizeWorkflow

if __name__ == "__main__":
    wf = OrganizeWorkflow()
    history = wf.run("downloads")
    print("任務完成，歷史記錄：")
    print(history)
```
實際好處：
- Workflow + checkpoint 讓你可以安全跑幾十分鐘的整理任務，中途 crash 可恢復。
- 檔案操作與知識庫檢索被清楚拆成不同 Agent，權限與日誌都更好控管。
建議與注意事項

1. 模型大小與上下文限制：先決策、再堆功能
- 本地 Agent 系統最常見的坑是 一開始就選太大模型 + 太大 context：
- Apple 32GB + 27B 模型 + 128k context 幾乎一定卡。
- 建議流程：
- 先用 7–9B 模型 + 8k–16k context 做 MVP。
- 觀察 GAIA 的日誌與 latency 再決定是否升級模型或 context。
- 用「多輪互動 + 工具」彌補模型容量，而不是盲目換大模型。
2. 工具執行安全 & sandbox 設計
- 檔案操作請一定：
- 使用 sandbox root + path 檢查（如上例）。
- 禁用 rm -rf 類型操作，必要時只暴露「移動到 trash」工具。
- 若 Agent 需要網路：
- 以 proxy 工具封裝（如 http_get），不要讓 Agent 任意發 HTTP。
- 在工具層加 domain allowlist。
3. 長任務與錯誤恢復
- GAIA workflow 必須：
- 對每個工具呼叫與 Agent 回應寫入結構化 log（JSON）。
- 週期性 checkpoint 中間狀態（如上例 save_checkpoint）。
- 常見錯誤種類：
- LLM 回 JSON 解析失敗 → 在 workflow 層加入重試 + 自我修復 prompt（要求模型只回合法 JSON）。
- 工具拋例外（路徑不存在、權限錯）→ 在工具層 catch，回傳結構化錯誤訊息給 Agent 解讀，而不是直接 crash。
4. 本地 vs 雲端 Agent：怎麼選？

適合用 GAIA 本地落地的場景：
- 需要處理敏感檔案 / 內網知識庫（法務、醫療、R&D 原始碼）。
- 需要低延遲 + 高互動頻率的工具呼叫（檔案整理、CI/CD 助理、開發環境助手）。
- 有穩定的本地硬體（Mac Studio / 工作站 / 甚至改造手機當常駐節點，如 Xiaomi + Ollama 案例）。
仍應用雲端 Agent 平台的情境：
- 短期 PoC，需要快速試多種 SOTA 模型（如 GPT-4.1, Claude 3.7）。
- 任務高度 bursty，需要按需擴容，或併發數百以上的 Agent 任務。
- 需要平台級功能（RBAC、審計、隊列管理）而你不想自己實作。
實務建議：
- 先在雲端 Agent 平台驗證 prompt、工具設計、整體 UX。
- 穩定後再把核心工作流搬到 GAIA + 本地 LLM 上，對敏感資料與長任務特別划算。
總結：GAIA 提供的是一個 在本地硬體上「可觀測、可控、可擴展」的多代理骨架。搭配 Apple Silicon/桌機 GPU 的本地 LLM 加速（--ai-tune、DFlash 等），你可以在單機上跑出相當實用的 AI Agents，而不再被雲端 API 綁死。關鍵是：先把 Agent / 工具 / Workflow 的邊界切清楚，再談模型與效能優化。
🚀 你現在可以做的事
- 先在 Ollama 或 llama.cpp 上跑一個 7B 模型
- 按本文結構拆出 planner、fileops、knowledge 三個 Agent
- 先用 sandbox_root 做安全檔案操作，再逐步加上 checkpoint 與 kb_search
2026 年 4 月 15 日

Kubernetes 安全跑 AI Agent 的四種隔離架構

📌 本文重點

不要讓 Agent 直接在應用 Pod 裡執行 shell

把程式碼執行抽象成獨立 Exec API

依需求從 Sidecar 演進到 Dispatcher + microVM

在 Kubernetes 上跑 AI Agent，最大痛點不是「模型怎麼接」，而是：我要讓 Agent 能執行程式碼，但又不想整個 cluster 變成 root shell 即時互動環境。這一篇用四種實戰隔離模式，從 完全禁止 exec 到 短暫 sandbox，給你一個能落地、能演進、不會把未來自己鎖死的設計路線。

兩個基本原則先講清楚：
1. 不要讓 Agent 直接在應用 Pod 裡 exec /bin/sh
2. 把「執行程式碼」當成一個獨立產品線，至少要有 API、隔離與審計

重點說明

1. 四種 Exec 隔離模式與威脅模型

No-Exec 基線
威脅模型：Agent 只能讀資料、呼叫 API，不允許任意程式碼或 shell。防止「自動化腳本變挖礦機」。
使用情境：報表、客服、內部 FAQ、只讀資料查詢。
成本/延遲：最低；只要你有 Agent，就應該先有這個 baseline。

💡 關鍵： 先建立 No-Exec 基線，把「不執行程式碼也能運作」當成預設安全狀態，之後才有空間加能力而不是拆炸彈。

Sidecar Exec Server
Agent Pod 旁邊掛一個 sidecar 容器，提供 受限的程式碼執行 API（例如只允許 Python，禁網路）。
威脅模型：Agent 若被 prompt 注入，最多傷到 該 Pod 的 sandbox，不會拿到整個 node。
使用情境：需要頻繁、小量運算（轉檔、格式化、查詢小 DB）。
成本/延遲：啟動快、延遲低，但隔離仍與主容器共享同個 Pod 命名空間，需嚴控權限。
獨立 Exec Pod（長駐）
用 單獨 Deployment/Pod 提供 Exec API，Agent 透過 Service/HTTP 呼叫。
威脅模型：即使 Agent 被攻擊，影響範圍收斂在 Exec Pod 的 namespace / RBAC。
使用情境：多 Agent 共用運算資源、內部「程式碼執行服務」。
成本/延遲：多一跳網路，但隔離與資源配額更好控制。
短暫性 Exec Dispatcher（Job / ephemeral Pod）
每次高風險程式碼執行，Agent 呼叫 Dispatcher API → 建立一次性 Job/Pod → 執行完就刪。
威脅模型：攻擊者很難長期駐留，每次都是新 sandbox；配合 NetworkPolicy、seccomp，接近 microVM 的防護。
使用情境：自動修 production bug、CI 內部 code 修補、批次資料轉換。
成本/延遲：啟動開銷高，但安全性最佳、審計最容易。

💡 關鍵： 短暫性 Dispatcher 每次執行都重建 sandbox，換取較高延遲，換來接近 microVM 等級的隔離與容易審計。

2. 把 Exec 抽象成 API：Agent 只看見一個能力

不論選哪種模式，推薦都做成一個 Exec API 抽象層：

Agent 視角：呼叫 /exec，送程式碼和限制（language、timeout、resources），拿回 stdout/stderr。
基礎設施視角：背後可以從 Sidecar → 獨立 Pod → Dispatcher/Job 演進，而介面不變。

這樣可以避免那種常見悲劇：

「先在應用容器裡 subprocess.run 上線，等 Agent 用到 everywhere 之後才發現安全有洞，想拆出來卻動不了。」

💡 關鍵： 先穩定 Exec API 介面，再替換背後實作，可以避免一開始圖方便埋下日後無法重構的安全技術債。

3. 與 microVM（如 SuperHQ）怎麼搭配？

像 SuperHQ 這種 microVM 沙盒 的隔離更硬（虛擬化層級），但成本與管理更重。實務上可以：

Kubernetes 內部先用 短暫性 Exec Dispatcher 做 cluster 級隔離。
對於「真的可能動 production」的改動，Dispatcher 再往下調用像 SuperHQ 的 microVM sandbox，做二層隔離。

關鍵是：不要一開始就把 microVM 當銀彈，反而要先把 API、審計、RBAC 的基本盤打好。

實作範例

1. 給 Agent 的 Exec API 抽象

假設你在後端提供一個 POST /exec 給 Agent 使用：

// TypeScript / pseudo-code
interface ExecRequest {
  language: 'python' | 'bash';
  code: string;
  timeout_ms?: number;
  memory_mb?: number;
  audit_metadata?: {
    agent_id: string;
    user_id: string;
    task_id: string;
  };
}

interface ExecResponse {
  stdout: string;
  stderr: string;
  exit_code: number;
  sandbox_id: string;
  started_at: string;
  finished_at: string;
}

// Agent 只呼叫這個
async function agentExec(req: ExecRequest): Promise<ExecResponse> {
  const resp = await fetch("https://exec-gateway.internal/exec", {
    method: 'POST',
    headers: { 'Content-Type': 'application/json' },
    body: JSON.stringify(req),
  });
  return resp.json();
}

背後可以是 Sidecar、獨立 Pod 或 Dispatcher，Agent 完全不需要知道。

2. Sidecar Exec Server：最小可行安全版

Pod 範例（主容器 + Sidecar）：

apiVersion: v1
kind: Pod
metadata:
  name: agent-with-sidecar
spec:
  containers:
    - name: agent
      image: myorg/agent:latest
      env:
        - name: EXEC_SERVER_URL
          value: "http://127.0.0.1:8080"  # 只在 Pod 內可達

    - name: exec-sidecar
      image: myorg/exec-sandbox:py3
      securityContext:
        runAsNonRoot: true
        runAsUser: 1000
        allowPrivilegeEscalation: false
        readOnlyRootFilesystem: true
        seccompProfile:
          type: RuntimeDefault
        capabilities:
          drop: ["ALL"]
      volumeMounts:
        - name: tmp
          mountPath: /tmp
  volumes:
    - name: tmp
      emptyDir: {}

注意幾點：

Sidecar 用 readOnlyRootFilesystem: true，只給一個 emptyDir 當 scratch space。
用 seccompProfile: RuntimeDefault + capabilities: drop: ["ALL"] 擋掉大多數系統呼叫。
exec server 只在 localhost 對 agent 開放。

Sidecar 容器內部可用像這樣的 server：

# exec-sidecar main.py (簡化示意)
from fastapi import FastAPI
import subprocess, tempfile, textwrap

app = FastAPI()

@app.post("/exec")
async def exec_code(req: dict):
    code = req["code"]
    timeout = min(req.get("timeout_ms", 5000) / 1000, 10)
    with tempfile.NamedTemporaryFile(suffix=".py", dir="/tmp", delete=False) as f:
        f.write(code.encode("utf-8"))
        path = f.name
    p = subprocess.run(
        ["python", path],
        stdout=subprocess.PIPE,
        stderr=subprocess.PIPE,
        timeout=timeout,
        check=False,
        text=True,
    )
    return {
        "stdout": p.stdout,
        "stderr": p.stderr,
        "exit_code": p.returncode,
    }

3. 獨立 Exec Pod + NetworkPolicy 限制網路

Exec Service Deployment：

apiVersion: apps/v1
kind: Deployment
metadata:
  name: exec-service
  namespace: agent-exec
spec:
  replicas: 2
  selector:
    matchLabels:
      app: exec-service
  template:
    metadata:
      labels:
        app: exec-service
    spec:
      securityContext:
        runAsNonRoot: true
      containers:
        - name: exec
          image: myorg/exec-sandbox:py3
          securityContext:
            allowPrivilegeEscalation: false
            readOnlyRootFilesystem: true
            seccompProfile:
              type: RuntimeDefault
          resources:
            limits:
              cpu: "1"
              memory: "1Gi"

NetworkPolicy：只允許 Agent Namespace 打進來，不允許對外上網：

apiVersion: networking.k8s.io/v1
kind: NetworkPolicy
metadata:
  name: exec-deny-egress
  namespace: agent-exec
spec:
  podSelector: { matchLabels: { app: exec-service } }
  policyTypes: ["Ingress", "Egress"]
  ingress:
    - from:
        - namespaceSelector:
            matchLabels:
              name: agent
  egress: []  # 不允許任何外連

搭配 RBAC：只給 Agent ServiceAccount 能呼叫 Exec Service，不給其他 Pod 用。

4. 短暫性 Exec Dispatcher：一次一個 Job

Dispatcher 可以是一個常駐服務，收到 Agent 的 Exec Request 後，動態建一個 Job：

apiVersion: batch/v1
kind: Job
metadata:
  generateName: exec-task-
  namespace: agent-exec
spec:
  ttlSecondsAfterFinished: 60
  template:
    spec:
      restartPolicy: Never
      containers:
        - name: runner
          image: myorg/exec-runner:py3
          command: ["python", "/runner/run.py"]
          env:
            - name: CODE_B64  # 程式碼以 base64 傳入
              value: "{{ .code_b64 }}"
          securityContext:
            runAsNonRoot: true
            allowPrivilegeEscalation: false
            readOnlyRootFilesystem: true
            seccompProfile:
              type: RuntimeDefault

Dispatcher 伺服器（簡化 pseudo-code）：

// create Job + watch logs/exit code
async function handleExec(req: ExecRequest): Promise<ExecResponse> {
  const jobName = await k8sCreateJobFromTemplate(req.code);
  const { logs, exitCode } = await waitForJobAndCollectLogs(jobName);
  await writeAuditLog({
    sandbox_id: jobName,
    ...req.audit_metadata,
    code_hash: hash(req.code),
    exit_code: exitCode,
  });
  return {
    stdout: logs.stdout,
    stderr: logs.stderr,
    exit_code: exitCode,
    sandbox_id: jobName,
    started_at: new Date().toISOString(), // 真實實作請用 Job status
    finished_at: new Date().toISOString(),
  };
}

好處：

多租戶隔離：可依 tenant 建不同 namespace，Dispatcher 根據 audit_metadata.tenant_id 選 namespace。
審計完整：所有指令、結果都在 Job + audit log 裡，符合合規需求。

建議與注意事項

1. 多租戶 / 多 Agent：Namespace + RBAC 要先設計好

每個 tenant / 敏感業務線，用不同 namespace + ServiceAccount。
用 RBAC 控制：
哪些 Agent 可以呼叫哪些 Exec Service / Dispatcher API。
哪些 ServiceAccount 可以在哪些 namespace 建 Job。
禁用 kubectl exec 這類廣泛權限，改成只允許建立特定 label 的 Job。

2. 記錄與審計：把 Agent 當「能下命令的人」對待

最少要記：

誰發的指令：agent_id, user_id, tenant_id。
執行了什麼：程式碼 hash / snippet、image name、namespace。
結果：exit code、stdout/stderr 片段、耗時、資源消耗。

實務建議：

把審計資料寫到 集中 log（如 Loki / Elasticsearch），設 index pattern 方便 incident 回溯。
敏感環境可以啟用 只讀審計存儲（append-only S3、WORM 存儲）。

3. 選型決策表：怎麼組合四種模式？

公司安全等級 / 場景	建議模式組合
內網 demo、無敏感資料	No-Exec 基線；需要運算再加 Sidecar Exec。
一般內部工具，允許 Agent 自動改測試 / 小腳本	獨立 Exec Pod + NetworkPolicy + RBAC；高風險任務用 Dispatcher。
有合規需求（金融、醫療）、多租戶 SaaS	短暫性 Exec Dispatcher + 多 namespace + 強 RBAC + 完整改審計。
能直接動 production（自動修 bug、自動部署）	Dispatcher + microVM（如 SuperHQ）疊加；需要人類 review gate + 強審計。

實務路線建議：

先上 No-Exec baseline：把所有「執行程式碼」需求集中到一個 Exec API 服務。
需求變多 → 用 獨立 Exec Pod + NetworkPolicy 接手 Sidecar。
需要自動動 production → 引入 短暫性 Exec Dispatcher +（選配）microVM。

最後再提醒一次：最危險的不是沒用 sandbox，而是先圖方便在應用容器裡直接 exec shell，等 Agent 真的有價值時，整個 cluster 已經跟它綁死，誰都不敢動。現在就把 Exec 抽出來，之後演進才有空間。

🚀 你現在可以做的事

檢查現有 Agent 是否在應用 Pod 內直接 exec 或 subprocess.run，列出需遷移的路徑

在開發環境先實作一個簡單的 POST /exec 抽象層，後端先接到一個獨立 Exec Pod

為高風險任務 PoC 一個「短暫性 Exec Dispatcher + Job」流程，並加上最基本的審計欄位

2026 年 4 月 14 日

讓 LLM 真的會做研究：拆解 ResearchEVO
📌 本文重點
- ResearchEVO 讓 LLM 直接在程式碼空間做演化搜尋
- 論文寫作以 sentence-level RAG 確保可檢索與可驗證
- 可拆解為可落地的 Auto-Research / Auto-ABTest / Auto-Feature-Engineering 流程
多數所謂「AI 做研究」還停留在幫你寫 code、寫報告；ResearchEVO 解決的痛點是：讓 LLM 直接在程式碼空間裡做演化搜尋、自己排實驗、自己寫論文。從工程角度看，它提供了一個可實作的 blueprint，讓你能在公司內做 Auto-Research / Auto-ABTest / Auto-Feature-Engineering，而不是只多一個聊天機器人。

重點說明

1. 演化階段：LLM 驅動的「程式碼空間搜索」

ResearchEVO 的核心是 LLM + 演化算法 操作「程式碼本身」：
1. 程式碼空間表示
2. 個體 = 一份可執行程式碼（例如一個 train.py 或一個 model 定義 + config）。
3. 用 LLM 實作 變異 / 交配：
  - 變異：改損失函數、網路結構、優化器、訓練 schedule。
  - 交配：將兩個高適應度方案的關鍵設計融合。
4. 不做 AST 級別操作也可以，實務上多數情況直接用 自然語言 prompt + code diff 就夠用。
5. fitness 評估與搜索控制
6. fitness 只看 metrics：例如 val_accuracy、AUC、latency。
7. Search loop：
  1. LLM 生成/修改程式碼。
  2. 提交到 GPU/雲端排程系統跑實驗。
  3. 收集結果 → 更新種群 → 再交給 LLM 反思與生成。
8. 用 約束控制 避免亂飛：
  - 硬約束：只允許改特定檔案 / 函數；強制保持 I/O 介面不變。
  - 軟約束：LLM prompt 中加入「只動這幾個維度」「保留下列設計」。
💡 關鍵： 把 fitness 完全交給客觀 metrics（如 val_accuracy、latency），可以讓 LLM 的創意探索與實際效能緊密對齊。
1. 對接現有 GPU / 雲端排程
2. ResearchEVO 本身不是新的 scheduler，而是：
  - 上游：LLM 生成/修改 code & config。
  - 下游：把 job 提交給你已有的 Kubernetes / Slurm / Airflow / SageMaker / Vertex AI。
3. 你只需要做一層 adapter，把 ExperimentSpec → Job 映射好。
2. 寫作階段：sentence-level RAG + 驗證

演化出最佳演算法後，ResearchEVO 的寫作階段是在做 「可檢索、可驗證」的自動論文生成：
1. 論文結構模板
2. 先固定一個論文 schema（Title / Abstract / Intro / Method / Exp / Discussion / Related Work）。
3. 每個 section 再細分成 段落 level 的子任務，讓 LLM 聚焦生成。
4. 句子級 RAG（sentence-level RAG）
5. 檢索單位不是 chunk，而是句子：
  - 實驗 log、表格、程式碼註解、對照文獻都 embed 成 sentence vector。
  - 每當 LLM 要生成一個句子，就檢索最相關的 3~5 個 evidence。
6. 這樣可以：
  - 降低 context 噪音。
  - 讓每句話都有「引用依據」。
💡 關鍵： 以「句子」為檢索單位，讓每一句論文敘述能精確對應到 3–5 條證據，大幅降低幻覺與錯引。
1. 事實核查與防幻覺
2. 對每一句包含數字、claim 的句子，送到 Verifier agent：
  - 檢查是否能在實驗結果 / log / paper corpus 中找到支持證據。
  - 找不到就要求 LLM 重寫或改成不那麼強的 claim。
3. 論文內引用的實驗表格、圖表，ID 必須能對回到真實跑出的 artifacts（例如 MLflow run id / S3 path）。
3. 如何落地 Auto-Research / Auto-ABTest / Auto-Feature-Engineering

你不一定要重現完整 ResearchEVO。實務上可以拆成：
- 一個 orchestrator（Airflow / Prefect / Dagster / LangGraph）
- 幾個 LLM agent（code 生成 / 反思 / 寫作）
- 一個實驗調度器（K8s / Slurm / 自家平台）
- 一個結果分析工具（MLflow / Weights & Biases / 自製 dashboard）
核心流程：
1. 目標定義
2. LLM 生成候選方案
3. 實驗排程跑
4. 收集結果 & 自動分析
5. LLM 反思改進
6. 收斂後自動產出報告/論文
💡 關鍵： 把「做研究」拆成可編排的 6 步驟流程後，Auto-Research 就變成一組可插拔模組，而不是神秘黑盒。

實作範例

以下用 Python + Airflow/LangGraph 說明一個簡化版 pipeline。

1. 演化 loop 的 code 表示與變異

假設我們把「演算法個體」抽象成一個簡單的 spec：
```
from pydantic import BaseModel
from typing import Dict, Any

class AlgoSpec(BaseModel):
    name: str
    base_script: str              # 參考模板路徑
    hyperparams: Dict[str, Any]   # 学习率, layer 数等
    patches: str                  # LLM 產生的程式碼 patch (diff-like)
```
讓 LLM 做「變異」：
```
SYSTEM_PROMPT = """你是資深 ML 研究員，幫我在保持 I/O 介面不變的前提下，
只修改 loss function、網路架構與訓練策略。輸出 unified diff 格式的 patch。"""

user_msg = f"""
目前的程式碼：
{current_code}

本輪實驗結果：
val_accuracy = {metrics['val_acc']}
train_loss_curve = {metrics['loss_curve'][:10]}

請根據結果給出改進 patch。"""

resp = llm.chat([
    {"role": "system", "content": SYSTEM_PROMPT},
    {"role": "user", "content": user_msg},
])

patch = extract_patch(resp)  # 解析成純文本 diff
new_spec = AlgoSpec(
    name=f"algo_v{gen_id}",
    base_script="templates/train_base.py",
    hyperparams={"lr": 3e-4, "hidden_dim": 512},
    patches=patch,
)
```
接著用簡單的 patch engine 把 diff 套進檔案，產生下一版 train.py。

2. 串接實驗排程（以 K8s Job 為例）

假設有一個內部的 submit_experiment(spec: AlgoSpec) -> str 會幫你：
1. 打包 code + config 到 image/volume。
2. 生成 K8s Job yaml。
3. 提交到 cluster，回傳 job_id。
簡化 pseudo-code：
```
import kubernetes as k8s

def submit_experiment(spec: AlgoSpec) -> str:
    job = build_k8s_job(spec)  # 填入 image, args, resource 限制
    api = k8s.client.BatchV1Api()
    resp = api.create_namespaced_job(namespace="research", body=job)
    return resp.metadata.name

# fitness 評估：等 job 完成，讀取 metrics.json

def fetch_fitness(job_id: str) -> float:
    # 假設每個 job 在 /results/metrics.json 寫入 val_acc
    metrics = load_from_object_store(f"results/{job_id}/metrics.json")
    return metrics["val_acc"]
```
你只要確保：
- 所有實驗都寫出 統一格式的 metrics.json / config.json。
- job name、run id 能對應回實驗記錄系統（MLflow、W&B）。
3. Orchestrator：以 LangGraph 為例構建演化 DAG

LangGraph 可以把 LLM、工具、迭代邏輯包成圖：
```
from langgraph.graph import StateGraph, END

class EvoState(BaseModel):
    population: list[AlgoSpec]
    history: list[dict]
    generation: int


def propose_candidates(state: EvoState) -> EvoState:
    # 用 LLM 對每個 top-k spec 做變異
    ...


def run_experiments(state: EvoState) -> EvoState:
    # 提交所有 candidates，等待完成，回寫 fitness
    ...


def select_and_check_stop(state: EvoState) -> str:
    if state.generation >= MAX_GEN:
        return END
    return "propose"


graph = StateGraph(EvoState)

graph.add_node("propose", propose_candidates)
graph.add_node("run", run_experiments)

graph.add_edge("propose", "run")

graph.add_conditional_edges("run", select_and_check_stop, {"propose": "propose", END: END})

evo_app = graph.compile()
```
後面你可以在另一個 graph 裡接上 writing phase：以最優 AlgoSpec + 實驗結果為輸入，調用 sentence-level RAG agent 生成報告或論文。

4. sentence-level RAG 實作簡例
```
from sentence_transformers import SentenceTransformer
from qdrant_client import QdrantClient

encoder = SentenceTransformer("all-mpnet-base-v2")
qdrant = QdrantClient(host="localhost", port=6333)

# 建 index：把實驗 log、表格、文獻拆成句子

def index_sentences(sentences: list[str], meta: list[dict]):
    vecs = encoder.encode(sentences)
    qdrant.upsert(
        collection_name="research_corpus",
        points=[{"id": i, "vector": v, "payload": meta[i]} for i, v in enumerate(vecs)],
    )


def retrieve_evidence(query_sentence: str, k: int = 5):
    qvec = encoder.encode([query_sentence])[0]
    hits = qdrant.search("research_corpus", query_vector=qvec, limit=k)
    return hits

# LLM 每寫一句話前，先取 evidence

claim = "在 QEC 任務上，我們的演算法平均錯誤率降低了 12.3%。"
evidences = retrieve_evidence(claim)
llm_context = format_evidence(evidences)

resp = llm.chat([
    {"role": "system", "content": "根據下面的實驗證據，生成一個對應的結論句。"},
    {"role": "user", "content": llm_context},
])
```
再加一個 Verifier：重新檢索一次，看 claim 是否可被證據支持，不行就標記為需重寫。

建議與注意事項

1. 實驗結果格式不一致
- 坑：每個實驗 script 隨意 print，LLM/agent 很難 parse，fitness 評估混亂。
- 建議：
- 強制所有實驗輸出 統一 schema 的 JSON，例如：
  - metrics.json（{"val_acc": 0.92, "train_time": 360}）
  - config.json（完整 hyperparams）。
- 用 schema 驗證（Pydantic）檢查 artifact；不合法就標記這個個體為低適應度。
2. LLM 收斂到壞思路 / mode collapse
- 坑：LLM 易過度放大小樣本成功設計，反覆微調同一個局部解，失去探索。
- 建議：
- 搜索策略上引入 探索度控制：族群裡保留一部分「純隨機變異」個體。
- 每 N 代重啟一次高多樣性的種群（借鑑 evolutionary algo 的 restart 策略）。
- LLM prompt 中顯式要求「給出三類不同思路」，避免只改超參數。
3. 成本與資源控制
- 坑：LLM + GPU 雙重成本，很容易跑成燒錢機器。
- 建議：
- 在 orchestrator 層面設 hard budget：最大世代數、最大 job 數、最大雲端花費。
- 用低成本模型做日常迭代，大模型只用在 跨世代總結 / 報告撰寫。
- 優先讓 LLM 做 靜態檢查（例如檢查明顯錯誤設計）再送去跑 GPU。
4. LLM 對數據科學工具的錯用
- 坑：LLM 可能亂用 API（例如 pandas groupby 用錯、Sklearn split 漏掉 stratify），結果漂亮但不可信。
- 建議：
- 對關鍵 API（train/test split、metrics 計算、cross-validation）儘量做成 封裝好的 utility 函數，禁止 LLM 自己寫這些低級邏輯。
- 在 pipeline 裡加入 sanity check step：
  - label 分布是否合理？
  - baseline 是否被超過？
  - 結果是否疑似 data leakage？
5. 開始時先做「窄版」
- 不要一開始就做「全自動研究員」。較務實的起點：
- Auto-ABTest：讓 LLM 只改部分業務策略 / feature 配置，實驗系統沿用現有 AB 平台。
- Auto-Feature-Engineering：LLM 只負責產生特徵轉換 pipeline（例如 SQL / PySpark），模型訓練沿用既有框架。
- 寫作階段先只產出 自動實驗報告（非論文），幫團隊省時間。
從工程的角度看，ResearchEVO 真正帶來的啟發是：

把「做研究」拆成可編排的演化搜尋 + sentence-level RAG 寫作兩個 pipeline，然後用現成的 LLM、orchestrator、GPU 排程系統拼起來。

只要你公司已經有基本的實驗平台，做一個自己的「輕量版 ResearchEVO」其實沒有想像中難，但能快速幫你把實驗速度和研究產出拉一個量級。
🚀 你現在可以做的事
- 先為現有實驗腳本統一輸出 metrics.json / config.json schema，打好 Auto-Research 地基
- 選一個任務，用一個 LLM agent + 既有 K8s/Slurm 搭出最小可用的演化搜尋 loop
- 把歷史實驗 log 拆成句子建一個向量索引，試做 sentence-level RAG 自動實驗報告生成
2026 年 4 月 12 日

標籤: AI 技術

Claude Opus 4.7 實作可控 Agent 平台

重點說明：Opus 4.7 對 Agent 能力的實質升級

1. 長上下文 + 自我校對 = 多步任務可「放手」

2. Agentic Coding：如何讓 Opus 4.7 當常駐 coding / ops agent

3. 在多代理系統中的定位：Supervisor / Orchestrator 角色

實作範例：自動 triage issue → 修 bug → 開 PR

1. Supervisor 的 messages 結構

2. 工具呼叫：diff-based 程式碼修改

3. MCP / 自建工具層設計示意（pseudo code）

建議與注意事項：成本、延遲與治理

1. 成本與延遲控制

2. 避免過度「自作主張」

3. 對話風格變更對既有工作流的影響

實戰 Agentic RAG 與 Hybrid Search

重點說明

1. 為什麼單一檢索在真實專案會翻車？

2. 讓 Agent 負責檢索策略，而不是把檢索寫死

3. 架構骨架：Orchestrator + 多 retriever + Hybrid Search

實作範例

1. Orchestrator Agent Prompt（決定使用哪個 retriever）

2. Elasticsearch Hybrid Search 設定範例

3. Chunking 與 max context 的工程細節

建議與注意事項

1. 不要只做 embedding，不做 eval

2. 向量庫維護：重建 / 追加 / 版本化

3. 多租戶與權限過濾

4. 線上評測與 A/B 驗證

GAIA 本地多代理實戰指南

重點說明

1. GAIA 的基本心智模型：Agent / 任務 / 工具

2. 在單機協調多代理：比你想像中輕量

3. 本地 LLM 選擇策略（Apple / GPU / CPU）

實作範例：從零到一的本地多代理 workflow

專案結構

1. 定義本地 LLM backend

2. 定義工具：檔案操作與向量檢索

3. 定義 Agents

4. Workflow：協調多代理 + 任務恢復

建議與注意事項

1. 模型大小與上下文限制：先決策、再堆功能

2. 工具執行安全 & sandbox 設計

3. 長任務與錯誤恢復

4. 本地 vs 雲端 Agent：怎麼選？

Kubernetes 安全跑 AI Agent 的四種隔離架構

重點說明

1. 四種 Exec 隔離模式與威脅模型

2. 把 Exec 抽象成 API：Agent 只看見一個能力

3. 與 microVM（如 SuperHQ）怎麼搭配？

實作範例

1. 給 Agent 的 Exec API 抽象

2. Sidecar Exec Server：最小可行安全版

3. 獨立 Exec Pod + NetworkPolicy 限制網路

4. 短暫性 Exec Dispatcher：一次一個 Job

建議與注意事項

1. 多租戶 / 多 Agent：Namespace + RBAC 要先設計好

2. 記錄與審計：把 Agent 當「能下命令的人」對待

3. 選型決策表：怎麼組合四種模式？

讓 LLM 真的會做研究：拆解 ResearchEVO

重點說明

1. 演化階段：LLM 驅動的「程式碼空間搜索」

2. 寫作階段：sentence-level RAG + 驗證

3. 如何落地 Auto-Research / Auto-ABTest / Auto-Feature-Engineering

實作範例

1. 演化 loop 的 code 表示與變異

2. 串接實驗排程（以 K8s Job 為例）

3. Orchestrator：以 LangGraph 為例構建演化 DAG

4. sentence-level RAG 實作簡例

建議與注意事項

1. 實驗結果格式不一致

2. LLM 收斂到壞思路 / mode collapse

3. 成本與資源控制

4. LLM 對數據科學工具的錯用

5. 開始時先做「窄版」

1. GAIA 的基本心智模型：`Agent` / 任務 / 工具

3. 本地 `LLM` 選擇策略（Apple / GPU / CPU）

1. 定義本地 `LLM` backend

3. 定義 `Agents`

4. `Workflow`：協調多代理 + 任務恢復

2. 工具執行安全 & `sandbox` 設計

4. 本地 vs 雲端 `Agent`：怎麼選？