分類: AI 技術

  • Claude Opus 4.7 實作可控 Agent 平台

    Claude Opus 4.7 實作可控 Agent 平台

    📌 本文重點

    • Opus 4.7 更適合長上下文、多步任務與自我校對
    • 可作為常駐 coding / ops Supervisor Agent
    • 透過工具層與治理設計,接手真實 CI / PR pipeline

    Opus 4.7 解決的痛點很直接:以前你不太敢把多步任務完全丟給 LLM 自動跑——上下文記不住、自我檢查不足、程式碼改著改著就壞掉、Agent 亂調工具、成本爆炸。Opus 4.7 把這幾個點同時強化:長上下文 + 自我校對 + agentic coding,讓它不再只是「聊天模型」,而是可以放進持續運行 pipeline 的一個穩定元件。


    重點說明:Opus 4.7 對 Agent 能力的實質升級

    1. 長上下文 + 自我校對 = 多步任務可「放手」

    Opus 4.7 官方強調:

    • 更長上下文:可以在一次對話裡管理整個任務歷史、spec、log、既有程式碼與錯誤紀錄,減少你自己在應用層做 chunk & stitching。
    • 自我核查輸出:模型在回傳前會傾向先「檢查」自己的推論、程式碼或計算結果,等於內建一層 lightweight critic。

    💡 關鍵: 更長上下文搭配自我核查,實際上讓多步任務可以交給單一模型從頭管到尾,而不是切給一堆臨時腳本與輔助模型。

    對多步 pipeline(例如:分析 log → 找 root cause → 編輯程式碼 → 產 PR)最大的好處是:

    • 可以讓 Supervisor Agent 一次看到完整任務 timeline,而不是一段一段 patch;
    • 減少你在系統外再包一層「審題 / 校對」模型的需求(但關鍵步驟仍建議顯式加 guardrail)。

    2. Agentic Coding:如何讓 Opus 4.7 當常駐 coding / ops agent

    Opus 4.7 在 程式碼規劃 + 工具調用 上的品質明顯提高,實務上你可以讓它做:

    • 長期追蹤一組 repo 的變更,持續提出 refactor / bugfix 建議;
    • 自動跑 CI log 分析 → 開 issue → 出 patch → 發 PR;
    • ops 向:監看監控告警 → 初步診斷 → 呼叫 runbook 工具。

    💡 關鍵: 把「讀檔、改檔、跑測試、開 PR」封裝成工具給 Opus 4.7 用,它就能長期常駐在 repo / pipeline 中當實際執行者,而不是只當輔助聊天夥伴。

    核心設計重點:

    1. 工具調用(Tool use)
    2. /v1/messages + tools 讓 Opus 負責選擇何時 call tool、填參數;
    3. 將「讀檔、改檔、跑 test、開 PR」抽成安全封裝的工具,不讓模型直接操作 Git。

    4. 程式碼修改與回滾

    5. 永遠透過 「diff-based API」 修改程式碼,而不是讓模型輸出整檔;
    6. 由工具層實作版本管理(Git branch/commit),模型只負責描述修改 intent。

    7. 安全護欄設計

    8. 角色+權限 限制工具:code_writer 不能直接 deployops_agent 只能操作 sandbox;
    9. 重要操作強制走「人審 + MCP gateway」流程。

    3. 在多代理系統中的定位:Supervisor / Orchestrator 角色

    以「Supervisor Agent」架構來看(類似 Towards AI 提到的 blueprint):

    • Opus 4.7 很適合擔任 Supervisor / Orchestrator
    • 拆解使用者目標 → 任務樹;
    • 安排子代理:搜尋 Agent、執行 Agent、評估/QA Agent
    • 維護整個任務的 context & memory。

    • MCP 或你自建的工具層則提供:

    • 可治理的工具執行(權限、審計 log、版本管理);
    • 與企業內部 API / 資料庫 / CI/CD / issue tracker 的橋接。

    重點:Supervisor 不直接做所有事,而是負責問對問題、調對工具、把任務切給對的子代理。Opus 4.7 的長上下文 +較穩定規劃能力,剛好補上這個角色。


    實作範例:自動 triage issue → 修 bug → 開 PR

    以下示意使用 Claude API + MCP / 自建工具,流程:

    1. 新 issue 建立 → Webhook 觸發 Supervisor;
    2. Supervisor(Opus 4.7)分析 issue,決定是否可自動處理;
    3. 呼叫 repo 工具 找到相關檔案、測試;
    4. 呼叫 code-agent(也是 LLM 或工具) 產生 patch;
    5. 呼叫 git/pr 工具 開 PR,必要時標記需要人工 review。

    1. Supervisor 的 messages 結構

    POST /v1/messages
    {
      "model": "claude-3-opus-4.7",  // **關鍵:Supervisor 指定 Opus 4.7**
      "system": "你是Supervisor Agent,負責協調工具與子代理.\n" +
        "規則:\n" +
        "1. 僅在需要時使用工具,不要自己幻想結果。\n" +
        "2. 高風險操作(寫檔、開PR)前,一定先提出計畫並自我檢查。\n" +
        "3. 若不確定,改為標記需要人工審核.",
      "tools": [
        { "name": "repo_search", "input_schema": {"type": "object", ...} },
        { "name": "repo_read_file", "input_schema": {"type": "object", ...} },
        { "name": "repo_edit_file_diff", "input_schema": {"type": "object", ...} },
        { "name": "run_tests", "input_schema": {"type": "object", ...} },
        { "name": "create_pr", "input_schema": {"type": "object", ...} }
      ],
      "messages": [
        {
          "role": "user",
          "content": [
            {
              "type": "text",
              "text": "有新的 GitHub issue:#1234 API 回傳 500,log ID=abcd...\n" +
                       "請決定是否可以自動修復,若可以,直接走:分析→修改→測試→開PR。"
            }
          ]
        }
      ]
    }
    

    2. 工具呼叫:diff-based 程式碼修改

    在第一次 tool call 前,先讓 Supervisor 規劃:

    1. 讀取相關檔案與測試檔。
    2. 產生修改計畫與預期影響範圍。
    3. 套用最小 diff 修改程式碼。
    4. 執行相關測試。
    5. 測試通過後建立 PR,標記『自動修復,請人工 review』。
    

    接著模型會回覆一個 tool 呼叫(格式依 SDK):

    {
      "role": "assistant",
      "content": [
        {
          "type": "tool_use",
          "id": "toolu_1",
          "name": "repo_search",
          "input": {
            "query": "500 error log id abcd", 
            "max_results": 10
          }
        }
      ]
    }
    

    你的應用層接到後:

    1. 執行 repo_search(你實作的服務,可能包 Git grep / code search);
    2. 把結果以 tool_result 回餵:
    {
      "role": "tool",
      "tool_use_id": "toolu_1",
      "content": [{
        "type": "text",
        "text": "找到可能相關檔案: src/api/user.ts, src/service/userService.ts ..."
      }]
    }
    

    之後 Supervisor 可能呼叫:

    {
      "type": "tool_use",
      "name": "repo_edit_file_diff",
      "input": {
        "path": "src/service/userService.ts",
        "diff": "@@ -42,6 +42,10 @@\n- const result = await dao.getUser(id);\n+ const result = await dao.getUser(id).catch(e => {\n+   logger.error('getUser failed', { id, err: e });\n+   throw new HttpError(500, 'USER_LOOKUP_FAILED');\n+ });"
      }
    }
    

    這裡的關鍵是:

    • repo_edit_file_diff 工具會:
    • 把原始檔讀出來;
    • 套用 diff(可用 git apply 或自寫 patch 邏輯);
    • commit 到專用 branch;
    • 回傳新的 snippet / commit id;
    • 回滾 就交給 Git:若後續測試失敗,由 Supervisor 呼叫 git_reset_to_commit(另一個工具),或人工介面一鍵 rollback。

    3. MCP / 自建工具層設計示意(pseudo code)

    // MCP Gateway / 工具伺服器(Node 範例)
    
    import express from 'express';
    import { searchRepo, editFileWithDiff, runTests, createPR } from './infra';
    
    const app = express();
    app.use(express.json());
    
    function requireRole(role: string) {
      return (req, res, next) => {
        const callerRole = req.headers['x-agent-role'];
        if (callerRole !== role) return res.status(403).send('forbidden');
        next();
      };
    }
    
    app.post('/tools/repo_edit_file_diff', requireRole('supervisor'), async (req, res) => {
      const { path, diff } = req.body;
      // 審計 log
      console.log('[AUDIT] edit_file_diff', { path, by: 'supervisor' });
      const result = await editFileWithDiff(path, diff);
      res.json(result);
    });
    
    // 其他工具類似實作...
    
    app.listen(3001);
    

    Supervisor Agent 呼叫工具時,由你的 orchestrator 轉成 HTTP request,並加上 x-agent-role: supervisor 等標頭,實作權限與審計。


    建議與注意事項:成本、延遲與治理

    1. 成本與延遲控制

    • 長上下文 ≠ 無腦塞所有東西
    • 為 Supervisor 設計 分層上下文
      • 任務規格(長期保持);
      • 當前子任務狀態(中期);
      • 最近工具回傳、log(短期)。
    • 透過你的應用層做 context summarization / state store,不要每次把整個任務歷史丟進去。

    • 對長跑任務(例如多輪 patch + test):

    • 使用 max_tokens / tool_temperature 控制回覆長度與探索度;
    • 將「細節 log」放在外部存儲,必要時讓模型用工具查詢,而不是全部當成 prompt。

    2. 避免過度「自作主張」

    Opus 4.7 的推理與自我校對更強,副作用是它會更願意自己決定事情。控制方式:

    • system 提前定義 contract
    • 任務邊界:可修改哪些 repo / namespace;
    • 停機條件
      • 測試連續失敗 N 次 → 停止修改,標記需要人工;
      • 連續無法重現 bug → 輸出完整調查報告,停止嘗試;
    • 審核步驟
      • 高風險變更必須產生「變更說明 + 風險清單」給人看。

    範例 system 片段:

    你是後端修 bug 的 Supervisor Agent,遵守以下 contract:
    - 只能操作 repo `my-service`,不可動 infra repo。
    - 若連續 2 次修改導致測試新增失敗,立即停止,輸出調查報告,等待人工處理。
    - 不得直接部署,只能開 PR,並在 PR 描述中列出:問題原因、修改內容、風險與 rollback 方式。
    

    3. 對話風格變更對既有工作流的影響

    Opus 4.7 更傾向「先思考再回答」,你會看到:

    • 回覆結構更完整,但文字量可能變多,對老工作流可能:
    • 冗長說明擾亂你原本靠 pattern matching 的 parser;
    • 原本 prompt 期待的 JSON 結構會被「多講兩句」破壞。

    💡 關鍵: 若你的系統嚴重依賴固定輸出格式,必須明確要求「只輸出 JSON」,並用 schema 驗證與重試機制包住模型。

    建議:

    • 儘量讓模型輸出 單一結構化 payload,多餘說明放在欄位內:
    {
      "plan": "文字說明…",
      "actions": [ ... ],
      "needs_human_review": true
    }
    
    • system 明確要求:僅輸出 JSON,不要額外文字,並在應用層加 schema 驗證,若解析失敗就回饋「格式錯誤,請重新輸出」。

    結論:Opus 4.7 的能力重點不是「更會聊天」,而是更適合當有邊界、有工具、有治理的 Agent 核心。只要把它放在 Supervisor 位置,搭配 MCP 或自建工具層,控制好 contract / 成本 / 權限,你就可以開始放心讓它接手一部分真實的 coding / ops pipeline,而不只是做輔助建議。

    🚀 你現在可以做的事

    • 在現有 LLM 應用中,先挑一條「分析 log → 修 bug → 開 PR」的小流程改由 Opus 4.7 當 Supervisor 嘗試落地
    • 設計一組 repo_searchrepo_edit_file_diffrun_testscreate_pr 工具,並封裝成 MCP 或內部 HTTP 服務
    • 為 Opus 4.7 Supervisor 撰寫明確的 system contract(任務邊界、停機條件、審核規則),再逐步擴大可自動處理的任務範圍
  • 實戰 Agentic RAG 與 Hybrid Search

    實戰 Agentic RAG 與 Hybrid Search

    📌 本文重點

    • 單一檢索策略讓 RAG 在真實場景很容易翻車
    • Hybrid Search 能互補向量與關鍵字的盲點
    • 讓 Agent 負責檢索策略與多輪重試能顯著提升穩定度
    • 不換模型也能透過 eval、Hybrid 與權限控管大幅升級 RAG

    在實際專案裡,多數 RAG 翻車不是因為模型不夠聰明,而是檢索策略太單一:只用向量會被專有名詞和代碼玩死,只用關鍵字又抓不到語義相近的長文件內容。Agentic RAG + Hybrid Search 的組合,重點就是讓「檢索」變成可調度、可重試、可觀測的一級公民,而不是一個寫死的 search(query) 函式。


    重點說明

    1. 為什麼單一檢索在真實專案會翻車?

    常見四種翻車場景:

    1. 長文件 / 手冊
    2. 只用向量:整份手冊被切成很多 chunk,語義太接近,top-k 都很像,但真正要的那一段不一定排前面。
    3. 只用 BM25:查詢句子太口語,關鍵字重疊度不高,直接 miss。

    4. 專有名詞 / 法規條文 / 內部代號

    5. 向量模型常常把 DS-104DS-140 當成類似,專案實際上兩者完全不同。
    6. 法規編號、API 名稱、Ticket ID 等,關鍵字檢索反而更穩

    7. 程式碼、表格、錯誤訊息

    8. 向量對縮排、符號、stack trace 的敏感度很差。
    9. Log ID 或錯誤碼這類「硬字串」,BM25/關鍵字幾乎是必要條件

    10. 跨語言 / 口語查詢

    11. 使用者用自然語言描述問題,文件是正式用語或英文,公司內還混雜縮寫。
    12. 需要先用 LLM 做 query 改寫,再讓向量與 BM25 各自發揮。

    Hybrid Search(向量 + BM25) 的實際好處:

    • 可以 補各自的盲點:專有名詞用 BM25 鎖定,模糊描述用向量補齊。
    • 可以針對不同類型文件設定 權重策略(例如法規 > 內部 wiki > Slack 摘要)。
    • 可以後面用 rerank 模型 做第二次排序,穩定提升回答可靠度。

    💡 關鍵: 單一檢索在長文件與專有名詞場景很容易漏抓關鍵內容,Hybrid Search 能同時顧到語義相似與精確字串匹配,明顯降低 RAG 翻車率。


    2. 讓 Agent 負責檢索策略,而不是把檢索寫死

    典型 Agentic RAG 設計:

    • 一個 Orchestrator Agent(對話主控)
    • 多個 retriever 工具keyword_retrievervector_retrieverhybrid_retrieverlegal_retriever

    Agent 的工作不是「自己產生答案」,而是先判斷:

    1. 要用哪種檢索策略?
    2. 查錯誤碼或 ticket:優先 關鍵字 → 再向量精抽
    3. 問概念解釋:優先 向量 → 再用 BM25 找原始定義
    4. 法規/權威階層:改用 分層 retriever(例如每一層級至少取 1–2 筆)

    5. 要不要改寫 Query?

    6. 第一輪命中文件相關度低時,讓 Agent 自動:

      • 摘出關鍵詞
      • 加上同義詞 / 全名(例如:DSData Steward
      • 限縮 domain(例如:限定 product=core-banking
    7. 多輪重試與合併結果

    8. 第一輪檢索後如果信心不足(例如 top-3 相似度都 < 0.7),
    9. Agent 改寫 query 或更換 retriever,再抓一次,最後合併去重後送入 LLM。

    這樣做的實際好處:

    • 檢索策略可迭代:只要調整工具 / prompt,不必重寫服務架構。
    • 容易在線上 A/B:只換掉 Orchestrator 的 prompt 或 routing 邏輯即可。
    • 可以針對不同客戶 / 部門掛不同的工具組合。

    一個可落地的組合:

    • LLM:OpenAIgpt-4.1)、Anthropicclaude-3.7)皆可
    • 檢索:
    • Elasticsearch:BM25 + dense vector + hybrid score
    • Weaviate / Qdrant:向量 + keyword filter

    簡化架構:

    User → Orchestrator Agent → (tool calls) →
      - keyword_retriever (Elasticsearch BM25)
      - vector_retriever  (Weaviate / ES dense vector)
      - hybrid_retriever  (ES rank_feature / script_score)
    → merge + dedup + rerank → LLM answer
    

    實作範例

    1. Orchestrator Agent Prompt(決定使用哪個 retriever)

    假設用 OpenAI Assistants API 或自行封裝 tools:

    系統指示(Orchestrator):
    你是一個檢索協調代理,負責從多種檢索器取得最相關的企業知識。
    
    - 若使用者詢問:
      - 錯誤碼、ticket ID、法規條號、API 名稱 → 優先使用 **keyword_retriever**。
      - 抽象概念、最佳實踐、流程說明 → 優先使用 **vector_retriever**。
      - 法律 / 合規問題,且需多層級來源 → 使用 **legal_hybrid_retriever**。
    
    流程:
    1. 先決定要呼叫哪些工具(可以多個)。
    2. 若第一輪檢索結果的「來源數量 < 3」或「相關度評估偏低」,
       - 自行改寫查詢(更精簡、加入關鍵字),再重試一次。
    3. 最終將所有檢索結果去重、排序,回傳給後續回答模型。
    禁止自行編造公司內部資料,所有答案必須可追溯到文件片段。
    

    索引 mapping:

    PUT knowledge_base
    {
      "mappings": {
        "properties": {
          "content": { "type": "text" },
          "content_vec": { "type": "dense_vector", "dims": 1536, "index": true },
          "source_type": { "type": "keyword" },   
          "tenant_id": { "type": "keyword" }
        }
      }
    }
    

    簡化版 hybrid 查詢(BM25 + 向量):

    POST knowledge_base/_search
    {
      "size": 20,
      "query": {
        "script_score": {
          "query": {
            "bool": {
              "must": [
                {"match": {"content": "GDPR data retention"}},
                {"term": {"tenant_id": "acme_corp"}}
              ]
            }
          },
          "script": {
            "source": "0.6 * _score + 0.4 * cosineSimilarity(params.q_vec, 'content_vec')",
            "params": {"q_vec": [/* query embedding */]}
          }
        }
      }
    }
    

    關鍵點:

    • BM25 與向量權重(例子中 0.6 / 0.4)要透過線上 A/B 或離線 eval 調整。
    • tenant_id filter 做多租戶權限隔離,非常重要。

    💡 關鍵: 在同一個查詢裡用 script score 同時結合 BM25 分數與 cosine similarity,能控制兩者權重,調整出最適合自己資料分佈的 Hybrid 策略。


    3. Chunking 與 max context 的工程細節

    基本原則:

    • 語義切分(semantic splitting)+ 適度 overlap 為主,而不是死切 512 tokens
    • 避免 chunk 過長導致:
    • 向量語義太混濁,top-k 噪音變高。
    • LLM context 塞滿 retrieval 噪音,回答變模糊。

    實作骨架(pseudo-code):

    from semantic_splitter import split_semantic
    
    def chunk_doc(text: str):
        sections = split_semantic(text, max_chars=1200)
        chunks = []
        overlap = 150  # 字元級 overlap
        for sec in sections:
            if len(sec) <= 1200:
                chunks.append(sec)
            else:
                # 針對長 section 再做 sliding window
                for i in range(0, len(sec), 1200 - overlap):
                    chunks.append(sec[i:i+1200])
        return chunks
    

    max context tokens 的關係:

    • 假設 LLM context 32k,系統 prompt + 對話占 4k,其實留給 RAG 的只有約 28k
    • 若每個 chunk 約 400 tokens,你實際能塞 約 50–60 個 chunk 就爆,但通常 8–16 個 chunk 就夠,更多只會拉高成本與噪音。

    rerank 與去重

    • 先取寬一點的 top_k(例如 30–50),再用輕量 rerank(如 bge-reranker)縮到 8–12 個。
    • 去重邏輯可以用:same doc_id + 高度相似 直接只留一個,減少重複內容浪費 context。

    💡 關鍵: 雖然 context 可能有 32k tokens,但實務上只保留約 8–16 個高質量 chunk,通常就能兼顧成本與效果,塞太多反而害答題品質下滑。


    建議與注意事項

    1. 不要只做 embedding,不做 eval

    常見錯誤流程:

    1. 把全部文件 embed → 塞進向量庫 → 上線。
    2. 發現回答怪怪的 → 開始懷疑模型。

    比較健康的流程:

    1. 先準備一組 標記好的 QA/Eval 集10–50 題也好)。
    2. 對同一組問題,分別跑:
    3. 純 BM25
    4. 純向量
    5. Hybrid + 不同權重
    6. 用簡單指標(hit@k、人工評分)挑一個 baseline,再上線 A/B。

    2. 向量庫維護:重建 / 追加 / 版本化

    • Embedding 模型版本變更 時:
    • 盡量用新 index 重建(kb_v2),舊版保留一段時間做對照。
    • 不要在同一個 index 裡混不同 embedding 模型的向量。
    • 大量文件更新策略:
    • 批次追加新文檔時,要記錄 批次 ID / 資料版本,方便 rollback。
    • 下線文件要標記 is_active=false 或直接 soft delete,避免回答引用過期政策。

    3. 多租戶與權限過濾

    • 在 Elasticsearch / Weaviate 中務必存:tenant_idvisibilityrole 等欄位。
    • 檢索 query 層一定要加:
    "filter": [
      {"term": {"tenant_id": "${current_tenant}"}},
      {"terms": {"visibility": ["public", "internal"]}}
    ]
    
    • 不要指望 LLM 自己遵守權限,權限控制一定要在檢索階段完成。

    4. 線上評測與 A/B 驗證

    簡易做法:

    1. 選一組真實高頻 query(客服 ticket、搜尋 log)。
    2. 設計兩條路線:
    3. A:純向量 RAG
    4. B:Agentic RAG + Hybrid Search
    5. 隨機分流流量,收集:
    6. 使用者是否重問 / 追問率
    7. 是否需要人工接手
    8. CSR / domain expert 的 1–5 分主觀評分

    通常在企業知識庫場景,只要加上 Hybrid Search + Agent 重試,就能看到 10–30% 的 query 成功率提升,而且失誤類型會明顯變少(比較少「答錯法規條」、「引用過期政策」)。


    總結:如果你現在的 RAG 還是「單一向量庫 + top-k 塞給 LLM」,要提升穩定性,不一定要換更大的模型,先把 Hybrid Search 與 Agentic 檢索策略補上,通常是成本最低、效果最直接的升級路線。


    🚀 你現在可以做的事

    • 從現有專案中抽出 10–50 則真實 query,分別用純 BM25、純向量與 Hybrid 跑一次,記錄 hit@k 與人工評分
    • 在現有 RAG 服務前面加一個簡單 Orchestrator,把關鍵字與向量檢索拆成兩個 tool,用 prompt 控制選用策略
    • 在搜尋層加入 tenant_idvisibility 欄位與 filter,先確保權限過濾正確,再進一步調整 Hybrid 權重與 rerank 策略
  • GAIA 本地多代理實戰指南

    GAIA 本地多代理實戰指南

    📌 本文重點

    • 本地多代理更可控
    • sandbox 與權限隔離
    • 先選小模型再優化
    • Workflow 可 checkpoint

    在本地硬體上跑 GAIA 多代理 workflow,直接解決三個實際痛點:

    💡 關鍵: 本地部署的核心價值,不只是省雲端費用,更是把隱私、延遲和權限控制都收回自己手上。

    1. 隱私與合規:內網知識庫、檔案內容不出機器,減少 DLP 顧慮。
    2. 可控成本與延遲:不綁雲端 API,長任務與大量工具呼叫的成本與延遲可預期。
    3. 更細緻的權限隔離與除錯:工具執行在你設計的 sandbox 內,log、資源監控都在本機可觀測。

    以下以「本地檔案整理 + 內網知識庫助理」為具體任務,示範如何用 GAIA 在單機上組出一個可用的多代理系統,並說清楚在 Apple Silicon / GPU / 純 CPU 場景下要怎麼選 LLM 和調整架構。


    重點說明

    1. GAIA 的基本心智模型:Agent / 任務 / 工具

    GAIA 的抽象其實很單純:

    • Agent:有「目標 + 能力」的行為體,通常綁一個 LLM + 一組工具。
    • 任務(Task / Workflow:定義起點、終點,以及 Agent 如何接力。
    • 工具(Tools:一組可呼叫的函式,如檔案系統、HTTP、向量搜索,GAIA 會把它們包成可被 LLM 呼叫的函式呼叫介面。

    實務上你會這樣切:

    • 一個 Planner Agent 負責拆解高階目標:例如「整理 ~/Downloads 並產出 README」。
    • 一個 FileOps Agent 只負責檔案遍歷、分類、改名,綁定檔案系統工具,權限嚴格限制。
    • 一個 Knowledge Agent 使用向量庫對內網 markdown/PDF 做檢索與摘要。

    2. 在單機協調多代理:比你想像中輕量

    GAIA 不是重型的分散式框架,而是偏 本地 Orchestrator

    • 用一個主 loopworkflow engine 管理 Agent 呼叫順序、中間狀態與錯誤。
    • 每個 Agent 呼叫相同或不同 LLM(例如:Planner 用小模型,Knowledge Agent 用大模型)。
    • 即使只有一張 GPU 或一台 Apple Silicon,透過限流與序列化調度一樣能跑多代理,只是併發要保守。

    3. 本地 LLM 選擇策略(Apple / GPU / CPU)

    Apple Silicon(M1–M4

    • 優先考慮 MLX + Qwen3.5 / Gemma 4 / Llama 家族的 8–9B 量化。
    • 善用像 Reddit 提到的 DFlash 推測解碼:在 9B 級模型上可有 ~4× decoding 加速,對多代理回合式對話很有感。

    💡 關鍵: ~4× decoding 加速代表回合式多代理互動的體感差異會非常明顯,特別是在本地裝置上。

    • 32GB RAM 以上:可以考慮 27B 量級,但要注意 context 與 batch size 的 trade-off。

    桌機 GPUNVIDIA

    • llama.cpp / vLLM / TensorRT-LLM 都可;若用 llama.cpp,可利用社群的 llm-server v2 --ai-tune 自動調 flags,實測 Qwen3.5-27B+50% tok/s 以上,對長任務吞吐提升很明顯。

    💡 關鍵: +50% tok/s 以上的提升,對長任務與大量工具呼叫會直接反映在整體吞吐量上。

    CPU

    • 參考 Gemma 4CPU 的實測,8B 級模型仍可用,但要:
    • 選擇更小模型 + 更 aggressive 量化(如 Q4_K_M);
    • 控制 max_tokens,避免一次生成太長;
    • 任務設計上用更多工具、多輪互動,降低單次生成長度。

    實作範例:從零到一的本地多代理 workflow

    假設你要在 Mac(M2 Pro + 32GB)上做一個:

    指定資料夾路徑 → 自動整理檔案並產出整理報告 → 同時讓知識庫助理可以回答「這次整理做了什麼?」

    以下用簡化版 pseudo-code 示意 GAIA 專案結構與關鍵程式碼。

    專案結構

    my-gaia-local-agents/
    ├── gaia_config.yaml       # GAIA 全域設定(LLM, 日誌, sandbox)
    ├── agents/
    │   ├── planner_agent.py
    │   ├── fileops_agent.py
    │   └── knowledge_agent.py
    ├── tools/
    │   ├── file_tools.py      # 檔案操作工具
    │   └── vectordb_tools.py  # 內網知識庫檢索
    ├── workflows/
    │   └── organize_and_report.py
    └── main.py
    

    1. 定義本地 LLM backend

    假設你用 Ollama + Qwen2.5 7B 作為通用模型(Apple / GPU / CPU 都能跑):

    # gaia_config.yaml
    llm_backends:
      default:
        type: http
        base_url: "http://localhost:11434/v1"
        model: "qwen2.5:7b"
        # 重要:明確限制 context 和輸出長度,避免拖慢整體 workflow
        params:
          max_tokens: 512
          temperature: 0.3
          top_p: 0.9
    
    logging:
      level: INFO
      file: "logs/gaia.log"
    
    sandbox:
      file_root: "./sandbox_root"   # FileOps 只允許在這之下操作
      allow_network: false           # 預設工具無網路
    

    實際好處:

    • HTTP LLM backend,你可以隨時切換到 llama.cpp server / MLX server / vLLM 而不用改 Agent 邏輯。
    • max_tokens + temperature 控制對本地效能非常關鍵,避免一個 Agent 把整個 context 塞爆。

    2. 定義工具:檔案操作與向量檢索

    # tools/file_tools.py
    from gaia import tool
    from pathlib import Path
    
    SANDBOX_ROOT = Path("./sandbox_root").resolve()
    
    @tool(name="list_files", description="列出目錄下的檔案與大小")
    def list_files(path: str) -> dict:
        root = (SANDBOX_ROOT / path).resolve()
        assert root.is_dir() and str(root).startswith(str(SANDBOX_ROOT)), "path out of sandbox"
        files = []
        for p in root.iterdir():
            if p.is_file():
                files.append({"name": p.name, "size": p.stat().st_size})
        return {"files": files}
    
    @tool(name="move_file", description="移動檔案到新資料夾")
    def move_file(src: str, dst: str) -> str:
        src_path = (SANDBOX_ROOT / src).resolve()
        dst_path = (SANDBOX_ROOT / dst).resolve()
        assert str(src_path).startswith(str(SANDBOX_ROOT))
        assert str(dst_path).startswith(str(SANDBOX_ROOT))
        dst_path.parent.mkdir(parents=True, exist_ok=True)
        src_path.rename(dst_path)
        return f"moved {src} to {dst}"
    

    幾個關鍵點:

    • @tool 裝飾器,GAIA 會自動產生給 LLM 用的工具 schema
    • 使用 sandbox_root + startswith 檢查,避免 Agent 亂動整個檔案系統。

    向量檢索工具(略寫):

    # tools/vectordb_tools.py
    from gaia import tool
    from my_vectordb import search
    
    @tool(name="kb_search", description="在內網知識庫中搜尋相關文件")
    def kb_search(query: str, top_k: int = 5) -> list:
        return search(query, top_k=top_k)
    

    3. 定義 Agents

    # agents/planner_agent.py
    from gaia import Agent
    from gaia.llm import LLMClient
    
    llm = LLMClient.from_config("default")
    
    planner = Agent(
      name="planner",
      llm=llm,
      tools=[],  # Planner 不直接動檔案
      system_prompt="""
    你是任務規劃專家。使用簡短 JSON 回覆,包含 steps,
    每個 step 指定要由哪個 agent 執行(fileops 或 knowledge)。
    """
    )
    
    # agents/fileops_agent.py
    from gaia import Agent
    from gaia.llm import LLMClient
    from tools.file_tools import list_files, move_file
    
    llm = LLMClient.from_config("default")
    
    fileops = Agent(
      name="fileops",
      llm=llm,
      tools=[list_files, move_file],
      system_prompt="""
    你負責安全地整理檔案,只能使用提供的工具操作 sandbox 內的路徑。
    每次操作前先列出檔案,再決定如何移動。
    """
    )
    
    # agents/knowledge_agent.py
    from gaia import Agent
    from gaia.llm import LLMClient
    from tools.vectordb_tools import kb_search
    
    llm = LLMClient.from_config("default")
    
    knowledge = Agent(
      name="knowledge",
      llm=llm,
      tools=[kb_search],
      system_prompt="""
    你是內網知識庫助理,先呼叫 kb_search 找到相關內容,
    再用找到的內容回答使用者問題。
    """
    )
    

    4. Workflow:協調多代理 + 任務恢復

    # workflows/organize_and_report.py
    import json
    from gaia import Workflow
    from agents.planner_agent import planner
    from agents.fileops_agent import fileops
    from agents.knowledge_agent import knowledge
    
    class OrganizeWorkflow(Workflow):
        def run(self, target_dir: str):
            # 1) 用 planner 拆解任務
            plan = planner.run_sync(f"請為資料夾 {target_dir} 制定整理計畫,輸出 JSON 格式。")
            steps = json.loads(plan["content"]).get("steps", [])
    
            history = []
            for step in steps:
                agent_name = step["agent"]
                instruction = step["instruction"]
    
                if agent_name == "fileops":
                    result = fileops.run_sync(instruction)
                elif agent_name == "knowledge":
                    result = knowledge.run_sync(instruction)
                else:
                    continue
    
                history.append({"agent": agent_name, "instruction": instruction, "result": result})
                self.save_checkpoint(history)  # **關鍵:長任務可恢復**
    
            return history
    
        def save_checkpoint(self, state):
            with open("./state/organize_checkpoint.json", "w") as f:
                json.dump(state, f, ensure_ascii=False, indent=2)
    

    最後入口:

    # main.py
    from workflows.organize_and_report import OrganizeWorkflow
    
    if __name__ == "__main__":
        wf = OrganizeWorkflow()
        history = wf.run("downloads")
        print("任務完成,歷史記錄:")
        print(history)
    

    實際好處:

    • Workflow + checkpoint 讓你可以安全跑幾十分鐘的整理任務,中途 crash 可恢復。
    • 檔案操作與知識庫檢索被清楚拆成不同 Agent,權限與日誌都更好控管。

    建議與注意事項

    1. 模型大小與上下文限制:先決策、再堆功能

    • 本地 Agent 系統最常見的坑是 一開始就選太大模型 + 太大 context
    • Apple 32GB + 27B 模型 + 128k context 幾乎一定卡。
    • 建議流程:
    • 先用 7–9B 模型 + 8k–16k contextMVP
    • 觀察 GAIA 的日誌與 latency 再決定是否升級模型或 context
    • 用「多輪互動 + 工具」彌補模型容量,而不是盲目換大模型。

    2. 工具執行安全 & sandbox 設計

    • 檔案操作請一定:
    • 使用 sandbox root + path 檢查(如上例)。
    • 禁用 rm -rf 類型操作,必要時只暴露「移動到 trash」工具。
    • Agent 需要網路:
    • proxy 工具封裝(如 http_get),不要讓 Agent 任意發 HTTP
    • 在工具層加 domain allowlist

    3. 長任務與錯誤恢復

    • GAIA workflow 必須:
    • 對每個工具呼叫與 Agent 回應寫入結構化 logJSON)。
    • 週期性 checkpoint 中間狀態(如上例 save_checkpoint)。
    • 常見錯誤種類:
    • LLMJSON 解析失敗 → 在 workflow 層加入重試 + 自我修復 prompt(要求模型只回合法 JSON)。
    • 工具拋例外(路徑不存在、權限錯)→ 在工具層 catch,回傳結構化錯誤訊息給 Agent 解讀,而不是直接 crash。

    4. 本地 vs 雲端 Agent:怎麼選?

    適合用 GAIA 本地落地的場景

    • 需要處理敏感檔案 / 內網知識庫(法務、醫療、R&D 原始碼)。
    • 需要低延遲 + 高互動頻率的工具呼叫(檔案整理、CI/CD 助理、開發環境助手)。
    • 有穩定的本地硬體(Mac Studio / 工作站 / 甚至改造手機當常駐節點,如 Xiaomi + Ollama 案例)。

    仍應用雲端 Agent 平台的情境

    • 短期 PoC,需要快速試多種 SOTA 模型(如 GPT-4.1, Claude 3.7)。
    • 任務高度 bursty,需要按需擴容,或併發數百以上的 Agent 任務。
    • 需要平台級功能(RBAC、審計、隊列管理)而你不想自己實作。

    實務建議:

    • 先在雲端 Agent 平台驗證 prompt、工具設計、整體 UX
    • 穩定後再把核心工作流搬到 GAIA + 本地 LLM 上,對敏感資料與長任務特別划算。

    總結:GAIA 提供的是一個 在本地硬體上「可觀測、可控、可擴展」的多代理骨架。搭配 Apple Silicon/桌機 GPU 的本地 LLM 加速(--ai-tuneDFlash 等),你可以在單機上跑出相當實用的 AI Agents,而不再被雲端 API 綁死。關鍵是:先把 Agent / 工具 / Workflow 的邊界切清楚,再談模型與效能優化

    🚀 你現在可以做的事

    • 先在 Ollamallama.cpp 上跑一個 7B 模型
    • 按本文結構拆出 plannerfileopsknowledge 三個 Agent
    • 先用 sandbox_root 做安全檔案操作,再逐步加上 checkpointkb_search
  • Kubernetes 安全跑 AI Agent 的四種隔離架構

    Kubernetes 安全跑 AI Agent 的四種隔離架構

    📌 本文重點

    • 不要讓 Agent 直接在應用 Pod 裡執行 shell
    • 把程式碼執行抽象成獨立 Exec API
    • 依需求從 Sidecar 演進到 Dispatcher + microVM

    在 Kubernetes 上跑 AI Agent,最大痛點不是「模型怎麼接」,而是:我要讓 Agent 能執行程式碼,但又不想整個 cluster 變成 root shell 即時互動環境。這一篇用四種實戰隔離模式,從 完全禁止 exec短暫 sandbox,給你一個能落地、能演進、不會把未來自己鎖死的設計路線。

    兩個基本原則先講清楚:
    1. 不要讓 Agent 直接在應用 Pod 裡 exec /bin/sh
    2. 把「執行程式碼」當成一個獨立產品線,至少要有 API、隔離與審計


    重點說明

    1. 四種 Exec 隔離模式與威脅模型

    1. No-Exec 基線
    2. 威脅模型:Agent 只能讀資料、呼叫 API,不允許任意程式碼或 shell。防止「自動化腳本變挖礦機」。
    3. 使用情境:報表、客服、內部 FAQ、只讀資料查詢。
    4. 成本/延遲:最低;只要你有 Agent,就應該先有這個 baseline

    💡 關鍵: 先建立 No-Exec 基線,把「不執行程式碼也能運作」當成預設安全狀態,之後才有空間加能力而不是拆炸彈。

    1. Sidecar Exec Server
    2. Agent Pod 旁邊掛一個 sidecar 容器,提供 受限的程式碼執行 API(例如只允許 Python,禁網路)。
    3. 威脅模型:Agent 若被 prompt 注入,最多傷到 該 Pod 的 sandbox,不會拿到整個 node。
    4. 使用情境:需要頻繁、小量運算(轉檔、格式化、查詢小 DB)。
    5. 成本/延遲:啟動快、延遲低,但隔離仍與主容器共享同個 Pod 命名空間,需嚴控權限。

    6. 獨立 Exec Pod(長駐)

    7. 單獨 Deployment/Pod 提供 Exec API,Agent 透過 Service/HTTP 呼叫。
    8. 威脅模型:即使 Agent 被攻擊,影響範圍收斂在 Exec Pod 的 namespace / RBAC
    9. 使用情境:多 Agent 共用運算資源、內部「程式碼執行服務」。
    10. 成本/延遲:多一跳網路,但隔離與資源配額更好控制。

    11. 短暫性 Exec Dispatcher(Job / ephemeral Pod)

    12. 每次高風險程式碼執行,Agent 呼叫 Dispatcher API → 建立一次性 Job/Pod → 執行完就刪
    13. 威脅模型:攻擊者很難長期駐留,每次都是新 sandbox;配合 NetworkPolicy、seccomp,接近 microVM 的防護。
    14. 使用情境:自動修 production bug、CI 內部 code 修補、批次資料轉換。
    15. 成本/延遲:啟動開銷高,但安全性最佳、審計最容易。

    💡 關鍵: 短暫性 Dispatcher 每次執行都重建 sandbox,換取較高延遲,換來接近 microVM 等級的隔離與容易審計。


    2. 把 Exec 抽象成 API:Agent 只看見一個能力

    不論選哪種模式,推薦都做成一個 Exec API 抽象層

    • Agent 視角:呼叫 /exec,送程式碼和限制(languagetimeoutresources),拿回 stdout/stderr
    • 基礎設施視角:背後可以從 Sidecar → 獨立 Pod → Dispatcher/Job 演進,而介面不變。

    這樣可以避免那種常見悲劇:

    「先在應用容器裡 subprocess.run 上線,等 Agent 用到 everywhere 之後才發現安全有洞,想拆出來卻動不了。」

    💡 關鍵: 先穩定 Exec API 介面,再替換背後實作,可以避免一開始圖方便埋下日後無法重構的安全技術債。


    3. 與 microVM(如 SuperHQ)怎麼搭配?

    像 SuperHQ 這種 microVM 沙盒 的隔離更硬(虛擬化層級),但成本與管理更重。實務上可以:

    • Kubernetes 內部先用 短暫性 Exec Dispatcher 做 cluster 級隔離。
    • 對於「真的可能動 production」的改動,Dispatcher 再往下調用像 SuperHQ 的 microVM sandbox,做二層隔離。

    關鍵是:不要一開始就把 microVM 當銀彈,反而要先把 API、審計、RBAC 的基本盤打好。


    實作範例

    1. 給 Agent 的 Exec API 抽象

    假設你在後端提供一個 POST /exec 給 Agent 使用:

    // TypeScript / pseudo-code
    interface ExecRequest {
      language: 'python' | 'bash';
      code: string;
      timeout_ms?: number;
      memory_mb?: number;
      audit_metadata?: {
        agent_id: string;
        user_id: string;
        task_id: string;
      };
    }
    
    interface ExecResponse {
      stdout: string;
      stderr: string;
      exit_code: number;
      sandbox_id: string;
      started_at: string;
      finished_at: string;
    }
    
    // Agent 只呼叫這個
    async function agentExec(req: ExecRequest): Promise<ExecResponse> {
      const resp = await fetch("https://exec-gateway.internal/exec", {
        method: 'POST',
        headers: { 'Content-Type': 'application/json' },
        body: JSON.stringify(req),
      });
      return resp.json();
    }
    

    背後可以是 Sidecar、獨立 Pod 或 Dispatcher,Agent 完全不需要知道。


    2. Sidecar Exec Server:最小可行安全版

    Pod 範例(主容器 + Sidecar)

    apiVersion: v1
    kind: Pod
    metadata:
      name: agent-with-sidecar
    spec:
      containers:
        - name: agent
          image: myorg/agent:latest
          env:
            - name: EXEC_SERVER_URL
              value: "http://127.0.0.1:8080"  # 只在 Pod 內可達
    
        - name: exec-sidecar
          image: myorg/exec-sandbox:py3
          securityContext:
            runAsNonRoot: true
            runAsUser: 1000
            allowPrivilegeEscalation: false
            readOnlyRootFilesystem: true
            seccompProfile:
              type: RuntimeDefault
            capabilities:
              drop: ["ALL"]
          volumeMounts:
            - name: tmp
              mountPath: /tmp
      volumes:
        - name: tmp
          emptyDir: {}
    

    注意幾點:

    • Sidecar 用 readOnlyRootFilesystem: true,只給一個 emptyDir 當 scratch space。
    • seccompProfile: RuntimeDefault + capabilities: drop: ["ALL"] 擋掉大多數系統呼叫。
    • exec server 只在 localhost 對 agent 開放。

    Sidecar 容器內部可用像這樣的 server:

    # exec-sidecar main.py (簡化示意)
    from fastapi import FastAPI
    import subprocess, tempfile, textwrap
    
    app = FastAPI()
    
    @app.post("/exec")
    async def exec_code(req: dict):
        code = req["code"]
        timeout = min(req.get("timeout_ms", 5000) / 1000, 10)
        with tempfile.NamedTemporaryFile(suffix=".py", dir="/tmp", delete=False) as f:
            f.write(code.encode("utf-8"))
            path = f.name
        p = subprocess.run(
            ["python", path],
            stdout=subprocess.PIPE,
            stderr=subprocess.PIPE,
            timeout=timeout,
            check=False,
            text=True,
        )
        return {
            "stdout": p.stdout,
            "stderr": p.stderr,
            "exit_code": p.returncode,
        }
    

    3. 獨立 Exec Pod + NetworkPolicy 限制網路

    Exec Service Deployment

    apiVersion: apps/v1
    kind: Deployment
    metadata:
      name: exec-service
      namespace: agent-exec
    spec:
      replicas: 2
      selector:
        matchLabels:
          app: exec-service
      template:
        metadata:
          labels:
            app: exec-service
        spec:
          securityContext:
            runAsNonRoot: true
          containers:
            - name: exec
              image: myorg/exec-sandbox:py3
              securityContext:
                allowPrivilegeEscalation: false
                readOnlyRootFilesystem: true
                seccompProfile:
                  type: RuntimeDefault
              resources:
                limits:
                  cpu: "1"
                  memory: "1Gi"
    

    NetworkPolicy:只允許 Agent Namespace 打進來,不允許對外上網

    apiVersion: networking.k8s.io/v1
    kind: NetworkPolicy
    metadata:
      name: exec-deny-egress
      namespace: agent-exec
    spec:
      podSelector: { matchLabels: { app: exec-service } }
      policyTypes: ["Ingress", "Egress"]
      ingress:
        - from:
            - namespaceSelector:
                matchLabels:
                  name: agent
      egress: []  # 不允許任何外連
    

    搭配 RBAC:只給 Agent ServiceAccount 能呼叫 Exec Service,不給其他 Pod 用。


    4. 短暫性 Exec Dispatcher:一次一個 Job

    Dispatcher 可以是一個常駐服務,收到 Agent 的 Exec Request 後,動態建一個 Job:

    apiVersion: batch/v1
    kind: Job
    metadata:
      generateName: exec-task-
      namespace: agent-exec
    spec:
      ttlSecondsAfterFinished: 60
      template:
        spec:
          restartPolicy: Never
          containers:
            - name: runner
              image: myorg/exec-runner:py3
              command: ["python", "/runner/run.py"]
              env:
                - name: CODE_B64  # 程式碼以 base64 傳入
                  value: "{{ .code_b64 }}"
              securityContext:
                runAsNonRoot: true
                allowPrivilegeEscalation: false
                readOnlyRootFilesystem: true
                seccompProfile:
                  type: RuntimeDefault
    

    Dispatcher 伺服器(簡化 pseudo-code):

    // create Job + watch logs/exit code
    async function handleExec(req: ExecRequest): Promise<ExecResponse> {
      const jobName = await k8sCreateJobFromTemplate(req.code);
      const { logs, exitCode } = await waitForJobAndCollectLogs(jobName);
      await writeAuditLog({
        sandbox_id: jobName,
        ...req.audit_metadata,
        code_hash: hash(req.code),
        exit_code: exitCode,
      });
      return {
        stdout: logs.stdout,
        stderr: logs.stderr,
        exit_code: exitCode,
        sandbox_id: jobName,
        started_at: new Date().toISOString(), // 真實實作請用 Job status
        finished_at: new Date().toISOString(),
      };
    }
    

    好處:

    • 多租戶隔離:可依 tenant 建不同 namespace,Dispatcher 根據 audit_metadata.tenant_id 選 namespace。
    • 審計完整:所有指令、結果都在 Job + audit log 裡,符合合規需求。

    建議與注意事項

    1. 多租戶 / 多 Agent:Namespace + RBAC 要先設計好

    • 每個 tenant / 敏感業務線,用不同 namespace + ServiceAccount
    • RBAC 控制:
    • 哪些 Agent 可以呼叫哪些 Exec Service / Dispatcher API。
    • 哪些 ServiceAccount 可以在哪些 namespace 建 Job。
    • 禁用 kubectl exec 這類廣泛權限,改成只允許建立特定 label 的 Job。

    2. 記錄與審計:把 Agent 當「能下命令的人」對待

    最少要記:

    • 誰發的指令agent_id, user_id, tenant_id
    • 執行了什麼:程式碼 hash / snippet、image name、namespace。
    • 結果:exit code、stdout/stderr 片段、耗時、資源消耗。

    實務建議:

    • 把審計資料寫到 集中 log(如 Loki / Elasticsearch),設 index pattern 方便 incident 回溯。
    • 敏感環境可以啟用 只讀審計存儲(append-only S3、WORM 存儲)

    3. 選型決策表:怎麼組合四種模式?

    公司安全等級 / 場景 建議模式組合
    內網 demo、無敏感資料 No-Exec 基線;需要運算再加 Sidecar Exec
    一般內部工具,允許 Agent 自動改測試 / 小腳本 獨立 Exec Pod + NetworkPolicy + RBAC;高風險任務用 Dispatcher。
    有合規需求(金融、醫療)、多租戶 SaaS 短暫性 Exec Dispatcher + 多 namespace + 強 RBAC + 完整改審計。
    能直接動 production(自動修 bug、自動部署) Dispatcher + microVM(如 SuperHQ)疊加;需要人類 review gate + 強審計。

    實務路線建議:

    1. 先上 No-Exec baseline:把所有「執行程式碼」需求集中到一個 Exec API 服務。
    2. 需求變多 → 用 獨立 Exec Pod + NetworkPolicy 接手 Sidecar。
    3. 需要自動動 production → 引入 短暫性 Exec Dispatcher +(選配)microVM

    最後再提醒一次:最危險的不是沒用 sandbox,而是先圖方便在應用容器裡直接 exec shell,等 Agent 真的有價值時,整個 cluster 已經跟它綁死,誰都不敢動。現在就把 Exec 抽出來,之後演進才有空間。


    🚀 你現在可以做的事

    • 檢查現有 Agent 是否在應用 Pod 內直接 execsubprocess.run,列出需遷移的路徑
    • 在開發環境先實作一個簡單的 POST /exec 抽象層,後端先接到一個獨立 Exec Pod
    • 為高風險任務 PoC 一個「短暫性 Exec Dispatcher + Job」流程,並加上最基本的審計欄位
  • 讓 LLM 真的會做研究:拆解 ResearchEVO

    📌 本文重點

    • ResearchEVO 讓 LLM 直接在程式碼空間做演化搜尋
    • 論文寫作以 sentence-level RAG 確保可檢索與可驗證
    • 可拆解為可落地的 Auto-Research / Auto-ABTest / Auto-Feature-Engineering 流程

    多數所謂「AI 做研究」還停留在幫你寫 code、寫報告;ResearchEVO 解決的痛點是:讓 LLM 直接在程式碼空間裡做演化搜尋、自己排實驗、自己寫論文。從工程角度看,它提供了一個可實作的 blueprint,讓你能在公司內做 Auto-Research / Auto-ABTest / Auto-Feature-Engineering,而不是只多一個聊天機器人。


    重點說明

    1. 演化階段:LLM 驅動的「程式碼空間搜索」

    ResearchEVO 的核心是 LLM + 演化算法 操作「程式碼本身」:

    1. 程式碼空間表示
    2. 個體 = 一份可執行程式碼(例如一個 train.py 或一個 model 定義 + config)。
    3. 用 LLM 實作 變異 / 交配
      • 變異:改損失函數、網路結構、優化器、訓練 schedule。
      • 交配:將兩個高適應度方案的關鍵設計融合。
    4. 不做 AST 級別操作也可以,實務上多數情況直接用 自然語言 prompt + code diff 就夠用。

    5. fitness 評估與搜索控制

    6. fitness 只看 metrics:例如 val_accuracyAUClatency
    7. Search loop:
      1. LLM 生成/修改程式碼。
      2. 提交到 GPU/雲端排程系統跑實驗。
      3. 收集結果 → 更新種群 → 再交給 LLM 反思與生成。
    8. 約束控制 避免亂飛:
      • 硬約束:只允許改特定檔案 / 函數;強制保持 I/O 介面不變。
      • 軟約束:LLM prompt 中加入「只動這幾個維度」「保留下列設計」。

    💡 關鍵: 把 fitness 完全交給客觀 metrics(如 val_accuracylatency),可以讓 LLM 的創意探索與實際效能緊密對齊。

    1. 對接現有 GPU / 雲端排程
    2. ResearchEVO 本身不是新的 scheduler,而是:
      • 上游:LLM 生成/修改 code & config。
      • 下游:把 job 提交給你已有的 Kubernetes / Slurm / Airflow / SageMaker / Vertex AI
    3. 你只需要做一層 adapter,把 ExperimentSpec → Job 映射好。

    2. 寫作階段:sentence-level RAG + 驗證

    演化出最佳演算法後,ResearchEVO 的寫作階段是在做 「可檢索、可驗證」的自動論文生成

    1. 論文結構模板
    2. 先固定一個論文 schema(Title / Abstract / Intro / Method / Exp / Discussion / Related Work)。
    3. 每個 section 再細分成 段落 level 的子任務,讓 LLM 聚焦生成。

    4. 句子級 RAG(sentence-level RAG)

    5. 檢索單位不是 chunk,而是句子
      • 實驗 log、表格、程式碼註解、對照文獻都 embed 成 sentence vector。
      • 每當 LLM 要生成一個句子,就檢索最相關的 3~5 個 evidence。
    6. 這樣可以:
      • 降低 context 噪音。
      • 讓每句話都有「引用依據」。

    💡 關鍵: 以「句子」為檢索單位,讓每一句論文敘述能精確對應到 3–5 條證據,大幅降低幻覺與錯引。

    1. 事實核查與防幻覺
    2. 對每一句包含數字、claim 的句子,送到 Verifier agent
      • 檢查是否能在實驗結果 / log / paper corpus 中找到支持證據。
      • 找不到就要求 LLM 重寫或改成不那麼強的 claim。
    3. 論文內引用的實驗表格、圖表,ID 必須能對回到真實跑出的 artifacts(例如 MLflow run id / S3 path)。

    3. 如何落地 Auto-Research / Auto-ABTest / Auto-Feature-Engineering

    你不一定要重現完整 ResearchEVO。實務上可以拆成:

    • 一個 orchestrator(Airflow / Prefect / Dagster / LangGraph)
    • 幾個 LLM agent(code 生成 / 反思 / 寫作)
    • 一個實驗調度器(K8s / Slurm / 自家平台)
    • 一個結果分析工具(MLflow / Weights & Biases / 自製 dashboard)

    核心流程:

    1. 目標定義
    2. LLM 生成候選方案
    3. 實驗排程跑
    4. 收集結果 & 自動分析
    5. LLM 反思改進
    6. 收斂後自動產出報告/論文

    💡 關鍵: 把「做研究」拆成可編排的 6 步驟流程後,Auto-Research 就變成一組可插拔模組,而不是神秘黑盒。


    實作範例

    以下用 Python + Airflow/LangGraph 說明一個簡化版 pipeline。

    1. 演化 loop 的 code 表示與變異

    假設我們把「演算法個體」抽象成一個簡單的 spec:

    from pydantic import BaseModel
    from typing import Dict, Any
    
    class AlgoSpec(BaseModel):
        name: str
        base_script: str              # 參考模板路徑
        hyperparams: Dict[str, Any]   # 学习率, layer 数等
        patches: str                  # LLM 產生的程式碼 patch (diff-like)
    

    讓 LLM 做「變異」:

    SYSTEM_PROMPT = """你是資深 ML 研究員,幫我在保持 I/O 介面不變的前提下,
    只修改 loss function、網路架構與訓練策略。輸出 unified diff 格式的 patch。"""
    
    user_msg = f"""
    目前的程式碼:
    {current_code}
    
    本輪實驗結果:
    val_accuracy = {metrics['val_acc']}
    train_loss_curve = {metrics['loss_curve'][:10]}
    
    請根據結果給出改進 patch。"""
    
    resp = llm.chat([
        {"role": "system", "content": SYSTEM_PROMPT},
        {"role": "user", "content": user_msg},
    ])
    
    patch = extract_patch(resp)  # 解析成純文本 diff
    new_spec = AlgoSpec(
        name=f"algo_v{gen_id}",
        base_script="templates/train_base.py",
        hyperparams={"lr": 3e-4, "hidden_dim": 512},
        patches=patch,
    )
    

    接著用簡單的 patch engine 把 diff 套進檔案,產生下一版 train.py


    2. 串接實驗排程(以 K8s Job 為例)

    假設有一個內部的 submit_experiment(spec: AlgoSpec) -> str 會幫你:

    1. 打包 code + config 到 image/volume。
    2. 生成 K8s Job yaml。
    3. 提交到 cluster,回傳 job_id

    簡化 pseudo-code:

    import kubernetes as k8s
    
    def submit_experiment(spec: AlgoSpec) -> str:
        job = build_k8s_job(spec)  # 填入 image, args, resource 限制
        api = k8s.client.BatchV1Api()
        resp = api.create_namespaced_job(namespace="research", body=job)
        return resp.metadata.name
    
    # fitness 評估:等 job 完成,讀取 metrics.json
    
    def fetch_fitness(job_id: str) -> float:
        # 假設每個 job 在 /results/metrics.json 寫入 val_acc
        metrics = load_from_object_store(f"results/{job_id}/metrics.json")
        return metrics["val_acc"]
    

    你只要確保:

    • 所有實驗都寫出 統一格式的 metrics.json / config.json
    • job name、run id 能對應回實驗記錄系統(MLflow、W&B)。

    3. Orchestrator:以 LangGraph 為例構建演化 DAG

    LangGraph 可以把 LLM、工具、迭代邏輯包成圖:

    from langgraph.graph import StateGraph, END
    
    class EvoState(BaseModel):
        population: list[AlgoSpec]
        history: list[dict]
        generation: int
    
    
    def propose_candidates(state: EvoState) -> EvoState:
        # 用 LLM 對每個 top-k spec 做變異
        ...
    
    
    def run_experiments(state: EvoState) -> EvoState:
        # 提交所有 candidates,等待完成,回寫 fitness
        ...
    
    
    def select_and_check_stop(state: EvoState) -> str:
        if state.generation >= MAX_GEN:
            return END
        return "propose"
    
    
    graph = StateGraph(EvoState)
    
    graph.add_node("propose", propose_candidates)
    graph.add_node("run", run_experiments)
    
    graph.add_edge("propose", "run")
    
    graph.add_conditional_edges("run", select_and_check_stop, {"propose": "propose", END: END})
    
    evo_app = graph.compile()
    

    後面你可以在另一個 graph 裡接上 writing phase:以最優 AlgoSpec + 實驗結果為輸入,調用 sentence-level RAG agent 生成報告或論文。


    4. sentence-level RAG 實作簡例

    from sentence_transformers import SentenceTransformer
    from qdrant_client import QdrantClient
    
    encoder = SentenceTransformer("all-mpnet-base-v2")
    qdrant = QdrantClient(host="localhost", port=6333)
    
    # 建 index:把實驗 log、表格、文獻拆成句子
    
    def index_sentences(sentences: list[str], meta: list[dict]):
        vecs = encoder.encode(sentences)
        qdrant.upsert(
            collection_name="research_corpus",
            points=[{"id": i, "vector": v, "payload": meta[i]} for i, v in enumerate(vecs)],
        )
    
    
    def retrieve_evidence(query_sentence: str, k: int = 5):
        qvec = encoder.encode([query_sentence])[0]
        hits = qdrant.search("research_corpus", query_vector=qvec, limit=k)
        return hits
    
    # LLM 每寫一句話前,先取 evidence
    
    claim = "在 QEC 任務上,我們的演算法平均錯誤率降低了 12.3%。"
    evidences = retrieve_evidence(claim)
    llm_context = format_evidence(evidences)
    
    resp = llm.chat([
        {"role": "system", "content": "根據下面的實驗證據,生成一個對應的結論句。"},
        {"role": "user", "content": llm_context},
    ])
    

    再加一個 Verifier:重新檢索一次,看 claim 是否可被證據支持,不行就標記為需重寫。


    建議與注意事項

    1. 實驗結果格式不一致

    • :每個實驗 script 隨意 print,LLM/agent 很難 parse,fitness 評估混亂。
    • 建議
    • 強制所有實驗輸出 統一 schema 的 JSON,例如:
      • metrics.json{"val_acc": 0.92, "train_time": 360}
      • config.json(完整 hyperparams)。
    • schema 驗證(Pydantic)檢查 artifact;不合法就標記這個個體為低適應度。

    2. LLM 收斂到壞思路 / mode collapse

    • :LLM 易過度放大小樣本成功設計,反覆微調同一個局部解,失去探索。
    • 建議
    • 搜索策略上引入 探索度控制:族群裡保留一部分「純隨機變異」個體。
    • 每 N 代重啟一次高多樣性的種群(借鑑 evolutionary algo 的 restart 策略)。
    • LLM prompt 中顯式要求「給出三類不同思路」,避免只改超參數。

    3. 成本與資源控制

    • :LLM + GPU 雙重成本,很容易跑成燒錢機器。
    • 建議
    • 在 orchestrator 層面設 hard budget:最大世代數、最大 job 數、最大雲端花費。
    • 用低成本模型做日常迭代,大模型只用在 跨世代總結 / 報告撰寫
    • 優先讓 LLM 做 靜態檢查(例如檢查明顯錯誤設計)再送去跑 GPU。

    4. LLM 對數據科學工具的錯用

    • :LLM 可能亂用 API(例如 pandas groupby 用錯、Sklearn split 漏掉 stratify),結果漂亮但不可信。
    • 建議
    • 對關鍵 API(train/test split、metrics 計算、cross-validation)儘量做成 封裝好的 utility 函數,禁止 LLM 自己寫這些低級邏輯。
    • 在 pipeline 裡加入 sanity check step
      • label 分布是否合理?
      • baseline 是否被超過?
      • 結果是否疑似 data leakage?

    5. 開始時先做「窄版」

    • 不要一開始就做「全自動研究員」。較務實的起點:
    • Auto-ABTest:讓 LLM 只改部分業務策略 / feature 配置,實驗系統沿用現有 AB 平台。
    • Auto-Feature-Engineering:LLM 只負責產生特徵轉換 pipeline(例如 SQL / PySpark),模型訓練沿用既有框架。
    • 寫作階段先只產出 自動實驗報告(非論文),幫團隊省時間。

    從工程的角度看,ResearchEVO 真正帶來的啟發是:

    把「做研究」拆成可編排的演化搜尋 + sentence-level RAG 寫作兩個 pipeline,然後用現成的 LLM、orchestrator、GPU 排程系統拼起來。

    只要你公司已經有基本的實驗平台,做一個自己的「輕量版 ResearchEVO」其實沒有想像中難,但能快速幫你把實驗速度和研究產出拉一個量級。

    🚀 你現在可以做的事

    • 先為現有實驗腳本統一輸出 metrics.json / config.json schema,打好 Auto-Research 地基
    • 選一個任務,用一個 LLM agent + 既有 K8s/Slurm 搭出最小可用的演化搜尋 loop
    • 把歷史實驗 log 拆成句子建一個向量索引,試做 sentence-level RAG 自動實驗報告生成
  • In-Place Test-Time Training 讓模型邊推理邊變強

    📌 本文重點

    • In-Place TTT 讓 LLM 在推理時就地微調
    • 只更新 MLP projection,成本可控又穩定
    • 對小模型與超長 context 任務效果特別明顯

    傳統 「先訓練後部署」 的模型,在上線後面對新 domain、新長文檔,只能靠 prompt/RAG「繞著問題走」,權重本身完全不會變。In-Place Test-Time Training(In-Place TTT)要解決的就是:

    在不重新訓練整個模型、不影響服務穩定性的前提下,讓 LLM 在推理過程中針對當前 context 做「就地微調」,即用即學。

    對開發者的直接好處:

    • 小模型 + 超長 context 的 任務表現大幅提升(paper 裡 0.4B 模型在 128k context 明顯變強)
    • 某些固定 domain(公司內知識庫、特定專案)可以在 session 內 自動做 domain adaptation,不用頻繁 retrain
    • 不需要新架構、不改 attention,只在 MLP projection 上動手腳,工程改動可控

    💡 關鍵: In-Place TTT 用少量 MLP 投影更新,就能在 128k 這種超長 context 下明顯強化 0.4B 等小模型的表現,達到「小模型大任務」的效果


    重點說明

    1. TTT 是什麼?為什麼舊做法不適合 LLM?

    Test-Time Training(TTT) 的想法很簡單:

    1. 推理時,先根據當前輸入做一點訓練(更新一小部分參數 = 快權重 fast weights
    2. 再用更新後的模型做真正的預測

    在 CV/小模型上,常見做法是加一個小 head、對自監督目標(rotation、jigsaw 等)做幾步 gradient update。

    但直接搬到 LLM 會踩坑:

    • 架構不兼容:很多 TTT 方案假設有額外 head 或特定 feature,LLM 一般沒有設計這種 TTT head
    • 計算太貴:如果動 transformer block 的多數權重,長 context 下反向傳播非常重
    • 目標不對齊:TTT 的 loss 不是 next-token prediction,會和原本的語言建模目標衝突,容易越調越壞

    In-Place TTT 的貢獻,就是解決這三個問題:

    • 不改架構,只把 MLP 最終 projection matrix 視為快權重
    • 只在這些 projection 上做反向,成本可控
    • 設計與 自回歸 NTP(next-token prediction)對齊 的訓練目標

    2. 為什麼選 MLP 最終 projection 當快權重?

    以典型 transformer block 的 FFN 為例:

    x -> W1 -> act -> W2 -> 殘差加回
    

    In-Place TTT 把 W2(MLP 最終 projection) 變成可更新快權重,原因:

    1. 局部但影響力大:W2 直接把非線性特徵投回主 hidden space,調這一層可以改變 token 的語義表徵,但不動 attention 結構
    2. 參數量適中:比動整個 block 或 embedding 便宜得多,長 context 反向成本可接受
    3. 穩定性好:不動 attention,有助於保持原模型的「語言能力」,在此之上做局部適配

    實務上的感受是:這種類似 LoRA 但只開在 MLP output projection 的調整方式,對長上下文裡的 pattern 適配非常有效,且容易控制範圍。

    💡 關鍵: 只動 MLP 的最後投影 W2,等於用最小的權重區塊,撬動整個 hidden space 的語義調整,兼顧效果與穩定性


    3. 如何設計與 next-token prediction 對齊的 TTT 目標?

    In-Place TTT 不再另外設計自監督任務,而是直接基於 自回歸 NTP

    • 你有一段長 context:[x1, x2, ..., xT]
    • 原本推理只 forward,loss 不回傳
    • 現在在部分 token 上:
    • 用原模型 logits 做 next-token cross-entropy
    • 但只對 MLP W2 回傳梯度並更新(其他權重 frozen)

    為了讓計算量可控,實作上會:

    • 把長 context 切成多個 blocks(例如每 512 或 1024 tokens)
    • 每個 block:
    • 先 forward 得到 loss
    • 只在該 block 上做一兩步梯度更新
    • 不回頭修正舊 block 的輸出(in-place)

    這樣:

    • 目標和原 pretrain 任務完全一致,不會「學歪」
    • 計算複雜度近似於「多做一輪 forward+backward」,可以和現有 KV cache/長 context 優化一起用

    4. 分塊更新如何兼容長上下文與多請求並行?

    對系統工程師來說,最大問題是:

    長 context + 反向傳播 + 多 request,會不會把 GPU 打爆?

    In-Place TTT 的分塊策略大致如下:

    • Block-wise TTT
    • Example:128k context,每 1k tokens 一塊,共 128 個 block
    • 每個 block:forward、算 loss、只更新 W2 的少量參數
    • 不需要保留整段的中間梯度,只需要當前 block 的 activations
    • 和 KV cache 相容
    • KV cache 還是照原本自回歸生成方式累積
    • TTT 僅對當前 block 的 MLP projection 做 backward,不需要對 KV 做反向
    • 多請求並行
    • 每個 request 自己帶一組「快權重 state」(或 delta)
    • 服務層可以:
      • 把 base 模型權重設為 read-only
      • 為每個 session 存一個 快權重 buffer(例如低秩 delta 或 mask 更新)

    這點和 KV cache 管理框架(vLLM, InfiniGen, H2O 等) 類似:

    • KV cache 管 context-dependent activations
    • 快權重則是 context-dependent 權重偏移

    兩者一起用時要特別小心記憶體分配和 eviction 策略:TTT 的 state 不宜無限制累積。

    💡 關鍵: 把 TTT 的更新設計成 per-session 的小型權重偏移,就能在保持多並發與穩定性的前提下,讓每個請求都「自己學自己」


    實作範例:在推理服務中加一層簡單的 In-Place TTT

    以下用 PyTorch 風格虛擬碼示意,重點是流程與邊界,而非完整訓練程式。

    1. 模型改造:標記可更新的 MLP projection

    class TTTMLP(nn.Module):
        def __init__(self, inner_dim, hidden_dim, enable_ttt=False):
            super().__init__()
            self.w1 = nn.Linear(hidden_dim, inner_dim)
            self.act = nn.GELU()
            self.w2 = nn.Linear(inner_dim, hidden_dim)
    
            # 只在 TTT 模式下允許 w2 被更新
            self.enable_ttt = enable_ttt
            for p in self.w1.parameters():
                p.requires_grad = False
            for p in self.w2.parameters():
                p.requires_grad = enable_ttt
    
        def forward(self, x):
            return self.w2(self.act(self.w1(x)))
    

    在整個 transformer 裡,只需要把原本 MLP 換成 TTTMLP(或只在指定層啟用 enable_ttt)。

    2. 推理 + In-Place TTT loop(單 request)

    def run_with_ttt(model, tokenizer, input_ids,
                     max_new_tokens=128,
                     ttt_block_size=1024,
                     ttt_steps=1,
                     ttt_lr=1e-4):
        """
        model: 已載入的 LLM,除了 MLP.w2 之外都 frozen
        input_ids: 長 context token ids
        """
        device = next(model.parameters()).device
        input_ids = input_ids.to(device)
    
        # 建一個專用 optimizer,只管 MLP.w2
        ttt_params = [p for n, p in model.named_parameters()
                      if p.requires_grad and 'mlp.w2' in n]
        optimizer = torch.optim.AdamW(ttt_params, lr=ttt_lr)
    
        model.eval()
    
        # === 1) 先在 context 上做 block-wise TTT ===
        for start in range(0, input_ids.size(1) - 1, ttt_block_size):
            end = min(start + ttt_block_size, input_ids.size(1) - 1)
            block = input_ids[:, start:end+1]  # [B, L_block+1]
    
            with torch.enable_grad():
                logits = model(block[:, :-1])  # predict next token
                target = block[:, 1:]
                loss = torch.nn.functional.cross_entropy(
                    logits.reshape(-1, logits.size(-1)),
                    target.reshape(-1),
                )
    
                optimizer.zero_grad()
                loss.backward()
                # 只會更新 MLP.w2
                optimizer.step()
    
        # === 2) 使用更新後的模型繼續生成 ===
        generated = model.generate(
            input_ids=input_ids,
            max_new_tokens=max_new_tokens,
            do_sample=False,
            use_cache=True,
        )
        return generated
    

    重點:

    • TTT 階段
    • torch.enable_grad() 打開梯度
    • 只在 context token 上跑 1~數步更新
    • 生成階段
    • 關掉梯度,只用更新後的快權重

    3. 服務層:何時開啟/關閉 TTT?

    可以在 serving config 裡加一個 flag:

    model:
      name: my-ttt-llm
      enable_ttt: true
      ttt_block_size: 1024
      ttt_steps: 1
      ttt_lr: 1e-4
      ttt_max_tokens: 32768   # 超過就不再做 TTT,避免過度漂移
    
    policy:
      enable_ttt_for:
        - domain: "enterprise_qa"
        - domain: "long_doc_summarization"
      disable_ttt_for:
        - domain: "safety_sensitive"
        - domain: "code_generation_prod"
    

    路由層可以依「任務類型」或「租戶設定」決定是否啟用 TTT。


    建議與注意事項

    1. 哪些任務適合/不適合開 TTT?

    適合:

    • Domain adaptation:企業內知識庫 QA、專案文件解讀、特定產品 FAQ
    • 超長 context 理解:法律條文、技術規格書、長期會議紀錄
    • 單 session 可犧牲一點穩定性、換取更高表現 的任務(例如 research 助理)

    不太適合:

    • 安全敏感場景(合規、法務、金融決策):
    • TTT 可能放大 prompt 中的偏見或惡意樣本
    • 多人共用同一快權重的情境
    • 不建議跨 user 共用 TTT state,否則有「資訊污染」風險
    • 需要行為高度穩定可重現 的任務(例如 production codegen、評測 pipeline)

    建議做法:

    • 預設 關閉 TTT,只對少數實驗/內部使用場景逐步開啟
    • 透過 A/B 測 和離線 eval 確認收益和風險

    2. 如何限制更新範圍,避免「越調越壞」?

    可以採幾個防護措施:

    1. 學習率和步數上限
    2. ttt_lr 通常比 finetune 更小(例如 1e-4 或更低)
    3. 每個 block 最多 1~2 步更新即可
    4. Layer 範圍限制
    5. 只開啟 中後段幾層的 MLP.w2,減少對基本語言能力的影響
    6. 正則化 / 參考權重
    7. 在 loss 中加入對 base 權重的 L2 正則
    8. 或採 低秩 delta/adapter(權重不直接改動,易於 reset)
    9. TTL / Reset 策略
    10. TTT state 掛在 session 上,session 結束就丟棄
    11. 長 session 內可定期 reset:例如每處理 64k token reset 一次

    3. 與 RAG、cache、LoRA 等架構的整合與踩坑

    與 RAG:

    • RAG 解決「資料更新」,TTT 解決「怎麼更好地用同一份長 context
    • 組合策略:
    • RAG 提供切好的 chunks
    • In-Place TTT 在讀完多個 chunks 後,讓模型更懂這批文件中常見的 schema/名詞
    • 踩坑:
    • 若檢索結果品質不穩,TTT 可能被噪音「帶偏」,建議在高 confidence 檢索結果上才啟用 TTT

    與 KV cache:

    • 注意 權重更新與 KV cache 一致性
    • 一般做法是 TTT 階段只用來更新權重,不直接用於生成
    • 開始生成時,重新用更新後權重+原 context 做一次 forward 建立 KV(或只從 TTT 後的 block 開始)
    • 若使用 vLLM 類似框架,要確保:
    • 同一 session 的 KV cache 與 TTT 權重版本對齊,避免「舊權重產生的 KV」搭配「新權重」

    與 LoRA / adapters:

    • 一種實務上更穩的做法:
    • base 模型 frozen
    • 安裝一個 LoRA-adapter 只開在 MLP.w2
    • TTT 只更新 LoRA 權重
    • 好處:
    • 快權重是「外掛」,可以 per-session 建立、銷毀
    • 也可以在 A/B 測時方便地比較「有/無 TTT adapter」

    4. 小模型 + 超長 context:何時值得導入?

    In-Place TTT 對 參數較小、context 很長 的組合特別有價值:

    • 小模型在長 context 內本來就容易「記不住 pattern」,TTT 可以在當前 session 內補強
    • 和 LongSpec 等 長 context + speculative decoding 技術搭配:
    • 先用 LongSpec 等提升解碼效率
    • 再用 In-Place TTT 提升長文本任務表現

    可以用以下 heuristics 判斷是否值得導入:

    • 模型 ≤ 7B,context ≥ 32k,而且任務高度依賴長文本理解 → 強烈建議實驗 TTT
    • 模型很大(70B+)且 context 不長(≤ 8k) → TTT 收益相對有限
    • 對 latency/成本極敏感的線上服務 → 可以先在 async 或批次任務(離線總結、分析)試水溫

    總結:In-Place TTT 提供了一個工程上可落地的途徑,讓 LLM 在推理時針對當前長 context 做小幅度、可控的「就地學習」。

    若你正在:

    • 用小模型硬扛超長 context
    • 常常為某個固定 domain 調 prompt/RAG 卻仍覺得不穩

    那麼在 pipeline 中加入 MLP projection 級別的 In-Place TTT,是很值得 A/B 測的一步升級。


    🚀 你現在可以做的事

    • 在現有 LLM 服務中挑選一個長文本任務(如長文總結)實作一版只更新 MLP W2 的 In-Place TTT PoC
    • 針對「開/關 TTT」設計離線與線上 A/B 測試,觀察長 context 任務指標與 latency、成本變化
    • 若已有 RAG pipeline,在高信心檢索場景下試著加入 block-wise TTT,評估對 domain QA 準確率的提升
  • LatentAudit:用殘差幾何盯住 RAG 幻覺

    📌 本文重點

    • 光看檢索分數與事後自評難以即時監控幻覺
    • LatentAudit 直接讀殘差流幾何結構估真實度分數
    • 可在 RAG pipeline 中低延遲加入實時 guardrail

    在實務 RAG 專案裡,光靠「檢索品質 + 事後自評/投票」抓幻覺是不夠的
    – 檢索成功 ≠ 回答一定忠於證據(模型還是會自由發揮)
    – 自評 / judge 模型會 吃額外 Token 和延遲,流量大時成本爆炸
    – 多輪對話、串接工具後,哪一步開始幻覺常常完全沒監控

    💡 關鍵: 只靠檢索分數和事後評審,既無法即時阻斷幻覺,又會讓延遲與成本大幅增加。

    LatentAudit 提供另一條路:直接讀取生成模型的 殘差流(residual stream)幾何結構,在推理中測量「模型內部狀態」與檢索證據之間的 馬氏距離,做到:

    • 不需要額外 judge 模型
    • sub-millisecond 延遲、可 16-bit 固定點實作
    • 少量標註就能校準成實用的 真實度分數,在 API 層或 UI 層直接觸發 fallback

    重點說明

    1. 為什麼傳統 RAG 監控做不到「實時 + 便宜」

    實務上的典型做法:

    1. 只看檢索分數:例如 cosine 相似度、BM25 分數
    2. 問題:檢索到對的文獻,但模型回答的細節錯了(over-generalize, mis-attribute)完全抓不到。

    3. 事後自評 / 多模型投票

    4. judge LLM 問「這個回答是否根據檢索到的內容?」
    5. 或讓多個模型生成,再投票 / 聚合。
    6. 問題:

      • 推理路徑變成:檢索 → 回答 → 評審,延遲翻倍以上
      • 成本和吞吐量吃不消,很難在大規模 production 開啟
      • judge 模型本身也會幻覺,還得再校準
    7. log 後離線分析

    8. 用人審 / labeling 分析錯誤 pattern
    9. 問題:無法 實時阻斷 危險輸出(醫療/法律/金融)

    LatentAudit 直接把監控塞進 生成時的 forward pass

    • 白盒讀取中後段 殘差流 activation
    • 與「證據 representation」做幾何對齊度測量
    • 即時計算 距離 → 真實度分數 → 決策(放行 / fallback)

    💡 關鍵: 把監控邏輯塞進 forward pass,能在幾乎零額外延遲下拿到可用的真實度分數。

    2. LatentAudit 的核心做法(殘差幾何 + 馬氏距離)

    架構概念:

    1. 選定幾層殘差流:例如 Llama-3-8B 的 layer 20–30 殘差向量 ( h_l )

    2. 建一個 evidence representation ( e ):

    3. 通常來自:

      • 把所有檢索到的 passages 拼在一起,取 encoder / 第一層 decoder 的 CLS / BOS 向量
      • 或平均檢索 chunks 的 embedding
    4. 在訓練(校準)階段

    5. 收集 (question, evidence, answer) 三元組,並有「忠於證據 / 不忠」標註
    6. 對每個樣本取出中後段殘差流,做 pooling(例如平均或拼接):

      [
      z = P(h_{l_1}, …, h_{l_k})
      ]

    7. 在 latent 空間中估計「忠實」分佈的均值 ( \mu ) 和協方差 ( \Sigma )

    8. 定義馬氏距離規則

    9. 把 residual 表示 ( z ) 投影到 evidence 表示空間,或做簡單線性對齊,最後計算

      [
      d_M(z, e) = (z – W e – b)^T \Sigma^{-1} (z – W e – b)
      ]

    10. 這就是 LatentAudit 的核心:一條二次判別規則(不需要深 judge 模型)

    11. 校準成真實度分數

    12. 用 held-out 集合做 threshold / logistic calibration,得到:

      [
      s_{faith} = \sigma(\alpha \cdot d_M(z,e) + \beta)
      ]

    13. ( s_{faith} ) 越接近 1 表示越「有可能忠於證據」。

    因為只做矩陣乘、向量內積和少量逆協方差運算,
    可以用 16-bit fixed point 實作,延遲在 0.x ms 級別,可進一步配合 Groth16 做可驗證計算(不展開細節)。

    💡 關鍵: 使用 16-bit 固定點與馬氏距離,使得真實度評估可以在 sub-millisecond 延遲下完成。


    如何嵌入既有 RAG pipeline

    你需要:
    可白盒存取的模型(LlamaQwenMistral 等開源或自託管)
    – 在 forward 裡 hook activation,並在生成過程中同步喂入 evidence 表示

    常見 stack:

    • OpenAI compatible API(自託管 vLLM / Ollama 上掛開源模型)
    • 各種向量庫(PGVectorMilvusWeaviateQdrantElastic,…)

    典型 pipeline:

    1. user query → 檢索(向量庫) → 構造 prompt + evidence
    2. 呼叫 自託管模型(非黑盒雲 API)生成
    3. 在生成中,LatentAudit 模塊監控殘差流 → 算馬氏距離 → 輸出真實度分數
    4. API 返回:{ answer, faithfulness_score }
    5. 前端 / Orchestrator 根據 score 做 fallback 策略。

    實作範例

    以下以 vLLM + Llama3 自託管為例,展示核心落地點(偽碼 + Python 範例)。

    1. 在 HF 模型上 hook 殘差層

    from transformers import AutoModelForCausalLM, AutoTokenizer
    import torch
    
    MODEL_NAME = "meta-llama/Meta-Llama-3-8B-Instruct"
    model = AutoModelForCausalLM.from_pretrained(
        MODEL_NAME, torch_dtype=torch.bfloat16, device_map="auto"
    )
    tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
    
    TARGET_LAYERS = [20, 24, 28]
    residual_acts = []
    
    
    def make_hook(layer_idx):
        def hook(module, input, output):
            # input[0] 通常是 residual stream
            # 只取最後一個 token 的向量,減少開銷
            h = input[0][:, -1, :].detach().to(torch.float32)
            residual_acts.append((layer_idx, h))
        return hook
    
    
    for idx, blk in enumerate(model.model.layers):
        if idx in TARGET_LAYERS:
            blk.register_forward_hook(make_hook(idx))
    

    2. 建立 evidence representation

    假設你已經從向量庫拿到 top-k passages:

    def build_evidence_rep(passages: list[str]):
        text = "\n".join(passages)[:4096]  # 避免太長
        inputs = tokenizer(text, return_tensors="pt").to(model.device)
        with torch.no_grad():
            out = model.model(**inputs, output_hidden_states=True)
        # 用最後一層 hidden state 的 BOS / 第一 token 表示
        e = out.hidden_states[-1][:, 0, :].detach().to(torch.float32)
        return e  # shape: [1, d]
    

    3. 馬氏距離計算 + 校準

    事前你要離線擬合:
    WbΣ^{-1}αβ(可用 sklearn 或手寫)

    線上部分簡化為:

    # 假設以下參數已離線訓練好並載入
    W = torch.load("wa_projection.pt")         # [d_residual, d_e]
    b = torch.load("wa_bias.pt")              # [d_residual]
    Sigma_inv = torch.load("wa_sigma_inv.pt")  # [d_residual, d_residual]
    alpha, beta = torch.load("wa_logistic.pt")
    
    
    def latent_audit_score(evidence_vec, residual_acts):
        # pooling residual: 取指定層平均
        hs = [h for idx, h in residual_acts if idx in TARGET_LAYERS]
        H = torch.stack(hs, dim=1).mean(dim=1)  # [1, d_residual]
    
        # 對 evidence 做線性對齊
        e_proj = (evidence_vec @ W.T) + b  # [1, d_residual]
    
        diff = (H - e_proj)  # [1, d_residual]
        # 馬氏距離
        d_M = (diff @ Sigma_inv @ diff.transpose(0,1))[0,0]
    
        # logistic 校準成 [0,1]
        score = torch.sigmoid(alpha * d_M + beta).item()
        return score
    

    生成時流程:

    def rag_answer_with_faith(query, passages):
        residual_acts.clear()
    
        evidence_vec = build_evidence_rep(passages)  # [1,d]
    
        prompt = build_rag_prompt(query, passages)  # 你的 RAG prompt 模板
        inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
    
        with torch.no_grad():
            out = model.generate(
                **inputs,
                max_new_tokens=256,
                do_sample=False,
            )
    
        answer = tokenizer.decode(out[0][inputs.input_ids.shape[1]:], skip_special_tokens=True)
        score = latent_audit_score(evidence_vec, residual_acts)
    
        return {
            "answer": answer,
            "faithfulness_score": score,
        }
    

    這邊只在 一次 forward + generate 裡多做幾個矩陣運算,延遲增量極小;你可以把結果包成 OpenAI 兼容 API 回傳:

    {
      "id": "chatcmpl-...",
      "object": "chat.completion",
      "choices": [
        {
          "message": {
            "role": "assistant",
            "content": "...",
            "faithfulness_score": 0.82
          }
        }
      ]
    }
    

    前端或 Orchestrator 可以直接讀 faithfulness_score 做決策。

    💡 關鍵: 直接在 API 回傳中加入 faithfulness_score,可讓前端與協調層即時採用不同的 fallback 策略。

    4. Fallback 策略示例(醫療 / 法律 / 客服)

    簡單策略:

    THRESHOLD_WARN = 0.7
    THRESHOLD_BLOCK = 0.4
    
    
    def route_by_faithfulness(result):
        s = result["faithfulness_score"]
    
        if s < THRESHOLD_BLOCK:
            # 高風險:重新檢索 + 明確要求引用 evidence,或升級人工
            return {
                "mode": "escalate",
                "message": "本次回答可信度較低,已轉交人工處理。",
            }
        elif s < THRESHOLD_WARN:
            # 中風險:要求模型引用更多 evidence / 提示使用者核對
            return {
                "mode": "warn",
                "message": "以下回答可能不完全可靠,請以實際條文/文獻為準。",
            }
        else:
            # 正常放行
            return {
                "mode": "ok",
                "message": "",
            }
    

    實際場景:

    • 醫療問答mode == "escalate" 時強制顯示「非醫療建議」,並把 case 丟進人工客服隊列
    • 法律諮詢mode == "warn" 模式時要求模型 列出具體條文/條號 並顯示原文片段
    • 客服查詢:低分時先做 重新檢索(不同索引 or 更寬鬆 query) 再生成一次,若仍低分再轉人工

    多模型 / 多輪對話:
    – 對每輪回答都算一個 faithfulness_score,記錄在對話 state
    – 對 工具返回 / 多模型投票輸出 也可以跑 LatentAudit,看哪個候選與 evidence 更對齊,再做投票加權


    建議與注意事項

    1. 必須白盒存取模型

    • 無法在 OpenAI / Anthropic 純雲端黑盒模型上做(拿不到殘差流)
    • 適合:
    • 自託管 Llama / Qwen / Mistral
    • Ollama / vLLM,但要在本地 wrap core HF 模型 做 hook,而不是只用遠端 HTTP

    2. 殘差層選擇與標準化影響很大

    • 中後段層(例如 60–80% depth)通常信號最好
    • 建議在校準時網格搜尋:
    • 選幾組 layer subset + pooling 策略(最後 token / mean / concat)
    • 對每組分別訓練 WΣ^{-1},選 AUROC / AUPRC 最佳
    • 標準化:
    • 建議對 residual 做 per-dimension z-score 或 whitening,有助於 Σ^{-1} 穩定

    3. 校準集的 domain mismatch 是大坑

    • 如果你用 PubMedQA 上的校準結果直接套到法律問答,誤報 / 漏報會很嚴重
    • 建議:
    • 至少針對你的業務 domain 收集 數百到數千個標註樣本
    • type 要包含:
      • 正確且完全有證據支撐
      • 幻覺 / 瞎掰
      • 部分支持(evidence 裡只有一半說法)

    4. 隱私與合規下收集校準資料

    • 若資料有 PHI / PII:
    • 在內網做標註與訓練,不要把 prompt / evidence / answer 傳出公司
    • 可以只存 殘差向量 + 二元標籤,丟棄原文內容,以降低隱私風險
    • 若需要對外可驗證(尤其在金融 / 公共服務):
    • 考慮用論文中的 16-bit fixed-point 實作 + Groth16,在不洩漏權重/activation 的前提下提供「監控邏輯正確執行」的證明

    5. 與現有評估/監控系統的整合

    • LatentAudit 不是 用來取代離線評估(BLEU, Rouge, factuality benchmark),而是:
    • 補上一層 以模型「內在狀態」為基準的實時 guardrail
    • 建議實務策略:
    • 離線:用 benchmark / 人工評估確認 RAG pipeline 基本可靠
    • 線上:啟用 LatentAudit,只作「低分拋錯/告警」,不要一開始就用來做 aggressive block
    • 每隔一段時間(例如每週)抽樣「被 block / warn 的案例」做人工 review,調整 threshold / 校準

    對你的專案的實際好處
    – 在不引入第二個 LLM 的前提下,把幻覺監控塞進現有 RAG 路徑,几乎不加延遲
    – 增加一個 可量化、可調整的真實度分數,方便 API / UI / workflow 做自動化 fallback
    – 線上問題不再只有「出事後看 log」,而是可以 即時標記高風險回答,甚至直接攔截,特別適合醫療、法律、金融、客服等高風險場景。


    🚀 你現在可以做的事

    • 在現有自託管 Llama / Qwen / Mistral 專案中,加上殘差層 hook 並輸出簡單的 faithfulness_score
    • 針對你的業務 domain 收集一批「忠於證據 / 幻覺 / 部分支持」標註樣本,用來擬合 WΣ^{-1} 與校準參數
    • 在 API 回傳中加入 faithfulness_score,並在前端或 Orchestrator 中實作最簡版本的 warn / block / escalate 策略
  • Compiled AI:把提示變成可審計工作流

    📌 本文重點

    • 用 LLM 在編譯階段產生狹義程式碼,執行期不再依賴 LLM
    • 業務邏輯可測試、可審計,安全面積與成本大幅下降
    • 特別適合高要求、高流量且規則穩定的企業級工作流

    在多數專案裡,我們會每個請求都叫一次模型,把非結構化的 prompt 丟給 LLM,期待它「大致照規則」行事。問題是:結果不穩、難回溯、成本高,還容易被 prompt injection 玩壞。Compiled AI 要解的是這個痛點:

    把原本寫在 prompt 里的業務邏輯,在編譯階段用 LLM 產生狹義程式碼,透過型別檢查、靜態分析與測試驗收,一旦通過就當成普通程式部署,執行期不再依賴 LLM

    對開發者的直接好處:

    • 結果可預測且可審計:輸出由 deterministic code 決定,不是每次抽樣
    • 安全面縮小:執行期不再接受任意自然語言指令
    • 成本與延遲大幅下降:大量交易共用同一份已編譯邏輯,token 成本被攤薄

    💡 關鍵: Compiled AI 把「每次都叫 LLM」改成「先編譯一次,再重複執行」,大幅提升穩定性並攤平成本。


    重點說明

    1. 架構:LLM 只在「編譯階段」出現

    典型 Compiled AI 架構可以拆成三層:

    1. 模板/SDK 層(受控框架)
    2. 你先定義好已驗證的 workflow 模板與 SDK,例如:HTTP 呼叫、DB 查詢、RAG 檢索、權限檢查等
    3. LLM 只能在模板內部空洞生成狹義業務邏輯函式,例如 select_customer_segment()build_rag_query()

    4. 編譯管線(有 LLM)

    5. Step 1 – Prompt 設計:描述任務、提供 API 規格 & 範例,要求輸出符合特定語言/框架(如 TypeScript + 自家 SDK)
    6. Step 2 – 產生 code artifact:LLM 產生一份或多份候選程式碼
    7. Step 3 – 謝與測試:型別檢查、靜態分析、單元測試/合約測試,不過關就自動 loop 回 LLM 要求修正
    8. Step 4 – 人工審核 + 簽章(視風險):例如醫療或金流流程

    9. 執行期(無 LLM)

    10. 線上請求只執行已編譯出的 code artifact,全程 deterministic,可以完整 log & replay

    核心概念:限制 LLM 的自由度,換取可測試、可版本控管的業務邏輯程式碼


    2. 工作流設計:把一個傳統 RAG / Agent 重構成 Compiled AI

    以一個典型 RAG QA 流程為例:

    使用者問問題 → LLM 根據 prompt 決定如何搜尋 → 呼叫向量庫 → LLM 基於檢索結果生成答案

    在傳統設計中,LLM 負責檢索策略 + 答案生成,兩段都高度隨機。重構成 Compiled AI,可以這樣拆:

    1. 編譯階段
    2. 用 LLM 生成一個狹義函式:build_search_plan(question: string) => SearchPlan,被嵌在已驗證的 RAG 模板中
    3. SearchPlan 僅包含:要查哪個 index、使用哪些 filter、topK、是否需要 fallback 等
    4. 再用 LLM 生成:synthesize_answer(question, contexts) => string,但這個函式需遵守強約束(例如:不可編造、必須引用 context id)

    5. 執行階段

    6. 每次 QA 時:
      • 用 deterministic code 呼叫 build_search_plan() → 打 DB / 向量庫
      • 把檢索到的 contexts 丟給 synthesize_answer()(也是普通函式)
    7. 整個過程再也不直接丟自然語言給 LLM,所有 decision path 都是可測試、可覆盤的程式碼

    8. 版本控管與灰度發布

    9. 每次重新編譯:產出新版本如 rag_workflow_v3.ts
    10. 用 Git tag & CI pipeline 把版本與測試報告綁在一起
    11. 線上:用 routing 或 feature flag 灰度流量,對比 v2 / v3 的成功率、平均延遲、查詢成本

    3. 工程實務:與「每請求叫一次模型」的差異

    基於現有研究與業界實測,Compiled AI 在幾個維度的典型差異:

    • 可靠性(確定性 vs 隨機)
    • 傳統:每次請求都用 sampling(temperature > 0),同一輸入結果可能不同
    • Compiled AI:執行期只跑 deterministic code + DB/RAG,相同輸入必然同樣輸出

    • 安全

    • 傳統:使用者輸入直接進 prompt,prompt injection 面積很大
    • Compiled AI:執行期輸入只餵進已定義的函式參數(string / enum / id 等),無法直接改變控制流

    • 成本與延遲

    • 編譯階段比較貴,但只做一次,之後可在大量請求上攤平
    • 實務上常見:十幾次交易後就開始比傳統架構便宜,長期 token 使用量可降數十倍

    💡 關鍵: 只要請求次數夠多,執行期省下的 token 成本與延遲,會很快抵消一次性的編譯開銷。


    實作範例

    以下用 TypeScript + 假想 SDK 示範一個簡化版 pipeline。

    1. 已驗證模板/SDK

    // sdk.ts - 由你維護的安全 SDK
    
    export type SearchPlan = {
      index: 'faq' | 'policy' | 'logs';
      topK: number;
      filters?: Record<string, string>;
    };
    
    export async function runRagWorkflow(
      question: string,
      buildSearchPlan: (q: string) => SearchPlan,
      synthesizeAnswer: (q: string, ctxs: string[]) => string
    ): Promise<string> {
      const plan = buildSearchPlan(question);
      const contexts = await vectorSearch(plan.index, question, plan.topK, plan.filters);
      return synthesizeAnswer(question, contexts);
    }
    
    async function vectorSearch(
      index: string,
      query: string,
      topK: number,
      filters?: Record<string, string>
    ): Promise<string[]> {
      // 已驗證的檢索實作
      /* ... */
      return [];
    }
    

    2. LLM 產生的狹義業務邏輯(編譯產物)

    在編譯階段,你用一個 prompt 要求模型只實作兩個函式:

    // generated_v3.ts - 由 LLM 產生,但要通過型別檢查與測試
    
    import { SearchPlan } from './sdk';
    
    export function buildSearchPlan(question: string): SearchPlan {
      const q = question.toLowerCase();
    
      if (q.includes('退款') || q.includes('billing') || q.includes('invoice')) {
        return { index: 'policy', topK: 5, filters: { category: 'refund' } };
      }
    
      if (q.includes('錯誤') || q.includes('error code')) {
        return { index: 'logs', topK: 10 };
      }
    
      return { index: 'faq', topK: 8 };
    }
    
    export function synthesizeAnswer(question: string, contexts: string[]): string {
      // 嚴格規定:
      // 1. 不得回答與 contexts 無關內容
      // 2. 必須在文末列出引用的 context 索引
      const summary = summarizeWithRules(question, contexts); // 你事先實作好的工具
      const citations = contexts
        .map((_, i) => `[#${i + 1}]`)
        .join(' ');
    
      return `${summary}\n\n引用來源:${citations}`;
    }
    

    3. 編譯 pipeline(CI 裡跑)

    // compile.ts - 只在 CI / 開發環境執行
    
    import { z } from 'zod';
    import { callLLM } from './llm_client';
    import { execSync } from 'child_process';
    
    const schema = z.object({
      code: z.string(),
    });
    
    async function generateCode() {
      const prompt = `
    你是一個 TypeScript AI,請只輸出一個檔案內容,實作:
    - export function buildSearchPlan(question: string): SearchPlan
    - export function synthesizeAnswer(question: string, contexts: string[]): string
    
    必須符合已存在的型別定義:
    - SearchPlan { index: 'faq' | 'policy' | 'logs'; topK: number; filters?: Record<string, string> }
    
    禁止:
    - 呼叫任何未在註解中允許的函式
    - 使用 eval / new Function
    - 動態匯入
      `;
    
      const raw = await callLLM({
        model: '**gpt-4.1**',
        temperature: 0,
        response_format: { type: 'json_schema', schema },
        messages: [{ role: 'user', content: prompt }],
      });
    
      const { code } = schema.parse(JSON.parse(raw));
      return code;
    }
    
    async function main() {
      const code = await generateCode();
      require('fs').writeFileSync('generated_v3.ts', code, 'utf8');
    
      // 1) 型別檢查
      execSync('npx tsc --noEmit', { stdio: 'inherit' });
    
      // 2) 靜態分析
      execSync('npx eslint generated_v3.ts', { stdio: 'inherit' });
    
      // 3) 測試
      execSync('npm test -- generated_v3.test.ts', { stdio: 'inherit' });
    }
    
    main().catch((err) => {
      console.error(err);
      process.exit(1);
    });
    

    搭配 CI/CD:

    • CI:觸發 compile.ts → 產出 generated_v3.ts → 跑測試 → 產出報表
    • CD:若通過,打 tag rag_workflow_v3,並更新配置讓 5% 流量導到 v3;監控成功率、latency、成本指標再逐步擴大

    💡 關鍵: 把 LLM 產物納入 CI/CD(型別檢查、靜態分析、測試與灰度發佈),就能像管理普通程式碼一樣管理 AI 邏輯。


    建議與注意事項

    1. 業務規則變更頻率

    Compiled AI 適合:

    • 規則相對穩定、但正確性要求高的流程(客服 QA、金融函數呼叫、醫療文件處理)

    不適合:

    • 每天都在改規則、或依賴即時實驗的場景,因為每次改都要走「重新編譯 + 測試」流程
    • 高度探索型、open-ended 任務(創作、策略 brainstorm、UX 研究等)

    實務建議:

    • 把流程拆成兩層:核心決策邏輯用 Compiled AI,外層的探索與創意仍然用即時 LLM

    2. 測試覆蓋不足 = 把錯誤「編進系統」

    Compiled AI 的風險是:一旦編譯出的邏輯有 bug,它會一直穩定地錯

    必做:

    • 為生成函式設計合約測試:同一輸入 → 必須產出指定的 SearchPlan / 函式呼叫序列
    • 對關鍵場景建立 golden QA 測試集,每次編譯都跑完整 regression
    • 對模型產物加上防呆檢查(如:topK 不可大於 50,index 只能是白名單)

    3. 安全與最小權限

    • 模板 / SDK 層要實施 最小權限
    • 不給生成函式直接打 DB 連線,只能呼叫封裝好的 queryCustomerById(id) 等高階 API
    • 不允許檔案寫入、外網 request 等敏感操作
    • 透過靜態分析檢查:是否有 eval、動態 import、直接執行 shell 等 pattern

    4. 成本模型與「何時值得編譯」

    可以用簡單估算:

    • 編譯一次成本:C_compile(幾萬 token)
    • 傳統架構每次請求成本:C_online
    • Compiled AI 每次請求成本:C_compiled(通常 ≪ C_online

    只要請求數 N 滿足:

    C_compile + N * C_compiled < N * C_online

    就值得改成 Compiled AI。研究與實務常見:十幾到幾十次請求後就開始回本,高流量業務會很划算。

    5. 與現有專案整合的落地步驟

    1. 先挑一個穩定且高流量的子流程(例如:FAQ RAG 檢索策略、金融 function calling 的參數整理)
    2. 為它抽象出一個窄介面函式(例如 buildSearchPlanprepareFunctionCallParams
    3. 建立 minimal 的編譯 pipeline(LLM → 生成 code → tsc + 測試)
    4. 先 offline 對比:新老流程在測試集上的正確率 / 成本
    5. 小流量灰度上線,配合 metrics 監控,逐步拓展到更多流程

    結論:Compiled AI 的核心不是「用 LLM 寫程式」,而是把 prompt 中模糊的規則,轉成可測試、可簽章、可審計的程式碼工件。對需要穩定性、安全與成本控制的企業工作流,特別是 RAG、function calling、金融與醫療場景,是非常值得實驗的架構升級方向。

    🚀 你現在可以做的事

    • 在現有系統中挑一段高流量、規則穩定的 RAG 或 function calling 流程,先抽象出一個窄介面函式如 buildSearchPlan
    • 建一個最小可行的編譯 pipeline:用 LLM 產生 TypeScript 函式 → 跑 tsc + 單元/合約測試 → 輸出 generated_v1.ts
    • 用 feature flag 灰度導入新流程,監控正確率、延遲與 token 成本,評估轉為 Compiled AI 的回本點