標籤: 手機跑 AI 模型

Needle：把工具調用 Agent 塞進手機

📌 本文重點

Needle 是專門負責工具選擇與參數填充的小型中控模型

能在手機級硬體離線、高吞吐運行，降低雲端大模型成本

最適合當工具路由器 / 前置規劃器，輸出穩定 JSON 給其他系統

Needle 就是一顆專門幫大模型「只負責選工具、組參數、吐 JSON」的超小中控腦，讓工具調用 Agent 能在手機級硬體離線或低延遲運作。

原始專案在 GitHub：https://github.com/cactus-compute/needle

核心功能：專心當「工具路由中樞」的 26M 模型

1. 26M 參數 + 純 Attention：為工具調用瘦身

Needle 的設計很直接：

只有約 2600 萬參數（26M），比動輒數十億參數的聊天模型小一到兩個數量級。
結構是 Simple Attention Network：只有 attention + gating，沒有 MLP/FFN 層。
目標任務只有一件事：
讀取指令 + 工具列表描述
選擇要用哪個工具（或多個）
從指令中抽出參數
輸出工具調用 JSON

💡 關鍵： 只有約 2600 萬參數的 Needle，能在極小成本下專門負責工具路由與參數抽取，是取代通用大模型做 function calling 決策的關鍵。

這代表你的行動步驟是：

如果你現在是用 GPT / Gemini / Claude 來做工具決策（例如 function calling），可以把「決定用什麼工具」這一步改交給 Needle，減少大模型 token 消耗與延遲。

2. 專門為工具調用預訓與微調

Needle 的訓練重點不是聊天對話，而是「工具使用」：

先在 200 億 token 上預訓練語言能力。
再用約 20 億條合成函數調用資料微調，來源是模擬 Gemini style 工具（例如鬧鐘、導航、日曆、筆記等）。

💡 關鍵： 針對 20 億條函數調用資料微調，讓 Needle 在工具選擇與參數解析上比同尺寸聊天模型穩定得多。

實際上，它不負責長篇推理，而是非常擅長：

從口語指令中抓出結構化欄位（時間、地點、標題…）。
在多個工具之間做正確匹配。
輸出符合 schema 的 JSON 給你直接丟進 API。

行動建議：

如果你已經有一組工具 schema（例如 OpenAPI、function calling 定義），可以直接拿來給 Needle，讓它幫你產生調用 payload，再由你自己的程式實際發 API。

3. 手機級硬體也能跑的高吞吐

作者實測在「消費級裝置」可達：

約 6000 tok/s prefill
約 1200 tok/s decode

💡 關鍵： 在一般消費級裝置上就能達到 6000 tok/s prefill、1200 tok/s decode，讓 Needle 可以長駐於手機與邊緣設備當本地 Agent 大腦。

翻成白話：

放在中階手機、平板、開發板（如樹莓派級別 SoC）上，當離線工具路由器是可行的。
可以把 Needle 當作 永遠常駐的本地 Agent 大腦，大模型只在真正需要複雜推理／生成時才被叫起。

行動建議：

如果你正在做行動 App 或智慧硬體（耳機、車機、家電），可以先用 Laptop 上測試 Needle 的工具選擇邏輯，再評估移植到裝置端做本地推理。

適合誰用：三種典型場景

1. 行動裝置上的離線 / 低延遲 Agent

典型案例：

「早上 7 點幫我叫醒，順便播固定歌單」→ Needle 決定：set_alarm + play_playlist
「開車回家，避開高速公路」→ Needle 決定：navigate，並填好目的地與偏好
「幫我記一條：明天 meeting 要問預算」→ Needle 決定：create_note，抽出時間與內容

做法：

語音 → 本地 ASR（或雲端 Transcription）
文字指令 + 工具列表 → Needle → 工具 JSON
裝置端程式依 JSON 實際調起鬧鐘、導航、筆記 App

適合：行動 App 團隊、智慧手錶 / 車機 / AR 眼鏡、想要弱網路或離線也能用的指令助手。

2. 雲端大模型前面加一層「本地工具路由器」

你可能遇過這種成本問題：

每個使用者點一個按鈕，就丟完整上下文給 GPT 讓它幫你：
看要不要查資料庫
看要不要 call search API
看要不要調 CRM
結果大部分情況都只是在查一個欄位，卻要跑一整輪大模型推理。

用 Needle 可以：

由 Needle 先判斷：這次是否需要工具？用哪個？
只有當需要長推理 / 文本生成時，才叫雲端 LLM。

這樣能直接對應到多代理系統常被提到的「orchestration tax」問題：減少不必要的 LLM orchestration 回合數。

適合：SaaS 後端、API 產品、任何大量使用 function calling 的服務，希望降成本 + 降延遲。

3. MCP / Function Calling 之前的一層「前置規劃器」

如果你已經在用：

OpenAI / Gemini / Claude 的 Tool Use / Function Calling
或是某種 MCP（Multi-Channel Prompting 或 Model Context Protocol）架構

Needle 可以扮演：

用戶輸入 → Needle 選擇：
要走哪一條 MCP channel
要用哪個 Function / Tool
再把整理好的工具調用意圖，交給聊天模型做：
實際回應文案
或進一步分解子任務

差別在於：

一般微型聊天模型：
會嘗試「理解＋回答＋決定工具」，但在複雜工具 schema 上容易出錯或 hallucinate。
Needle：
不負責聊天，只專注在「選工具＋填參數＋吐 JSON」。

適合：已經有多工具、多 Agent 架構的團隊，需要一個可控、可本地跑的規劃器 / 路由器。

Needle vs 一般微型聊天模型

名稱	核心功能	免費方案	適合誰
Needle	工具選擇＋參數抽取＋輸出 JSON	完全開源，自架	行動 App、硬體端、本地 Agent
微型聊天模型	閒聊、簡單問答	多數可免費測試	想要基本對話、不重工具調用的人

關鍵差異：

Needle 的輸出預期是結構化工具調用，不是自然語言回答。
在工具 schema 清楚的情況下，Needle 通常比同尺寸聊天模型更穩定地填參數、遵守格式。

行動建議：

若你只需要「會聊天」：選一般微型聊天模型。
若你需要「穩定地依 schema 呼叫工具」：可以試 Needle 當前置規劃器，再用大模型生成回覆文案。

怎麼開始：從 clone Repo 到跑出第一個工具調用

1. 抓下專案與模型

# 1. clone repo
git clone https://github.com/cactus-compute/needle.git
cd needle

# 2. 建議先建立虛擬環境
python -m venv .venv
source .venv/bin/activate  # Windows 用 .venv\Scripts\activate

# 3. 安裝依賴
pip install -r requirements.txt

模型本體會在首次推理時自動下載（或依 README 指示手動下載權重）。

2. 用現成推理腳本跑官方 demo

Repo 裡提供了簡單的推理範例（實際檔名可能隨版本變動，可在 examples/ 或 README 中找到）：

python examples/simple_tool_calling.py

通常你需要提供：

工具 schema（JSON / Python dict）
使用者指令文字

腳本會回傳一段包含工具名稱與參數的 JSON，確認能跑通是第一步。

行動建議：

先照官方 demo 跑一遍，不改任何 schema，只看 Needle 如何選工具。

3. 定義自己的工具 schema

假設你要做一個簡單的鬧鐘 + 記事 Agent，可以這樣定義工具（示意）：

tools = [
  {
    "name": "set_alarm",
    "description": "設定鬧鐘時間（24 小時制）",
    "parameters": {
      "type": "object",
      "properties": {
        "time": {"type": "string", "description": "例如 07:30"},
        "label": {"type": "string", "description": "鬧鐘備註"}
      },
      "required": ["time"]
    }
  },
  {
    "name": "create_note",
    "description": "建立一則文字筆記",
    "parameters": {
      "type": "object",
      "properties": {
        "title": {"type": "string"},
        "content": {"type": "string"}
      },
      "required": ["content"]
    }
  }
]

接著丟給 Needle：

from needle import NeedleModel

model = NeedleModel.from_pretrained("cactus/needle-base")

user_query = "明天早上七點叫我起床，順便幫我記：早會要問預算"

result = model.route_tools(query=user_query, tools=tools)
print(result)

預期會拿到類似：

[
  {
    "tool": "set_alarm",
    "arguments": {"time": "07:00", "label": "早會"}
  },
  {
    "tool": "create_note",
    "arguments": {"title": "早會", "content": "早會要問預算"}
  }
]

接下來只要用你熟悉的語言（Swift / Kotlin / Node / Python），依這個 JSON 實際呼叫 OS API 或雲端 API 即可。

4. 把 Needle 接在現有 LLM 後面，做一條簡單 workflow

以下是一條最小可行的 workflow（伪碼）：

語音 → 文字
行動裝置用本地或雲端 ASR：
speech.wav -> transcript = "幫我找台北明天不下雨的戶外咖啡廳"
Needle 選工具
工具例：search_weather, search_places 兩個 API。
needle.route_tools(transcript, tools) → 回傳要先查天氣再查地點的參數 JSON。
實際 API 呼叫
你的後端或 App 依 Needle 給的 JSON，分別呼叫天氣 API、地點 API，整理出可用候選。
大模型生成回覆（可選）
把 API 結果 + 原始指令送給 GPT / Gemini / Claude，只讓它負責自然語言回覆：「幫你找到三間明天不預測下雨的咖啡廳…」。

這種分工方式：

Needle：做工具決策＋參數解析
LLM：只在真正需要「說人話」的最後一步出現

能同時達到：成本可控、延遲更低、邊緣裝置也能預先處理大量決策。

適合誰現在就試用 Needle？

行動 App 開發者：想做語音指令、快捷操作、離線助手，又不想每次都打雲端 LLM。
硬體產品團隊：智慧手錶、車機、家電、AR 眼鏡，需要一顆小而穩定的本地「工具路由中樞」。
個人自架 Agent 系統玩家：已經有多工具、多 Agent，正在煩惱 orchestration 成本和延遲的人。

只要你場景的核心在「選工具＋填參數」，而不是長篇聊天，Needle 值得你花一個下午跑起 demo，直接把它塞到你的 workflow 裡測一次。更多細節與最新腳本可以在 GitHub 查看：https://github.com/cactus-compute/needle

🚀 你現在可以做的事

先 clone Needle 專案並跑一次官方 demo：git clone https://github.com/cactus-compute/needle.git

把你現有的 function calling / OpenAPI schema 丟給 Needle，觀察它產生的工具 JSON

在一個實際專案裡，嘗試用 Needle 接在 ASR 和雲端 LLM 之間，實測延遲與成本差異

2026 年 5 月 14 日

把 ChatGPT 搬進 iPhone：Gemma 4 實戰

一句話定位：Gemma 4 讓你在 iPhone 上離線享受「接近 ChatGPT」的體驗，所有資料留在手機裡不出門。

📌 本文重點

在 iPhone 本地跑 Gemma 4，可離線又保護隱私

用 Gemma 4 做聊天、翻譯、PDF/筆記問答與日記分析

依照步驟完成「PDF/筆記 → 總結 + 問答」 workflow

開發者可在手機上做無後端的 LLM 原型實驗

下面的內容會帶你搞清楚：為什麼要在手機本地跑 Gemma 4、它能做什麼、適合哪些人用，以及最重要的——怎麼一步步在 iPhone 上跑起來，做到「把 PDF/筆記丟進去就能問答」。

參考：Gemma 4 本地推理在 iPhone 上的討論，可見 Gizmoweek 報導與 Hacker News 熱門串。

核心差異：為什麼要在 iPhone 本地跑 Gemma 4？

先把雲端模型（ChatGPT、Gemini）和本地 Gemma 4 的差異講清楚：

隱私：
雲端：你的對話、上傳檔案會經過伺服器。
本地：模型在 iPhone 上推理，日記、醫療筆記、合同草案都不離開手機。
離線可用：
雲端：沒網路、飛機上、海外被限制時就完全失效。
本地：Gemma 4 可以在飛機、公車、海外出差時照常回覆、翻譯、寫作。
延遲穩定：
雲端：高峰期會卡、會 timeout，速度跟網路品質綁死。
本地：只看你 iPhone 效能，體感像打字機，多數短文秒回。

💡 關鍵： 把 Gemma 4 放在 iPhone 本地跑，可以在無網路狀態下，用接近 ChatGPT 的體驗處理高度隱私與長文內容。

如果你有「這些東西我不想丟到雲端」的內容，或常常沒網路，Gemma 4 在 iPhone 上會立刻變成高頻工具，而不是備胎。

核心功能：你在 iPhone 上實際能做什麼？

1. 對話與寫作助手（接近 ChatGPT 體驗）

在支援本地 LLM 的 App 裡載好 Gemma 4 後，你就能：

像聊天一樣問問題、整理想法
寫 email 草稿、會議摘要、腳本、貼文
讓它用你的語氣重寫文字（例如「幫我改成比較口語」）

行動建議： 安裝一個本地 LLM App（下面「怎麼開始」會列），先用 Gemma 4 當純文字聊天助手，感受速度與溫度、耗電，再決定要不要開更大的模型。

2. 本地長文與知識庫分析

Gemma 4 支援長上下文版本（有社群實測用 26B + 256k context 分析十萬字日記，見 Reddit 分享），放在 iPhone 上就可以做：

把整本 PDF 報告丟進去請它重點整理
長期筆記/子彈筆記匯總，問它「幫我找出過去一年我最常抱怨的三件事」
針對整個專案文件問答（而不是只看一頁）

💡 關鍵： 長上下文的 Gemma 4 能處理十萬字等級的內容，適合把整本報告或多年日記一次交給手機上的模型分析。

行動建議： 準備 1–2 份你真正在看的 PDF（研究報告、投影片），等下在 workflow 範例中會用到。

3. 手機端開發實驗（快捷指令 + 簡單 App）

對開發者或自動化玩家，Gemma 4 在 iPhone 上的價值在於：

不用伺服器，就能在手機上測試 LLM 原型
用 iOS 快捷指令 + 本地 LLM App 做簡單 Agent：
選取文字 → 呼叫 Gemma 4 重新整理/翻譯
Share Sheet 把檔案丟給 Gemma 4 總結
若走原生路線，可用 Core ML / Metal 把轉好的 Gemma 4 模型 embed 到 Xcode 專案裡

行動建議： 如果你是 iOS 開發者，先用現成 App 測試好 prompt 與模型尺寸，再考慮用 Core ML 導入；這樣可以避免一開始就卡在部署。相關量化思路可對照 Google 在 Apple Silicon 上的 TurboQuant 技術介紹（參考 Towards AI 文章）。

適合誰用？三個典型場景

1）個人知識庫與日記：所有東西都留在手機

適合這些人：

有多年日記、心理諮商紀錄、醫療紀錄
研究生、創作者，有大量私人筆記
對雲端隱私完全不放心

可以做的事：

把日記匯出成純文字 / Markdown，分段丟給 Gemma 4：
「找出我反覆提到但沒有行動的目標」
「整理這一年，我對工作的情緒變化」
對敏感筆記做聚合搜尋與摘要，不經過任何第三方伺服器。

立即行動： 先在 iPhone 裡整理一個「私人 LLM 資料夾」，放日記匯出檔、健康紀錄，後面 workflow 直接用這個資料夾測試。

2）出差 / 通勤沒網路的翻譯與寫作

適合這些人：

常飛機、常坐高鐵/地鐵、跨國出差
在國外有網路限制，雲端 AI 不穩

可以做的事：

把待回的英文信貼進去：「幫我寫一封比較禮貌但堅決的英文回覆」
開會前在車上，用 Gemma 4 把簡報講稿縮短成 5 個 bullet
旅行時拍照 + OCR 轉文字後，丟給 Gemma 4 做即時翻譯與說明

立即行動： 下次搭車前，把常用的翻譯/寫作 prompt 存成備忘錄，沒網路時直接複製給 Gemma 4 用。

3）開發者在手機上做原型與小工具實驗

適合這些人：

iOS 工程師、快捷指令玩家
想做「不需要後端」的 AI 小工具

可以做的事：

寫一個快捷指令：
取得目前剪貼簿文字
傳給本地 Gemma 4 App
回傳整理後文字，直接覆蓋剪貼簿
在 Xcode 專案中，用 Core ML 模型當 offline 助手（例如：程式碼註解生成、App 內 FAQ 問答）

立即行動： 先在本地 LLM App 裡找到「URL Scheme / x-callback-url」或「Shortcut 支援」，確認能否被快捷指令呼叫，這會是你所有原型的入口。

怎麼開始：在 iPhone 上跑 Gemma 4 的最短路徑

先給一個工具選擇對照表（以 2026 年常見方案為例，實際名稱請依 App Store 為準）：

名稱（示例）	核心功能	免費方案	適合誰
LM Studio Mobile	下載並在本地跑 LLM（含 Gemma 4）、聊天介面、檔案上傳	常見為免費 + 內購	想要「裝好就能用」的一般使用者
MlcChat for iOS	基於 `MLX` / `MLC` 的高效本地推理，支援多模型	通常開源、免費	想試不同模型、在意性能的玩家
自建 Core ML App	直接在 App 內嵌 Gemma 4 Core ML 模型	自行開發	iOS 開發者，要做產品原型

實際請搜尋「local LLM」「offline AI」關鍵字，並確認是否支援 Gemma 4 款式或通用 GGUF / MLC 格式。

步驟 1：選一個 App + 安裝

打開 App Store，搜尋：local LLM、offline AI、MLC Chat 等關鍵字。
看描述裡有沒有提到 Gemma 4 或「自訂模型 / GGUF / MLC」支援。
安裝後確認：
是否有「下載模型」功能
是否支援「匯入檔案」或「knowledge base / documents」

步驟 2：選擇合適尺寸的 Gemma 4 模型

iPhone 上不要一開始就上最大顆，會太熱又太慢。可依照：

中階機種（A15 / A16、基本容量）：
建議：Gemma 4 2B–4B 量化模型（例如 Q4 / Q5）
用途：聊天、筆記整理、短文翻譯
高階 Pro / Max（A18 Pro 類級別，RAM 8GB+）：
建議：Gemma 4 9B 左右的量化模型，若 App 支援可試長上下文版本
用途：較長文章摘要、本地知識庫問答

行動建議： 先下載一個 2B–4B 模型，跑幾分鐘聊天測試溫度。如果手機發燙明顯，就把 thread 數調低或換更小模型。

步驟 3：測試性能、溫度與耗電

開啟 App，載入 Gemma 4 模型。
問它一個中等長度 prompt，例如：

「請用條列整理 Netflix 訂閱變貴時，使用者常見的三種反應，控制在 200 字內。」

觀察：
生成 200 字大約需要幾秒？
手機背面溫度明顯變熱嗎？
連續用 10 分鐘後，電量大約掉多少？
在 App 設定中調整：
推理 thread（有時稱為「CPU 核心數」「推理執行緒」）
最大輸出 token 數（不必要就別一次開超大）

目標狀態：

你可以連續聊 10–15 分鐘，手機只是微熱，耗電還在可接受範圍。

步驟 4：實戰 Workflow —— 把 PDF/筆記丟給 Gemma 4 做總結與問答

示範一個你可以直接照做的流程：

準備檔案
在檔案 App 建一個資料夾：LLM-Inbox。
把一份 PDF（例如 20–30 頁的報告）或匯出的日記 .txt 放進去。
在 App 裡建立「知識庫」或上傳文件
打開你的本地 LLM App，找到「Documents / Knowledge / Files」等選項。
選擇 LLM-Inbox 裡那個檔案上傳或索引。
設定一個專門對話空間
新建一個對話，命名成「某某報告 Q&A」。
在 system prompt（如果有）寫上：

「你只能根據我上傳的文件回答問題，不要憑空猜測。回答用繁體中文。」
實際問問題
「請用 300 字總結這份報告的主要結論。」
「作者提出的三個建議是什麼？幫我用自己的話改寫。」
「如果我要做 5 分鐘簡報，應該只挑哪三個 key slide？」
優化體驗
如果覺得速度太慢：
- 換更小的 Gemma 4 模型
- 限制回答字數，例如「控制在 150 字內」
如果回答常飄走：
- 再加一句規則：「如果文件沒有提到，就回答『文件未提及』。」

完成這個 workflow 後，你就已經不是「玩玩看」而是把 Gemma 4 變成日常讀書 / 工作輔助工具。接下來才是微調 prompt、換更大模型或試試手機端原型開發。

💡 關鍵： 只要先打通「PDF/筆記 → 總結 + 問答」，Gemma 4 就能穩定接手你日常的讀書、報告與資料整理工作。

總結：先把一件小事做通，再考慮玩更大

在 iPhone 本地跑 Gemma 4，不需要一次搞懂所有量化格式、Core ML 細節。建議你照這個順序：

找一個支援本地模型的 iOS App
下 1 個中等大小的 Gemma 4 模型
完成「PDF/筆記 → 總結 + 問答」這個 workflow
覺得穩定好用，再往日記分析、快捷指令、自建 App 擴展

做到第 3 步，你就已經把「接近 ChatGPT 的體驗搬進 iPhone，而且可離線」真正落地了。

🚀 你現在可以做的事

打開 App Store 搜尋「local LLM / offline AI」，安裝一個支援 Gemma 4 或 GGUF 的 App

準備一個 LLM-Inbox 資料夾，把一份 PDF 或日記 .txt 放進去，按文中步驟跑完一次總結 + 問答

觀察 10–15 分鐘使用時的速度與溫度，調整模型大小與 thread 設定，找出最適合你 iPhone 的組合

2026 年 4 月 16 日