標籤: Gemma 4

用瀏覽器跑 Gemma 4 控機器人

📌 本文重點

只用瀏覽器即可完全離線跑 Gemma 4

結合 WebSerial 可直接控制機器人與 IoT

純前端即可實作迷你 AI agent 控制硬體

不想把資料丟雲端、又想用 LLM 控機器人？Gemma 4 + Transformers.js + WebGPU 讓你只靠瀏覽器就能離線跑模型、還能直接控制硬體。

參考實作影片：Gemma 4 fully offline + WebGPU + Reachy Mini（Reddit）
https://www.reddit.com/r/LocalLLaMA/comments/1ta9mmd/gemma_4_running_fully_offline_on_webgpu_with/

核心功能：一台電腦 + 一個瀏覽器就夠

1. 完全離線的瀏覽器 LLM

這套組合的核心是：

Gemma 4：Google 開源 LLM 系列，支援多種量化格式（GGUF / ONNX / JS）。
Transformers.js：在瀏覽器裡跑 Hugging Face 模型的 JavaScript 函式庫。
WebGPU：用你電腦的顯示卡在「前端」跑推理，不用後端伺服器。

你可以做的事：

在本機開啟支援 WebGPU 的瀏覽器（Chrome / Edge / Brave）。
把公司文件、程式碼丟進前端頁面，讓 Gemma 4 在本機推理，不經過任何外部 API。

實際效果：隱私資料留在電腦裡，沒有雲端 API log，也不需要申請 OpenAI Key 或部署後端。

💡 關鍵： 只要一台支援 WebGPU 的電腦與瀏覽器，就能完成完全離線、無雲端依賴的 LLM 推理與控制。

2. 透過 WebSerial 控制機器人 / IoT

Reddit 的 demo 裡，用 Transformers.js 跑 Gemma 4，搭配 WebSerial API 直接控制 Reachy Mini 機器人。

流程概念：

使用者在瀏覽器輸入：「向右揮手打招呼」。
Gemma 4 把自然語言轉成一段控制指令（例如 JSON 或簡單 DSL）。
JavaScript 把指令透過 WebSerial 傳給機器人控制板（例如 Arduino / microcontroller）。

你可以照做的行動：

先用 Arduino + USB 線，把一顆 LED 或伺服馬達接到電腦。
寫個簡單的序列通訊協議，像：LED_ON、LED_OFF、SERVO:45。
在網頁裡用 JavaScript：

js const port = await navigator.serial.requestPort(); await port.open({ baudRate: 115200 }); // 把 LLM 產生的指令寫進 serial

先從「LLM 控燈」，再慢慢升級到「LLM 控機器人手臂」。

3. 純前端的迷你 AI Agent

有了本地 LLM + WebSerial，你可以在瀏覽器裡做一個小型 AI agent。

理解任務：使用者輸入「每 10 分鐘幫我量一次溫度」。
規劃步驟：Gemma 4 產生一段 JSON 計畫，例如：

json { "action": "loop", "interval": 600, "task": "read_temp" }

執行控制：前端 JS 解析 JSON，呼叫對應的 serial 指令。

可以做的練習：

先讓 LLM 只輸出固定格式 JSON（用 system prompt 約束）。
前端寫一個 parser，檢查 JSON 格式合法才發送給硬體。
加上「模擬模式」（不連接硬體），先在 console 測試 agent 邏輯。

適合誰用？三種場景舉例

1. 教學場景：高中 / 大學生的 AI + 機器人課

不用架伺服器，電腦教室只要能開 Chrome。
學生可以：
改 prompt 看機器人動作改變。
寫自己的小指令語言（例如 MOVE LEFT 10）。
觀察 LLM 如何把自然語言轉成這套語言。

行動建議：

用一台 Reachy Mini 或任何 Arduino 小車當教材。
提供學生一個預先寫好的 HTML + JS 專案，只讓他們改 prompt 和指令 mapping。

2. 實驗場景：研究邊緣運算 / 隱私的工程師

需要在醫療、工廠、或無網路環境下跑 LLM。
想測試「模型就在裝置上」的延遲和可靠性。

行動建議：

把現有的 Python LLM pipeline，拆成：
前端：Transformers.js + WebGPU 跑推理。
後端（選配）：只收集匿名統計，不傳原始輸入。
對比雲端 API 與本地推理在速度、穩定度上的差異。

💡 關鍵： 在醫療或工廠等高隱私、高可靠場景，本地 LLM 能在不傳輸原始資料的情況下提供近乎即時的推理與控制。

3. 家用場景：DIY 簡易家電自動化

例如：
「用自然語言控制窗簾、風扇」
「讓 LLM 幫你排家中設備的定時腳本」

行動建議：

先用 USB 連接一塊 ESP32 / Arduino 開發板，只控制一顆繼電器或 LED。
設計簡單語句：
「晚上 10 點關燈」→ 轉成 SCHEDULE:22:00:OFF。
用 LLM 把上面這種語句自動產生，再由 JS 解讀和排程。

怎麼開始：從開啟 WebGPU 到控制第一顆 LED

步驟一：開啟瀏覽器 WebGPU

以 Chrome 為例：

更新到最新版（至少 120 以上會較穩定）。
在網址列輸入 chrome://flags。
搜尋「WebGPU」，啟用：
WebGPU（或 Unsafe WebGPU 視版本而定）。
重新啟動瀏覽器。

行動檢查：

開啟 https://webgpureport.org/ 確認 WebGPU 是否啟用。

步驟二：從 Hugging Face 抓 Gemma 4 模型

常見三種格式：

格式	名稱示例	特點	適合誰
GGUF	`gemma-4b-it-q4_0.gguf`	量化後較小，適合 CPU/GPU 混合	已熟悉 `ggml` / `llama.cpp` 生態的人
ONNX	`gemma-4b-it.onnx`	通用，很多推理引擎支援	想跨平台跑推理的開發者
JS	Transformers.js 專用權重	直接在瀏覽器載入	前端工程師、想快速起跑的人

操作建議：

到 Hugging Face 搜尋「Gemma 4」模型庫（例如 google/gemma-2-2b-it，實際名稱依官方更新為準）。
找到有 transformers.js 或 onnx 標籤的 repo。
把權重檔放在自己的靜態網站（或本機 dev server）供前端載入。

Transformers.js 官方文件：
https://huggingface.co/docs/transformers.js

💡 關鍵： 透過 Transformers.js 專用權重，可直接在瀏覽器載入 Gemma 4，省去自建推理後端的成本與複雜度。

步驟三：在瀏覽器跑起簡單 Chatbot

最低限度的前端結構：

<script type="module">
  import { pipeline } from '@xenova/transformers';

  const chat = await pipeline('text-generation', 'path/to/gemma4/model');

  async function ask(prompt) {
    const out = await chat(prompt, { max_new_tokens: 128 });
    console.log(out[0].generated_text);
  }

  ask('你現在是一個 Arduino 助理，請用 JSON 說明如何讓 LED 閃爍。');
</script>

行動建議：

先在 console 裡確認模型可以正常回答，再加上簡單的 <textarea> + <button> 當聊天介面。

步驟四：把 Chatbot 接到 WebSerial（Arduino）

Arduino 端草稿：

“`cpp
void setup() {
Serial.begin(115200);
pinMode(13, OUTPUT);
}

void loop() {
if (Serial.available()) {
String cmd = Serial.readStringUntil(‘\n’);
if (cmd == “LED_ON”) digitalWrite(13, HIGH);
if (cmd == “LED_OFF”) digitalWrite(13, LOW);
}
}
“`

前端 WebSerial + LLM：

“`js
async function connectSerial() {
const port = await navigator.serial.requestPort();
await port.open({ baudRate: 115200 });
const writer = port.writable.getWriter();
return writer;
}

async function sendCommandFromLLM(userText, writer) {
const response = await chat(使用者的指令：${userText} 請只回應一行指令，LED_ON 或 LED_OFF);
const cmd = response[0].generated_text.trim();
await writer.write(new TextEncoder().encode(cmd + ‘\n’));
}
“`

實際試用：
在頁面輸入「開燈」→ LLM 產生 LED_ON → 燈亮。
在頁面輸入「關燈」→ LLM 產生 LED_OFF → 燈熄。

這就是從「純前端 LLM」到「瀏覽器裡的迷你 AI agent」的第一步。

小結：從簡單控制開始，一步步加功能

建議的練習路線：

第一階段：在瀏覽器跑起 Gemma 4 chatbot，確認 WebGPU 正常。
第二階段：用 WebSerial 控制一顆 LED 或一個伺服馬達，先用固定按鈕測試。
第三階段：讓 LLM 產生中介指令（JSON 或簡單 DSL），由 JS 驗證後再送給硬體。
第四階段：加入簡單記憶和排程，做出「瀏覽器內的小型 AI agent」。

只要一台支援 WebGPU 的電腦、一顆開發板，就能在客廳或教室裡體驗「完全離線的 LLM 控機器人」。

🚀 你現在可以做的事

到 Hugging Face 下載一個支援 Transformers.js 的 Gemma 4 模型，放到本機靜態伺服器測試載入

依文中示例寫一個最簡單的前端 Chatbot，確認在你的瀏覽器上能透過 WebGPU 正常推理

準備一塊 Arduino 或 ESP32，照示例建立 LED_ON / LED_OFF 協議，實作第一個「LLM 控燈」實驗

2026 年 5 月 12 日

把 ChatGPT 搬進 iPhone：Gemma 4 實戰

一句話定位：Gemma 4 讓你在 iPhone 上離線享受「接近 ChatGPT」的體驗，所有資料留在手機裡不出門。

📌 本文重點

在 iPhone 本地跑 Gemma 4，可離線又保護隱私

用 Gemma 4 做聊天、翻譯、PDF/筆記問答與日記分析

依照步驟完成「PDF/筆記 → 總結 + 問答」 workflow

開發者可在手機上做無後端的 LLM 原型實驗

下面的內容會帶你搞清楚：為什麼要在手機本地跑 Gemma 4、它能做什麼、適合哪些人用，以及最重要的——怎麼一步步在 iPhone 上跑起來，做到「把 PDF/筆記丟進去就能問答」。

參考：Gemma 4 本地推理在 iPhone 上的討論，可見 Gizmoweek 報導與 Hacker News 熱門串。

核心差異：為什麼要在 iPhone 本地跑 Gemma 4？

先把雲端模型（ChatGPT、Gemini）和本地 Gemma 4 的差異講清楚：

隱私：
雲端：你的對話、上傳檔案會經過伺服器。
本地：模型在 iPhone 上推理，日記、醫療筆記、合同草案都不離開手機。
離線可用：
雲端：沒網路、飛機上、海外被限制時就完全失效。
本地：Gemma 4 可以在飛機、公車、海外出差時照常回覆、翻譯、寫作。
延遲穩定：
雲端：高峰期會卡、會 timeout，速度跟網路品質綁死。
本地：只看你 iPhone 效能，體感像打字機，多數短文秒回。

💡 關鍵： 把 Gemma 4 放在 iPhone 本地跑，可以在無網路狀態下，用接近 ChatGPT 的體驗處理高度隱私與長文內容。

如果你有「這些東西我不想丟到雲端」的內容，或常常沒網路，Gemma 4 在 iPhone 上會立刻變成高頻工具，而不是備胎。

核心功能：你在 iPhone 上實際能做什麼？

1. 對話與寫作助手（接近 ChatGPT 體驗）

在支援本地 LLM 的 App 裡載好 Gemma 4 後，你就能：

像聊天一樣問問題、整理想法
寫 email 草稿、會議摘要、腳本、貼文
讓它用你的語氣重寫文字（例如「幫我改成比較口語」）

行動建議： 安裝一個本地 LLM App（下面「怎麼開始」會列），先用 Gemma 4 當純文字聊天助手，感受速度與溫度、耗電，再決定要不要開更大的模型。

2. 本地長文與知識庫分析

Gemma 4 支援長上下文版本（有社群實測用 26B + 256k context 分析十萬字日記，見 Reddit 分享），放在 iPhone 上就可以做：

把整本 PDF 報告丟進去請它重點整理
長期筆記/子彈筆記匯總，問它「幫我找出過去一年我最常抱怨的三件事」
針對整個專案文件問答（而不是只看一頁）

💡 關鍵： 長上下文的 Gemma 4 能處理十萬字等級的內容，適合把整本報告或多年日記一次交給手機上的模型分析。

行動建議： 準備 1–2 份你真正在看的 PDF（研究報告、投影片），等下在 workflow 範例中會用到。

3. 手機端開發實驗（快捷指令 + 簡單 App）

對開發者或自動化玩家，Gemma 4 在 iPhone 上的價值在於：

不用伺服器，就能在手機上測試 LLM 原型
用 iOS 快捷指令 + 本地 LLM App 做簡單 Agent：
選取文字 → 呼叫 Gemma 4 重新整理/翻譯
Share Sheet 把檔案丟給 Gemma 4 總結
若走原生路線，可用 Core ML / Metal 把轉好的 Gemma 4 模型 embed 到 Xcode 專案裡

行動建議： 如果你是 iOS 開發者，先用現成 App 測試好 prompt 與模型尺寸，再考慮用 Core ML 導入；這樣可以避免一開始就卡在部署。相關量化思路可對照 Google 在 Apple Silicon 上的 TurboQuant 技術介紹（參考 Towards AI 文章）。

適合誰用？三個典型場景

1）個人知識庫與日記：所有東西都留在手機

適合這些人：

有多年日記、心理諮商紀錄、醫療紀錄
研究生、創作者，有大量私人筆記
對雲端隱私完全不放心

可以做的事：

把日記匯出成純文字 / Markdown，分段丟給 Gemma 4：
「找出我反覆提到但沒有行動的目標」
「整理這一年，我對工作的情緒變化」
對敏感筆記做聚合搜尋與摘要，不經過任何第三方伺服器。

立即行動： 先在 iPhone 裡整理一個「私人 LLM 資料夾」，放日記匯出檔、健康紀錄，後面 workflow 直接用這個資料夾測試。

2）出差 / 通勤沒網路的翻譯與寫作

適合這些人：

常飛機、常坐高鐵/地鐵、跨國出差
在國外有網路限制，雲端 AI 不穩

可以做的事：

把待回的英文信貼進去：「幫我寫一封比較禮貌但堅決的英文回覆」
開會前在車上，用 Gemma 4 把簡報講稿縮短成 5 個 bullet
旅行時拍照 + OCR 轉文字後，丟給 Gemma 4 做即時翻譯與說明

立即行動： 下次搭車前，把常用的翻譯/寫作 prompt 存成備忘錄，沒網路時直接複製給 Gemma 4 用。

3）開發者在手機上做原型與小工具實驗

適合這些人：

iOS 工程師、快捷指令玩家
想做「不需要後端」的 AI 小工具

可以做的事：

寫一個快捷指令：
取得目前剪貼簿文字
傳給本地 Gemma 4 App
回傳整理後文字，直接覆蓋剪貼簿
在 Xcode 專案中，用 Core ML 模型當 offline 助手（例如：程式碼註解生成、App 內 FAQ 問答）

立即行動： 先在本地 LLM App 裡找到「URL Scheme / x-callback-url」或「Shortcut 支援」，確認能否被快捷指令呼叫，這會是你所有原型的入口。

怎麼開始：在 iPhone 上跑 Gemma 4 的最短路徑

先給一個工具選擇對照表（以 2026 年常見方案為例，實際名稱請依 App Store 為準）：

名稱（示例）	核心功能	免費方案	適合誰
LM Studio Mobile	下載並在本地跑 LLM（含 Gemma 4）、聊天介面、檔案上傳	常見為免費 + 內購	想要「裝好就能用」的一般使用者
MlcChat for iOS	基於 `MLX` / `MLC` 的高效本地推理，支援多模型	通常開源、免費	想試不同模型、在意性能的玩家
自建 Core ML App	直接在 App 內嵌 Gemma 4 Core ML 模型	自行開發	iOS 開發者，要做產品原型

實際請搜尋「local LLM」「offline AI」關鍵字，並確認是否支援 Gemma 4 款式或通用 GGUF / MLC 格式。

步驟 1：選一個 App + 安裝

打開 App Store，搜尋：local LLM、offline AI、MLC Chat 等關鍵字。
看描述裡有沒有提到 Gemma 4 或「自訂模型 / GGUF / MLC」支援。
安裝後確認：
是否有「下載模型」功能
是否支援「匯入檔案」或「knowledge base / documents」

步驟 2：選擇合適尺寸的 Gemma 4 模型

iPhone 上不要一開始就上最大顆，會太熱又太慢。可依照：

中階機種（A15 / A16、基本容量）：
建議：Gemma 4 2B–4B 量化模型（例如 Q4 / Q5）
用途：聊天、筆記整理、短文翻譯
高階 Pro / Max（A18 Pro 類級別，RAM 8GB+）：
建議：Gemma 4 9B 左右的量化模型，若 App 支援可試長上下文版本
用途：較長文章摘要、本地知識庫問答

行動建議： 先下載一個 2B–4B 模型，跑幾分鐘聊天測試溫度。如果手機發燙明顯，就把 thread 數調低或換更小模型。

步驟 3：測試性能、溫度與耗電

開啟 App，載入 Gemma 4 模型。
問它一個中等長度 prompt，例如：

「請用條列整理 Netflix 訂閱變貴時，使用者常見的三種反應，控制在 200 字內。」

觀察：
生成 200 字大約需要幾秒？
手機背面溫度明顯變熱嗎？
連續用 10 分鐘後，電量大約掉多少？
在 App 設定中調整：
推理 thread（有時稱為「CPU 核心數」「推理執行緒」）
最大輸出 token 數（不必要就別一次開超大）

目標狀態：

你可以連續聊 10–15 分鐘，手機只是微熱，耗電還在可接受範圍。

步驟 4：實戰 Workflow —— 把 PDF/筆記丟給 Gemma 4 做總結與問答

示範一個你可以直接照做的流程：

準備檔案
在檔案 App 建一個資料夾：LLM-Inbox。
把一份 PDF（例如 20–30 頁的報告）或匯出的日記 .txt 放進去。
在 App 裡建立「知識庫」或上傳文件
打開你的本地 LLM App，找到「Documents / Knowledge / Files」等選項。
選擇 LLM-Inbox 裡那個檔案上傳或索引。
設定一個專門對話空間
新建一個對話，命名成「某某報告 Q&A」。
在 system prompt（如果有）寫上：

「你只能根據我上傳的文件回答問題，不要憑空猜測。回答用繁體中文。」
實際問問題
「請用 300 字總結這份報告的主要結論。」
「作者提出的三個建議是什麼？幫我用自己的話改寫。」
「如果我要做 5 分鐘簡報，應該只挑哪三個 key slide？」
優化體驗
如果覺得速度太慢：
- 換更小的 Gemma 4 模型
- 限制回答字數，例如「控制在 150 字內」
如果回答常飄走：
- 再加一句規則：「如果文件沒有提到，就回答『文件未提及』。」

完成這個 workflow 後，你就已經不是「玩玩看」而是把 Gemma 4 變成日常讀書 / 工作輔助工具。接下來才是微調 prompt、換更大模型或試試手機端原型開發。

💡 關鍵： 只要先打通「PDF/筆記 → 總結 + 問答」，Gemma 4 就能穩定接手你日常的讀書、報告與資料整理工作。

總結：先把一件小事做通，再考慮玩更大

在 iPhone 本地跑 Gemma 4，不需要一次搞懂所有量化格式、Core ML 細節。建議你照這個順序：

找一個支援本地模型的 iOS App
下 1 個中等大小的 Gemma 4 模型
完成「PDF/筆記 → 總結 + 問答」這個 workflow
覺得穩定好用，再往日記分析、快捷指令、自建 App 擴展

做到第 3 步，你就已經把「接近 ChatGPT 的體驗搬進 iPhone，而且可離線」真正落地了。

🚀 你現在可以做的事

打開 App Store 搜尋「local LLM / offline AI」，安裝一個支援 Gemma 4 或 GGUF 的 App

準備一個 LLM-Inbox 資料夾，把一份 PDF 或日記 .txt 放進去，按文中步驟跑完一次總結 + 問答

觀察 10–15 分鐘使用時的速度與溫度，調整模型大小與 thread 設定，找出最適合你 iPhone 的組合

2026 年 4 月 16 日