標籤: AI 工具

  • 用 GlycemicGPT 把血糖變成可讀故事

    用 GlycemicGPT 把血糖變成可讀故事

    📌 本文重點

    • 把複雜血糖數據轉成「可讀故事」
    • 不碰醫療決策,只做分析與提醒
    • 可自託管,延伸到睡眠、運動等健康指標
    • 工程師與非工程師都有明確上手路徑

    這是一個把連續血糖、胰島素泵、Nightscout 和聊天式分析整合在一起的開源 AI 健康管家,但不碰醫療決策,專心把你的血糖數據講成聽得懂的故事。

    專案連結:GlycemicGPT GitHub


    核心功能:它到底幫你做什麼?

    1. 把一天血糖變成「可讀摘要」

    解決的問題:連續血糖監測(CGM)數據很多,但圖表看了還是不知道:今天到底穩不穩?哪一段出問題?

    GlycemicGPT 的做法
    – 從 Dexcom G7、Nightscout 等來源抓你的 24 小時血糖紀錄
    – 分成「夜間」「白天」「運動前後」「高低血糖事件」等片段
    – 生成一段自然語言摘要,例如:
    – 「昨晚 2–4 點有兩次低血糖,可能和睡前校正注射有關」
    – 「早餐後 1–2 小時血糖上升幅度較大,建議檢視碳水估算」

    💡 關鍵: 把一整天密密麻麻的血糖數據濃縮成幾句話,讓你一眼看出哪個時段最需要注意。

    你可以馬上做的事
    – 每天固定時間(例如睡前)看一次摘要,記一條「明天要嘗試的調整」:
    – 減少某餐碳水
    – 提前運動時間
    – 記錄一個你想問醫師的問題


    2. 餐後血糖分析:把「這餐」跟「那餐」比較出來

    解決的問題:你可能知道「麵會讓我高」,但很難量化:這碗麵 vs 這碗飯,到底差多少?

    GlycemicGPT 的做法
    – 從 Nightscout 或手動輸入的「餐點紀錄」對應到餐後血糖曲線
    – 幫你計算:
    – 餐後 1 小時、2 小時的血糖變化
    – 每道菜、不同時間吃同一餐的差異
    – 用自然語言生成結論:
    – 「相較於 5 月 1 號午餐,同樣是義大利麵,今天餐前血糖較高,使得峰值提高約 20 mg/dL」

    💡 關鍵: 透過具體數字比較不同餐次,幫你找出「同一道菜、不同吃法」帶來的血糖差異。

    你可以馬上做的事
    – 選一個常吃的餐(例如便當店),連續 3 次記:
    – 吃什麼
    – 大概時間
    – 用 GlycemicGPT 問:「幫我比較這 3 次便當餐後血糖差異」
    – 找出:
    – 是否晚吃一小時就特別高
    – 是否換一種配菜更穩


    3. 聊天式 Q&A 與預警:把醫囑變成「日常提醒」

    解決的問題:醫院給的講義很厚,但日常遇到的小問題(例如「今天運動前 30 分鐘血糖是 90,合理嗎?」)很難即時問人。

    GlycemicGPT 的做法
    – 使用 RAG(從可信來源取資料再回答),連結臨床指南、糖尿病教育資料
    – 你可以問:
    – 「這週夜間低血糖發生幾次?」
    – 「最近是否有高血糖時間變長?」
    – 設定預警:
    – 當血糖連續一段時間偏高/偏低時,以你設定的方式提醒(例如透過 Nightscout 或其他通知系統)

    安全邊界(很重要)
    – GlycemicGPT 不控制胰島素泵,不會自動調整劑量
    – 它是「分析與提醒工具」,任何治療改變都應與醫師討論

    💡 關鍵: 系統刻意不碰胰島素劑量,只做「看懂與提醒」,讓使用更安全、也更符合醫療規範。

    你可以馬上做的事
    – 選一個你常擔心的情境,例如:「運動前低血糖」
    – 問 GlycemicGPT:
    – 「過去兩週,我運動前 2 小時內有低血糖的情況嗎?」
    – 把得到的結論帶去門診,跟醫師一起確認需不需要調整


    適合誰用?三種典型場景

    1. 糖尿病患者:把自我管理變成「對話」

    適合:已經在用 Dexcom G7、Nightscout 或胰島素泵的 1 型/2 型患者。

    可以怎麼用:
    – 每週固定生成一份「一週血糖報告」
    – 把報告存在雲端或印出,在門診時直接給醫師看
    – 平常遇到疑問先在 GlycemicGPT 裡「排練」問題,再整理 2–3 個重點問醫師


    2. 家屬與照護者:遠端關心但不干擾

    適合:家裡有小孩、長輩正在使用 CGM 或胰島素泵。

    可以怎麼用:
    – 由患者端自託管 GlycemicGPT,授權家屬查看摘要
    – 家屬每週只看一次「高低血糖事件概況」,避免盯得太緊造成壓力
    – 把預警設定為「只在連續幾天異常時通知」,減少過度打擾


    3. 醫療團隊:作為視覺化與溝通工具

    適合:願意嘗試資料驅動照護的診所、醫師、糖尿病衛教師。

    可以怎麼用:
    – 在院內一台伺服器上自託管,連接部分願意參與的患者 Nightscout
    – 診間中開 GlycemicGPT 的每日摘要,當作溝通起點:
    – 「這裡可以看到你這一週夜間血糖偏低,我們一起討論原因」

    再次提醒:治療決策仍然由醫師與患者共同做出,GlycemicGPT 只是把資料講清楚。


    延伸思路:用同一套架構做「睡眠 / 運動 / 壓力」Agent

    就算你不是糖尿病患者,也可以從 GlycemicGPT 學到一套「個人健康 Agent」的設計模板:

    1. 資料來源
    2. 睡眠:Apple Watch、Oura Ring、床墊感測器
    3. 運動:Garmin、Strava、健身房紀錄
    4. 壓力:心率變異度(HRV)、自我打分
    5. 管道層(類似 Nightscout)
    6. 建一個簡單的時間序列資料庫(例如 InfluxDB、TimescaleDB)
    7. AI 分析層
    8. 用類似 GlycemicGPT 的方式:
      • 每日摘要
      • 特定事件分析(熬夜、重訓日)
      • 聊天式 Q&A

    具體行動建議
    – 先選一個最在意的指標(例如「睡眠中途醒來」)
    – 用 Notion / Google Sheet 先手動記一週
    – 再思考要怎麼把它自動化收集,最後才上 AI 分析層


    怎麼開始:非工程師 vs 工程師兩條路

    非工程師:先找到願意幫你部署的人

    目前 GlycemicGPT 是一個自託管專案,沒有一鍵雲端 SaaS,可以照這個路線:

    1. 準備好問題清單
    2. 想解決什麼?(例如「看懂 Dexcom 圖表」「整理給醫師的報告」)
    3. 請技術朋友或社群幫忙部署
    4. 把這個連結丟給對方:https://github.com/GlycemicGPT/GlycemicGPT
    5. 請他們依 README 在以下任一環境部署:
      • VPS(例如 Hetzner、DigitalOcean)
      • 家用 NAS / 自架伺服器
      • 樹莓派(性能較有限,但可做測試)
    6. 確認三件事再上線
    7. 資料只存在你控制的機器
    8. 只有你(和你信任的人)有權登入
    9. 不啟用任何自動控制胰島素的機制

    如未來專案提供雲端部署模板(例如 Docker Compose + 一鍵部署到某雲平台),可直接使用模板,仍建議由你信任的技術人員操作。


    工程師:自己 clone、自己玩(含模擬數據)

    步驟 1:Clone 專案

    git clone https://github.com/GlycemicGPT/GlycemicGPT.git
    cd GlycemicGPT
    

    步驟 2:設定資料來源

    你有三種常見選項:
    – Dexcom G7:
    – 依 README 取得雲端 API 權限
    – Tandem t:slim X2 / Mobi:
    – 透過 BLE 連線(需支援藍牙的裝置)
    – Nightscout:
    – 指向你現有的 Nightscout URL 和 API key
    – 沒有真實設備也沒關係:
    – 使用專案提供的模擬數據(或自己寫一段腳本產生假資料),先跑通流程

    步驟 3:選擇 LLM:本地或雲端

    • 本地模型(例如搭配 Ollama)
    • 適合:在意隱私、手邊有一台效能還可以的電腦
    • 做法:
      bash
      # 安裝 Ollama(依官網步驟)
      ollama pull llama3
    • 在 GlycemicGPT 設定檔中改成指向本地 Ollama 的 API

    • 雲端 LLM(OpenAI、Anthropic 等)

    • 適合:先追求穩定與效果
    • 做法:
      • 取得 API Key
      • 在環境變數或設定檔中填上

    步驟 4:跑起第一個每日摘要

    • 啟動服務(依 README,多半是 docker-compose up 或類似指令)
    • 匯入一段 24 小時的血糖資料
    • 在 Web 介面或命令列呼叫「Daily brief」功能

    你應該會看到類似:

    「過去 24 小時,Time in Range 為 72%,夜間低血糖兩次,主要集中在 2–3 AM。」

    從這裡開始,你可以:
    – 修改提示詞(prompt)讓語氣更符合自己
    – 加入自訂指標(例如:運動前 2 小時血糖平均值)


    實務提醒:隱私、醫療決策與客製指標

    1. 隱私與自託管
    2. 血糖與醫療資料是極具敏感性的個資
    3. 優先考慮:

      • 自己控制的伺服器
      • 本地模型(如 Ollama)
      • 關閉不必要的遙測或第三方整合
    4. 與醫師討論後再調整治療

    5. GlycemicGPT 可以提出「假設」:
      • 「這段時間似乎與晚餐進食時間延後有關」
    6. 但任何:
      • 胰島素劑量修改
      • 藥物新增或減少
      • 大幅飲食調整
    7. 都應先與醫師或糖尿病衛教師確認

    8. 迭代客製自己的健康指標

    9. 起點:先用官方常見指標(Time in Range、低血糖事件次數)
    10. 接著加上個人化指標,例如:
      • 「健身日前後 12 小時的血糖穩定度」
      • 「出差期間 vs 非出差期間的平均血糖」
    11. 每一輪調整只增加 1–2 個新指標,避免系統變得看不懂

    延伸閱讀與靈感來源

    如果你正在想「AI 到底能在我的健康管理中做到哪裡」,GlycemicGPT 是一個很好的起點:
    – 它先專注把資料變成可讀故事
    – 把決策留給你和醫師
    – 同時也給了我們一套可複製到其他健康領域的架構範本。

    🚀 你現在可以做的事

    • 打開 GlycemicGPT GitHub 專案,確認自己屬於「非工程師」還是「工程師」路線
    • 選一個近期最在意的情境(例如「夜間低血糖」或「某個常吃的便當」),準備一週的相關紀錄
    • 找一位可信任的技術朋友,或自己依 README 部署雛形,先跑出第一份「24 小時血糖摘要」再逐步優化
  • 5 分鐘做出你的 Claude 專屬小 Agent

    5 分鐘做出你的 Claude 專屬小 Agent

    📌 本文重點

    • Claude Skills 是一包可重用的 Python 技能模組
    • 只要寫幾個函式就能讓 Claude 自動串起工作流
    • 10 分鐘內可跑起第一個實用小 Agent

    用一句話講清楚:Claude Skills 就是一包現成可重用的 Python「技能模組」,幫你把讀檔、叫 API、發 Slack 這種瑣事交給 AI 自動跑。

    下面的重點是:看完你應該要「馬上能照著做,跑起一個自己的小 Agent」。


    什麼是 Claude Skills?

    原始專案:https://github.com/anthropics/skills

    用人話解釋:

    • 每一個 Skill 就是一個 Python 函式,包住「一件具體可重複的任務」,例如:
    • 讀 / 寫某個資料夾的檔案
    • 呼叫外部 HTTP API
    • pandas 處理 CSV / JSON
    • 串起一小段工作流程(抓資料 → 清洗 → 寫檔 → 發通知)
    • 這些函式會被包裝成 工具(tools),讓 Claude 之類的模型「自動決定要不要呼叫、用哪個參數」。
    • 你的工作:
    • 選幾個 skills
    • 配好權限與 API key
    • 用一個簡單的 Agent shell 把它們掛上去

    結果就是:你不用自己手刻複雜 Agent 架構,只要寫幾個普通的 Python 函式,Claude 就能幫你組成自動化流程。


    核心功能:你可以拿來做什麼

    1. 內建技能類型:檔案、API、資料處理、簡單工作流

    anthropics/skills 裡,你可以看到各種已經寫好的 skills(名稱可能持續調整,但類型大致如下):

    • 檔案相關:
    • 讀寫本機檔案(通常限定在某個資料夾)
    • 列出目錄、建立新檔、更新內容
    • API 呼叫:
    • 通用 HTTP requestGET / POST
    • 幫你處理 headers、JSON encode / decode
    • 資料處理:
    • 讀寫 CSV / JSON
    • pandas 做簡單統計與篩選
    • 工作流協調:
    • 把多個 skills 串起來:例如「每天定時抓 API → 整理 → 寫報表 → 發通知」

    💡 關鍵: 多數常見「讀檔、叫 API、整理資料」的雜務,其實已經有現成 skill,可以直接拿來組合,而不用從零寫 Agent 架構。

    你可以立刻做的事:

    1. 打開 repo 的 skills/ 資料夾(或類似目錄),挑幾個你看得懂的 Python 檔。
    2. 看每個 skilldocstring,理解它預期的輸入、輸出是什麼。
    3. 想一件自己平常重複做的事,先用一個 skill 就好(例如:讀一個 CSV 幫你整理)。

    2. 如何跟你現有專案整合

    Skills 的設計很單純:

    • 你可以把整個 repo 當作 依賴套件 安裝,或直接把單一 skill 檔案 copy 進你專案。
    • 在你自己的 Agent 程式裡,把這些 functions 包成工具,丟給 Claude 使用。

    一個極簡示意(結構可能與實際 repo 有差異,但概念相似):

    from skills.files import read_file, write_file
    from anthropic import Anthropic
    
    client = Anthropic(api_key="YOUR_API_KEY")
    
    TOOLS = [read_file.tool_def, write_file.tool_def]
    
    resp = client.messages.create(
        model="claude-3-7-sonnet-20250219",
        max_tokens=1024,
        tools=TOOLS,
        messages=[{
            "role": "user",
            "content": "請幫我打開 data/report.csv,整理成重點摘要,回給我。"
        }]
    )
    

    Claude 看到 tools 後,會自己決定:

    • 要不要執行 read_file
    • 執行後用結果做後續推理

    你可以立刻做的事:

    • 如果你已經有在用 Claude API,先挑 1–2 個 skills 加進你的工具列表,看看 Claude 會怎樣使用它們。

    3. 搭配其他開源專案:拉出一條多代理 workflow

    有兩個常被一起提到的專案,很適合拿來串:

    名稱 核心功能 免費方案 適合誰
    Claude Skills 可重用的 Python 任務模組,給 Agent 當工具用 開源、自架 想快速做實用 Agent 的開發者、技術 PM
    scientific-agent-skills 研究、工程、金融、寫作等專業領域的技能集 開源、自架 科研團隊、量化分析、技術寫作者
    Personal_AI_Infrastructure 個人 AI 代理基礎架構、多代理協作 開源、自架 想打造個人 AI 工作桌面、內部 Agent 平台的人

    實際串法可以是:

    • Personal_AI_Infrastructure 當「總控台」與排程器
    • Claude Skills + scientific-agent-skills 當作不同專業領域的「工具箱」
    • 例如:
    • Agent A:每天抓研究資料(API + 檔案 download
    • Agent B:用 scientific-agent-skills 做統計分析
    • Agent C:把結果用 Claude Skills 寫成報告,發到 Slack

    你可以立刻做的事:

    • 先單純在本機跑 Claude Skills,確認流程順暢後,再考慮拉入 Personal_AI_Infrastructure 做多 Agent 編排。

    適合誰用:三種常見場景

    1. 個人開發者 side project:資料整理 bot、FAQ 助理

    具體可以做:

    • 資料整理 bot
    • 每天從某個 API 抓資料
    • 存成 CSV
    • 請 Claude 用 skills 幫你做摘要或簡單圖表
    • 客服 FAQ 助理
    • 讀本機的 FAQ 檔案 + 客戶紀錄
    • 自動整理常見問題、生成回覆模板

    行動建議:

    • 先挑「你每天重複做、但不用太精準」的任務,例如:整理 log、閱讀報表。

    2. 小團隊:內部自動化腳本

    適合處理:

    • 例行報表產出
    • 專案進度彙整
    • Jira / GitHub issue 摘要

    作法:

    1. 把資料源(API、CSV)包成 2–3 個自訂 skills
    2. 寫一個簡單 CLI 或 cron job,每天叫 Claude 跑一次。

    3. 結合其他開源專案:多步驟分析 + 報告

    對研究團隊、數據團隊特別實用:

    • scientific-agent-skills 做嚴謹分析
    • Claude Skills 負責「收資料 / 寫結果 / 發報告」

    行動建議:

    • 先把你現有的分析腳本包一層成 skill,讓 AI 能呼叫;不需要一開始就全部自動化。

    怎麼開始:10 分鐘跑起一個本地小 Agent

    以下示意流程假設你已經有 Claude API key,且會用基本的命令列。

    💡 關鍵: 只要準備 API key、安裝 repo,再加上兩三個簡單 skills,大約 5–10 分鐘內就能跑起第一個可用的本地 Agent。

    步驟 1:Clone 專案 + 安裝依賴

    git clone https://github.com/anthropics/skills.git
    cd skills
    
    # 依照專案說明,可能是
    pip install -e .
    # 或
    pip install -r requirements.txt
    

    行動:確認 python -m skills 或範例指令能跑起來(依官方 README 為準)。


    步驟 2:設定 API Key

    export ANTHROPIC_API_KEY="你的 Claude API key"
    

    Windows PowerShell:

    $env:ANTHROPIC_API_KEY="你的 Claude API key"
    

    行動:用 repo 提供的最小範例(例如 examples/basic_agent.py)跑一次,看 Claude 能不能成功呼叫某個內建 skill


    步驟 3:本機執行一個範例技能

    假設有一個簡單範例(名稱依實際 repo 為準):

    python examples/list_files_agent.py
    

    你可能會看到:

    • 問你「要在哪個資料夾工作」
    • Claude 自動呼叫 list_filesread_fileskills

    行動:換一個你自己的資料夾(例如放了一些 CSV 報表),觀察 Claude 如何使用 skills 幫你瀏覽、整理。


    步驟 4:改成自己的任務——每天抓一個 API、整理、丟 Slack

    目標:

    1. 每天叫一個公開 API(例如匯率、Crypto 價格)
    2. 整理成簡單文字報表
    3. 發成訊息到 Slack 頻道

    實作方向:

    1. 寫一個自訂 skill:
    # skills/custom/fetch_rates.py
    import requests
    
    from skills.core import skill  # 依實際框架命名
    
    @skill
    def fetch_rates(base: str = "USD"):
        """從匯率 API 取得最新匯率資料。"""
        url = f"https://api.exchangerate.host/latest?base={base}"
        r = requests.get(url, timeout=10)
        r.raise_for_status()
        return r.json()
    
    1. 再寫一個發 Slack 的 skill(用 webhook 即可):
    # skills/custom/post_to_slack.py
    import os
    import requests
    from skills.core import skill
    
    WEBHOOK = os.environ["SLACK_WEBHOOK_URL"]
    
    @skill
    def post_to_slack(text: str):
        """把文字訊息丟到預設 Slack 頻道。"""
        r = requests.post(WEBHOOK, json={"text": text}, timeout=10)
        r.raise_for_status()
        return {"status": "ok"}
    
    1. 寫一個小 Agent 腳本:
    from anthropic import Anthropic
    from skills.custom.fetch_rates import fetch_rates
    from skills.custom.post_to_slack import post_to_slack
    
    client = Anthropic()
    
    TOOLS = [fetch_rates.tool_def, post_to_slack.tool_def]
    
    prompt = """
    你是一個匯率小助理:
    1. 先用工具抓最新 USD 匯率
    2. 挑出 3 個對我們重要的幣別(EUR, JPY, TWD)
    3. 排版成一段適合 Slack 的中文簡報
    4. 用工具發到 Slack
    """
    
    resp = client.messages.create(
        model="claude-3-7-sonnet-20250219",
        max_tokens=1024,
        tools=TOOLS,
        messages=[{"role": "user", "content": prompt}]
    )
    
    1. 排程:

    2. Linux / macOS:用 cron 每天跑一次這個腳本

    3. Windows:用排程工作排每日執行

    到這裡,你就已經有一個「完全實用」的小 Agent,在幫你做每天的資訊整理與通知。


    最佳實踐:權限、安全與成本

    1. 限制權限:不要讓 Agent 隨便亂動

    • 檔案操作技能:
    • 設定 專用工作資料夾,例如 ./agent_workspace,只給這個路徑的讀寫權限。
    • API skills
    • 把 API key 存在環境變數或 secret manager,不要寫死在程式碼。

    2. 記錄 log:看得出 Agent 做了什麼

    • 為每個 skill 加上基本 logging
    • 呼叫時間
    • 參數(敏感資訊略過)
    • 成功 / 失敗
    • 方便之後調整 prompt 或參數,避免 Agent 做無用功。

    3. 控制成本:避免 runaway cost

    • 在建立 Claude 訊息時:
    • max_tokens 合理上限
    • 控制 context 長度(不要丟整個專案 repo,先丟必要檔案)
    • 如果是排程任務:
    • 從「每天一次」開始
    • 先跑一週看看用量,再決定要不要加頻率或多任務

    💡 關鍵: 先以低頻率、小 context、適中 max_tokens 測試一陣子,再逐步放大規模,可以有效避免成本爆衝。


    總結

    如果你:

    • 會一點 Python
    • 有一些重複的資訊工作
    • 不想研究整套 Agent 框架

    那以 Claude Skills 作為工具層,加上 Claude API 當腦,就足以在 5–10 分鐘內生出一個實用的小 Agent。先從一個最簡單、最無害的任務開始,把整個流程跑順,之後要擴充成多代理、多專案,只是多加幾個 skills 與排程而已。


    🚀 你現在可以做的事

    • 打開 anthropics/skills 並瀏覽 skills/ 目錄,挑 1–2 個看得懂的 skill 研究輸入輸出
    • 在本機依照文中步驟安裝 repo、設定 ANTHROPIC_API_KEY,跑一次官方範例 agent
    • 依照「匯率 + Slack」示例,改寫成你自己的每天例行任務(例如拉報表、整理 log、寄出摘要)
  • 讓 Notion 變成你的 AI Agent 中樞

    讓 Notion 變成你的 AI Agent 中樞

    📌 本文重點

    • Notion 成為托管多個 AI Agent 的工作台
    • 以狀態變化與欄位更新觸發各種自動化工作流
    • 結合外部 SaaS,打造從資料拉取到 AI 清洗的資料管線

    只要把 Agent 綁在 Notion 頁面和資料庫上,你就能用原本的工作區,托管多個 AI 助手,自動整理內容、跑專案流程、甚至接上外部 SaaS 資料管線。

    參考:Notion 開發者平台介紹(TechCrunch 報導)
    https://techcrunch.com/2026/05/13/notion-just-turned-its-workspace-into-a-hub-for-ai-agents/


    核心功能:Notion 現在是「Agent 工作台」

    💡 關鍵: 把 Agent 綁定在「頁面 / 資料庫」上,等於讓 Notion 變成專屬 AI 助手的工作台,而不是單純筆記工具。

    1. 在頁面 / 資料庫綁定 Agent

    你可以把 Agent 視為「住在某個頁面或資料庫裡的專屬助手」:

    • 每個資料庫都能指定一個或多個 Agent,負責:
    • 自動摘要新頁面內容
    • 解析出行動項(Action items)
    • 幫你填欄位(負責人、優先級、標籤)
    • 每個重要頁面(像 PRD、會議紀錄)可以加上「頁面專屬 Agent」,只處理這一頁的內容與後續追蹤。

    你可以做的事:

    • 為「Meeting Notes」資料庫新增一個 會議整理 Agent,設定規則:只要有新筆記,就產出摘要+行動項目,寫回同一筆紀錄的欄位。

    2. 依「狀態改變」自動執行工作流

    Notion 的資料庫欄位(StatusSelectCheckbox 等)可以變成觸發條件:

    • 例:任務狀態從 Todo → In progress
    • Agent 自動產生子任務(切分工作)
    • 寫一段「本週進度更新」到更新紀錄欄位
    • 例:狀態改為 Done
    • Agent 生成 Retro 小結
    • 自動發 Slack 通知給相關頻道

    你可以做的事:

    • 在「專案任務」資料庫加一個 狀態更新 Agent,規則:
    • Status 改成 In progress 時,自動新增 3–5 個子任務欄位建議,讓你選擇採用。

    3. 連接外部 API & 自家服務,變成資料管線

    透過 Notion 開發者平台,你可以把外部 SaaS 當作資料來源,丟進 Notion 再交給 Agent 清洗:

    • 從 CRM(如 HubSpot)、工單系統、回饋表單拉資料進一個「集中資料庫」
    • Agent 負責:
    • 解析文字欄位(工單描述、回饋內容)
    • 自動分類(類別、產品線、嚴重程度)
    • 加標籤或指派負責人

    你可以做的事:

    • 建一個 客戶回饋 資料庫,接上 HubSpot API,讓 Agent 自動幫每則回饋打標籤:功能請求 / Bug / 體驗問題。

    三種實戰場景:從內容、專案到資料管線

    💡 關鍵: 最穩起手式是「先在 Notion 裡把資料結構化」,再讓 Agent 針對欄位與內容運轉,而不是一開始就做複雜自動化。

    1)內容與知識管理:自動整理 PRD、會議紀錄

    典型設定方式:

    1. 建立一個 PRD 資料庫,每個 PRD 是一筆資料。
    2. 為這個資料庫綁定 產品文件 Agent,定義任務:
    3. 讀取 PRD 內容區塊
    4. 生成:
      • 300 字內摘要
      • 主要風險與假設
      • 需要決策的問題清單
    5. 生成內容寫回欄位(Summary / Risks / Decisions)。

    會議紀錄也一樣:

    • Meeting Notes 資料庫 + 會議助手 Agent
    • 生成摘要
    • 抽取行動項目
    • 自動填入 OwnerDue date 欄位(依你設定的規則或會議參與者)。

    你可以馬上做的事:
    挑一個你最常用的會議紀錄資料庫,新增一個文本欄位 AI 摘要,再設定一個 Agent 規則:新紀錄建立後 1 分鐘內,自動寫入摘要。


    2)專案與工作流:從狀態變化觸發自動化

    想像 Notion = Trello + AI 助手:

    例:產品開發看板

    • 資料庫欄位:StatusAssigneePriority更新紀錄 等。
    • 綁定 專案 Agent 規則:
    • StatusDesignDev:Agent 讀整個卡片內容,
      • 自動產出測試清單(Test cases)
      • 寫入 更新紀錄@QA 並貼測試重點
    • StatusReady for Release
      • Agent 產生一段英文 / 中文 release note 草稿
      • 寄出或貼到 Slack 產品頻道。

    你可以馬上做的事:

    • 在專案資料庫加一個 Release note draft 欄位,設定 Agent:只要任務進入 Ready for Release,就根據「變更內容」欄位自動生成初稿。

    3)資料管線:外部工具 → Notion → Agent 清洗

    把 Notion 當成「中間站」:

    範例流程:HubSpot → Notion → AI 標註

    1. 用 Notion developer platform 建立一個簡單整合:
    2. 定期呼叫 HubSpot API 拉新聯絡人 / 回饋
    3. 寫進 Notion LeadsFeedback 資料庫
    4. 綁定 銷售線索 Agent回饋分析 Agent
    5. 解析文字欄位(詢問內容、工單描述)
    6. 機會大小產品類別優先級 欄位。

    工單系統也類似:

    • 從 Zendesk / Jira Service Management 拉工單進 Notion
    • Agent 自動:
    • 判斷是否為緊急問題
    • 建議指派對象
    • 生出對客戶的回覆草稿。

    你可以馬上做的事:

    • 先選一個來源(如 HubSpot),只同步最小的一個表格(例如最近 50 筆 leads),專心把「自動分類與優先級」這一步做好,再往後串通知或報表。

    怎麼開始:從零到第一個「週報 Agent」

    💡 關鍵: 從一個很小、明確的用例(例如週報)開始,比一次導入整個專案管理更容易落地與調整。

    步驟 1:開啟 Notion 開發者平台權限

    1. 進入工作區 Settings & members
    2. Integrations / Developers 區塊啟用開發者平台(某些方案需管理員權限)。
    3. 建立一個新 Integration,取得:
    4. Integration ID / Secret
    5. 可存取的資料庫與頁面範圍(務必限制在必要範圍)。

    官方入口:https://www.notion.so/my-integrations (依實際帳號會導向對應頁面)

    行動建議:
    先只開放一個「實驗用」工作區或資料庫給這個 Integration,避免一開始就讓 Agent 看到整個公司內容。


    步驟 2:建立你的第一個 Agent ——「週報助手」

    目標:你在 Notion 填一週做了什麼,Agent 自動:

    • 產出精簡週報
    • 幫你分欄:本週亮點 / 風險 / 下週計畫

    設計方式:

    1. 建立一個 Weekly Report 資料庫,欄位:
    2. Week(日期 / 文字)
    3. Raw notes(你隨便輸入的本週記錄)
    4. Summary(AI 產生)
    5. HighlightsRisksNext week
    6. 在開發者平台中,創建一個 週報 Agent
    7. 觸發條件:Raw notes 更新
    8. 任務:讀取 Raw notes,用固定模板輸出 3 段內容,分別寫入三個欄位。

    你可以馬上做的事:
    找一週你真的很忙的那週,貼入原始 notes(甚至可以是 Slack 摘錄),讓 Agent 幫你整理,看輸出是否能直接拿去給主管或團隊。


    步驟 3:接一個常用 SaaS,從「一句需求」到「實際 automation」

    假設你想要:

    「每天把 HubSpot 新增的高潛力 leads 拉進 Notion,並且自動生成一段聯絡話術。」

    拆成執行步驟:

    1. 自然語言需求 → 規格
    2. 描述給你內部的 AI 或開發同事:
      • 資料來源:HubSpot 新增 leads
      • 條件:lead_score > 80
      • 寫入:Notion Leads 資料庫(Name / Company / Note
      • Agent 任務:為每一筆產生一段 100 字內的開場訊息。
    3. 實作連接腳本(Node / Python 皆可):
    4. 呼叫 HubSpot API 抓資料
    5. 使用 Notion API 建立資料庫項目
    6. 在 Notion 綁定 銷售話術 Agent
    7. 觸發:新 lead 建立
    8. 利用 lead 的欄位內容,生成個人化的聯絡訊息,寫入 Opening message 欄位。

    行動建議:
    先把這個流程做成「每天一次批次」而不是即時,方便你人工 review,一兩週成熟後再改成即時自動化。


    與 Zapier / Make 的差別在哪?

    工具類型 名稱 實際核心功能 免費方案 適合誰
    自動化平台 Zapier 連接上百種 SaaS,依事件觸發工作流 有,步數與任務量有限 以「事件轉發」為主的自動化(如表單 → Slack)
    自動化平台 Make 視覺化流程設計、條件分支豐富 有,執行次數有限 複雜條件、自定義 API 整合多
    Agent 中樞 Notion + Agents 在內容上下文中運行 Agent,直接操作頁面 / 資料庫 視方案與工作區設定而定 已把工作放在 Notion,上下文豐富、需要 AI 理解內容的人

    關鍵差異:

    • Zapier / Make:強在「事件與資料欄位」,邏輯清楚但不懂內容。
    • Notion + Agent:強在「內容與上下文」,適合需要理解長文、文件關係的自動化(PRD、會議、工單描述)。

    最實用的做法通常是:

    • 讓 Zapier / Make 負責「資料搬運」
    • 讓 Notion Agent 負責「讀懂內容、整理與生成」。

    安全與權限:啟用前要先想好的事

    在公司導入前,至少做這三件事:

    1. 縮小可見範圍
    2. 為每個 Agent 建立專用資料庫與頁面,不要一開始就給整個 workspace 權限。
    3. 區分測試與正式環境
    4. 先在 sandbox workspace 測試 prompt、輸出格式,再搬到正式專案。
    5. 記錄與監控
    6. 保留 Agent 執行紀錄(可考慮接像 Voker.ai 這類 agent analytics 工具)
    7. 定期 review Agent 產出,調整規則與權限。

    只要你把權限、資料範圍與監控設計好,Notion 就不再只是筆記本,而會變成團隊所有 AI Agent 的中樞:每天在你已經習慣的頁面和資料庫裡,默默跑完一堆你本來要手動做的事。


    🚀 你現在可以做的事

    • 在現有的 Meeting Notes 資料庫新增 AI 摘要 欄位,綁定一個簡單的會議整理 Agent 測試輸出品質
    • 建一個獨立的 Weekly Report 資料庫,實作文中「週報 Agent」流程,實際跑一週看看是否減少整理時間
    • 選一個你常用的 SaaS(如 HubSpot / Zendesk),只同步一小部分資料到 Notion,讓 Agent 做分類與摘要清洗實驗
  • Needle:把工具調用 Agent 塞進手機

    Needle:把工具調用 Agent 塞進手機

    📌 本文重點

    • Needle 是專門負責工具選擇與參數填充的小型中控模型
    • 能在手機級硬體離線、高吞吐運行,降低雲端大模型成本
    • 最適合當工具路由器 / 前置規劃器,輸出穩定 JSON 給其他系統

    Needle 就是一顆專門幫大模型「只負責選工具、組參數、吐 JSON」的超小中控腦,讓工具調用 Agent 能在手機級硬體離線或低延遲運作。

    原始專案在 GitHub:https://github.com/cactus-compute/needle


    核心功能:專心當「工具路由中樞」的 26M 模型

    1. 26M 參數 + 純 Attention:為工具調用瘦身

    Needle 的設計很直接:

    • 只有約 2600 萬參數(26M),比動輒數十億參數的聊天模型小一到兩個數量級。
    • 結構是 Simple Attention Network:只有 attention + gating,沒有 MLP/FFN 層。
    • 目標任務只有一件事:
    • 讀取指令 + 工具列表描述
    • 選擇要用哪個工具(或多個)
    • 從指令中抽出參數
    • 輸出工具調用 JSON

    💡 關鍵: 只有約 2600 萬參數的 Needle,能在極小成本下專門負責工具路由與參數抽取,是取代通用大模型做 function calling 決策的關鍵。

    這代表你的行動步驟是:

    • 如果你現在是用 GPT / Gemini / Claude 來做工具決策(例如 function calling),可以把「決定用什麼工具」這一步改交給 Needle,減少大模型 token 消耗與延遲。

    2. 專門為工具調用預訓與微調

    Needle 的訓練重點不是聊天對話,而是「工具使用」:

    • 先在 200 億 token 上預訓練語言能力。
    • 再用約 20 億條合成函數調用資料微調,來源是模擬 Gemini style 工具(例如鬧鐘、導航、日曆、筆記等)。

    💡 關鍵: 針對 20 億條函數調用資料微調,讓 Needle 在工具選擇與參數解析上比同尺寸聊天模型穩定得多。

    實際上,它不負責長篇推理,而是非常擅長:

    • 從口語指令中抓出結構化欄位(時間、地點、標題…)。
    • 在多個工具之間做正確匹配。
    • 輸出符合 schema 的 JSON 給你直接丟進 API。

    行動建議:

    • 如果你已經有一組工具 schema(例如 OpenAPI、function calling 定義),可以直接拿來給 Needle,讓它幫你產生調用 payload,再由你自己的程式實際發 API。

    3. 手機級硬體也能跑的高吞吐

    作者實測在「消費級裝置」可達:

    • 6000 tok/s prefill
    • 1200 tok/s decode

    💡 關鍵: 在一般消費級裝置上就能達到 6000 tok/s prefill、1200 tok/s decode,讓 Needle 可以長駐於手機與邊緣設備當本地 Agent 大腦。

    翻成白話:

    • 放在中階手機、平板、開發板(如樹莓派級別 SoC)上,當離線工具路由器是可行的。
    • 可以把 Needle 當作 永遠常駐的本地 Agent 大腦,大模型只在真正需要複雜推理/生成時才被叫起。

    行動建議:

    • 如果你正在做行動 App 或智慧硬體(耳機、車機、家電),可以先用 Laptop 上測試 Needle 的工具選擇邏輯,再評估移植到裝置端做本地推理。

    適合誰用:三種典型場景

    1. 行動裝置上的離線 / 低延遲 Agent

    典型案例:

    • 「早上 7 點幫我叫醒,順便播固定歌單」→ Needle 決定:set_alarm + play_playlist
    • 「開車回家,避開高速公路」→ Needle 決定:navigate,並填好目的地與偏好
    • 「幫我記一條:明天 meeting 要問預算」→ Needle 決定:create_note,抽出時間與內容

    做法:

    • 語音 → 本地 ASR(或雲端 Transcription)
    • 文字指令 + 工具列表 → Needle → 工具 JSON
    • 裝置端程式依 JSON 實際調起鬧鐘、導航、筆記 App

    適合:行動 App 團隊、智慧手錶 / 車機 / AR 眼鏡、想要弱網路或離線也能用的指令助手

    2. 雲端大模型前面加一層「本地工具路由器」

    你可能遇過這種成本問題:

    • 每個使用者點一個按鈕,就丟完整上下文給 GPT 讓它幫你:
    • 看要不要查資料庫
    • 看要不要 call search API
    • 看要不要調 CRM
    • 結果大部分情況都只是在查一個欄位,卻要跑一整輪大模型推理。

    用 Needle 可以:

    • 由 Needle 先判斷:這次是否需要工具?用哪個?
    • 只有當需要長推理 / 文本生成時,才叫雲端 LLM

    這樣能直接對應到多代理系統常被提到的「orchestration tax」問題:減少不必要的 LLM orchestration 回合數。

    適合:SaaS 後端、API 產品、任何大量使用 function calling 的服務,希望降成本 + 降延遲

    3. MCP / Function Calling 之前的一層「前置規劃器」

    如果你已經在用:

    • OpenAI / Gemini / ClaudeTool Use / Function Calling
    • 或是某種 MCP(Multi-Channel Prompting 或 Model Context Protocol)架構

    Needle 可以扮演:

    • 用戶輸入 → Needle 選擇:
    • 要走哪一條 MCP channel
    • 要用哪個 Function / Tool
    • 再把整理好的工具調用意圖,交給聊天模型做:
    • 實際回應文案
    • 或進一步分解子任務

    差別在於:

    • 一般微型聊天模型:
    • 會嘗試「理解+回答+決定工具」,但在複雜工具 schema 上容易出錯或 hallucinate。
    • Needle:
    • 不負責聊天,只專注在「選工具+填參數+吐 JSON」。

    適合:已經有多工具、多 Agent 架構的團隊,需要一個可控、可本地跑的規劃器 / 路由器


    Needle vs 一般微型聊天模型

    名稱 核心功能 免費方案 適合誰
    Needle 工具選擇+參數抽取+輸出 JSON 完全開源,自架 行動 App、硬體端、本地 Agent
    微型聊天模型 閒聊、簡單問答 多數可免費測試 想要基本對話、不重工具調用的人

    關鍵差異:

    • Needle 的輸出預期是結構化工具調用,不是自然語言回答。
    • 在工具 schema 清楚的情況下,Needle 通常比同尺寸聊天模型更穩定地填參數、遵守格式。

    行動建議:

    • 若你只需要「會聊天」:選一般微型聊天模型。
    • 若你需要「穩定地依 schema 呼叫工具」:可以試 Needle 當前置規劃器,再用大模型生成回覆文案。

    怎麼開始:從 clone Repo 到跑出第一個工具調用

    1. 抓下專案與模型

    # 1. clone repo
    git clone https://github.com/cactus-compute/needle.git
    cd needle
    
    # 2. 建議先建立虛擬環境
    python -m venv .venv
    source .venv/bin/activate  # Windows 用 .venv\Scripts\activate
    
    # 3. 安裝依賴
    pip install -r requirements.txt
    

    模型本體會在首次推理時自動下載(或依 README 指示手動下載權重)。

    2. 用現成推理腳本跑官方 demo

    Repo 裡提供了簡單的推理範例(實際檔名可能隨版本變動,可在 examples/ 或 README 中找到):

    python examples/simple_tool_calling.py
    

    通常你需要提供:

    • 工具 schema(JSON / Python dict)
    • 使用者指令文字

    腳本會回傳一段包含工具名稱與參數的 JSON,確認能跑通是第一步。

    行動建議:

    • 先照官方 demo 跑一遍,不改任何 schema,只看 Needle 如何選工具。

    3. 定義自己的工具 schema

    假設你要做一個簡單的鬧鐘 + 記事 Agent,可以這樣定義工具(示意):

    tools = [
      {
        "name": "set_alarm",
        "description": "設定鬧鐘時間(24 小時制)",
        "parameters": {
          "type": "object",
          "properties": {
            "time": {"type": "string", "description": "例如 07:30"},
            "label": {"type": "string", "description": "鬧鐘備註"}
          },
          "required": ["time"]
        }
      },
      {
        "name": "create_note",
        "description": "建立一則文字筆記",
        "parameters": {
          "type": "object",
          "properties": {
            "title": {"type": "string"},
            "content": {"type": "string"}
          },
          "required": ["content"]
        }
      }
    ]
    

    接著丟給 Needle:

    from needle import NeedleModel
    
    model = NeedleModel.from_pretrained("cactus/needle-base")
    
    user_query = "明天早上七點叫我起床,順便幫我記:早會要問預算"
    
    result = model.route_tools(query=user_query, tools=tools)
    print(result)
    

    預期會拿到類似:

    [
      {
        "tool": "set_alarm",
        "arguments": {"time": "07:00", "label": "早會"}
      },
      {
        "tool": "create_note",
        "arguments": {"title": "早會", "content": "早會要問預算"}
      }
    ]
    

    接下來只要用你熟悉的語言(Swift / Kotlin / Node / Python),依這個 JSON 實際呼叫 OS API 或雲端 API 即可。

    4. 把 Needle 接在現有 LLM 後面,做一條簡單 workflow

    以下是一條最小可行的 workflow(伪碼):

    1. 語音 → 文字
    2. 行動裝置用本地或雲端 ASR:
    3. speech.wav -> transcript = "幫我找台北明天不下雨的戶外咖啡廳"

    4. Needle 選工具

    5. 工具例:search_weather, search_places 兩個 API。
    6. needle.route_tools(transcript, tools) → 回傳要先查天氣再查地點的參數 JSON。

    7. 實際 API 呼叫

    8. 你的後端或 App 依 Needle 給的 JSON,分別呼叫天氣 API、地點 API,整理出可用候選。

    9. 大模型生成回覆(可選)

    10. 把 API 結果 + 原始指令送給 GPT / Gemini / Claude,只讓它負責自然語言回覆:「幫你找到三間明天不預測下雨的咖啡廳…」。

    這種分工方式:

    • Needle:做工具決策+參數解析
    • LLM:只在真正需要「說人話」的最後一步出現

    能同時達到:成本可控、延遲更低、邊緣裝置也能預先處理大量決策。


    適合誰現在就試用 Needle?

    • 行動 App 開發者:想做語音指令、快捷操作、離線助手,又不想每次都打雲端 LLM。
    • 硬體產品團隊:智慧手錶、車機、家電、AR 眼鏡,需要一顆小而穩定的本地「工具路由中樞」。
    • 個人自架 Agent 系統玩家:已經有多工具、多 Agent,正在煩惱 orchestration 成本和延遲的人。

    只要你場景的核心在「選工具+填參數」,而不是長篇聊天,Needle 值得你花一個下午跑起 demo,直接把它塞到你的 workflow 裡測一次。更多細節與最新腳本可以在 GitHub 查看:https://github.com/cactus-compute/needle

    🚀 你現在可以做的事

    • 先 clone Needle 專案並跑一次官方 demo:git clone https://github.com/cactus-compute/needle.git
    • 把你現有的 function calling / OpenAPI schema 丟給 Needle,觀察它產生的工具 JSON
    • 在一個實際專案裡,嘗試用 Needle 接在 ASR 和雲端 LLM 之間,實測延遲與成本差異
  • 用瀏覽器跑 Gemma 4 控機器人

    用瀏覽器跑 Gemma 4 控機器人

    📌 本文重點

    • 只用瀏覽器即可完全離線跑 Gemma 4
    • 結合 WebSerial 可直接控制機器人與 IoT
    • 純前端即可實作迷你 AI agent 控制硬體

    不想把資料丟雲端、又想用 LLM 控機器人?Gemma 4 + Transformers.js + WebGPU 讓你只靠瀏覽器就能離線跑模型、還能直接控制硬體。

    參考實作影片:Gemma 4 fully offline + WebGPU + Reachy Mini(Reddit)
    https://www.reddit.com/r/LocalLLaMA/comments/1ta9mmd/gemma_4_running_fully_offline_on_webgpu_with/


    核心功能:一台電腦 + 一個瀏覽器就夠

    1. 完全離線的瀏覽器 LLM

    這套組合的核心是:

    • Gemma 4:Google 開源 LLM 系列,支援多種量化格式(GGUF / ONNX / JS)。
    • Transformers.js:在瀏覽器裡跑 Hugging Face 模型的 JavaScript 函式庫。
    • WebGPU:用你電腦的顯示卡在「前端」跑推理,不用後端伺服器。

    你可以做的事:

    1. 在本機開啟支援 WebGPU 的瀏覽器(Chrome / Edge / Brave)。
    2. 把公司文件、程式碼丟進前端頁面,讓 Gemma 4 在本機推理,不經過任何外部 API。

    實際效果:隱私資料留在電腦裡,沒有雲端 API log,也不需要申請 OpenAI Key 或部署後端。

    💡 關鍵: 只要一台支援 WebGPU 的電腦與瀏覽器,就能完成完全離線、無雲端依賴的 LLM 推理與控制。


    2. 透過 WebSerial 控制機器人 / IoT

    Reddit 的 demo 裡,用 Transformers.js 跑 Gemma 4,搭配 WebSerial API 直接控制 Reachy Mini 機器人。

    流程概念:

    1. 使用者在瀏覽器輸入:「向右揮手打招呼」。
    2. Gemma 4 把自然語言轉成一段控制指令(例如 JSON 或簡單 DSL)。
    3. JavaScript 把指令透過 WebSerial 傳給機器人控制板(例如 Arduino / microcontroller)。

    你可以照做的行動:

    • 先用 Arduino + USB 線,把一顆 LED 或伺服馬達接到電腦。
    • 寫個簡單的序列通訊協議,像:LED_ONLED_OFFSERVO:45
    • 在網頁裡用 JavaScript:

    js
    const port = await navigator.serial.requestPort();
    await port.open({ baudRate: 115200 });
    // 把 LLM 產生的指令寫進 serial

    先從「LLM 控燈」,再慢慢升級到「LLM 控機器人手臂」。


    3. 純前端的迷你 AI Agent

    有了本地 LLM + WebSerial,你可以在瀏覽器裡做一個小型 AI agent。

    • 理解任務:使用者輸入「每 10 分鐘幫我量一次溫度」。
    • 規劃步驟:Gemma 4 產生一段 JSON 計畫,例如:

    json
    {
    "action": "loop",
    "interval": 600,
    "task": "read_temp"
    }

    • 執行控制:前端 JS 解析 JSON,呼叫對應的 serial 指令。

    可以做的練習:

    1. 先讓 LLM 只輸出固定格式 JSON(用 system prompt 約束)。
    2. 前端寫一個 parser,檢查 JSON 格式合法才發送給硬體。
    3. 加上「模擬模式」(不連接硬體),先在 console 測試 agent 邏輯。

    適合誰用?三種場景舉例

    1. 教學場景:高中 / 大學生的 AI + 機器人課

    • 不用架伺服器,電腦教室只要能開 Chrome。
    • 學生可以:
    • 改 prompt 看機器人動作改變。
    • 寫自己的小指令語言(例如 MOVE LEFT 10)。
    • 觀察 LLM 如何把自然語言轉成這套語言。

    行動建議

    • 用一台 Reachy Mini 或任何 Arduino 小車當教材。
    • 提供學生一個預先寫好的 HTML + JS 專案,只讓他們改 prompt 和指令 mapping。

    2. 實驗場景:研究邊緣運算 / 隱私的工程師

    • 需要在醫療、工廠、或無網路環境下跑 LLM。
    • 想測試「模型就在裝置上」的延遲和可靠性。

    行動建議

    • 把現有的 Python LLM pipeline,拆成:
    • 前端:Transformers.js + WebGPU 跑推理。
    • 後端(選配):只收集匿名統計,不傳原始輸入。
    • 對比雲端 API 與本地推理在速度、穩定度上的差異。

    💡 關鍵: 在醫療或工廠等高隱私、高可靠場景,本地 LLM 能在不傳輸原始資料的情況下提供近乎即時的推理與控制。


    3. 家用場景:DIY 簡易家電自動化

    • 例如:
    • 「用自然語言控制窗簾、風扇」
    • 「讓 LLM 幫你排家中設備的定時腳本」

    行動建議

    • 先用 USB 連接一塊 ESP32 / Arduino 開發板,只控制一顆繼電器或 LED。
    • 設計簡單語句:
    • 「晚上 10 點關燈」→ 轉成 SCHEDULE:22:00:OFF
    • 用 LLM 把上面這種語句自動產生,再由 JS 解讀和排程。

    怎麼開始:從開啟 WebGPU 到控制第一顆 LED

    步驟一:開啟瀏覽器 WebGPU

    以 Chrome 為例:

    1. 更新到最新版(至少 120 以上會較穩定)。
    2. 在網址列輸入 chrome://flags
    3. 搜尋「WebGPU」,啟用:
    4. WebGPU(或 Unsafe WebGPU 視版本而定)。
    5. 重新啟動瀏覽器。

    行動檢查


    步驟二:從 Hugging Face 抓 Gemma 4 模型

    常見三種格式:

    格式 名稱示例 特點 適合誰
    GGUF gemma-4b-it-q4_0.gguf 量化後較小,適合 CPU/GPU 混合 已熟悉 ggml / llama.cpp 生態的人
    ONNX gemma-4b-it.onnx 通用,很多推理引擎支援 想跨平台跑推理的開發者
    JS Transformers.js 專用權重 直接在瀏覽器載入 前端工程師、想快速起跑的人

    操作建議:

    1. 到 Hugging Face 搜尋「Gemma 4」模型庫(例如 google/gemma-2-2b-it,實際名稱依官方更新為準)。
    2. 找到有 transformers.jsonnx 標籤的 repo。
    3. 把權重檔放在自己的靜態網站(或本機 dev server)供前端載入。

    Transformers.js 官方文件:
    https://huggingface.co/docs/transformers.js

    💡 關鍵: 透過 Transformers.js 專用權重,可直接在瀏覽器載入 Gemma 4,省去自建推理後端的成本與複雜度。


    步驟三:在瀏覽器跑起簡單 Chatbot

    最低限度的前端結構:

    <script type="module">
      import { pipeline } from '@xenova/transformers';
    
      const chat = await pipeline('text-generation', 'path/to/gemma4/model');
    
      async function ask(prompt) {
        const out = await chat(prompt, { max_new_tokens: 128 });
        console.log(out[0].generated_text);
      }
    
      ask('你現在是一個 Arduino 助理,請用 JSON 說明如何讓 LED 閃爍。');
    </script>
    

    行動建議:

    • 先在 console 裡確認模型可以正常回答,再加上簡單的 <textarea> + <button> 當聊天介面。

    步驟四:把 Chatbot 接到 WebSerial(Arduino)

    1. Arduino 端草稿:

    “`cpp
    void setup() {
    Serial.begin(115200);
    pinMode(13, OUTPUT);
    }

    void loop() {
    if (Serial.available()) {
    String cmd = Serial.readStringUntil(‘\n’);
    if (cmd == “LED_ON”) digitalWrite(13, HIGH);
    if (cmd == “LED_OFF”) digitalWrite(13, LOW);
    }
    }
    “`

    1. 前端 WebSerial + LLM:

    “`js
    async function connectSerial() {
    const port = await navigator.serial.requestPort();
    await port.open({ baudRate: 115200 });
    const writer = port.writable.getWriter();
    return writer;
    }

    async function sendCommandFromLLM(userText, writer) {
    const response = await chat(使用者的指令:${userText}
    請只回應一行指令,LED_ON 或 LED_OFF
    );
    const cmd = response[0].generated_text.trim();
    await writer.write(new TextEncoder().encode(cmd + ‘\n’));
    }
    “`

    1. 實際試用:

    2. 在頁面輸入「開燈」→ LLM 產生 LED_ON → 燈亮。

    3. 在頁面輸入「關燈」→ LLM 產生 LED_OFF → 燈熄。

    這就是從「純前端 LLM」到「瀏覽器裡的迷你 AI agent」的第一步。


    小結:從簡單控制開始,一步步加功能

    建議的練習路線:

    1. 第一階段:在瀏覽器跑起 Gemma 4 chatbot,確認 WebGPU 正常。
    2. 第二階段:用 WebSerial 控制一顆 LED 或一個伺服馬達,先用固定按鈕測試。
    3. 第三階段:讓 LLM 產生中介指令(JSON 或簡單 DSL),由 JS 驗證後再送給硬體。
    4. 第四階段:加入簡單記憶和排程,做出「瀏覽器內的小型 AI agent」。

    只要一台支援 WebGPU 的電腦、一顆開發板,就能在客廳或教室裡體驗「完全離線的 LLM 控機器人」。


    🚀 你現在可以做的事

    • 到 Hugging Face 下載一個支援 Transformers.js 的 Gemma 4 模型,放到本機靜態伺服器測試載入
    • 依文中示例寫一個最簡單的前端 Chatbot,確認在你的瀏覽器上能透過 WebGPU 正常推理
    • 準備一塊 Arduino 或 ESP32,照示例建立 LED_ON / LED_OFF 協議,實作第一個「LLM 控燈」實驗
  • 本地 AI 代理寫程式,也要有 AI 幫你審 PR

    本地 AI 代理寫程式,也要有 AI 幫你審 PR

    📌 本文重點

    • AI 寫程式一定要搭配 AI 審查流程
    • adamsreview 提供多代理、分階段 PR 審查
    • React Doctor 專治 AI 產出的 React 小雷
    • 組合成「AI 寫 + AI 審 + 人類決策」完整 workflow

    當你開始大量用 AI 寫程式時,真正的風險不在「寫不出來」,而在「錯誤、壞味道、性能坑」靜靜被合進主幹,所以現在比起寫程式,更需要好的 AI 審查與補救工具。

    下面用兩個最近爆紅的開源工具 adamsreviewReact Doctor,帶你組一條「AI 寫程式 + AI 審 PR/修 bug」的實戰流程。


    核心功能:兩個工具,一條龍

    工具總覽

    名稱 核心功能 免費方案 適合誰
    adamsreview 多代理分工的 PR 審查,深度檢查邏輯與安全 完全開源 用 GitHub / GitLab、有 PR 流程的後端或全端團隊
    React Doctor 自動檢測、修正 AI 產出的 React 程式碼 完全開源 用 Claude/ChatGPT 產生 React/TSX 的前端團隊

    接下來分別講清楚:

    1. adamsreview 怎麼把 PR 審查拆給多個 AI 代理,使錯誤更難漏掉。
    2. React Doctor 怎麼專門處理「AI 產生 React code 一堆小雷」這件事。
    3. 最後用這兩個工具,組裝一條可直接抄走的開發 workflow。

    一、adamsreview:多代理分工的嚴謹 PR 審查

    核心功能

    adamsreview 是一個專為 Claude Code 設計的插件(slash commands),重點是:

    1. 多階段、多代理 PR 審查
    2. 不是一次跑完,而是分成好幾個階段:整體變更 → 文件/測試 → 安全/性能 → 修正建議。
    3. 每個階段可啟動平行子代理(sub-agents),例如一個看 API 變更,一個看錯誤處理。
    4. 審查狀態存在本地 JSON 裡,可以在不同命令之間保持上下文。

    5. 更少漏網 bug、更少誤報

    作者在 HN 上提到,它在實戰中比:

    • Claude 內建 /review/ultrareview
    • CodeRabbit、Greptile

    更常抓到真實 bug,同時少講廢話。

    實際上常被抓到的包括:

    • 新增邏輯沒有對錯誤狀況做邊界檢查
    • 漏更新單元測試或 fixture
    • API 變更與文件不一致
    • 可預期的性能問題(例如重複查詢、無 cache)

    💡 關鍵: 多階段、多代理的拆解方式,讓 adamsreview 比一般單次 /review 更容易抓到真正 bug,且減少冗長誤報。

    1. 直接嵌入現有 PR 工作流
    2. 提供像 /review/codex-review/fix 等命令,照著你原本用 Claude Code 的習慣延伸。
    3. 可搭配 Codex CLI 與 PR bot,在 PR 上直接留下 AI 審查留言。
    4. 狀態存在檔案裡,方便在 CI 或本地反覆跑不同階段的檢查。

    適合誰用

    幾個具體場景:

    • 有正式 PR 流程的後端/平台團隊

    例如:用本地 LLM 或 Claude 幫你生成 service / handler,透過 adamsreview 做一輪「AI 審 PR」,再交給人類最後確認。

    • 資深工程師很忙的小團隊

    初階工程師用 AI 寫功能,先交給 adamsreview 初審,減少 reviewer 花時間抓基礎錯誤。

    • 正在導入 AI coding,但怕品質失控的團隊

    讓「AI 生成程式碼」必須經過「AI 多代理審查」,有規則可循,而不是全憑 reviewer 心情。

    怎麼開始:最小安裝步驟

    原始專案:https://github.com/adamjgmiller/adamsreview

    以下是一個「最短路徑」,讓你在現有 GitHub PR 流程中接上 adamsreview:

    1. 準備環境

    2. 需要:

      • 有權使用 Claude Code 並可安裝插件(通常是付費方案)。
      • 本機有 git + Node.js(或作者指定的執行環境)。
    3. 安裝與設定

    在你的開發機或開發容器中:

    bash
    git clone https://github.com/adamjgmiller/adamsreview
    cd adamsreview
    # 若有提供安裝腳本
    npm install # 或 pnpm/yarn

    • 依照 repo README 設定環境變數(通常包含 Claude/Codex API key)。

    • 在 Claude Code 中載入插件

    • 打開 Claude Code(或支援的 IDE 插件)。

    • 依 README 說明匯入 slash commands。
    • 你會看到新增的命令,例如:/review/fix

    • 在 CI / PR 流程中接上(GitHub Actions 範例)

    .github/workflows/pr-review.yml 增加一個簡化版 workflow:

    “`yaml
    name: AI PR Review

    on:
    pull_request:
    types: [opened, synchronize]

    jobs:
    ai-review:
    runs-on: ubuntu-latest

       steps:
         - name: Checkout
           uses: actions/checkout@v4
    
         - name: Setup Node
           uses: actions/setup-node@v4
           with:
             node-version: '20'
    
         - name: Install adamsreview
           run: |
             git clone https://github.com/adamjgmiller/adamsreview
             cd adamsreview && npm install
    
         - name: Run adamsreview
           env:
             CLAUDE_API_KEY: ${{ secrets.CLAUDE_API_KEY }}
           run: |
             cd adamsreview
             # 依專案提供的 CLI 指令
             npm run review -- ../
    

    “`

    這樣每次有人開 PR,就會自動觸發 AI 審查並在 PR 留言(實際指令依 repo 說明調整)。


    二、React Doctor:專治 AI 產出的 React 小雷

    官方 repo:https://github.com/millionco/react-doctor

    它在 README 的第一句就是:「Your agent writes bad React. This catches it」。重點就是:AI 幫你產生的 React/TSX 常常「能跑,但不安心」。

    核心功能

    1. 針對 React/TSX 的靜態檢測與修復

    2. 專門用來掃描 React 專案(JSX/TSX),找到常見的壞味道與 bug。

    3. 例如:
      • useEffect 中漏依賴
      • 不必要的 re-render
      • 不穩定的 key
      • props 型別不一致
    4. 部分問題可以自動產生修正 patch,直接套用。

    5. 和 AI 代理配合運作

    它假設你已經在用 AI(Claude、ChatGPT、Cursor 等)生成元件或 hook

    • 先讓 AI 產出 code
    • commit 前跑 React Doctor:快速找出「AI style 錯誤」
    • 必要時讓 React Doctor 幫你修補。

    • TypeScript 友善

    • 專案本身用 TypeScript 寫,也善用現有型別資訊。

    • 如果你本來就用 TS + React,導入成本很低,直接把現有 tsconfig、型別檔當基礎。

    💡 關鍵: React Doctor 把「AI 寫得能跑」提升到「依 React/TS 最佳實務可維護」,特別適合大量由 AI 生成的 UI 程式碼。

    適合誰用

    幾個典型情境:

    • 用 Claude/ChatGPT 幫你生 UI 元件

    例如設計稿轉 React Component:

    • AI 負責「寫得出來」。
    • React Doctor 負責「寫得對、好維護」。

    • React 新手 + AI 輔助開發

    新手可能看不出 AI 產生的 code 有哪些壞習慣,React Doctor 可以當成「自動 code review 老師」。

    • 已有大型 TypeScript + React 專案

    部分模組開始用 AI 重構或新增功能,用 React Doctor 當 Safety Net,避免 AI 把舊 code 改壞。

    怎麼開始:在 TS 專案快速啟用

    假設你有一個現成的 React + TypeScript 專案:

    1. 安裝 React Doctor

    專案目錄下:

    bash
    npm install react-doctor --save-dev
    # 或
    pnpm add -D react-doctor

    1. 新增設定檔(若有需要)

    參考 repo 中的樣板(實際檔名跟範例以官方 README 為準):

    bash
    npx react-doctor init

    這通常會產生一個設定檔,例如 react-doctor.config.ts,你可以指定:

    • 要掃描的資料夾(例如 src
    • 要啟用的規則

    • package.json 加上腳本

    json
    {
    "scripts": {
    "doctor": "react-doctor check src",
    "doctor:fix": "react-doctor fix src"
    }
    }

    1. 在 Git hooks / CI 中啟用

    2. 透過 Huskylint-staged,在 pre-commitpre-push 跑:

      bash
      npx react-doctor check src

    3. 或在 GitHub Actions 加一個 job:

      yaml
      - name: React Doctor
      run: npm run doctor

    這樣每次有人把 AI 產的 React code 推上來,就會被 React Doctor 先掃過一次。


    三、組裝一條「AI coding + AI code review/repair」工作流

    最後用文字幫你拼成一個可以直接採用的流程,從「AI 寫 code」到「AI 審查 + 修正」:

    1. 開發階段:AI 寫程式

    2. 使用本地 LLM、Claude Code 或 ChatGPT:

      • 讓 AI 產出後端 handlerservice、React 元件。
      • 人類工程師只負責寫 prompt + 調整架構。
    3. 前端部分:React Doctor 抓小雷

    4. 每次 AI 生成或修改 React/TSX 檔案:

      • 本地跑 npm run doctor 檢查。
      • 對於可自動修正的問題,跑 npm run doctor:fix
    5. 把這個步驟固定在:

      • pre-commit hook
      • 或 VS Code Task / npm script
    6. 提交 PR:adamsreview 做多階段 PR 審查

    7. 開 PR 後,GitHub Actions 觸發 adamsreview

      • 階段 1:總覽差異,找出風險區域。
      • 階段 2:針對測試、錯誤處理、安全性做專門檢查。
      • 階段 3:產生具體修正建議或 patch
    8. PR 上自動留下 AI comment,方便 reviewer 快速聚焦真正問題。

    9. 人類最後把關

    10. Reviewer 看:

      • React Doctor 的報告(前端)
      • adamsreview 的 PR 評論(後端/全端)
    11. 決定哪些建議要採用,哪些視情況忽略。
    12. 合併前至少確保:
      • 所有必跑的 React Doctor / adamsreview 任務都綠燈。

    💡 關鍵: 重點不是「全自動合併」,而是用 AI 把最耗時、最容易忽略的細節掃一遍,再由人類做最後決策。

    這條工作流的重點不是「全自動」,而是:

    • 把 AI 寫程式變成可控的流程,而不是隨意貼 paste code。
    • 把最耗時、最容易忽略的細節(React 小雷、邊界條件、安全性)交給專門的 AI 工具來抓。

    實作上,你可以先選一個小模組試行:

    • 前端導入 React Doctor。
    • 後端/全端導入 adamsreview。
    • 兩週後檢查:PR 審查時間、有 bug 的 PR 比例是否下降,再決定要不要擴大到整個 repo。

    用 AI 寫程式已經變成常態,下一步是在你的團隊裡,建立一套 「AI 寫 + AI 審 + 人類決策」的固定流程,讓速度與品質可以同時兼顧。

    🚀 你現在可以做的事

    • 打開 GitHub,分別把 adamsreviewReact Doctor repo 加到你的星標與閱讀清單
    • 在一個側專案或小模組上,先實驗接上 React Doctornpm run doctor / doctor:fix 腳本
    • 在現有 repo 新增一個簡單 GitHub Actions workflow,試跑一次 adamsreview 的 AI PR 審查流程
  • 本地跑 Microsoft 級語音 AI:vibevoice.cpp 入門

    本地跑 Microsoft 級語音 AI:vibevoice.cpp 入門

    📌 本文重點

    • 全本地 TTS + 長語音 ASR + 語者分離,無需雲端
    • 約 30 秒錄音即可 voice clone 自己聲線
    • C++ 實作、支援多後端,推論階段完全不用 Python
    • 很適合會議逐字稿、客服分析與離線語音助手

    一句話先說清楚:vibevoice.cpp 是一套「全本地」的 TTS + 長語音 ASR + 語者分離工具,不用 Python、不上雲,就能在自己機器裡跑出接近 Microsoft VibeVoice 等級的語音 AI

    原始專案與說明:https://github.com/mudler/vibevoice.cpp(C++ 移植自 Microsoft VibeVoice: https://github.com/microsoft/VibeVoice


    核心功能:你能馬上用來做什麼

    1. 24kHz 高品質 TTS + 30 秒聲音就能 voice clone

    vibevoice.cpp 內建 TTS 引擎,支援 24kHz 輸出,適合旁白、影片解說、產品語音回應等場景。最大的亮點是:

    • 約 30 秒的語音樣本.wav / .mp3 都可,建議乾淨無 BGM)
    • 用專案提供的轉換腳本,把你的聲音轉成 gguf voice 檔
    • 之後輸入文字,就能用你的聲線合成語音

    💡 關鍵: 約 30 秒乾淨錄音就能完成 voice clone,是進入個人化 TTS 的最低門檻之一

    實作步驟(voice clone 概念流程):

    1. 準備一段約 30 秒的個人口播,儘量在安靜環境錄製。
    2. 取得原始 VibeVoice 的 .pt 聲音權重(或官方樣例聲音)。
    3. 使用 vibevoice.cpp repo 裡的 scripts/convert_voice_to_gguf.py 將聲音轉成 .gguf 語音檔。
    4. 在 TTS 命令中指定這個 voice 檔,就能生成你的聲線。

    提示:沒有 Python 推論,但轉換 .pt.gguf 這一步需要一次性使用 Python。轉好後推論階段完全不用 Python。


    2. 長語音 ASR + 語者分離,一次處理十幾分鐘錄音

    vibevoice.cpp 背後是約 7 億參數的模型,實測可以處理長達十幾分鐘的錄音(作者在 Reddit 提到測到約 17 分鐘),並做到:

    • 自動逐字稿(ASR)
    • 自動切段(按時間區段)
    • 自動標註不同說話者(Diarization)

    💡 關鍵: 7 億參數模型可穩定處理約 17 分鐘長錄音,適合會議與客服等實際業務場景

    也就是:丟一整段會議錄音進去,輸出就會像這樣:

    [00:00.0 - 00:12.3] Speaker 1: 大家好,今天會議主要討論 Q3 產品排程…
    [00:12.3 - 00:25.7] Speaker 2: 我先更新一下研發這邊的進度…
    ...
    

    快速實作想法:

    • 會議錄音 → 丟給 vibevoice.cpp → 拿回文字 + 誰在說話 → 直接貼進 Notion、Confluence 或公司內網系統。
    • 客服錄音 → 一批檔案跑 ASR + 語者分離 → 拿到客服與客戶對話文字,後續再用本地 LLM 做情緒分析或關鍵字統計。

    3. 跨平台、本地推論、無 Python 推論依賴

    vibevoice.cpp 用 C++ + ggml 實作,支援多種硬體後端:

    • CPU(x86 / ARM)
    • CUDA(NVIDIA GPU)
    • Metal(Apple Silicon / macOS)
    • Vulkan(支援 Vulkan 的 GPU 平台)

    這幾件事對實際部署很關鍵:

    • 不需要在伺服器上裝一大堆 Python/conda,推論階段就是一個二進位 + gguf 模型檔。
    • 更容易嵌入既有系統:C ABI 讓你在 C/C++、Rust、Go、甚至 Node.js(透過 FFI)裡都能呼叫。
    • 適合沒有外網、或對資料保密要求高的內網環境。

    💡 關鍵: 推論只靠一個二進位加模型檔,無 Python 依賴,讓部署與嵌入式整合簡化許多


    適合誰用:4 個具體場景

    1. 公司會議錄音 → 自動逐字稿 + 誰講了什麼

    適合:產品經理、工程主管、專案管理。

    操作路線:

    1. 用任意錄音工具錄下整場會議(建議單軌錄音即可)。
    2. 丟給 vibevoice.cpp,輸出成文字 + 語者標註。
    3. 再加工:
    4. 手動整理重點;或
    5. 丟進本地 LLM(如 ollama 上的 Llama 3)做摘要。

    好處:不必把敏感會議內容丟上雲端,也不必自己搭一整套 ASR 服務。


    2. 內網客服錄音分析

    適合:客服主管、合規/法務、營運分析。

    做法:

    1. 將客服中心錄音批次輸出成檔案(常見為 WAV/MP3)。
    2. vibevoice.cpp 跑 ASR + 語者分離,取得客服與客戶逐字對話。
    3. 輸出文字再交給內網數據分析或 NLP 模組做:
    4. 關鍵字搜尋(是否有爭議用語、是否說明退款規則等)
    5. 投訴分析(常見問題、情緒偏負面段落)。

    3. 在自己產品裡內建語音輸入 / 語音輸出

    適合:SaaS 產品、內部工具、遊戲或交互式應用開發者。

    可行玩法:

    • 用 ASR 做語音輸入:
    • 使用者對麥克風說話 → 即時轉文字 → 傳給你原有的系統邏輯。
    • 用 TTS 做語音輸出:
    • 系統產生訊息 → 用 vibevoice.cpp 合成語音 → 播放給使用者聽。

    因為有 C ABI,你可以:

    • 在 C/C++ 專案直接連結
    • 在 Rust/Go 透過 FFI 呼叫
    • 在 Node.js 透過 node-ffi 或自寫 native addon 包一層

    4. 做一個完全離線的語音助手

    適合:喜歡 DIY 的工程師、Maker、隱私敏感場景。

    粗略架構:

    1. 麥克風輸入 → vibevoice.cpp ASR → 文字指令
    2. 文字指令 → 本地 LLM(例如 LocalAI / Ollama)→ 回覆文字
    3. 回覆文字 → vibevoice.cpp TTS(可用自建 voice clone)→ 喇叭播出

    整條鏈路都在本機或內網,沒有任何雲端依賴。


    怎麼開始:最短路徑從 0 到能跑

    官方 repo:https://github.com/mudler/vibevoice.cpp

    1. 下載二進位檔(最快上手)

    1. 打開 GitHub Releases:https://github.com/mudler/vibevoice.cpp/releases
    2. 依自己的平台下載對應壓縮檔,例如:
    3. vibevoice-darwin-arm64.zip(Apple Silicon)
    4. vibevoice-linux-x86_64.zip
    5. vibevoice-windows-x86_64.zip
    6. 解壓縮後,裡面會有:
    7. 主程式二進位,例如 vibevoice
    8. 範例模型 / 語音配置(依版本而定)

    在 Linux/macOS,給執行權限:

    chmod +x vibevoice
    

    2. 用 CMake 自行編譯(需要客製或特定後端時)

    環境需求:

    • CMake
    • C++17 編譯器(gcc / clang / MSVC
    • 選用:CUDA / Vulkan / Metal SDK

    基本編譯步驟(以 Linux/macOS 為例):

    git clone https://github.com/mudler/vibevoice.cpp.git
    cd vibevoice.cpp
    mkdir build && cd build
    cmake .. -DCMAKE_BUILD_TYPE=Release
    cmake --build . --config Release
    

    完成後,build/ 底下會出現可執行檔(名稱以實際 repo 為準)。


    3. 第一次跑 ASR:把一段錄音轉成逐字稿

    假設你已經有:

    • 主程式 vibevoice
    • 已下載好的 ASR 模型 model.gguf(官網會提供下載連結)
    • 一段錄音 meeting.wav

    執行(命令格式可能會隨版本略有不同,請以 --help 為主,這裡示範典型用法):

    ./vibevoice \
      --mode asr \
      --model model.gguf \
      --input meeting.wav \
      --output transcript.txt \
      --diarization
    

    跑完後,你會拿到一個 transcript.txt,裡面包含時間戳與說話者標記。


    4. 第一次跑 TTS:從文字合成語音

    準備:

    • TTS 模型 tts-model.gguf
    • 一個 voice 檔(可用官方 sample voice,例如 voice-en.gguf

    命令範例:

    ./vibevoice \
      --mode tts \
      --model tts-model.gguf \
      --voice voice-en.gguf \
      --text "你好,這是 vibevoice.cpp 的測試。" \
      --output out.wav
    

    成功後你會得到一個 out.wav,用任意播放器就能聽見合成結果。


    5. 準備 30 秒聲音做 voice clone(概念流程)

    1. 錄一段約 30 秒的清晰朗讀(內容隨意,重點是發音自然、環境安靜)。
    2. 取得對應的 voice 訓練權重,依官方 README 指示執行:

    bash
    python scripts/convert_voice_to_gguf.py \
    --input your_voice.pt \
    --output your_voice.gguf

    1. 之後在 TTS 命令中改成:

    bash
    --voice your_voice.gguf

    即可以你的聲音合成語音。


    6. 怎麼嵌到自己的專案:用 C ABI 呼叫

    vibevoice.cpp 提供 C 語言 ABI,因此只要能呼叫 C 函式的語言,都能整合。

    簡化示意(實際函式名稱請以官方 include/ 中的 header 為準):

    #include "vibevoice.h"
    
    int main() {
        vv_context *ctx = vv_init("model.gguf");
    
        vv_asr_params params = {0};
        params.diarization = 1;
    
        vv_result result = vv_run_asr(ctx, "meeting.wav", &params);
    
        // 在這裡處理 result.text / result.segments
    
        vv_free_result(&result);
        vv_free(ctx);
        return 0;
    }
    

    在其他語言(例如 Rust、Go)你可以:

    • 透過 extern "C" 聲明這些函式
    • 用 FFI 封裝成 idiomatic 的 API

    這樣你的應用程式就能直接呼叫 vibevoice.cpp,無需啟動額外的 HTTP 服務或 Python 進程。


    小結:什麼時候該試試 vibevoice.cpp?

    如果你符合以下任一條,很值得花一個下午跑起來:

    • 想在本地處理會議、客服錄音,不想把資料丟到雲端
    • 想做一個離線語音助手或內網語音介面
    • 需要在產品裡嵌入 TTS / ASR,但又不想綁特定雲服務
    • 想要一套 CPU/GPU 都能跑、無 Python 推論依賴的語音引擎

    從 Releases 下載二進位、跑一次 ASR 和 TTS,大概半小時內就能完成。之後你就有一顆可嵌入任何系統的本地「語音核心」。

    🚀 你現在可以做的事

    • 打開 GitHub Releases,下載適合自己平台的 vibevoice.cpp 二進位並跑一次 ASR 測試
    • 錄一段約 30 秒的個人聲音,照 README 用 convert_voice_to_gguf.py 做一次 voice clone
    • 在你現有的工具(例如內部專案或腳本)中,嘗試用命令列或 C ABI 把 vibevoice.cpp 串成一個簡單語音流程
  • 用 goose AI Agent 開一隻全能小幫手

    用 goose AI Agent 開一隻全能小幫手

    📌 本文重點

    • goose 是用 Rust 寫的開源 AI Agent 框架
    • 讓 LLM 真的能跑指令、改檔案、寫測試而不只聊天
    • 可接任意 LLM,並透過 workflow 自動化多步驟任務
    • 很適合 DevOps / 開發者做日常開發與部署自動化

    用一句話說清楚:goose 是一個用 Rust 寫的開源 AI Agent 框架,可以讓 LLM 不只聊天,而是真的幫你在電腦上安裝套件、跑指令、改程式碼、寫測試,變成一個可以自動執行任務的「全能小幫手」。

    GitHub 專案:https://github.com/aaif-goose/goose


    goose 和一般聊天機器人有什麼不同?

    一般 ChatGPT / Claude 類工具,多半停在「給你建議」:

    • 產生程式碼片段
    • 幫你想測試案例
    • 告訴你下一步可以怎麼做

    goose 的差別在於:它可以自己動手做。

    透過 goose,你可以讓模型:

    • 在你的環境裡 執行殼層指令(shell commands)
    • 直接修改專案檔案、重構程式碼
    • 跑測試、根據結果再修正
    • 用 plugin / tool 的形式接上你自己的 API 或腳本

    換句話說,它比較像一個「可編程的 AI 工具人」,而不是純聊天機器人。

    💡 關鍵: goose 不只回覆文字,而是能在你的實際環境中「讀檔案、下指令、改程式」,真正把建議變成動作。


    核心功能:你可以拿 goose 來做什麼?

    1. 調用殼層指令:讓 LLM 幫你按命令行上的按鈕

    goose 內建「可以執行 shell 指令」的能力。

    你可以叫 agent 做這些事:

    • 安裝套件:apt-get, brew, pip, cargo
    • 拉專案:git clone、切分支、pull 最新版
    • 跑工具:npm testcargo testpytestmake build

    你要做的行動:

    • 想一件你平常常打的一串指令(例如部署前要跑的 3–5 個步驟)
    • 把它寫成一句自然語言任務,交給 goose,觀察它如何自己拆解並下指令

    2. 程式碼編輯與測試:真的會改你專案的那種

    goose 支援對檔案系統操作,讓 LLM 直接:

    • 開啟 / 讀取專案中的檔案
    • 修改檔案內容(插入、刪除、重構)
    • 新增測試檔、更新 README

    常見用法:

    • 讓 agent 自動幫你 加 log / exception handling
    • 要它針對某個 module 補齊單元測試
    • 改 config、更新版本號、調整 CI 設定檔

    你要做的行動:

    • 選一個「可以放心被 AI 改壞」的小 side project
    • 用 goose 給它一個任務,例如:「在這個 Rust 專案裡,新增一個 health check endpoint,並幫我補上測試」

    3. 自訂工具擴充:把你自己的腳本、API 變成 agent 的能力

    goose 的設計重點是 「可擴充的工具」。你可以:

    • 把現有的 Python / Bash 腳本包裝成一個 tool
    • 把團隊內部 API(如 issue tracker、部署服務)接進來
    • 讓 agent 用「呼叫工具」的方式,連續完成更複雜的流程

    實際效果:

    • LLM 不用自己「想像」怎麼部署,而是呼叫你提供的 deploy_api
    • 你可以限制它只能用你認可的工具,控制風險

    你要做的行動:

    • 列出你工作中最常手動跑的 2–3 個腳本
    • 想像它們如果變成一個 deploy_service / create_release 的工具,agent 可以怎麼自動串起來

    4. 接任意 LLM:OpenAI、DeepSeek、本地模型都行

    goose 標榜 「with any LLM」,實際上就是可以在設定中自由切換 backend:

    • OpenAI(如 gpt-4.1
    • DeepSeek API(如 deepseek-coder
    • 透過 OpenAI-compatible API 的本地模型(Ollama、LM Studio…)

    這讓你可以:

    • 開發時用免費 / 便宜模型測試流程
    • 上線到正式環境時再換成更穩定的雲端模型

    你要做的行動:

    • 先挑一個你現有就有 API Key 的 LLM(例如 OpenAI 或 DeepSeek)
    • 決定:
    • 「實驗階段」用哪個模型
    • 「正式跑自動化」時要不要升級到較貴的模型

    💡 關鍵: 透過切換 GOOSE_MODEL 等設定,你可以在成本(本地 / 便宜模型)與效果(雲端高階模型)之間彈性取捨。


    適合誰用?三種典型場景

    1. DevOps/SRE:日常腳本自動化

    例如:

    • 部署前:拉最新程式碼 → 跑測試 → build → health check
    • 緊急修補:切 branch → 套 patch → 跑 smoke test → 發一版 hotfix

    用 goose 的做法:

    • 把這些步驟包成一個「任務腳本」(workflow)
    • 讓 agent 自己決定下一步要跑哪個指令、根據輸出結果調整

    2. 開發者:專案 boilerplate 生成與重構

    適用情境:

    • 開一個新服務:想要快速產生「專案骨架 + 基本路由 + CI 檔案」
    • 老專案:想系統性把某種寫法換成新的 pattern

    用 goose 可以這樣玩:

    • 指定專案資料夾給 agent
    • 給一個任務:「初始化一個 NestJS API 專案,幫我加上 Dockerfile 和 GitHub Actions CI」

    3. 團隊工程流程:CI 前自動檢查與修修補補

    在 CI 跑之前,先讓 goose 幫你:

    • 檢查程式格式、lint 問題
    • 嘗試自動修正簡單的錯誤
    • 對 PR 產生簡短變更說明

    做法:

    • 在 CI pipeline 裡加入「goose agent 步驟」
    • 給它權限在 CI runner 上修改檔案並 push(或開新 PR)

    💡 關鍵: 把 goose 放進 CI / pre-commit,可以在錯誤進到主線分支之前,自動完成一輪整理與簡單修補。


    怎麼開始:最快速的上手路徑

    1. 用 Docker 跑起官方範例(最快測試)

    前提:

    • 已安裝 Docker
    • 手邊有一個 LLM API Key(例:OPENAI_API_KEY

    步驟:

    # 1. 拉專案
    git clone https://github.com/aaif-goose/goose.git
    cd goose
    
    # 2. 建一個 .env,放你的模型設定(簡化示意)
    cat << 'EOF' > .env
    OPENAI_API_KEY=your_key_here
    GOOSE_MODEL=openai/gpt-4.1
    EOF
    
    # 3. 用 docker compose 跑起來(實際以 repo 裡的 compose 指令為準)
    docker compose up --build
    

    跑起來後,通常會有:

    • 一個 CLI / HTTP 介面
    • 你可以丟:
    • 「在這個容器裡安裝 curl 並測試對 google.com 發送請求」

    行動建議:先在容器內做「無害」的事情,例如安裝一個套件、建立一個測試檔案,確認 goose 真的有在動你環境。


    2. 本機安裝(Rust 使用者)

    前提:

    • Rust toolchain(rustup

    步驟:

    # 1. 安裝依賴
    cargo install --path .  # 實際請以 README 為準
    
    # 2. 設定環境變數
    export OPENAI_API_KEY=your_key_here
    export GOOSE_MODEL=openai/gpt-4.1
    
    # 3. 跑 CLI
    goose run
    

    你可以在終端機裡對 agent 下指令,例如:

    • 「列出目前資料夾的檔案,幫我找出所有含有 TODO 的檔案並列出行號」

    3. 接上常見模型(OpenAI / DeepSeek / 本地 LLM)

    以下是假設性的設定方向(實際請對照 goose README):

    OpenAI

    export OPENAI_API_KEY=your_key
    export GOOSE_MODEL=openai/gpt-4.1
    

    DeepSeek

    通常會提供 OpenAI 相容 API:

    export OPENAI_BASE_URL=https://api.deepseek.com/v1
    export OPENAI_API_KEY=your_deepseek_key
    export GOOSE_MODEL=deepseek-chat
    

    本地 LLM(以 Ollama 為例)

    啟動 Ollama 後:

    export OPENAI_BASE_URL=http://127.0.0.1:11434/v1
    export OPENAI_API_KEY=dummy
    export GOOSE_MODEL=ollama/llama3.1
    

    行動建議:先用最簡單、你現在就有的 API Key 接上,確認 goose 的流程跑得通,再考慮搬到本地模型節省成本。


    寫一個自己的「任務腳本」:讓 agent 連續完成幾個步驟

    goose 的強項在於可以定義「多步驟任務」。概念上,你會有一個 workflow 設定(格式依官方為準,這裡用 pseudo-code 示意):

    # workflows/dev_check.toml
    name = "dev_precommit_check"
    
    [[steps]]
    type = "shell"
    command = "git status"
    
    [[steps]]
    type = "agent"
    prompt = "閱讀 git status,決定要先格式化哪一些檔案,並執行對應指令。"
    
    [[steps]]
    type = "shell"
    command = "cargo test"
    
    [[steps]]
    type = "agent"
    prompt = "根據測試結果,如果有簡單錯誤可以直接修,並再次執行對應測試。"
    

    用法:

    goose run-workflow workflows/dev_check.toml
    

    這樣,你可以一行命令啟動一個「會看情況調整動作」的前置檢查流程。

    你要做的行動:

    • 先定義一個超簡單的 workflow:
    • Step1:ls 專案
    • Step2:請 agent 根據專案結構生成一段簡短說明,寫入 PROJECT_SUMMARY.md

    實戰:從零做一個小型自動化 workflow

    目標:在一個現有專案裡,做「提交前自動整理 + 簡單修補」流程。

    我們要達成:

    1. 檢查目前分支變更檔案
    2. 對變更檔案跑 formatter / linter
    3. 如果有明顯錯誤,由 agent 嘗試自動修改
    4. 重新跑測試

    Step 1:準備專案與權限

    1. 找一個你熟悉、可以接受被改動的專案資料夾
    2. 新開一個分支,如 feat/goose-auto-fix
    3. 確保 goose 有權限:
    4. 讀寫這個資料夾
    5. 執行必要的指令(例:npm testcargo test

    Step 2:定義 workflow(示意)

    依 goose 支援的格式建立一個 workflow 檔(假設是 YAML):

    name: precommit-helper
    steps:
      - type: shell
        command: git diff --name-only
      - type: agent
        prompt: |
          你看到的是目前分支有變更的檔案清單。
          目標:
          1. 對這些檔案執行合適的 formatter / linter 指令(依照檔案類型判斷)。
          2. 若 formatter/linter 回報可自動修復的問題,請修改檔案並重新執行檢查。
      - type: shell
        command: npm test  # 或你專案的測試指令
      - type: agent
        prompt: |
          根據測試輸出,
          - 若是小型邏輯/型別錯誤,嘗試修改相關檔案後再次執行測試。
          - 若錯誤較複雜,請產生簡短說明寫入 precommit_report.md。
    

    Step 3:實際執行與調整

    1. 在專案根目錄跑:

    bash
    goose run-workflow precommit-helper.yaml

    1. 觀察它的行為:
    2. 有沒有亂跑你不想要的指令?
    3. 修改的檔案是否合理?

    4. 根據結果調整:

    5. 限制能用的指令範圍(例如只允許 npm test, npm run lint
    6. 在 prompt 裡多加一些「安全護欄」,例如「不要刪除檔案」。

    完成後,你就有了一個:

    • 可以在提交前幫你「整理 + 修補 + 產生報告」的小型 AI 助理
    • 海豚式改進:遇到痛點就稍微改一下 workflow / 工具清單,越用越貼近你團隊習慣

    小結:下一步可以怎麼玩?

    如果你看到這裡,建議接下來這樣走:

    1. 先跑官方範例容器一次,確認 goose 在你機器上可以正常跑指令。
    2. 選一個專案資料夾,做一個超小 workflow:只做檔案摘要或自動補 README。
    3. 把你現有的一個腳本包成 tool,讓 agent 可以呼叫(例如部署或打包腳本)。
    4. 等你有信心後,再把它接進 CI / pre-commit 流程。

    完整專案與最新用法請看:https://github.com/aaif-goose/goose

    把 goose 想成一個「可編程的 ChatGPT + 指令列機器人」,先從最小、風險最低的自動化開始,你會很快找到適合自己工作流的用法。

    🚀 你現在可以做的事

    • 打開 <https://github.com/aaif-goose/goose>,用 Docker 照著 README 跑一次官方範例
    • 選一個 side project,讓 goose 幫你完成「新增一個 endpoint + 補上測試」的小任務
    • 把日常最常用的一個部署或檢查腳本包成 tool,寫一個只包含 2–3 個步驟的簡單 workflow
  • 用 Deer-Flow 自建長跑 AI SuperAgent

    用 Deer-Flow 自建長跑 AI SuperAgent

    📌 本文重點

    • Deer-Flow 把長時間任務拆成可控模組
    • 透過記憶體與子代理協作支援長期、多階段任務
    • 搭配沙盒與工具調用,可快速做出實用自動化 Pipeline

    只要先把任務切成模組、再讓 Agent 自己排程與記憶,Deer-Flow 能幫你把「要跑幾小時」的專案變成一條可控又可復用的自動化流程。

    專案連結:bytedance/deer-flow


    核心功能:把「長時間任務」拆成可控模組

    這一節先講概念,但每個小節都會對應到你可以馬上去做的事。


    1. 任務調度:讓 Agent 分段跑,而不是一口氣硬撐

    Deer-Flow 的定位是「long-horizon SuperAgent harness」,核心就是任務調度(scheduler):

    • 把大任務拆成多個 stage(例如:資料收集 → 清洗 → 分析 → 報告)
    • 每個 stage 由一個或多個子代理(subagents)負責
    • 調度器會決定:
    • 什麼時候喚醒哪個子代理
    • 什麼時候暫停、重試、或改走另一條路徑

    你可以把它想像成「AI 版本的 Airflow + 任務導向的聊天界面」。

    💡 關鍵: 把長任務拆成多個 stage,讓 scheduler 分段調度 subagents,可以大幅降低單次失敗風險並提升整體可控性。

    你可以馬上做的事:

    1. 打開專案的 examples/ 資料夾,看官方提供的 flow 定義(多半是 YAML 或 Python pipeline)。
    2. 想一個你日常會重複做的 3–4 步驟任務(例如:抓資料 → 存 DB → 寫 summary),在筆記上先畫出 3–4 個方框,對應到未來的 stage 名稱。

    2. 記憶體管理:讓 Agent 記得「之前做過什麼」

    長時間任務的難點,不是算力,而是「上下文會爆掉」。

    Deer-Flow 幫你管的是:

    • 短期記憶(working memory:某個子任務當下需要的上下文
    • 長期記憶(long-term memory:歷史任務紀錄、重要結果、被標記的關鍵中間產物
    • 記憶裁剪:把不重要的對話 / log 丟掉,只保留後續階段會用到的東西

    這樣一來,你可以讓同一個 Agent:

    • 早上先跑一輪資料爬取
    • 下午再接續早上的結果繼續清洗與分析

    你可以馬上做的事:

    1. 在官方 demo 裡,找到記憶相關設定(通常會指定儲存路徑或使用向量資料庫)。
    2. 先用預設的本地檔案儲存方式,觀察它怎麼把多輪任務寫進 log / memory,了解自己之後可以在哪裡接入自己的資料庫。

    3. 子代理協作 + 工具調用:像組一隊虛擬實習生

    Deer-Flow 支援多個 subagents,每個都可以:

    • 使用不同的 LLM(例如:一個負責寫程式,一個負責資料分析)
    • 綁不同的工具(HTTP、資料庫、內部 API
    • 透過 message gateway 互相傳遞任務與結果

    同時,它內建「工具調用」的框架:

    • LLM 輸出「要用哪個工具 + 參數」
    • Deer-Flow 幫你實際執行(例如發 HTTP 請求、查 DB
    • 把結果再丟回 LLM 繼續推理

    你可以馬上做的事:

    1. toolsskills 相關的範例中,找到 HTTP request 或資料庫工具的例子。
    2. 把它改成呼叫你公司內部一個可公開測試的 API(例如:/health/status),確認整條「LLM 決定 → 工具執行 → LLM 使用結果」流程可用。

    4. 沙盒執行程式碼:讓 Agent 先在安全盒子裡試錯

    Deer-Flow 特別強調 sandboxes

    • Agent 產生或修改程式碼時,不會直接在主機上執行
    • 而是丟到隔離環境(容器 / sandbox 子進程)裡跑
    • 出現錯誤時,log 會被收集回來給 LLM 參考,做下一輪修正

    這一點非常適合以下情境:

    • 讓 Agent 自動寫爬蟲、清洗腳本
    • 讓 Agent 幫你布署一個小型服務(只在 sandbox 測試通過後才進正式環境)

    你可以馬上做的事:

    1. 在官方 demo 裡跑一個「code sandbox」相關示例,看它怎麼把程式碼丟到沙盒執行。
    2. sandbox 內部要執行的腳本換成你平常會用的簡單任務,例如:讀取一個 CSV,輸出 JSON

    適合誰用:3 個具體場景


    場景 1:長時間資料爬取與整理

    典型流程:

    1. Agent A:負責定義爬取策略(網站列表、節奏控制)
    2. Agent B:實際發 HTTP 請求、解析 HTML / API
    3. Agent C:清洗資料、存進資料庫
    4. Agent D:最後產出摘要報告(例如每天一份 Markdown 摘要)

    Deer-Flow 的用法:

    • 每個 Agent 是一個 subagent
    • 任務調度器負責安排「今天要爬哪些」、「昨天失敗的要重試」
    • 記憶體管理幫你記住爬過哪些 URL,避免重複

    行動建議:

    • 選一個你每天都會看的公開資料來源(例如某政府開放資料 API),用 Deer-Flow 做一個「每日抓取 + insert DB + 產出報表」的 pipeline

    場景 2:從需求到部署的自動化小專案

    你可以把它當成一個「AI junior developer」:

    1. Agent 讀取你的需求(功能描述、預期輸入輸出)
    2. sandbox 裡生成與跑單元測試
    3. 修正錯誤
    4. 最後產出可部署的腳本或 Dockerfile

    搭配本地 LLM(例如 Qwen 3.6 27B,搭配 MTP 加速,參考:這篇 Reddit 分享),你可以完全在內網完成這一串。

    💡 關鍵: 搭配 Qwen 3.6 27BMTP,有實務經驗分享可達到推理速度約「2.5×」提升,使本地端長任務也具備實用性。

    行動建議:

    • 挑一個小腳本需求,例如:
    • 定期掃描資料夾,壓縮過期檔案
    • 監控某個 API latency,超標就寄信
    • 讓 Deer-Flow 的 Agent 在 sandbox 中生成並測試這個腳本,再由你審核後部署。

    場景 3:定期報表生成(營運、行銷、IT 系統狀態)

    想像每週要手工做的:

    • 把資料庫中的數據抓出來
    • 做一些聚合 / 分析
    • 輸出 PowerPointMarkdown 報告

    Deer-Flow 可以這樣組:

    1. 工具:資料庫查詢工具(連到你的 PostgreSQL / MySQL
    2. Agent:
    3. 一個負責定義查詢與聚合邏輯
    4. 一個負責把結果轉成自然語言與圖表描述
    5. 調度:排成 cron-like 任務,每週執行一次

    行動建議:

    • 從一個最簡單的報表開始,例如「每週新用戶數」,用 Deer-Flow 將流程自動化,先做到:
    • Agent 查 DB → 產出一份 Markdown 報告存檔 → 你手動審閱

    怎麼開始:最小可行 Pipeline

    下面是一條「週末就能跑起來」的最簡路線。


    步驟 1:環境與安裝

    1. 準備一台有 Python 3.10+ 的機器(本機或雲端皆可)。
    2. 進入命令列:
    git clone https://github.com/bytedance/deer-flow.git
    cd deer-flow
    python -m venv .venv
    source .venv/bin/activate  # Windows 用 .venv\Scripts\activate
    pip install -r requirements.txt
    
    1. 確認可以跑官方 demo(通常在 examples/):
    python examples/basic_flow.py
    

    目標:先看到一個完整任務從「開始 → 調用 LLM → 調用工具 → 結束」的 log


    步驟 2:接上一個開源 LLM(本機或雲端)

    你有兩條路:

    • 本機模型:用 llama.cppOllamaQwen 3.6 之類的模型
    • 雲端 API:用 OpenAIAnthropic 或其他 OpenAI-compatible 服務

    OpenAI 介面為例,Deer-Flow 通常會在設定檔或程式中要求:

    llm_config = {
        "endpoint": "https://your-openai-compatible-endpoint/v1",
        "api_key": "YOUR_KEY",
        "model": "qwen-3.6-32b-instruct"  # 或其他你有的模型名
    }
    

    行動建議:

    • 如果你已經有在用本地模型,直接把你熟悉的 OpenAI-compatible endpoint(例如 vLLM、自建 server)填進來,確認 Deer-Flow 可以正常發出 completion / chat 請求。

    步驟 3:串一個最簡單的工具(HTTP / 資料庫 / 內部 API)

    HTTP 工具為例,你可以新增一個 tool

    from deer_flow.tools import register_tool
    import requests
    
    @register_tool("get_status")
    def get_status(url: str):
        resp = requests.get(url, timeout=10)
        return {"status_code": resp.status_code, "body": resp.text[:1000]}
    

    然後在 Agent 的工具清單中加入 get_status,讓 LLM 可以呼叫它:

    • Prompt 裡描述:「有一個工具 get_status(url) 用來檢查服務狀態」
    • 將你的內部 /health API 當成第一個測試目標

    行動建議:

    • 先讓 Agent 自己決定:
    • 什麼時候要呼叫 get_status
    • 呼叫後如何解讀結果(例如:狀態碼非 200 就記錄成 incident

    週末練習腳本:從官方 demo 改成你的業務任務

    把以上步驟變成一個可執行的「週末計畫」:

    1. 跑起官方 demo
    2. 目標:看到完整的 log 與結果
    3. 換成你的 LLM
    4. 本地 Qwen / 雲端 API 任一種
    5. 串一個工具
    6. HTTP 或資料庫擇一
    7. 改寫 flow
    8. 讓 Agent 幫你跑一個真實業務任務,例如:
      • 每日抓一個內部 API 的統計數據
      • 存到一個簡單的 SQLite / CSV
      • 產出一行 summary

    做到這裡,你就已經擁有一個「專門幫你跑重複工作幾小時」的長跑 AI SuperAgent 雛型,接下來再慢慢加 stage、加子代理,就能讓它接手越來越多的例行任務。

    💡 關鍵: 先完成最小可行 pipeline,再逐步增加 stage 和工具,可以在風險可控下循序擴張自動化範圍。


    🚀 你現在可以做的事

    • 到 GitHub 下載並跑一次 bytedance/deer-flow 的官方 examples/basic_flow.py
    • 挑一個你日常 3–4 步驟的例行任務,畫出對應 stage,準備改寫成 Deer-Flow pipeline
    • 接上你的第一個實際工具(例如內部 /health API),驗證「LLM 決策 → 工具執行 → LLM 消化結果」這條鏈路在你環境中可用
  • Cloudflare AI 一鍵開站實戰指南

    Cloudflare AI 一鍵開站實戰指南

    📌 本文重點

    • Cloudflare + AI Agent 把建站流程變成一條指令
    • Agent 幫你自動處理帳號、網域、DNS 與部署
    • 透過細分工具與沙盒權限控制降低風險

    用一句話講清楚:這套 Cloudflare + AI Agent 的做法,就是讓「註冊帳號、買網域、設 DNS、部署前端/反向代理」整包變成一條指令搞定的自動流程。

    參考:Cloudflare 官方示範 AI Agent 如何創建帳號、購買網域並部署專案:https://blog.cloudflare.com/agents-stripe-projects/


    核心功能:AI 幫你做掉的「雲端雜事」

    把這個 Agent 想成會上 Cloudflare 幫你跑腿的「小助理」,它擅長三件事:


    1. 自動開帳號與綁付款

    能做什麼

    • 依照你的輸入,幫你在 Cloudflare 建新帳號或登入既有帳號
    • 透過 API 綁定 Stripe 等付款方式(在 Cloudflare 文中是 demo Stripe)

    你可以立刻做的事

    • 先準備一組「測試用帳號 + 測試信用卡」(例如:Stripe test mode)
    • 在 Agent 的設定檔裡,只給它測試環境的 API Key,避免直接動到正式金流

    2. 自動買網域 + DNS 設定

    能做什麼

    • 搜尋可用網域,根據你描述的站點主題幫你推薦(如:blog、landing page)
    • 幫你在 Cloudflare Registrar 購買網域
    • 自動建立對應 DNS 記錄(A、CNAME、TXT 等)

    你可以立刻做的事

    • 先選一個你願意「當實驗品」的便宜網域(.dev、.xyz)
    • 把「搜尋網域」「購買網域」拆成兩個獨立步驟,先讓 Agent 只做搜尋與列出候選,購買時再由你點選確認

    3. 一鍵部署 Pages / Workers / 反向代理

    能做什麼

    • 建立 Cloudflare Pages 專案,從 GitHub/GitLab 拉前端程式碼並自動部署
    • 建立 Workers 當 API gateway 或反向代理,轉發到你的後端
    • 將網域 CNAME / A 設到對應的 Pages 或 Workers,整站自動串起來

    你可以立刻做的事

    • 先準備一個最簡單的範例 repo:只有 index.html 的靜態站
    • 在 Agent 裡把「部署 Pages」設計成可重複執行的腳本,之後要開新站只換 repo URL 與網域即可

    適合誰用:幾個實際場景


    1. 產品團隊:十個 Landing Page 反覆 A/B test

    • 你只需要寫清楚:產品描述、目標市場、想測的方案數
    • Agent 幫你:
    • 從模板庫挑版型
    • 幫你生成靜態文案 + 分版本
    • 各建一個 Pages 專案 + 子網域(如 v1.、v2.、v3)

    2. 個人開發者:接案每次都要幫客戶開新站

    • 預先寫好「開新客戶站」腳本:
    • 建 Cloudflare 帳號 + Project
    • 關聯 Git repo
    • 設 DNS + SSL
    • 真正接案時,只要把客戶資訊填進表單,Agent 幫你跑完流程

    3. 小團隊 SRE / DevOps:想把「開新環境」變成自助服務

    • 把目前手動 run 的 Terraform / CLI 流程,包成幾個固定步驟
    • 用 Agent 把這些步驟串成「對話式自助開環境」,讓工程師只回答幾個問題就能有 dev / staging 站

    怎麼設計安全的 Agent 流程與權限

    這類 Agent 一旦拿到金流與 DNS 權限,風險就很實際,所以要先設計好「它能做什麼」與「什麼一定要人按確認」。

    💡 關鍵: 把高風險操作拆成小工具並加人類確認,是在維持自動化效率下控管金流與 DNS 風險的核心做法。


    步驟 1:把任務拆成幾個明確能力(tools)

    建議至少拆:

    1. search_domains:搜尋可用網域
    2. purchase_domain:購買指定網域
    3. create_cf_account:建立 Cloudflare 帳號
    4. deploy_pages_project:建立 + 部署 Pages
    5. create_worker_and_route:建立 Worker 並設定路由
    6. update_dns_record:新增 / 修改 DNS

    每個能力對應一個 API client 或 script,Agent 只能呼叫這些「包裝好」的函式,不直接拿到 raw API key。


    步驟 2:為每個能力標示「是否需要人類確認」

    一個簡單實作方式:在工具定義中加一個 flag:

    {
      "name": "purchase_domain",
      "human_approval_required": true,
      "max_amount": 20
    }
    

    然後在你的 Agent orchestrator 裡:

    • 若工具標示 human_approval_required,就把呼叫參數(例如網域名稱、價格)顯示在後台或發 Slack/Email
    • 只有當你點「批准」後,才真的讓後端執行這個工具

    步驟 3:使用「細分 API Key」與沙盒環境

    實務上避免「一把鑰匙開全公司」。

    • Cloudflare:
    • 建一個 專門給 Agent 用的 Account,只能管特定 zone
    • 使用 Scoped API Tokens,只開啟 DNS / Workers / Pages 所需權限
    • 金流(如 Stripe):
    • 一開始只給 test mode key
    • 等流程穩定後,再引入正式金流 + 嚴格人類審批

    實際腳本示範:從一句話需求到站點上線

    下面是一條「可複製」的流程。假設你在自建的 Agent 平台上,給模型這個任務:

    幫我開一個介紹 AI 工具評測的個人網站,用最便宜的可用網域,前端用現成靜態模板,掛在 Cloudflare Pages,上線後回報網址與部署細節。

    可以拆成以下幾步(你在 orchestrator 裡實作):


    1. 理解需求(LLM 自己完成)

    • 抽取:主題(AI 工具評測)、語言(繁中)、預算(便宜網域)、託管方式(Pages)

    2. 搜尋網域(需人確認)

    • Agent 呼叫 search_domains,傳入關鍵字:ai-tool-review, aitoolnotes
    • 回傳候選清單(名稱 + 價格)
    • 顯示在 UI 讓你勾選要買哪一個

    3. 購買網域(強制人類確認)

    • 你勾選後,才允許 Agent 呼叫 purchase_domain
    • 成功後記錄網域 ID,存入任務上下文

    4. 部署 Cloudflare Pages

    • 先由 Agent 幫你選模板+生成內容
    • 基於 GitHub 上某個 starter template(設定在系統 prompt 裡)
    • 產生 index.html 內容(標題、關於我、最新評測文章列表 placeholder)
    • 呼叫 deploy_pages_project
    • repo_url: 你預先準備好的 template repo
    • build_command: “npm run build” 或空字串(純靜態)
    • output_dir: dist / build

    5. 設定 DNS 與路由

    • Pages 部署完成後會有一個預設子網域
    • Agent 呼叫 update_dns_record
    • 把剛買的網域的 @www CNAME 指到 Pages 網址

    6. 回報結果

    • Agent 最後整理:
    • 站點網址
    • 使用的網域價格
    • Pages 專案名稱與部署歷史連結
    • 你可以點進去檢查,如果沒問題,下次只要換一句需求就能複製整套流程

    想看 Cloudflare 官方更進階的案例(含 Stripe、Workers 整合),可參考:https://blog.cloudflare.com/agents-stripe-projects/


    實務風險與如何加上「人類確認」

    在 Reddit / Medium 上已經有很多討論,尤其是當 Agent 直接碰資料庫或金流時,風險會被放大。像 Vishesh Rawal 就分析了 AI Agent 連 PostgreSQL 時,因為連線被占住 6 秒而不是 5ms,讓連線池吞吐量掉了 1200 倍:https://medium.com/@visheshrawal/what-really-happens-inside-your-database-when-an-ai-agent-starts-querying-6d5254aeaa78

    💡 關鍵: AI Agent 對基礎設施與資料庫的「慢操作」,可能把吞吐量放大到原本的 1/1200,必須用節流與審批機制保護系統。

    對於 Cloudflare 這種「基礎設施類操作」,建議至少做三件事:


    1. 所有「花錢」的操作都要人工二次確認

    • 買網域、綁定正式金流、升級付費方案
    • 透過:Email、Slack bot、後台 Dashboard 的 Approve 按鈕

    2. 所有「改路由」的操作都要記錄審計

    • Log:誰下指令、Agent 呼叫了哪些工具、前後 DNS / Routing 差異
    • 發生事故時可以回溯,避免「Agent 胡亂改設定但找不到原因」

    3. 分環境:先在「沙盒帳號」驗證流程

    • 先在一個完全獨立的 Cloudflare 帳號跑完整流程
    • 確認行為符合預期後,才把相同腳本接到正式帳號,但權限再縮一級

    最低成本實驗指南:用現成工具在沙盒重現自動部署

    如果你想在一個週末內實際玩到這套「一鍵開站」流程,可以照這個極簡路線走:


    步驟 1:準備一個 Cloudflare 沙盒帳號

    1. 用新的 email 註冊一個 Cloudflare 帳號
    2. 建立一個 API Token
    3. Template 選「Edit Cloudflare Workers」或「Edit Cloudflare Pages」
    4. Scope 只給某一兩個 zone(或一開始先不管 zone,只玩免費二級網域)

    步驟 2:選一個可以自訂 Tools 的 Agent 平台

    你可以用以下任一種方式:

    • 開源 / 自架:如基於 LangChain、LlamaIndex 或自寫 Python + OpenAI API
    • 商用平台:選一個支援「自訂工具 / Actions」的聊天式 Agent 介面

    關鍵是:你要能把「call Cloudflare API」包成一個工具,給模型呼叫。


    步驟 3:先做「最小可用流程」

    在沙盒帳號裡,先只讓 Agent 做兩件事:

    1. 建立一個 Cloudflare Pages 專案(用你現成的 GitHub 靜態站 repo)
    2. 回報部署網址給你

    這代表你只需要實作一個工具:deploy_pages_project,以及一個很簡單的 system prompt:

    你是一個幫助使用者在 Cloudflare Pages 部署靜態網站的助理。
    使用者只會提供 GitHub repo 連結與專案說明。
    你應該:
    1. 確認使用者需求
    2. 呼叫 deploy_pages_project 工具
    3. 回報部署後的網址與任何錯誤訊息。
    不要購買網域,只使用預設的 Cloudflare Pages 網址。
    

    等這條 pipeline 穩定後,再逐步加入:搜尋網域 → DNS 設定 → Workers 反向代理 → 網域購買(最後才加)。


    快速整理:這套做法的價值

    • 把「開新站」變成一條指令:從建帳號、買網域到部署,都由 Agent 操作 Cloudflare 完成
    • 可複製的腳本化流程:不同產品/客戶只改描述與 repo,其餘通用
    • 安全可控:透過細分工具、Scoped Token、人工審批,把風險鎖在沙盒與少數關鍵節點

    💡 關鍵: 先用 Pages 自動部署當起點,再逐步接入網域、Workers 與金流,是導入 Cloudflare Agent 化的漸進路線。

    如果你手上已經有穩定的 Git 部署流程,下一步就可以試著讓 Agent 幫你「接手 Cloudflare 那一段」,從最簡單的 Pages 自動部署開始,慢慢走向真正的一鍵開站。

    🚀 你現在可以做的事

    • 在 Cloudflare 開一個沙盒帳號並建立專用 Scoped API Token
    • 準備一個只含 index.html 的 GitHub 靜態站 repo,作為 Pages 測試專案
    • 在任一支援自訂 Tools 的 Agent 平台上實作 deploy_pages_project,跑通最小可用一鍵部署流程