標籤: 企業知識庫

把縮小版網路塞進你筆電：LLMSearchIndex 實戰
📌 本文重點
- 2 億頁壓成約 2GB 的「縮小版網際網路」可離線搜尋
- 純本地檢索搭配任意 LLM，輕鬆組出 RAG 流程
- 特別適合高隱私、內網環境與成本敏感的 RAG 應用
用一句話定位：LLMSearchIndex 就是把「壓縮過的縮小版網際網路」塞進你筆電，讓你在本機就能做全網級搜尋，再拿結果丟給任何 LLM 做 RAG，完全不用再付搜尋 API 費。

原始專案介紹可看 Reddit：https://www.reddit.com/r/LocalLLaMA/comments/1t3hokh/llmsearchindex_an_open_source_local_web_search/

核心功能：一台筆電裝下一個「可離線的 Google 替身」

1. 2 億頁壓縮索引，約 2GB 就能跑

LLMSearchIndex 預先把網頁爬好、清洗、壓縮成自訂索引格式，涵蓋 FineWeb、維基百科等資料，超過 2 億頁內容壓進約 2GB 檔案。

💡 關鍵： 把原本動輒數 TB 的網頁內容壓成約 2GB，使全網級搜尋第一次可以在一般筆電本機完成。

你可以做的事：
- 把它想成「只存文字精華的迷你網際網路」
- 在任何一台 8GB RAM 以上的筆電或桌機上運行，不用伺服器
- 直接拿來當你自建 RAG 系統的「泛網背景知識來源」，不用自己寫爬蟲 + 建索引
2. 純本地檢索，不靠外部搜尋 API

LLMSearchIndex 是一個 Python 函式庫，檢索完全在本機完成：
- 不依賴 Google、Brave、Bing API
- 不需要額外布署 SearXNG 這種 meta search
- 問題 → 本機索引 → 回傳相關片段（含來源網址）
實際效果：只要你還在用本地 LLM（如 Ollama、llama.cpp）或雲端 LLM（OpenAI、Claude 等），檢索這一段可完全脫離網路與付費 API，對公司內網環境或隱私要求嚴格的團隊特別實用。

💡 關鍵： 把「搜尋這一步」完全搬到本地，不只省掉搜尋 API 成本，也避免把查詢內容外送到第三方服務。

3. Python API + 任意 LLM，快速組出 RAG 流程

LLMSearchIndex 的設計就是為 RAG 用：
- 輸入：自然語言 query
- 輸出：N 個相關片段（帶文字與 URL），可直接拼進 LLM 的系統提示或 context
- 不綁特定模型，你可以串：
- 本地模型（Ollama、vLLM、Kobold、LM Studio…）
- 雲端模型（OpenAI、Anthropic、Gemini、Groq…）
典型 workflow：
1. 使用者問問題
2. 用 LLMSearchIndex 搜索全網索引，取前 5–10 個片段
3. 把片段整理成「context」
4. 丟給 LLM 生成回答
這整套，你可以在一支 Python 檔內完成。

適合誰用：三種典型場景

1. 公司內部知識問答：先查內網，再查「縮小版全網」

情境：你有一個內部知識庫（Notion、Confluence、PDF…），已經做了 RAG，但常遇到：
- 文件沒寫清楚，需要補充產業背景
- 客戶問題牽涉到外部規範、標準、技術細節
做法：
1. 先用公司內部向量庫檢索（例如 Chroma、Qdrant、Weaviate）
2. 若分數不夠高或結果太少，再用 LLMSearchIndex 查一次「全網索引」
3. 把「內網內容 + 全網片段」一起餵給 LLM
好處：
- 內網問題走本地知識（更準、更貼合公司語境）
- 外部背景靠本地全網索引補足，不用再打搜尋 API
2. 研究人員做主題深度檢索

情境：你是研究員 / 資深工程師，常需要：
- 快速掃描一個新主題的相關文章
- 找技術名詞、標準、實作細節的來源
做法：
- 用 LLMSearchIndex 做多輪查詢，像這樣：
- 「LLM 推理最佳化 quantization 技術」
- 「vLLM streaming serving 實作」
- 「RAG selective retrieval cost optimization」
- 把回來的片段整理成資料集，再讓 LLM 幫你摘要、對比觀點、拉時間線
你得到的是：一套可重複的「本機文獻預篩管線」，比手動 Google → 開一堆分頁 → Copy/Paste 省力很多，也更隱私。

3. 離線 / 高隱私環境下的「像 Google 一樣」輔助搜尋

情境：
- 政府、醫療、金融等內網環境不允許對外連線
- 你只被允許「把工具帶進來」，不能讓資料出去
做法：
- 先在可上網環境下載索引檔與程式碼
- 帶進封閉網路內安裝
- 之後所有搜尋與 RAG 都在本機完成
搭配 Selective RAG（參考 Silicon Protocol 思路）：
- 只有在「本地內網文件」不足以回答時，才啟動 LLMSearchIndex 檢索
- 把返回片段壓縮（摘要、抽 key points），控制 context 在 3–4 萬 token，以節省 LLM 成本
💡 關鍵： 用 Selective RAG 控制 context 在 3–4 萬 token 內，可以在維持回答品質的同時大幅壓低 LLM 推理成本。

參考文章：
- Selective RAG / 成本控制思路：https://pub.towardsai.net/the-silicon-protocol-how-to-cut-llm-context-costs-80-in-healthcare-government-finance-2026-5c2f583969cf
- Agentic RAG 思路：https://pub.towardsai.net/the-real-leap-is-not-better-retrieval-its-better-control-over-retrieval-2bd470bba9d3
怎麼開始：從 pip 到最小可用 RAG 範例

以下程式碼是假想 API 介面，目的是讓你知道「整體長什麼樣」，實作時請以實際專案 README 為主。

步驟 1：安裝與下載索引
```
# 1. 安裝套件
pip install llmsearchindex

# 2. 下載預先建好的 2GB 索引
llmsearchindex download --dataset fineweb-wikipedia
# 或依 README 指示，選擇其他索引來源
```
行動重點：確保你有至少 5GB 以上的剩餘磁碟空間與穩定網路，這一步可能會跑一陣子，但只需做一次。

步驟 2：在 Python 裡發一個最簡單的 query
```
from llmsearchindex import LLMSearchIndex

# 載入索引（第一次載入會較慢，之後可快取）
index = LLMSearchIndex("./indexes/fineweb_wiki.idx")

# 發出一個查詢
results = index.search(
    query="什麼是 Selective RAG，怎麼降低 LLM context 成本？",
    top_k=5
)

for i, r in enumerate(results, 1):
    print(f"[{i}] score={r.score:.3f}\nURL={r.url}\nSnippet={r.text[:200]}...\n")
```
行動重點：
- 改成你的問題跑一次
- 看回傳的文字和 URL，確認內容大致合理
步驟 3：把檢索結果接到任意 LLM（本地或雲端）

以下以 OpenAI API 為例，你可以換成任何 LLM SDK：
```
import os
from openai import OpenAI
from llmsearchindex import LLMSearchIndex

client = OpenAI(api_key=os.environ["OPENAI_API_KEY"])
index = LLMSearchIndex("./indexes/fineweb_wiki.idx")

question = "請用中文說明 Agentic RAG 與傳統 RAG 的差異，並舉一個應用例子。"

# 1) 先檢索
hits = index.search(question, top_k=5)

context_blocks = []
for h in hits:
    context_blocks.append(f"來源：{h.url}\n內容：{h.text}")

context = "\n\n".join(context_blocks)

# 2) 再把 context 丟給 LLM
prompt = f"""你是一位技術寫作者。
根據以下資料回答使用者問題，回答要有條列與具體例子。

【檢索到的資料】
{context}

【使用者問題】
{question}
"""

resp = client.chat.completions.create(
    model="gpt-4.1-mini",
    messages=[{"role": "user", "content": prompt}]
)

print(resp.choices[0].message.content)
```
行動重點：
- 把 model 改成你實際在用的模型
- 若是本地模型（例如 Ollama），只需把「呼叫 OpenAI」那段換成對本地 API 的 HTTP POST
步驟 4：加一點「Selective / Agentic RAG」邏輯

目標：控制什麼時候查本機內網知識、什麼時候查全網索引，並讓 LLM 自己做選擇。

下面是一個可直接複製的「最小工作流」範例（假設你已有 search_internal() 可查公司文件）：
```
def answer_question(question: str):
    """最小 Agentic + Selective RAG 工作流示意"""
    # 1) 先查內部知識庫
    internal_docs = search_internal(question, top_k=5)

    # 2) 請 LLM 判斷要不要額外查全網
    judge_prompt = f"""你是一個檢索決策助手。
    使用者問題：{question}
    下面是內部文件的部份內容，如果已足夠回答，就回答 NO；
    如果明顯需要外部背景知識，回答 YES。

    內部文件摘要：
    {internal_docs[:4000]}

    只回答 YES 或 NO。"""

    judge = client.chat.completions.create(
        model="gpt-4.1-mini",
        messages=[{"role": "user", "content": judge_prompt}],
        max_tokens=2
    ).choices[0].message.content.strip()

    web_context = ""
    if judge == "YES":
        web_hits = index.search(question, top_k=5)
        web_context = "\n\n".join(h.text for h in web_hits)

    # 3) 最終回答，Selective RAG：只注入必要的 context
    final_prompt = f"""根據以下資料，用清楚的條列方式回答問題。

    【內部文件】
    {internal_docs}

    【外部網路資料】
    {web_context}

    問題：{question}
    """

    ans = client.chat.completions.create(
        model="gpt-4.1-mini",
        messages=[{"role": "user", "content": final_prompt}]
    )
    return ans.choices[0].message.content
```
這段做了幾件關鍵事：
- 先用內部文件回答，避免 context 過大
- 只在 LLM 判斷「需要外部背景」時才查 LLMSearchIndex → Selective RAG
- 讓「要不要查外網」變成 LLM 可控制的動作 → Agentic RAG 思路
你可以把這段包成 API，直接給前端 chat UI 使用，實際上就完成了一個「有公司腦、有縮小版全網腦」的混合助理。

小結：什麼時候值得把 LLMSearchIndex 裝進你電腦？

如果你符合以下任一條件，很值得試：
- 不想再為 Brave / Bing / 其他 Web Search API 付費
- 公司內網不能直連外網，但又需要一般網路知識
- 已經有 RAG，但缺一層泛網背景，常被卡在「文件沒寫但網路上早就有答案」
先從：
1. pip install + 下載索引
2. 跑一次簡單 query
3. 用上面最小工作流範例接到你的 LLM
開始把「縮小版網際網路」塞進你的 RAG pipeline 裡，用一台筆電就做出接近全網搜尋體驗的助理。
🚀 你現在可以做的事
- 打開 README，實際執行 pip install llmsearchindex 並下載一個索引檔
- 改寫文中的 Python 範例，把 query 換成你真實工作會問的問題跑一次
- 把「步驟 4」的 answer_question() 包成一個簡單 API，接到現有的內網 chat UI 做小規模試用
2026 年 5 月 5 日
實戰 Agentic RAG 與 Hybrid Search
📌 本文重點
- 單一檢索策略讓 RAG 在真實場景很容易翻車
- Hybrid Search 能互補向量與關鍵字的盲點
- 讓 Agent 負責檢索策略與多輪重試能顯著提升穩定度
- 不換模型也能透過 eval、Hybrid 與權限控管大幅升級 RAG
在實際專案裡，多數 RAG 翻車不是因為模型不夠聰明，而是檢索策略太單一：只用向量會被專有名詞和代碼玩死，只用關鍵字又抓不到語義相近的長文件內容。Agentic RAG + Hybrid Search 的組合，重點就是讓「檢索」變成可調度、可重試、可觀測的一級公民，而不是一個寫死的 search(query) 函式。

重點說明

1. 為什麼單一檢索在真實專案會翻車？

常見四種翻車場景：
1. 長文件 / 手冊
2. 只用向量：整份手冊被切成很多 chunk，語義太接近，top-k 都很像，但真正要的那一段不一定排前面。
3. 只用 BM25：查詢句子太口語，關鍵字重疊度不高，直接 miss。
4. 專有名詞 / 法規條文 / 內部代號
5. 向量模型常常把 DS-104、DS-140 當成類似，專案實際上兩者完全不同。
6. 法規編號、API 名稱、Ticket ID 等，關鍵字檢索反而更穩。
7. 程式碼、表格、錯誤訊息
8. 向量對縮排、符號、stack trace 的敏感度很差。
9. Log ID 或錯誤碼這類「硬字串」，BM25/關鍵字幾乎是必要條件。
10. 跨語言 / 口語查詢
11. 使用者用自然語言描述問題，文件是正式用語或英文，公司內還混雜縮寫。
12. 需要先用 LLM 做 query 改寫，再讓向量與 BM25 各自發揮。
Hybrid Search（向量 + BM25） 的實際好處：
- 可以 補各自的盲點：專有名詞用 BM25 鎖定，模糊描述用向量補齊。
- 可以針對不同類型文件設定 權重策略（例如法規 > 內部 wiki > Slack 摘要）。
- 可以後面用 rerank 模型 做第二次排序，穩定提升回答可靠度。
💡 關鍵： 單一檢索在長文件與專有名詞場景很容易漏抓關鍵內容，Hybrid Search 能同時顧到語義相似與精確字串匹配，明顯降低 RAG 翻車率。

2. 讓 Agent 負責檢索策略，而不是把檢索寫死

典型 Agentic RAG 設計：
- 一個 Orchestrator Agent（對話主控）
- 多個 retriever 工具：keyword_retriever、vector_retriever、hybrid_retriever、legal_retriever 等
Agent 的工作不是「自己產生答案」，而是先判斷：
1. 要用哪種檢索策略？
2. 查錯誤碼或 ticket：優先 關鍵字 → 再向量精抽
3. 問概念解釋：優先向量 → 再用 BM25 找原始定義
4. 法規/權威階層：改用 分層 retriever（例如每一層級至少取 1–2 筆）
5. 要不要改寫 Query？
6. 第一輪命中文件相關度低時，讓 Agent 自動：
  - 摘出關鍵詞
  - 加上同義詞 / 全名（例如：DS → Data Steward）
  - 限縮 domain（例如：限定 product=core-banking）
7. 多輪重試與合併結果
8. 第一輪檢索後如果信心不足（例如 top-3 相似度都 < 0.7），
9. Agent 改寫 query 或更換 retriever，再抓一次，最後合併去重後送入 LLM。
這樣做的實際好處：
- 檢索策略可迭代：只要調整工具 / prompt，不必重寫服務架構。
- 容易在線上 A/B：只換掉 Orchestrator 的 prompt 或 routing 邏輯即可。
- 可以針對不同客戶 / 部門掛不同的工具組合。
3. 架構骨架：Orchestrator + 多 retriever + Hybrid Search

一個可落地的組合：
- LLM：OpenAI（gpt-4.1）、Anthropic（claude-3.7）皆可
- 檢索：
- Elasticsearch：BM25 + dense vector + hybrid score
- 或 Weaviate / Qdrant：向量 + keyword filter
簡化架構：
```
User → Orchestrator Agent → (tool calls) →
  - keyword_retriever (Elasticsearch BM25)
  - vector_retriever  (Weaviate / ES dense vector)
  - hybrid_retriever  (ES rank_feature / script_score)
→ merge + dedup + rerank → LLM answer
```
實作範例

1. Orchestrator Agent Prompt（決定使用哪個 retriever）

假設用 OpenAI Assistants API 或自行封裝 tools：
```
系統指示（Orchestrator）：
你是一個檢索協調代理，負責從多種檢索器取得最相關的企業知識。

- 若使用者詢問：
  - 錯誤碼、ticket ID、法規條號、API 名稱 → 優先使用 **keyword_retriever**。
  - 抽象概念、最佳實踐、流程說明 → 優先使用 **vector_retriever**。
  - 法律 / 合規問題，且需多層級來源 → 使用 **legal_hybrid_retriever**。

流程：
1. 先決定要呼叫哪些工具（可以多個）。
2. 若第一輪檢索結果的「來源數量 < 3」或「相關度評估偏低」，
   - 自行改寫查詢（更精簡、加入關鍵字），再重試一次。
3. 最終將所有檢索結果去重、排序，回傳給後續回答模型。
禁止自行編造公司內部資料，所有答案必須可追溯到文件片段。
```
2. Elasticsearch Hybrid Search 設定範例

索引 mapping：
```
PUT knowledge_base
{
  "mappings": {
    "properties": {
      "content": { "type": "text" },
      "content_vec": { "type": "dense_vector", "dims": 1536, "index": true },
      "source_type": { "type": "keyword" },   
      "tenant_id": { "type": "keyword" }
    }
  }
}
```
簡化版 hybrid 查詢（BM25 + 向量）：
```
POST knowledge_base/_search
{
  "size": 20,
  "query": {
    "script_score": {
      "query": {
        "bool": {
          "must": [
            {"match": {"content": "GDPR data retention"}},
            {"term": {"tenant_id": "acme_corp"}}
          ]
        }
      },
      "script": {
        "source": "0.6 * _score + 0.4 * cosineSimilarity(params.q_vec, 'content_vec')",
        "params": {"q_vec": [/* query embedding */]}
      }
    }
  }
}
```
關鍵點：
- BM25 與向量權重（例子中 0.6 / 0.4）要透過線上 A/B 或離線 eval 調整。
- tenant_id filter 做多租戶權限隔離，非常重要。
💡 關鍵： 在同一個查詢裡用 script score 同時結合 BM25 分數與 cosine similarity，能控制兩者權重，調整出最適合自己資料分佈的 Hybrid 策略。

3. Chunking 與 max context 的工程細節

基本原則：
- 以 語義切分（semantic splitting）+ 適度 overlap 為主，而不是死切 512 tokens。
- 避免 chunk 過長導致：
- 向量語義太混濁，top-k 噪音變高。
- LLM context 塞滿 retrieval 噪音，回答變模糊。
實作骨架（pseudo-code）：
```
from semantic_splitter import split_semantic

def chunk_doc(text: str):
    sections = split_semantic(text, max_chars=1200)
    chunks = []
    overlap = 150  # 字元級 overlap
    for sec in sections:
        if len(sec) <= 1200:
            chunks.append(sec)
        else:
            # 針對長 section 再做 sliding window
            for i in range(0, len(sec), 1200 - overlap):
                chunks.append(sec[i:i+1200])
    return chunks
```
與 max context tokens 的關係：
- 假設 LLM context 32k，系統 prompt + 對話占 4k，其實留給 RAG 的只有約 28k。
- 若每個 chunk 約 400 tokens，你實際能塞 約 50–60 個 chunk 就爆，但通常 8–16 個 chunk 就夠，更多只會拉高成本與噪音。
rerank 與去重：
- 先取寬一點的 top_k（例如 30–50），再用輕量 rerank（如 bge-reranker）縮到 8–12 個。
- 去重邏輯可以用：same doc_id + 高度相似 直接只留一個，減少重複內容浪費 context。
💡 關鍵： 雖然 context 可能有 32k tokens，但實務上只保留約 8–16 個高質量 chunk，通常就能兼顧成本與效果，塞太多反而害答題品質下滑。

建議與注意事項

1. 不要只做 embedding，不做 eval

常見錯誤流程：
1. 把全部文件 embed → 塞進向量庫 → 上線。
2. 發現回答怪怪的 → 開始懷疑模型。
比較健康的流程：
1. 先準備一組 標記好的 QA/Eval 集（10–50 題也好）。
2. 對同一組問題，分別跑：
3. 純 BM25
4. 純向量
5. Hybrid + 不同權重
6. 用簡單指標（hit@k、人工評分）挑一個 baseline，再上線 A/B。
2. 向量庫維護：重建 / 追加 / 版本化
- Embedding 模型版本變更 時：
- 盡量用新 index 重建（kb_v2），舊版保留一段時間做對照。
- 不要在同一個 index 裡混不同 embedding 模型的向量。
- 大量文件更新策略：
- 批次追加新文檔時，要記錄 批次 ID / 資料版本，方便 rollback。
- 下線文件要標記 is_active=false 或直接 soft delete，避免回答引用過期政策。
3. 多租戶與權限過濾
- 在 Elasticsearch / Weaviate 中務必存：tenant_id、visibility、role 等欄位。
- 檢索 query 層一定要加：
```
"filter": [
  {"term": {"tenant_id": "${current_tenant}"}},
  {"terms": {"visibility": ["public", "internal"]}}
]
```
- 不要指望 LLM 自己遵守權限，權限控制一定要在檢索階段完成。
4. 線上評測與 A/B 驗證

簡易做法：
1. 選一組真實高頻 query（客服 ticket、搜尋 log）。
2. 設計兩條路線：
3. A：純向量 RAG
4. B：Agentic RAG + Hybrid Search
5. 隨機分流流量，收集：
6. 使用者是否重問 / 追問率
7. 是否需要人工接手
8. CSR / domain expert 的 1–5 分主觀評分
通常在企業知識庫場景，只要加上 Hybrid Search + Agent 重試，就能看到 10–30% 的 query 成功率提升，而且失誤類型會明顯變少（比較少「答錯法規條」、「引用過期政策」）。

總結：如果你現在的 RAG 還是「單一向量庫 + top-k 塞給 LLM」，要提升穩定性，不一定要換更大的模型，先把 Hybrid Search 與 Agentic 檢索策略補上，通常是成本最低、效果最直接的升級路線。
🚀 你現在可以做的事
- 從現有專案中抽出 10–50 則真實 query，分別用純 BM25、純向量與 Hybrid 跑一次，記錄 hit@k 與人工評分
- 在現有 RAG 服務前面加一個簡單 Orchestrator，把關鍵字與向量檢索拆成兩個 tool，用 prompt 控制選用策略
- 在搜尋層加入 tenant_id 與 visibility 欄位與 filter，先確保權限過濾正確，再進一步調整 Hybrid 權重與 rerank 策略
2026 年 4 月 16 日

標籤: 企業知識庫

把縮小版網路塞進你筆電：LLMSearchIndex 實戰

核心功能：一台筆電裝下一個「可離線的 Google 替身」

1. 2 億頁壓縮索引，約 2GB 就能跑

2. 純本地檢索，不靠外部搜尋 API

3. Python API + 任意 LLM，快速組出 RAG 流程

適合誰用：三種典型場景

1. 公司內部知識問答：先查內網，再查「縮小版全網」

2. 研究人員做主題深度檢索

3. 離線 / 高隱私環境下的「像 Google 一樣」輔助搜尋

怎麼開始：從 pip 到最小可用 RAG 範例

步驟 1：安裝與下載索引

步驟 2：在 Python 裡發一個最簡單的 query

步驟 3：把檢索結果接到任意 LLM（本地或雲端）

步驟 4：加一點「Selective / Agentic RAG」邏輯

小結：什麼時候值得把 LLMSearchIndex 裝進你電腦？

實戰 Agentic RAG 與 Hybrid Search

重點說明

1. 為什麼單一檢索在真實專案會翻車？

2. 讓 Agent 負責檢索策略，而不是把檢索寫死

3. 架構骨架：Orchestrator + 多 retriever + Hybrid Search

實作範例

1. Orchestrator Agent Prompt（決定使用哪個 retriever）

2. Elasticsearch Hybrid Search 設定範例

3. Chunking 與 max context 的工程細節

建議與注意事項

1. 不要只做 embedding，不做 eval

2. 向量庫維護：重建 / 追加 / 版本化

3. 多租戶與權限過濾

4. 線上評測與 A/B 驗證