標籤: 企業知識庫

  • 把縮小版網路塞進你筆電:LLMSearchIndex 實戰

    把縮小版網路塞進你筆電:LLMSearchIndex 實戰

    📌 本文重點

    • 2 億頁壓成約 2GB 的「縮小版網際網路」可離線搜尋
    • 純本地檢索搭配任意 LLM,輕鬆組出 RAG 流程
    • 特別適合高隱私、內網環境與成本敏感的 RAG 應用

    用一句話定位:LLMSearchIndex 就是把「壓縮過的縮小版網際網路」塞進你筆電,讓你在本機就能做全網級搜尋,再拿結果丟給任何 LLM 做 RAG,完全不用再付搜尋 API 費。

    原始專案介紹可看 Reddit:https://www.reddit.com/r/LocalLLaMA/comments/1t3hokh/llmsearchindex_an_open_source_local_web_search/


    核心功能:一台筆電裝下一個「可離線的 Google 替身」

    1. 2 億頁壓縮索引,約 2GB 就能跑

    LLMSearchIndex 預先把網頁爬好、清洗、壓縮成自訂索引格式,涵蓋 FineWeb、維基百科等資料,超過 2 億頁內容壓進約 2GB 檔案

    💡 關鍵: 把原本動輒數 TB 的網頁內容壓成約 2GB,使全網級搜尋第一次可以在一般筆電本機完成。

    你可以做的事:

    • 把它想成「只存文字精華的迷你網際網路」
    • 在任何一台 8GB RAM 以上的筆電或桌機上運行,不用伺服器
    • 直接拿來當你自建 RAG 系統的「泛網背景知識來源」,不用自己寫爬蟲 + 建索引

    2. 純本地檢索,不靠外部搜尋 API

    LLMSearchIndex 是一個 Python 函式庫,檢索完全在本機完成:

    • 不依賴 Google、Brave、Bing API
    • 不需要額外布署 SearXNG 這種 meta search
    • 問題 → 本機索引 → 回傳相關片段(含來源網址)

    實際效果:只要你還在用本地 LLM(如 Ollamallama.cpp)或雲端 LLM(OpenAI、Claude 等),檢索這一段可完全脫離網路與付費 API,對公司內網環境或隱私要求嚴格的團隊特別實用。

    💡 關鍵: 把「搜尋這一步」完全搬到本地,不只省掉搜尋 API 成本,也避免把查詢內容外送到第三方服務。

    3. Python API + 任意 LLM,快速組出 RAG 流程

    LLMSearchIndex 的設計就是為 RAG 用:

    • 輸入:自然語言 query
    • 輸出:N 個相關片段(帶文字與 URL),可直接拼進 LLM 的系統提示或 context
    • 不綁特定模型,你可以串:
    • 本地模型(OllamavLLMKoboldLM Studio…)
    • 雲端模型(OpenAI、Anthropic、Gemini、Groq…)

    典型 workflow:

    1. 使用者問問題
    2. LLMSearchIndex 搜索全網索引,取前 5–10 個片段
    3. 把片段整理成「context」
    4. 丟給 LLM 生成回答

    這整套,你可以在一支 Python 檔內完成。


    適合誰用:三種典型場景

    1. 公司內部知識問答:先查內網,再查「縮小版全網」

    情境:你有一個內部知識庫(Notion、Confluence、PDF…),已經做了 RAG,但常遇到:

    • 文件沒寫清楚,需要補充產業背景
    • 客戶問題牽涉到外部規範、標準、技術細節

    做法:

    1. 先用公司內部向量庫檢索(例如 ChromaQdrantWeaviate
    2. 若分數不夠高或結果太少,再用 LLMSearchIndex 查一次「全網索引」
    3. 把「內網內容 + 全網片段」一起餵給 LLM

    好處:

    • 內網問題走本地知識(更準、更貼合公司語境)
    • 外部背景靠本地全網索引補足,不用再打搜尋 API

    2. 研究人員做主題深度檢索

    情境:你是研究員 / 資深工程師,常需要:

    • 快速掃描一個新主題的相關文章
    • 找技術名詞、標準、實作細節的來源

    做法:

    • LLMSearchIndex 做多輪查詢,像這樣:
    • 「LLM 推理最佳化 quantization 技術」
    • 「vLLM streaming serving 實作」
    • 「RAG selective retrieval cost optimization」
    • 把回來的片段整理成資料集,再讓 LLM 幫你摘要、對比觀點、拉時間線

    你得到的是:一套可重複的「本機文獻預篩管線」,比手動 Google → 開一堆分頁 → Copy/Paste 省力很多,也更隱私。

    3. 離線 / 高隱私環境下的「像 Google 一樣」輔助搜尋

    情境:

    • 政府、醫療、金融等內網環境不允許對外連線
    • 你只被允許「把工具帶進來」,不能讓資料出去

    做法:

    • 先在可上網環境下載索引檔與程式碼
    • 帶進封閉網路內安裝
    • 之後所有搜尋與 RAG 都在本機完成

    搭配 Selective RAG(參考 Silicon Protocol 思路):

    • 只有在「本地內網文件」不足以回答時,才啟動 LLMSearchIndex 檢索
    • 把返回片段壓縮(摘要、抽 key points),控制 context 在 3–4 萬 token,以節省 LLM 成本

    💡 關鍵: 用 Selective RAG 控制 context 在 3–4 萬 token 內,可以在維持回答品質的同時大幅壓低 LLM 推理成本。

    參考文章:


    怎麼開始:從 pip 到最小可用 RAG 範例

    以下程式碼是假想 API 介面,目的是讓你知道「整體長什麼樣」,實作時請以實際專案 README 為主。

    步驟 1:安裝與下載索引

    # 1. 安裝套件
    pip install llmsearchindex
    
    # 2. 下載預先建好的 2GB 索引
    llmsearchindex download --dataset fineweb-wikipedia
    # 或依 README 指示,選擇其他索引來源
    

    行動重點:確保你有至少 5GB 以上的剩餘磁碟空間與穩定網路,這一步可能會跑一陣子,但只需做一次。

    步驟 2:在 Python 裡發一個最簡單的 query

    from llmsearchindex import LLMSearchIndex
    
    # 載入索引(第一次載入會較慢,之後可快取)
    index = LLMSearchIndex("./indexes/fineweb_wiki.idx")
    
    # 發出一個查詢
    results = index.search(
        query="什麼是 Selective RAG,怎麼降低 LLM context 成本?",
        top_k=5
    )
    
    for i, r in enumerate(results, 1):
        print(f"[{i}] score={r.score:.3f}\nURL={r.url}\nSnippet={r.text[:200]}...\n")
    

    行動重點:

    • 改成你的問題跑一次
    • 看回傳的文字和 URL,確認內容大致合理

    步驟 3:把檢索結果接到任意 LLM(本地或雲端)

    以下以 OpenAI API 為例,你可以換成任何 LLM SDK:

    import os
    from openai import OpenAI
    from llmsearchindex import LLMSearchIndex
    
    client = OpenAI(api_key=os.environ["OPENAI_API_KEY"])
    index = LLMSearchIndex("./indexes/fineweb_wiki.idx")
    
    question = "請用中文說明 Agentic RAG 與傳統 RAG 的差異,並舉一個應用例子。"
    
    # 1) 先檢索
    hits = index.search(question, top_k=5)
    
    context_blocks = []
    for h in hits:
        context_blocks.append(f"來源:{h.url}\n內容:{h.text}")
    
    context = "\n\n".join(context_blocks)
    
    # 2) 再把 context 丟給 LLM
    prompt = f"""你是一位技術寫作者。
    根據以下資料回答使用者問題,回答要有條列與具體例子。
    
    【檢索到的資料】
    {context}
    
    【使用者問題】
    {question}
    """
    
    resp = client.chat.completions.create(
        model="gpt-4.1-mini",
        messages=[{"role": "user", "content": prompt}]
    )
    
    print(resp.choices[0].message.content)
    

    行動重點:

    • model 改成你實際在用的模型
    • 若是本地模型(例如 Ollama),只需把「呼叫 OpenAI」那段換成對本地 API 的 HTTP POST

    步驟 4:加一點「Selective / Agentic RAG」邏輯

    目標:控制什麼時候查本機內網知識、什麼時候查全網索引,並讓 LLM 自己做選擇。

    下面是一個可直接複製的「最小工作流」範例(假設你已有 search_internal() 可查公司文件):

    def answer_question(question: str):
        """最小 Agentic + Selective RAG 工作流示意"""
        # 1) 先查內部知識庫
        internal_docs = search_internal(question, top_k=5)
    
        # 2) 請 LLM 判斷要不要額外查全網
        judge_prompt = f"""你是一個檢索決策助手。
        使用者問題:{question}
        下面是內部文件的部份內容,如果已足夠回答,就回答 NO;
        如果明顯需要外部背景知識,回答 YES。
    
        內部文件摘要:
        {internal_docs[:4000]}
    
        只回答 YES 或 NO。"""
    
        judge = client.chat.completions.create(
            model="gpt-4.1-mini",
            messages=[{"role": "user", "content": judge_prompt}],
            max_tokens=2
        ).choices[0].message.content.strip()
    
        web_context = ""
        if judge == "YES":
            web_hits = index.search(question, top_k=5)
            web_context = "\n\n".join(h.text for h in web_hits)
    
        # 3) 最終回答,Selective RAG:只注入必要的 context
        final_prompt = f"""根據以下資料,用清楚的條列方式回答問題。
    
        【內部文件】
        {internal_docs}
    
        【外部網路資料】
        {web_context}
    
        問題:{question}
        """
    
        ans = client.chat.completions.create(
            model="gpt-4.1-mini",
            messages=[{"role": "user", "content": final_prompt}]
        )
        return ans.choices[0].message.content
    

    這段做了幾件關鍵事:

    • 先用內部文件回答,避免 context 過大
    • 只在 LLM 判斷「需要外部背景」時才查 LLMSearchIndex → Selective RAG
    • 讓「要不要查外網」變成 LLM 可控制的動作 → Agentic RAG 思路

    你可以把這段包成 API,直接給前端 chat UI 使用,實際上就完成了一個「有公司腦、有縮小版全網腦」的混合助理。


    小結:什麼時候值得把 LLMSearchIndex 裝進你電腦?

    如果你符合以下任一條件,很值得試:

    • 不想再為 Brave / Bing / 其他 Web Search API 付費
    • 公司內網不能直連外網,但又需要一般網路知識
    • 已經有 RAG,但缺一層泛網背景,常被卡在「文件沒寫但網路上早就有答案」

    先從:

    1. pip install + 下載索引
    2. 跑一次簡單 query
    3. 用上面最小工作流範例接到你的 LLM

    開始把「縮小版網際網路」塞進你的 RAG pipeline 裡,用一台筆電就做出接近全網搜尋體驗的助理。

    🚀 你現在可以做的事

    • 打開 README,實際執行 pip install llmsearchindex 並下載一個索引檔
    • 改寫文中的 Python 範例,把 query 換成你真實工作會問的問題跑一次
    • 把「步驟 4」的 answer_question() 包成一個簡單 API,接到現有的內網 chat UI 做小規模試用
  • 實戰 Agentic RAG 與 Hybrid Search

    實戰 Agentic RAG 與 Hybrid Search

    📌 本文重點

    • 單一檢索策略讓 RAG 在真實場景很容易翻車
    • Hybrid Search 能互補向量與關鍵字的盲點
    • 讓 Agent 負責檢索策略與多輪重試能顯著提升穩定度
    • 不換模型也能透過 eval、Hybrid 與權限控管大幅升級 RAG

    在實際專案裡,多數 RAG 翻車不是因為模型不夠聰明,而是檢索策略太單一:只用向量會被專有名詞和代碼玩死,只用關鍵字又抓不到語義相近的長文件內容。Agentic RAG + Hybrid Search 的組合,重點就是讓「檢索」變成可調度、可重試、可觀測的一級公民,而不是一個寫死的 search(query) 函式。


    重點說明

    1. 為什麼單一檢索在真實專案會翻車?

    常見四種翻車場景:

    1. 長文件 / 手冊
    2. 只用向量:整份手冊被切成很多 chunk,語義太接近,top-k 都很像,但真正要的那一段不一定排前面。
    3. 只用 BM25:查詢句子太口語,關鍵字重疊度不高,直接 miss。

    4. 專有名詞 / 法規條文 / 內部代號

    5. 向量模型常常把 DS-104DS-140 當成類似,專案實際上兩者完全不同。
    6. 法規編號、API 名稱、Ticket ID 等,關鍵字檢索反而更穩

    7. 程式碼、表格、錯誤訊息

    8. 向量對縮排、符號、stack trace 的敏感度很差。
    9. Log ID 或錯誤碼這類「硬字串」,BM25/關鍵字幾乎是必要條件

    10. 跨語言 / 口語查詢

    11. 使用者用自然語言描述問題,文件是正式用語或英文,公司內還混雜縮寫。
    12. 需要先用 LLM 做 query 改寫,再讓向量與 BM25 各自發揮。

    Hybrid Search(向量 + BM25) 的實際好處:

    • 可以 補各自的盲點:專有名詞用 BM25 鎖定,模糊描述用向量補齊。
    • 可以針對不同類型文件設定 權重策略(例如法規 > 內部 wiki > Slack 摘要)。
    • 可以後面用 rerank 模型 做第二次排序,穩定提升回答可靠度。

    💡 關鍵: 單一檢索在長文件與專有名詞場景很容易漏抓關鍵內容,Hybrid Search 能同時顧到語義相似與精確字串匹配,明顯降低 RAG 翻車率。


    2. 讓 Agent 負責檢索策略,而不是把檢索寫死

    典型 Agentic RAG 設計:

    • 一個 Orchestrator Agent(對話主控)
    • 多個 retriever 工具keyword_retrievervector_retrieverhybrid_retrieverlegal_retriever

    Agent 的工作不是「自己產生答案」,而是先判斷:

    1. 要用哪種檢索策略?
    2. 查錯誤碼或 ticket:優先 關鍵字 → 再向量精抽
    3. 問概念解釋:優先 向量 → 再用 BM25 找原始定義
    4. 法規/權威階層:改用 分層 retriever(例如每一層級至少取 1–2 筆)

    5. 要不要改寫 Query?

    6. 第一輪命中文件相關度低時,讓 Agent 自動:

      • 摘出關鍵詞
      • 加上同義詞 / 全名(例如:DSData Steward
      • 限縮 domain(例如:限定 product=core-banking
    7. 多輪重試與合併結果

    8. 第一輪檢索後如果信心不足(例如 top-3 相似度都 < 0.7),
    9. Agent 改寫 query 或更換 retriever,再抓一次,最後合併去重後送入 LLM。

    這樣做的實際好處:

    • 檢索策略可迭代:只要調整工具 / prompt,不必重寫服務架構。
    • 容易在線上 A/B:只換掉 Orchestrator 的 prompt 或 routing 邏輯即可。
    • 可以針對不同客戶 / 部門掛不同的工具組合。

    一個可落地的組合:

    • LLM:OpenAIgpt-4.1)、Anthropicclaude-3.7)皆可
    • 檢索:
    • Elasticsearch:BM25 + dense vector + hybrid score
    • Weaviate / Qdrant:向量 + keyword filter

    簡化架構:

    User → Orchestrator Agent → (tool calls) →
      - keyword_retriever (Elasticsearch BM25)
      - vector_retriever  (Weaviate / ES dense vector)
      - hybrid_retriever  (ES rank_feature / script_score)
    → merge + dedup + rerank → LLM answer
    

    實作範例

    1. Orchestrator Agent Prompt(決定使用哪個 retriever)

    假設用 OpenAI Assistants API 或自行封裝 tools:

    系統指示(Orchestrator):
    你是一個檢索協調代理,負責從多種檢索器取得最相關的企業知識。
    
    - 若使用者詢問:
      - 錯誤碼、ticket ID、法規條號、API 名稱 → 優先使用 **keyword_retriever**。
      - 抽象概念、最佳實踐、流程說明 → 優先使用 **vector_retriever**。
      - 法律 / 合規問題,且需多層級來源 → 使用 **legal_hybrid_retriever**。
    
    流程:
    1. 先決定要呼叫哪些工具(可以多個)。
    2. 若第一輪檢索結果的「來源數量 < 3」或「相關度評估偏低」,
       - 自行改寫查詢(更精簡、加入關鍵字),再重試一次。
    3. 最終將所有檢索結果去重、排序,回傳給後續回答模型。
    禁止自行編造公司內部資料,所有答案必須可追溯到文件片段。
    

    索引 mapping:

    PUT knowledge_base
    {
      "mappings": {
        "properties": {
          "content": { "type": "text" },
          "content_vec": { "type": "dense_vector", "dims": 1536, "index": true },
          "source_type": { "type": "keyword" },   
          "tenant_id": { "type": "keyword" }
        }
      }
    }
    

    簡化版 hybrid 查詢(BM25 + 向量):

    POST knowledge_base/_search
    {
      "size": 20,
      "query": {
        "script_score": {
          "query": {
            "bool": {
              "must": [
                {"match": {"content": "GDPR data retention"}},
                {"term": {"tenant_id": "acme_corp"}}
              ]
            }
          },
          "script": {
            "source": "0.6 * _score + 0.4 * cosineSimilarity(params.q_vec, 'content_vec')",
            "params": {"q_vec": [/* query embedding */]}
          }
        }
      }
    }
    

    關鍵點:

    • BM25 與向量權重(例子中 0.6 / 0.4)要透過線上 A/B 或離線 eval 調整。
    • tenant_id filter 做多租戶權限隔離,非常重要。

    💡 關鍵: 在同一個查詢裡用 script score 同時結合 BM25 分數與 cosine similarity,能控制兩者權重,調整出最適合自己資料分佈的 Hybrid 策略。


    3. Chunking 與 max context 的工程細節

    基本原則:

    • 語義切分(semantic splitting)+ 適度 overlap 為主,而不是死切 512 tokens
    • 避免 chunk 過長導致:
    • 向量語義太混濁,top-k 噪音變高。
    • LLM context 塞滿 retrieval 噪音,回答變模糊。

    實作骨架(pseudo-code):

    from semantic_splitter import split_semantic
    
    def chunk_doc(text: str):
        sections = split_semantic(text, max_chars=1200)
        chunks = []
        overlap = 150  # 字元級 overlap
        for sec in sections:
            if len(sec) <= 1200:
                chunks.append(sec)
            else:
                # 針對長 section 再做 sliding window
                for i in range(0, len(sec), 1200 - overlap):
                    chunks.append(sec[i:i+1200])
        return chunks
    

    max context tokens 的關係:

    • 假設 LLM context 32k,系統 prompt + 對話占 4k,其實留給 RAG 的只有約 28k
    • 若每個 chunk 約 400 tokens,你實際能塞 約 50–60 個 chunk 就爆,但通常 8–16 個 chunk 就夠,更多只會拉高成本與噪音。

    rerank 與去重

    • 先取寬一點的 top_k(例如 30–50),再用輕量 rerank(如 bge-reranker)縮到 8–12 個。
    • 去重邏輯可以用:same doc_id + 高度相似 直接只留一個,減少重複內容浪費 context。

    💡 關鍵: 雖然 context 可能有 32k tokens,但實務上只保留約 8–16 個高質量 chunk,通常就能兼顧成本與效果,塞太多反而害答題品質下滑。


    建議與注意事項

    1. 不要只做 embedding,不做 eval

    常見錯誤流程:

    1. 把全部文件 embed → 塞進向量庫 → 上線。
    2. 發現回答怪怪的 → 開始懷疑模型。

    比較健康的流程:

    1. 先準備一組 標記好的 QA/Eval 集10–50 題也好)。
    2. 對同一組問題,分別跑:
    3. 純 BM25
    4. 純向量
    5. Hybrid + 不同權重
    6. 用簡單指標(hit@k、人工評分)挑一個 baseline,再上線 A/B。

    2. 向量庫維護:重建 / 追加 / 版本化

    • Embedding 模型版本變更 時:
    • 盡量用新 index 重建(kb_v2),舊版保留一段時間做對照。
    • 不要在同一個 index 裡混不同 embedding 模型的向量。
    • 大量文件更新策略:
    • 批次追加新文檔時,要記錄 批次 ID / 資料版本,方便 rollback。
    • 下線文件要標記 is_active=false 或直接 soft delete,避免回答引用過期政策。

    3. 多租戶與權限過濾

    • 在 Elasticsearch / Weaviate 中務必存:tenant_idvisibilityrole 等欄位。
    • 檢索 query 層一定要加:
    "filter": [
      {"term": {"tenant_id": "${current_tenant}"}},
      {"terms": {"visibility": ["public", "internal"]}}
    ]
    
    • 不要指望 LLM 自己遵守權限,權限控制一定要在檢索階段完成。

    4. 線上評測與 A/B 驗證

    簡易做法:

    1. 選一組真實高頻 query(客服 ticket、搜尋 log)。
    2. 設計兩條路線:
    3. A:純向量 RAG
    4. B:Agentic RAG + Hybrid Search
    5. 隨機分流流量,收集:
    6. 使用者是否重問 / 追問率
    7. 是否需要人工接手
    8. CSR / domain expert 的 1–5 分主觀評分

    通常在企業知識庫場景,只要加上 Hybrid Search + Agent 重試,就能看到 10–30% 的 query 成功率提升,而且失誤類型會明顯變少(比較少「答錯法規條」、「引用過期政策」)。


    總結:如果你現在的 RAG 還是「單一向量庫 + top-k 塞給 LLM」,要提升穩定性,不一定要換更大的模型,先把 Hybrid Search 與 Agentic 檢索策略補上,通常是成本最低、效果最直接的升級路線。


    🚀 你現在可以做的事

    • 從現有專案中抽出 10–50 則真實 query,分別用純 BM25、純向量與 Hybrid 跑一次,記錄 hit@k 與人工評分
    • 在現有 RAG 服務前面加一個簡單 Orchestrator,把關鍵字與向量檢索拆成兩個 tool,用 prompt 控制選用策略
    • 在搜尋層加入 tenant_idvisibility 欄位與 filter,先確保權限過濾正確,再進一步調整 Hybrid 權重與 rerank 策略