📌 本文重點
- 算力荒正重寫整個 AI 產業的權力結構
- NVIDIA 透過收購與封閉體系強化「AI 稅收權」
- 開發者需在算力約束下做「夠好又不浪費」的產品
第一波生成式 AI 熱潮,把注意力都放在「模型多強」,真正決定權力分配的,其實是「誰有算力」以及「誰能把算力用得更省」。所謂 AI 黃金時代,本質上更像是硬體與能源的黑暗時代開端:算力荒正在重寫從晶片、雲端到開發者的遊戲規則。
一、上游:NVIDIA 在寫的是「稅法」,不是產品路線圖
NVIDIA 以約 200 億美元收購 Groq,很多人只從技術角度解讀:LPU 架構拿來補 GPU 在推理解碼的短板。但從產業權力角度看,這是一次對「AI 稅收權」的加碼。
- Groq 3 LPX 這種專攻推理、低延遲的架構,目標就是把 LLM 的推理成本壓到極致,特別是解碼階段的瓶頸。
- 收購後,NVIDIA 不只是多了一條產品線,而是把「訓練(GPU)+ 推理(LPU/專用加速)」綁成一個封閉體系,從雲端供應商到模型公司都更難脫鉤。
這件事的關鍵,不在於 LPU 性能多漂亮,而在於:
- 算力短缺把議價權推到供應鏈頂端。當 GPU 二手價格可以如 The Decoder 報導般在一年內跳升近 50%,任何能把「每 Token 成本」壓低的硬體,都直接決定誰能活下來。
- NVIDIA 不是怕別人做得更強,而是怕有人做得「夠好又便宜」。收購 Groq,是把潛在的成本破壞者直接納入自己的價格體系。
💡 關鍵: 當 GPU 二手價一年內漲近 50%,任何降低每 Token 成本的方案都直接變成生死線上的競爭力
在算力荒的世界裡,晶片廠不再只是賣鏟子的人,而是收過路費的稅官。Groq 被收購,傳遞的訊號是:真正的競爭不在頂峰模型的極限效能,而在「規模化推理」這個現金牛誰來控盤。
二、中游:模型公司在做的,其實是算力通膨的成本轉嫁
算力荒最直接的血淋淋場景,現在就出現在 OpenAI、Anthropic 這一層。
- The Decoder 指出,Anthropic 近期多次服務中斷,外面看是「可靠性問題」,本質上是算力配給:資源要優先保證付費大客戶,免費與低價層就得排隊、降頻。
- OpenAI 終止 Sora 平台,表面原因可以包裝成策略調整,背後是影音生成的算力成本極高,在 GPU 價格飆漲、推理運行越來越貴的環境下,很難長期開放供「玩」。
你會看到幾個高度一致的動作:
- 限流、排隊、優先企業客戶:不是技術不行,而是 GPU 帳算不攏。
- 硬塞 cache、偷改模型規格:從系統層面做 aggressive caching、把體感維持在「還可以」但實際上降低 Token、壓縮上下文,都是為了在算力通膨下維持毛利。
- 悄悄砍或降級產品:把最燒算力的玩具級功能下架,或只留給特定付費方案。
這些行為有一個共同邏輯:當每一次推理都比去年更貴,模型公司就只能把成本往下游砍——要嘛漲價(明顯),要嘛降配(隱性)。所以我們才會看到:
- 模型能力曲線繼續上升(斯坦福 2026 AI Index 指出頂尖模型仍持續快速進步),
- 但實際可用的、可負擔的服務體驗,並沒有同比例改善——很多人甚至覺得「越用越慢、越容易掛」。
💡 關鍵: 技術指標在進步,但使用體驗停滯甚至變差,原因是算力成本的通膨被隱性轉嫁到下游
換句話說,雖然是黃金模型時代,卻是算力通膨時代。中游玩家被迫扮演「算力通膨的分銷商」,把壓力一路轉嫁到企業客戶與開發者身上。
三、下游:AI 不再是「無限雲服務」,而是稀缺資源管理
當上游悶燒、中游限流,真正被迫改變架構思維的,是最下游的 開發者與企業。
幾個現在就看得到的方向:
- 「少量雲端 + 本地/小模型」成為新常態
Reddit 上那台雙 RTX PRO 6000 (共 192GB VRAM) 的塔機,不只是炫富,它反映一件事:算力貴到一個程度後,中大型團隊開始用 CapEx 把部份推理買回本地,自己控風險、控成本。 - 雲:用在高價值、必須大模型的場景(少數關鍵任務、需要最新能力的部分)。
-
本地/邊緣:大量日常推理、小模型、隱私敏感工作負載。
-
模型不再追「最大」,而是追「剛好夠用」
以往的預設是:有錢就上最大模型。算力荒之後,合理的策略變成: - 80% 請求用 壓縮後的小模型或量化模型 處理;
-
20% 真的複雜或高價值請求,才丟給雲端 SOTA 模型。
能用 7B 模型就不用 70B,能本地就不遠端。 -
架構從「無限擴展」轉向「算力配額」思維
開發 SaaS 時,傳統做法是假設雲資源可以線性加錢擴展。現在不行了: - GPU 本身缺貨、價格暴漲;
- 雲端供應商開始對高密度推理 workload 做更嚴格的限制或差別定價。
這迫使團隊把算力當成 預算內有限資產,導入像是:
– per-feature 的算力成本試算,
– 針對不同客戶等級設計不同推理規格,
– 對內建立「算力 KPI」而不只是 DAU/收入 KPI。
甚至連最前沿的 軌道運算 都開始出現。TechCrunch 報導 Kepler Communications 把 40 張 GPU 送上地球軌道,本質上是:地面機房越來越貴、越來越難建之後,任何能換一種空間、能源結構取得算力的方案都會被認真看待。這不是科幻,而是供給曲線被壓扁後的必然結果。
四、算力已經是國安與能源議題,不只是商業問題
2026 AI Index 的幾組數字,值得冷靜看:
- 全球 AI 資料中心耗能已達近 30 吉瓦,等同一個 紐約州尖峰用電量。
- 單一頂尖模型(如 GPT-4)的訓練與運行周期,可能就消耗相當於 超過 1200 萬人口的飲用水量。
- 美國擁有 5,427 個數據中心,是其他國家的十倍以上;主流 AI 晶片製造則高度依賴 台積電 (TSMC)。
💡 關鍵: 算力其實是把電與水轉成模型能力,能源與供應鏈集中讓 AI 直接變成國安議題
這幾件事疊在一起,得到的結論是:
- 算力本質上是能源轉換問題。AI 每進步一點,都是在往電網和水資源要配額。政策討論不再只是「AI 會不會搶工作」,而是「要不要讓某個州多蓋幾個資料中心」。
- 供應鏈集中 = 地緣風險集中。當先進製程幾乎綁死在 TSMC,又以美國為核心消化,任何地緣事件都會直接反映在全球 AI 算力供應上——不是抽象風險,而是「下個季度 GPU 交不交得出來」的問題。
這就是為什麼各國開始談「算力主權」:自己要有一部分可控的硬體、能源與演算法堆疊,不然政策與國安討論都只能在別人定價的前提下進行。
結論:未來兩年的真正護城河——不是最強,而是「夠好又不浪費」
在算力荒與算力通膨同時發生的年代,未來兩年的真正護城河,不再是誰的模型略強,而是誰能在算力約束下,做出「夠好但不浪費」的產品與基礎設施。
對開發者與產品團隊,具體建議是:
- 從追新模型,轉向追「算力效率」
- 把「每一元雲端帳單換到的實際體驗提升」當主指標。
-
主動學會量化、蒸餾、多模型路由(小模型打底,大模型兜底)。
-
預設採用多雲 / 本地混合策略
- 關鍵資料與高頻推理,盡可能用自建或託管的本地 GPU(哪怕只是小型機櫃)。
-
把雲端視為「能力超額保險」,而不是每一個請求的預設去處。
-
把算力納入產品設計早期,而不是最後才算成本
- 功能規劃時就先問:「這個 feature 的推理成本是什麼級別?有沒有更省算力的替代設計?」
- 為不同客戶層級定義不同算力配額與模型等級,而不是一體適用。
誰能在限制條件下設計出體驗「夠好」、算力「夠省」、架構「夠彈性」的系統,誰就會在這場算力黑暗時代裡活得最久,也最有餘裕等到下一輪真正的技術紅利。
🚀 你現在可以做的事
- 盤點現有產品中每個 AI 功能的推理成本,標記哪些可以改用小模型或量化模型
- 試著在一台本地 GPU 機器上部署一個 7B 模型,實測與雲端大模型的體驗與成本差異
- 在下次產品規劃會議中,加上一欄「算力預算 / 模型等級」,讓功能設計一開始就納入算力約束


發佈留言