金融科技 - Kerwin AI Information

如果有一群 24 小時不睡覺的「AI 小操盤手」，幫你盯著預測市場、算機率、調倉、抓套利機會 —— 你會把錢交給它們嗎？

現在不再是理論題，而是真的有人把這件事做出來了。

這篇文想聊兩個很有意思、而且是實際拿真金白銀去試的研究：

PolySwarm：一個在去中心化預測市場上做交易、還會玩「延遲套利」的多代理 LLM 系統。
TimeSeek：一個用 Kalshi 真實市場，系統性量測十個前沿模型「預測能力隨時間衰退」的基準。

最後，我會談談殘酷一點的問題：

就算 AI 代理會寫 code、會查網路、會算機率，它們真的能穩定打敗市場、賺到超額報酬（alpha）嗎？

還是，只是換了一種更炫炮的方式，去繳學費？

一、PolySwarm：50 個 LLM 小操盤手組成的「AI 交易部門」

PolySwarm 這篇論文的副標題，如果翻成白話，大概是：

「我們用 50 個不同人格的 LLM，真的在去中心化預測市場上交易，還順便做延遲套利。」

論文在 arXiv 上可以看到：PolySwarm: A Multi-Agent Large Language Model Framework for Prediction Market Trading and Latency Arbitrage

1.1 先搞清楚：他們在玩什麼市場？

PolySwarm主要鎖定的是像 Polymarket 這類去中心化預測市場。

例如：

「某候選人今年選舉勝出？」是 / 不是（Yes/No）
「某支股票年底前會不會跌破某價位？」
「某項政策會不會在某日期前通過？」

每個市場其實就是一個二元期權：

市場價格 0.64，可以解讀為「市場認為事件發生的機率是 64%」。
如果你買「Yes」，最後事件發生，你拿到 1；不發生，你拿 0。

PolySwarm 要做的，就是：

評估每個事件「發生的機率」。
看現在市場價格划不划算（有沒有錯價）。
按照風險控管規則下單，賺取預期正報酬。

聽起來跟一般量化交易很像，但差別是：

所有決策都是由一群 LLM 代理討論出來的。

1.2 50 個 LLM 代理：不像量化團隊，更像一個 AI 版 Reddit 投票版

PolySwarm 一次丟出 50 個不同 persona 的 LLM 代理，讓他們同時對同一個市場做預測。

這些代理的差異可能包括：

不同提示語（prompt）設計
不同角色設定（保守派、激進派、數據派、新聞派…）
不同工具使用方式（有的偏重歷史數據，有的偏重新聞、社交媒體）

每個代理會輸出：

對事件發生機率的估計（例如 0.73）
自己的「信心程度」

有點像你開了一個 Telegram 群組，裡面有 50 個超認真的 AI 網友，每人都會附帶：「我覺得有 73% 會發生，我蠻有把握，信心 8/10。」

1.3 他們怎麼把 50 人意見聚合？Bayesian + 市場共識

重點來了：多代理系統的精髓不是問一堆人，而是「怎麼聚合」這些意見。

PolySwarm 用的是一種 信心加權的貝葉斯聚合，大致流程：

先把市場當作一個「先驗機率」
如果市場價格是 0.64，系統就先假設：目前「公共資訊」說機率 64%。
再把 50 個代理的估計視為「額外證據」
每個代理的概率 + 信心，進入貝葉斯框架，調整原本的 0.64。
信心高的代理，權重比較大
有點像一群人投票，但可信度高的人票比較重。

最終得到一個 聚合後機率，例如：0.71。

這個 0.71 會拿來和市場價格（0.64）比較：

如果我們覺得機率 71%，但市場只賣 0.64，那就是一個「期望正值」的機會。

1.4 用 Kelly 公式控制下注大小：AI 也要控風險

大部分散戶在市場上死得很慘，有一大半原因不是方向錯，而是倉位管理爛。

PolySwarm 很加分的一點是，他們沒有只「猜對方向」，還把風險控管公式搬進來，用的是：

四分之一 Kelly（Quarter-Kelly）策略

Kelly 公式是老牌賭徒＋量化交易都用過的一套東西，用來決定：

在一個有正期望值的賭局裡，你應該壓資金的多少比例，才能在長期最大化資本成長，又不容易破產。

簡化一下直覺：

如果你認為「發生機率 70%，賠率也不錯」
Kelly 會給你一個建議比例，比如 20% 資金
PolySwarm 還再打 1/4，只下 5%，保守很多

這類保守的 Kelly 變體，在實際交易界是有共識的：

純 Kelly 太兇，很容易在短期波動下被打爆。
四分之一 Kelly 是在「成長」跟「不破產」之間折衷。

1.5 延遲套利：抓「市場 lag」賺無風險（或低風險）利潤

PolySwarm 研究中最有趣的部分之一，是它們做的 Latency Arbitrage（延遲套利）：

利用不同市場更新速度不一樣，去剪那幾秒鐘到幾十秒鐘的價差。

具體是這樣玩的：

假設某事件，在一個中心化交易所（CEX） 有交易，例如某種衍生品或相關標的。
CEX 的流動性比較好、參與者多，價格更新較快。
同一個事件，在 Polymarket 上的價格，可能更新比較慢。
PolySwarm 用一個 對數常態模型，從 CEX 的價格推回「隱含機率」。
如果發現：
CEX 隱含機率已經跳到 80%，
但 Polymarket 還停在 65%，
而這個差距超過手續費、滑點等成本，
就在那個短窗內直接下單套利。

這種作法在傳統金融世界也有：

高頻交易會盯著不同交易所的同一標的，利用更新延遲賺 tiny spreads。
差別只是現在「判斷是否值得套利」的邏輯，是 AI 代理做的。

1.6 用資訊論檢查「錯價」：KL、JS 散度登場

PolySwarm 還加了一個有點 geek 的模組：市場資訊分析引擎，用的是：

KL 散度（Kullback–Leibler Divergence）
JS 散度（Jensen–Shannon Divergence）

用在兩種情境：

跨市場效率低落
比如兩個高度相關的市場，理論上機率應該接近，結果價格差很大。
否定對市場（negation pairs）錯價
例如：「某候選人會不會當選？」Yes 市場價格是 0.7，No 市場應該要在 0.3 附近（扣掉費用）
如果兩者加起來 ≠ 1，就有明顯錯價。

資訊論指標本質上就是在量一件事：

「這兩個機率分布到底差多少？差到不合理嗎？」

一旦判斷「差很多又不合理」，系統就會啟動交易策略，去吃這個錯價。

1.7 實驗結果：多代理聚合 > 單一模型

論文裡用 Brier 分數、對數損失、校準分析做評估，得到的核心結論：

單一模型做預測的表現，的確不穩定。
多代理 + Bayesian 聚合後的群體共識，整體上更穩、更準。

換句話說，他們做出了一個「AI 版的 crowd wisdom」，而且在真實市場中跑得動。這件事本身就非常重要，因為：

這不只是 LLM 回答問題，而是直接把模型的輸出，接上了金融市場的錢包。

二、TimeSeek：模型的預測能力，會不會「變舊」「失效」？

如果說 PolySwarm 是「把 AI 丟進真實市場，看它能不能賺錢」，

那 TimeSeek 比較像是：「系統性地測量，這些 AI 預測者到底多久會變鈍。」

論文連結在這裡：TimeSeek: Temporal Reliability of Agentic Forecasters

2.1 實驗設計：10 個模型、150 個 Kalshi 合約、5 個時間點

TimeSeek 的設定蠻嚴謹的：

市場：美國 CFTC 監管的 Kalshi 二元期貨市場
合約數：150 個不同市場（通膨、政治、天氣、宏觀數據等等）
模型數：10 個前沿 LLM
時間點：每個市場在生命週期的 5 個不同時間點做預測
情境：每個預測又分成「有網頁檢索」vs「沒檢索」

總計：

150 市場 × 10 模型 × 5 時間點 × 2（有/無檢索） = 15,000 次預測

這規模不算天文數字，但已經足夠得到一些有說服力的「時間向」結論。

2.2 評估指標：Brier Skill Score 看誰比市場強

他們主要用 Brier Skill Score（BriSS） 來衡量預測品質。

簡單理解：

Brier 分數：
介於 0~2，越小越好。
例如：事件發生（=1），你預測 0.9，比你預測 0.6 要好。
Brier Skill Score：
通常是「相對某個 baseline（例如市場價格）」的改進程度。
0 代表你比 baseline 強，< 0 代表你拖後腿。

TimeSeek 的重點就是在看：

在不同時間點，模型的預測，到底比「市場價格」好多少？還是其實更爛？

2.3 核心發現一：模型在「市場早期」與「高不確定」時期較有優勢

結果蠻有趣，也某種程度符合直覺：

市場剛開始、資訊還很分散的時候：
模型的預測相對有競爭力，有時可以接近甚至略贏市場。
市場接近結算、共識變得很強的時候：
模型就比較常被市場「打臉」，表現明顯下降。

可以把它想像成：

剛開盤的時候，大家都在猜，資訊優勢還存在，模型有機會靠「廣泛檢索＋邏輯推理」抓到一些尚未體現在價格上的面向。
但隨著時間過去，專業交易者＋內部資訊＋更多數據一路往市場裡灌，價格越來越凝聚，最後變成「你跟一群職業玩家在對賭」。

在這個階段，要期望 LLM 穩定打敗市場，就有點不切實際了。

2.4 核心發現二：檢索是好東西，但會「幫倒忙」的情況不算少

TimeSeek 也測了「有檢索 vs 無檢索」兩種情境。

結論：

整體來說，加入網路檢索後：
每個模型的 Brier Skill Score 都有提升。
但如果把時間點拆細：
約 12% 的「模型 × 時間點」組合裡，檢索反而讓表現變更差。

這個結果非常值得金融圈、AI 應用圈都好好思考。

因為我們太習慣一句話：

「加檢索一定比較好。」

但實務上至少有幾種「檢索幫倒忙」的場景：

檢索內容過時或誤導
舊新聞、錯資料在網路上一直都在。
模型對噪音過度自信
LLM 很擅長把零碎資訊「拼一個很合理的故事」，但那故事可能建立在錯誤假設上。
真正有價值的資訊，在付費牆或專業報告裡，模型抓不到
這時候它就是在公開資訊池裡和大家一起瞎猜，反而權重過高。

這呼應了一個殘酷現實：

在已開放、已競爭的市場裡，「能被 LLM 找到的資訊」通常早就已經被價格內化。

2.5 核心發現三：簡單的兩模型集成，比單模更穩，但還是「打不贏市場」

TimeSeek 也試了簡單的 兩模型 ensemble：

就是把兩個模型的預測做平均或簡單加權。

結果：

確實可以降低預測誤差，比單一模型穩一點。
但整體來看，仍然無法全面超越市場本身。

也就是說：

到目前為止，「拿幾個前沿模型 ensemble 一下」還不構成穩定 alpha。

這個結論對 PolySwarm、對所有「AI 交易代理」都很關鍵：

多代理本身不是魔法，聚合品質、模型多樣性、資訊來源、風險管理，缺一不可。

三、AI 交易代理的現實風險：幻覺、延遲、檢索、Alpha 幻象與監管

看到這裡，如果你有一點量化或交易經驗，大概會開始懷疑：

「這些 AI 代理系統，看起來很猛，但真的可以長期穩賺不賠？」

我們來拆幾個比較實際、也有點殘酷的面向。

3.1 幻覺：在金融裡，一次瞎掰就可以讓你爆倉

LLM 的老毛病就是：看起來超有自信地亂講。

在聊天機器人情境，這叫「幻覺」，最多是答錯題、讓使用者困惑；

但在金融市場裡，幻覺會直接變成：

採用錯誤數據
理解錯新聞
杜撰不存在的事件或來源
然後下了一筆「看起來有理，其實完全錯誤」的交易。

PolySwarm 有談到幻覺風險與校準分析，試圖用多代理共識與市場價格來緩解：

如果某個代理的預測常常偏離實際結果，就降低它在聚合時的權重。
用市場隱含機率當做「 sanity check 」，防止模型輸出太離譜的東西。

但這還是有一個根本限制：

你沒辦法完全防止 LLM 在關鍵事件上「看起來超合理卻完全錯」一次，而那一次就足以傷筋動骨。

3.2 延遲：AI 再快，也有 API 延遲和交易路由的極限

在延遲套利（latency arbitrage）這件事上，AI 其實不一定比傳統高頻系統更有優勢。

真正的高頻交易用的是 C++、FPGA、物理距離最短的機房連接。
LLM 代理要：
發出請求 → 模型計算 → 聚合 → 再發交易指令 → 上鏈或送到交易所。

這整串延遲通常是秒級起跳，高頻交易玩的是 微秒級。

所以，PolySwarm 比較像是在「人類反應時間窗」內做延遲套利：

不是跟 HFT 競速，而是比一般手動玩家快。

這個定位是合理的，但也意味著：

一旦市場裡有越來越多自動化系統，這種套利空間會被越磨越薄。

3.3 檢索何時幫倒忙？TimeSeek 那 12% 是一個警訊

TimeSeek 發現：檢索在 12% 的情境裡讓模型變笨，這一點非常值得擴寫。

幾個可能場景：

「舊 alpha」問題
很多看起來聰明的策略，其實是 2010 年就被用到爛的東西。
公開資訊中出現的投資建議，通常已經不具備結構性優勢。
資訊洪流裡，模型容易抓錯重點
LLM 很會總結，但不一定懂「什麼才是對價格有邊際影響的資訊」。
檢索的時序問題
即使內容是對的，也可能是一小時前的新聞，而市場在三分鐘內就 price in。

所以在設計 AI 交易代理時，「要不要檢索」不能是一個常數，而應該是：

根據市場類型、時間點、波動程度，動態調整使用檢索的頻率與權重。

3.4 穩定 Alpha 存在嗎？多代理 ≠ 自動印錢機

回到最關鍵的問題：

在這些研究裡，有看到穩定、可實際部署的 alpha 嗎？

目前的證據比較像是：

AI 在某些時間段、某些市場，能提供接近市場甚至略優的預測品質。
透過多代理聚合，可以一定程度提升穩定性。
但要長期穩定打敗整個市場，還看不到明確證據。

幾個原因：

市場會反應 AI 行為
一旦 AI 代理大量進場，它們本身就會改變價格行為，原本可行的策略很快就失效。
模型更新與微調成本高
LLM 對世界的「隱含知識」其實會過時，需要持續對新數據做訓練或微調。
真正的 alpha 常常來自非公開資訊或結構性優勢
比如：管道、供應鏈資訊、人脈、獨家數據源。
這些是 LLM 光靠網路檢索拿不到的。

所以，我會這樣總結：

AI 交易代理比較像「放大你原本有的 edge」的工具，而不是憑空創造 edge 的魔法。

3.5 監管與道德：當 AI 開始「大規模下注」現實世界事件

最後談一個不那麼技術，但很重要的面向：監管與倫理。

PolySwarm 論文其實有提到法規與反饋迴路風險，搭配 TimeSeek 的結果，可以看到幾個問題愈來愈接近現實：

監管：誰對 AI 下錯單負責？
如果一個全自動 AI 代理在 Kalshi 或 Polymarket 上大幅建倉，造成市場波動：
- 交易所要不要限制某種「自動化 agent」的規模？
- 如果 AI 因為幻覺導致誤判，造成洗倉，是開發者、部署者還是平台負責？
操縱與資訊迴路
AI 代理如果開始引用社交媒體、新聞作為輸入，而同時又在市場裡下注：
- 有沒有可能出現「自己看自己造成的新聞」、自我強化的價格泡沫？
賭博與社會影響
預測市場原本就被質疑有「賭博化政治、公共事務」的問題。
如果 AI 讓這些市場變得更高效、更容易參與，會不會放大這種影響？
道德邊界：AI 替人類做風險決策的程度
一般人如果把資產交給一個黑箱 AI 代理，連策略怎麼運作都不知道，只因為「它是某某大模型的 agent」，這基本上就是另類的「金融迷信」。

我覺得，監管端遲早會問兩個問題：

需不需要對「自動化 AI 代理」設立特別的識別與限制？
是否應該要求這類系統具備某種「可解釋性」與「風險揭露」？

結語：AI 代理不是神，卻正在改寫「誰可以參與金融市場」的邊界

拉回一開始那個問題：

「你會把錢交給一群 AI 小操盤手嗎？」

在看過 PolySwarm 和 TimeSeek 之後，我的看法大概是：

當輔助工具，可以。當唯一決策者，太早。
AI 代理目前最擅長的是：
快速蒐集資訊
提出合理的初步機率估計
幫你做多市場、多策略的「第一輪篩選」
但在「最終下注、風險承擔」這一層，
人類仍然需要介入判斷，尤其是在杠桿高、尾風險重的情境。

如果你是：

做量化 / 風控 / 研究的：
值得看 PolySwarm 和 TimeSeek 的完整論文，思考如何把「多代理 + 時間敏感的信任策略」加入你的 pipeline。
對預測市場有興趣的：
可以把 AI 當成「資訊整理助手」，而不是「自動印鈔機」。
在監管或法遵領域的：
現在是開始設計「AI 交易代理」規則的好時間，等整個市場都被這類系統塞滿，再來補課就太慢了。

最後留一句我覺得很重要的提醒：

市場不會因為你用了 LLM，就變得比較好賺。

AI 能做的，是讓「有紀律、有方法」的人，放大自己的優勢；

但如果只是想用一個炫炮的模型，跳過思考、直接賭一把，那你只是把傳統投機，包了一層新的 UI 而已。

標籤: 金融科技

AI 代理衝進預測市場：PolySwarm、TimeSeek，模型真的贏得過金融市場嗎？