如果有一群 24 小時不睡覺的「AI 小操盤手」,幫你盯著預測市場、算機率、調倉、抓套利機會 —— 你會把錢交給它們嗎?
現在不再是理論題,而是真的有人把這件事做出來了。
這篇文想聊兩個很有意思、而且是實際拿真金白銀去試的研究:
- PolySwarm:一個在去中心化預測市場上做交易、還會玩「延遲套利」的多代理 LLM 系統。
- TimeSeek:一個用 Kalshi 真實市場,系統性量測十個前沿模型「預測能力隨時間衰退」的基準。
最後,我會談談殘酷一點的問題:
就算 AI 代理會寫 code、會查網路、會算機率,它們真的能穩定打敗市場、賺到超額報酬(alpha)嗎?
還是,只是換了一種更炫炮的方式,去繳學費?
一、PolySwarm:50 個 LLM 小操盤手組成的「AI 交易部門」
PolySwarm 這篇論文的副標題,如果翻成白話,大概是:
「我們用 50 個不同人格的 LLM,真的在去中心化預測市場上交易,還順便做延遲套利。」
論文在 arXiv 上可以看到:PolySwarm: A Multi-Agent Large Language Model Framework for Prediction Market Trading and Latency Arbitrage
1.1 先搞清楚:他們在玩什麼市場?
PolySwarm主要鎖定的是像 Polymarket 這類去中心化預測市場。
例如:
- 「某候選人今年選舉勝出?」是 / 不是(Yes/No)
- 「某支股票年底前會不會跌破某價位?」
- 「某項政策會不會在某日期前通過?」
每個市場其實就是一個二元期權:
- 市場價格 0.64,可以解讀為「市場認為事件發生的機率是 64%」。
- 如果你買「Yes」,最後事件發生,你拿到 1;不發生,你拿 0。
PolySwarm 要做的,就是:
- 評估每個事件「發生的機率」。
- 看現在市場價格划不划算(有沒有錯價)。
- 按照風險控管規則下單,賺取預期正報酬。
聽起來跟一般量化交易很像,但差別是:
所有決策都是由一群 LLM 代理討論出來的。
1.2 50 個 LLM 代理:不像量化團隊,更像一個 AI 版 Reddit 投票版
PolySwarm 一次丟出 50 個不同 persona 的 LLM 代理,讓他們同時對同一個市場做預測。
這些代理的差異可能包括:
- 不同提示語(prompt)設計
- 不同角色設定(保守派、激進派、數據派、新聞派…)
- 不同工具使用方式(有的偏重歷史數據,有的偏重新聞、社交媒體)
每個代理會輸出:
- 對事件發生機率的估計(例如 0.73)
- 自己的「信心程度」
有點像你開了一個 Telegram 群組,裡面有 50 個超認真的 AI 網友,每人都會附帶:「我覺得有 73% 會發生,我蠻有把握,信心 8/10。」
1.3 他們怎麼把 50 人意見聚合?Bayesian + 市場共識
重點來了:多代理系統的精髓不是問一堆人,而是「怎麼聚合」這些意見。
PolySwarm 用的是一種 信心加權的貝葉斯聚合,大致流程:
- 先把市場當作一個「先驗機率」
- 如果市場價格是 0.64,系統就先假設:目前「公共資訊」說機率 64%。
- 再把 50 個代理的估計視為「額外證據」
- 每個代理的概率 + 信心,進入貝葉斯框架,調整原本的 0.64。
- 信心高的代理,權重比較大
- 有點像一群人投票,但可信度高的人票比較重。
最終得到一個 聚合後機率,例如:0.71。
這個 0.71 會拿來和市場價格(0.64)比較:
- 如果我們覺得機率 71%,但市場只賣 0.64,那就是一個「期望正值」的機會。
1.4 用 Kelly 公式控制下注大小:AI 也要控風險
大部分散戶在市場上死得很慘,有一大半原因不是方向錯,而是倉位管理爛。
PolySwarm 很加分的一點是,他們沒有只「猜對方向」,還把風險控管公式搬進來,用的是:
- 四分之一 Kelly(Quarter-Kelly)策略
Kelly 公式是老牌賭徒+量化交易都用過的一套東西,用來決定:
在一個有正期望值的賭局裡,你應該壓資金的多少比例,才能在長期最大化資本成長,又不容易破產。
簡化一下直覺:
- 如果你認為「發生機率 70%,賠率也不錯」
- Kelly 會給你一個建議比例,比如 20% 資金
- PolySwarm 還再打 1/4,只下 5%,保守很多
這類保守的 Kelly 變體,在實際交易界是有共識的:
- 純 Kelly 太兇,很容易在短期波動下被打爆。
- 四分之一 Kelly 是在「成長」跟「不破產」之間折衷。
1.5 延遲套利:抓「市場 lag」賺無風險(或低風險)利潤
PolySwarm 研究中最有趣的部分之一,是它們做的 Latency Arbitrage(延遲套利):
利用不同市場更新速度不一樣,去剪那幾秒鐘到幾十秒鐘的價差。
具體是這樣玩的:
- 假設某事件,在一個中心化交易所(CEX) 有交易,例如某種衍生品或相關標的。
- CEX 的流動性比較好、參與者多,價格更新較快。
- 同一個事件,在 Polymarket 上的價格,可能更新比較慢。
- PolySwarm 用一個 對數常態模型,從 CEX 的價格推回「隱含機率」。
- 如果發現:
- CEX 隱含機率已經跳到 80%,
- 但 Polymarket 還停在 65%,
- 而這個差距超過手續費、滑點等成本,
- 就在那個短窗內直接下單套利。
這種作法在傳統金融世界也有:
- 高頻交易會盯著不同交易所的同一標的,利用更新延遲賺 tiny spreads。
- 差別只是現在「判斷是否值得套利」的邏輯,是 AI 代理做的。
1.6 用資訊論檢查「錯價」:KL、JS 散度登場
PolySwarm 還加了一個有點 geek 的模組:市場資訊分析引擎,用的是:
- KL 散度(Kullback–Leibler Divergence)
- JS 散度(Jensen–Shannon Divergence)
用在兩種情境:
- 跨市場效率低落
- 比如兩個高度相關的市場,理論上機率應該接近,結果價格差很大。
- 否定對市場(negation pairs)錯價
- 例如:「某候選人會不會當選?」Yes 市場價格是 0.7,No 市場應該要在 0.3 附近(扣掉費用)
- 如果兩者加起來 ≠ 1,就有明顯錯價。
資訊論指標本質上就是在量一件事:
「這兩個機率分布到底差多少?差到不合理嗎?」
一旦判斷「差很多又不合理」,系統就會啟動交易策略,去吃這個錯價。
1.7 實驗結果:多代理聚合 > 單一模型
論文裡用 Brier 分數、對數損失、校準分析做評估,得到的核心結論:
- 單一模型做預測的表現,的確不穩定。
- 多代理 + Bayesian 聚合後的群體共識,整體上更穩、更準。
換句話說,他們做出了一個「AI 版的 crowd wisdom」,而且在真實市場中跑得動。這件事本身就非常重要,因為:
這不只是 LLM 回答問題,而是直接把模型的輸出,接上了金融市場的錢包。
二、TimeSeek:模型的預測能力,會不會「變舊」「失效」?
如果說 PolySwarm 是「把 AI 丟進真實市場,看它能不能賺錢」,
那 TimeSeek 比較像是:「系統性地測量,這些 AI 預測者到底多久會變鈍。」
論文連結在這裡:TimeSeek: Temporal Reliability of Agentic Forecasters
2.1 實驗設計:10 個模型、150 個 Kalshi 合約、5 個時間點
TimeSeek 的設定蠻嚴謹的:
- 市場:美國 CFTC 監管的 Kalshi 二元期貨市場
- 合約數:150 個不同市場(通膨、政治、天氣、宏觀數據等等)
- 模型數:10 個前沿 LLM
- 時間點:每個市場在生命週期的 5 個不同時間點做預測
- 情境:每個預測又分成「有網頁檢索」vs「沒檢索」
總計:
- 150 市場 × 10 模型 × 5 時間點 × 2(有/無檢索) = 15,000 次預測
這規模不算天文數字,但已經足夠得到一些有說服力的「時間向」結論。
2.2 評估指標:Brier Skill Score 看誰比市場強
他們主要用 Brier Skill Score(BriSS) 來衡量預測品質。
簡單理解:
- Brier 分數:
- 介於 0~2,越小越好。
- 例如:事件發生(=1),你預測 0.9,比你預測 0.6 要好。
- Brier Skill Score:
- 通常是「相對某個 baseline(例如市場價格)」的改進程度。
-
0 代表你比 baseline 強,< 0 代表你拖後腿。
TimeSeek 的重點就是在看:
在不同時間點,模型的預測,到底比「市場價格」好多少?還是其實更爛?
2.3 核心發現一:模型在「市場早期」與「高不確定」時期較有優勢
結果蠻有趣,也某種程度符合直覺:
- 市場剛開始、資訊還很分散的時候:
- 模型的預測相對有競爭力,有時可以接近甚至略贏市場。
- 市場接近結算、共識變得很強的時候:
- 模型就比較常被市場「打臉」,表現明顯下降。
可以把它想像成:
- 剛開盤的時候,大家都在猜,資訊優勢還存在,模型有機會靠「廣泛檢索+邏輯推理」抓到一些尚未體現在價格上的面向。
- 但隨著時間過去,專業交易者+內部資訊+更多數據一路往市場裡灌,價格越來越凝聚,最後變成「你跟一群職業玩家在對賭」。
在這個階段,要期望 LLM 穩定打敗市場,就有點不切實際了。
2.4 核心發現二:檢索是好東西,但會「幫倒忙」的情況不算少
TimeSeek 也測了「有檢索 vs 無檢索」兩種情境。
結論:
- 整體來說,加入網路檢索後:
- 每個模型的 Brier Skill Score 都有提升。
- 但如果把時間點拆細:
- 約 12% 的「模型 × 時間點」組合裡,檢索反而讓表現變更差。
這個結果非常值得金融圈、AI 應用圈都好好思考。
因為我們太習慣一句話:
「加檢索一定比較好。」
但實務上至少有幾種「檢索幫倒忙」的場景:
- 檢索內容過時或誤導
- 舊新聞、錯資料在網路上一直都在。
- 模型對噪音過度自信
- LLM 很擅長把零碎資訊「拼一個很合理的故事」,但那故事可能建立在錯誤假設上。
- 真正有價值的資訊,在付費牆或專業報告裡,模型抓不到
- 這時候它就是在公開資訊池裡和大家一起瞎猜,反而權重過高。
這呼應了一個殘酷現實:
在已開放、已競爭的市場裡,「能被 LLM 找到的資訊」通常早就已經被價格內化。
2.5 核心發現三:簡單的兩模型集成,比單模更穩,但還是「打不贏市場」
TimeSeek 也試了簡單的 兩模型 ensemble:
- 就是把兩個模型的預測做平均或簡單加權。
結果:
- 確實可以降低預測誤差,比單一模型穩一點。
- 但整體來看,仍然無法全面超越市場本身。
也就是說:
到目前為止,「拿幾個前沿模型 ensemble 一下」還不構成穩定 alpha。
這個結論對 PolySwarm、對所有「AI 交易代理」都很關鍵:
- 多代理本身不是魔法,聚合品質、模型多樣性、資訊來源、風險管理,缺一不可。
三、AI 交易代理的現實風險:幻覺、延遲、檢索、Alpha 幻象與監管
看到這裡,如果你有一點量化或交易經驗,大概會開始懷疑:
「這些 AI 代理系統,看起來很猛,但真的可以長期穩賺不賠?」
我們來拆幾個比較實際、也有點殘酷的面向。
3.1 幻覺:在金融裡,一次瞎掰就可以讓你爆倉
LLM 的老毛病就是:看起來超有自信地亂講。
在聊天機器人情境,這叫「幻覺」,最多是答錯題、讓使用者困惑;
但在金融市場裡,幻覺會直接變成:
- 採用錯誤數據
- 理解錯新聞
- 杜撰不存在的事件或來源
- 然後下了一筆「看起來有理,其實完全錯誤」的交易。
PolySwarm 有談到幻覺風險與校準分析,試圖用多代理共識與市場價格來緩解:
- 如果某個代理的預測常常偏離實際結果,就降低它在聚合時的權重。
- 用市場隱含機率當做「 sanity check 」,防止模型輸出太離譜的東西。
但這還是有一個根本限制:
你沒辦法完全防止 LLM 在關鍵事件上「看起來超合理卻完全錯」一次,而那一次就足以傷筋動骨。
3.2 延遲:AI 再快,也有 API 延遲和交易路由的極限
在延遲套利(latency arbitrage)這件事上,AI 其實不一定比傳統高頻系統更有優勢。
- 真正的高頻交易用的是 C++、FPGA、物理距離最短的機房連接。
- LLM 代理要:
- 發出請求 → 模型計算 → 聚合 → 再發交易指令 → 上鏈或送到交易所。
這整串延遲通常是 秒級 起跳,高頻交易玩的是 微秒級。
所以,PolySwarm 比較像是在「人類反應時間窗」內做延遲套利:
- 不是跟 HFT 競速,而是比一般手動玩家快。
這個定位是合理的,但也意味著:
- 一旦市場裡有越來越多自動化系統,這種套利空間會被越磨越薄。
3.3 檢索何時幫倒忙?TimeSeek 那 12% 是一個警訊
TimeSeek 發現:檢索在 12% 的情境裡讓模型變笨,這一點非常值得擴寫。
幾個可能場景:
- 「舊 alpha」問題
- 很多看起來聰明的策略,其實是 2010 年就被用到爛的東西。
- 公開資訊中出現的投資建議,通常已經不具備結構性優勢。
- 資訊洪流裡,模型容易抓錯重點
- LLM 很會總結,但不一定懂「什麼才是對價格有邊際影響的資訊」。
- 檢索的時序問題
- 即使內容是對的,也可能是一小時前的新聞,而市場在三分鐘內就 price in。
所以在設計 AI 交易代理時,「要不要檢索」不能是一個常數,而應該是:
- 根據市場類型、時間點、波動程度,動態調整使用檢索的頻率與權重。
3.4 穩定 Alpha 存在嗎?多代理 ≠ 自動印錢機
回到最關鍵的問題:
在這些研究裡,有看到穩定、可實際部署的 alpha 嗎?
目前的證據比較像是:
- AI 在某些時間段、某些市場,能提供接近市場甚至略優的預測品質。
- 透過多代理聚合,可以一定程度提升穩定性。
- 但要長期穩定打敗整個市場,還看不到明確證據。
幾個原因:
- 市場會反應 AI 行為
- 一旦 AI 代理大量進場,它們本身就會改變價格行為,原本可行的策略很快就失效。
- 模型更新與微調成本高
- LLM 對世界的「隱含知識」其實會過時,需要持續對新數據做訓練或微調。
- 真正的 alpha 常常來自非公開資訊或結構性優勢
- 比如:管道、供應鏈資訊、人脈、獨家數據源。
- 這些是 LLM 光靠網路檢索拿不到的。
所以,我會這樣總結:
AI 交易代理比較像「放大你原本有的 edge」的工具,而不是憑空創造 edge 的魔法。
3.5 監管與道德:當 AI 開始「大規模下注」現實世界事件
最後談一個不那麼技術,但很重要的面向:監管與倫理。
PolySwarm 論文其實有提到法規與反饋迴路風險,搭配 TimeSeek 的結果,可以看到幾個問題愈來愈接近現實:
- 監管:誰對 AI 下錯單負責?
- 如果一個全自動 AI 代理在 Kalshi 或 Polymarket 上大幅建倉,造成市場波動:
- 交易所要不要限制某種「自動化 agent」的規模?
- 如果 AI 因為幻覺導致誤判,造成洗倉,是開發者、部署者還是平台負責?
- 操縱與資訊迴路
- AI 代理如果開始引用社交媒體、新聞作為輸入,而同時又在市場裡下注:
- 有沒有可能出現「自己看自己造成的新聞」、自我強化的價格泡沫?
- 賭博與社會影響
- 預測市場原本就被質疑有「賭博化政治、公共事務」的問題。
- 如果 AI 讓這些市場變得更高效、更容易參與,會不會放大這種影響?
- 道德邊界:AI 替人類做風險決策的程度
- 一般人如果把資產交給一個黑箱 AI 代理,連策略怎麼運作都不知道,只因為「它是某某大模型的 agent」,這基本上就是另類的「金融迷信」。
我覺得,監管端遲早會問兩個問題:
- 需不需要對「自動化 AI 代理」設立特別的識別與限制?
- 是否應該要求這類系統具備某種「可解釋性」與「風險揭露」?
結語:AI 代理不是神,卻正在改寫「誰可以參與金融市場」的邊界
拉回一開始那個問題:
「你會把錢交給一群 AI 小操盤手嗎?」
在看過 PolySwarm 和 TimeSeek 之後,我的看法大概是:
- 當輔助工具,可以。當唯一決策者,太早。
- AI 代理目前最擅長的是:
- 快速蒐集資訊
- 提出合理的初步機率估計
- 幫你做多市場、多策略的「第一輪篩選」
- 但在「最終下注、風險承擔」這一層,
- 人類仍然需要介入判斷,尤其是在杠桿高、尾風險重的情境。
如果你是:
- 做量化 / 風控 / 研究的:
- 值得看 PolySwarm 和 TimeSeek 的完整論文,思考如何把「多代理 + 時間敏感的信任策略」加入你的 pipeline。
- 對預測市場有興趣的:
- 可以把 AI 當成「資訊整理助手」,而不是「自動印鈔機」。
- 在監管或法遵領域的:
- 現在是開始設計「AI 交易代理」規則的好時間,等整個市場都被這類系統塞滿,再來補課就太慢了。
最後留一句我覺得很重要的提醒:
市場不會因為你用了 LLM,就變得比較好賺。
AI 能做的,是讓「有紀律、有方法」的人,放大自己的優勢;
但如果只是想用一個炫炮的模型,跳過思考、直接賭一把,那你只是把傳統投機,包了一層新的 UI 而已。
延伸閱讀
- PolySwarm 論文:PolySwarm: A Multi-Agent Large Language Model Framework for Prediction Market Trading and Latency Arbitrage
- TimeSeek 論文:TimeSeek: Temporal Reliability of Agentic Forecasters
- 關於 Brier 分數與預測:可以搜尋「Brier score calibration」了解更多預測評估方法
