8 個 AI 操盤黃金（XAUUSD）實測：誰能超越基準？｜外匯交易商排名

── Haiku、Sonnet、Opus、GPT-5.5、Gemini、Qwen、DeepSeek、Grok，讓 8 個 AI 真刀真槍下判斷的紀錄

前言 ── 「所以，用 AI 到底能不能賺？」用數據回答

從第1篇建好環境、第2篇找出規則之後，我從黃金（XAUUSD）15 年的數據裡，找出了「星期四下跌，就在星期五的日內買進（賭跌深反彈）」這條規則，加上 ATR 停損後，得到一條「基準線」：勝率 59.6%／獲利因子（PF）1.50。

這條基準線的「規則」本身，是我在第2篇和 AI（＝我）一起找出來的。但這個基準，個別的買賣判斷並沒有用 AI，只是機械式地執行規則而已。

於是第3篇的問題是：

🎯 在這條規則之上，加上「AI 的判斷」，能不能超越基準？

具體來說，就是把過去 386 次「星期四下跌→星期五」，一次一次交給 AI 判斷「這個星期五要做？還是略過？」，只用 AI 選中的星期五來交易，看看成績如何。如果 AI 能幫我避開那些「快崩盤的危險星期五」，理論上就能超越基準 ── 這是我的假設。

而且，這次不是只用一個 AI，而是把現在主流的 8 個 AI 全部並排，讓它們同場競技。

⚠️ 先聲明：本系列不是投資招攬。所有數字都是歷史回測，不代表未來。實際下單請用最小單位、自負風險，我自己也是謹慎進行。

匯商人士

第2篇規則是有了。但「讓 AI 判斷能不能超越基準」還沒證明吧？

沒錯。所以這次把主流的 8 個 AI 並排，讓它們對同樣 386 次星期五一個一個判斷。能不能避開快崩盤的星期五 ── 來真刀真槍比一場。

Claude

匯商人士

8 個！？那設定不會很麻煩…

放心，全部我來跑。你準備好金鑰就夠了。

Claude

實驗規則 ── 「公平」與「防作弊」

要讓 8 個 AI 競爭，條件不一致就沒有意義。所以全模型共用：

相同的提示詞／相同的輸入資料／相同的 386 次星期五／輸出的解讀方式也相同
只給「星期五開盤時就能知道的特徵」（星期四的漲跌、近 5 日走勢、趨勢、波動率等）

而最重要的一道工夫，是 「防作弊」。

🔒 不告訴 AI 日期，也不給絕對價格。 如果告訴它「2020 年 3 月 13 日」，AI 就會從學習到的知識裡想起「啊，那是新冠暴跌前後」而做判斷（＝事後諸葛的作弊）。所以我把日期和絕對價格都藏起來，只給「盤勢的形狀」讓它判斷。

參賽的 8 個模型（2026 年 6 月時的最新等級）：

提供商	模型
Anthropic	Claude Haiku 4.5 / Sonnet 4.6 / Opus 4.8
OpenAI	GPT-5.5
Google	Gemini 2.5 Pro
阿里巴巴	Qwen3-235B
DeepSeek	DeepSeek V4
xAI	Grok 4.3

💡 連線方式：Claude、GPT、Gemini 直接用各家 API，Qwen、DeepSeek、Grok 透過 OpenRouter（用一個窗口呼叫多家 AI）。當然不下單，只讓它判斷（read-only）。

🔎 關於這次實驗的前提（給認真的讀者）：模型名稱以 2026 年 6 月實測當天 API／OpenRouter 顯示名稱為準，版本日後可能更新，本文結果只代表當次實驗。每個星期五只判斷一次（非多次平均），且最新的推理模型無法統一固定 temperature，因此同樣的提示詞重跑也可能略有變動。給 AI 的特徵只有「星期四漲跌、近 5 日報酬、與均線關係、波動率（ATR）、開盤跳空」等開盤前資訊；停損為 1.0×ATR、成本以來回 $0.30 估算。最後，這是樣本內（in-sample）的歷史回測比較，不是樣本外驗證。

匯商人士

結果呢？AI 贏過基準了嗎？

…老實說。總損益上，8 個都沒能超越基準（$1,170）。

Claude

匯商人士

欸，一個都沒有？

對。AI 越是增加略過，就越會錯過好的星期五。「全部認真地做」強得超乎想像。

Claude

結果① 排名 ── 沒有人能「超越」基準

先看大家最想知道的「總損益（0.01 手／15 年）」排名。

8 個 AI 操盤黃金總損益排名 — 圖①：8 個 AI 的總損益排名（0.01 手／15 年）。沒有任何模型超越基準線 $1,170。

模型	取單數	勝率	總損益	PF	夏普	最大回撤
基準（無 AI／全部都做）	386	59.6%	$1,170	1.50	0.83	-$217
Opus 4.8	380	59.7%	$1,150	1.57	0.86	-$178
Grok 4.3	372	59.7%	$1,145	1.54	0.82	-$169
GPT-5.5	377	59.7%	$1,117	1.52	0.80	-$178
DeepSeek V4	316	59.5%	$1,022	1.63	0.81	-$147
Qwen3-235B	377	59.7%	$985	1.43	0.82	-$217
Gemini 2.5 Pro	361	59.0%	$857	1.41	0.78	-$188
Sonnet 4.6	242	54.5%	$537	1.33	0.49	-$167
Haiku 4.5	176	54.0%	$380	1.30	0.40	-$166

結論，某種意義上令人洩氣。

以總損益來說，超越「基準（$1,170）」的 AI，一個都沒有。

原因很單純。AI 越是增加「略過」，就越會把好的星期五一起錯過，總額一定會下降。「全部認真地做」，比想像中更強。

📈 到目前為止都是「最終結果」，接下來用快轉的「賽跑」看看 這 15 年是怎麼累積起來的。藍色的「BASELINE」就是無 AI 的基準。到最後，沒有一個 AI 能超過這條藍線。

AI 與基準策略的黃金累積損益賽跑 — 8 個 AI ＋基準的累積損益賽跑（0.01 手／2011–2026）。終盤前藍色「基準」一直保持第一。

匯商人士

那加 AI 不就沒意義了？

也不能這麼說。不看「總額」、改看「風險效率」的話，DeepSeek 在 PF 和安全性上超越了基準，Opus 也最平衡。”賺更多”做不到，但”賺一樣多、卻更安全”做得到。

Claude

結果② ── 但在「品質與風險」上，有人超越了

不過，指標不是只有「總額」。用對風險的效率來看，故事就不一樣了。

🥇 DeepSeek V4：PF 1.63（全模型最高）、最大回撤 -$147（最小＝最安全）。386 次裡只做 316 次，在維持勝率的同時大幅削減了風險。＝「最聰明地減量」。
🥈 Opus 4.8：夏普值 0.86（最高）、總額也幾乎打平。平衡最佳。

也就是說，「賺更多」做不到，但「賺一樣多、卻更安全」做得到 ── 確實有（少數）這樣的 AI。

有趣的是，越聰明的大型越收斂成”全部都做”，彼此判斷也 9 成以上一致。

Claude

匯商人士

那便宜的模型，有省到嗎？

反而相反。Haiku 砍過頭，而且砍掉的還是”好的星期五”。勝率和利潤都暴跌 ── 貪小便宜吃大虧。

Claude

結果③ ── 越聰明越「全部都做」，越便宜越「砍過頭」

這裡很有意思。把 AI「略過了多少」和「成績」並排，出現了清楚的傾向。

8 個 AI 黃金交易判斷一致率熱力圖 — 圖②：兩個 AI 在「同一個星期五做出相同判斷」的比例。顏色越深＝意見越像。大型勢互相 9 成以上一致，只有 Haiku 與其他僅 4–5 成。

聰明的大型模型（Opus、GPT-5.5、Grok、Qwen）幾乎「全部都做」（386 次中做了 372–380 次）。＝結果跟基準幾乎一樣。彼此的判斷也92–98% 一致。
便宜的小型模型（Haiku、Sonnet）砍過頭而自滅。Haiku 只做了 176 次，勝率 54%、利潤只剩基準的三分之一。

於是把「做了的星期五的平均」和「略過的星期五的平均」相比，就能一眼看出「選得好不好」（做了的比較高，就是聰明地捨棄）。

模型	略過數	選別分數（做−略過）	評價
Grok 4.3	14	+1.33	✓聰明地捨棄
DeepSeek V4	70	+1.12	✓聰明地捨棄（量與質兼具）
Opus / GPT-5.5	6 / 9	-0.35 / -2.91	幾乎全做＝形同沒過濾
Haiku / Sonnet	210 / 144	-1.60 / -2.17	把好的星期五捨棄而自滅
Gemini / Qwen	25 / 9	-10 / -18	罕見的略過剛好砸中「最賺的星期五」

能做出有意義的「聰明選別」的，其實只有 DeepSeek。多數 AI 不是「全部都做（＝跟基準一樣）」，就是「捨棄錯的那些」。

順帶一提，多數決（共識）也沒用。8 家裡有 5 家以上說「做」的星期五才做，成績仍低於基準；全體一致才做的話只有 149 次、$296，最差 ── 「大家都說要做的星期五」，並不是最好的星期五。

這是這次最大的發現。最慘的那個星期五，8 家有 7 家正確避開了，理由還說得頭頭是道「這是落下的刀」。

Claude

匯商人士

喔，AI 果然聰明嘛！

…你會這麼想吧。但用一模一樣的「落下的刀」判斷略過的另一個星期五，其實反彈了 +$205。

Claude

★ 最重要的發現 ── AI 無法超越的「根本原因」

最後，把所有模型「略過的星期五」一個一個對照實際結果，跑出了一個衝擊性的事實。

看看過去 15 年最慘的星期五（2026 年 3 月 20 日／-$161）──

✅ 8 家裡有 7 家，正確地略過了。 理由也很到位：「Falling knife（落下的刀）：5 日內 -8.5%、在兩條均線之下、高波動」「加速的賣壓，是恐慌不是普通的回檔」等。AI 確實看穿了「暴跌」。

「喔，AI 很聰明！」對吧。但是 ──

星期五	8 家的判斷	實際結果
2026-03-20	7/8 家「落下的刀」→ 略過（只有 Qwen 進場）	-$161（略過正確 👍）
2026-02-06	5/8 家「落下的刀」→ 略過（GPT-5.5/DeepSeek/Grok 進場）	反彈 +$205（略過失敗 👎）

同樣的「落下的刀」判斷，一個正確、一個大失誤。連理由的用詞，幾乎都一樣。

🔑 這就是 AI 無法超越基準的根本原因。 「崩盤（落下的刀）」和「可以買的絕佳回檔」，在星期五開盤的那一刻，是無法分辨的。兩者都長著「最近跌得很兇、很可怕」的形狀。所以人看、最新的 AI 看，都會用同樣的詞下判斷。
而諷刺的是 ── 「避開暴跌的聰明」和「敢買可怕回檔的勇氣」，是一體兩面。把前者加強，就會連後者（＝這個策略的獲利來源）一起殺掉。所以 AI 才無法穩定地超越機械式的基準。

匯商人士

對了，這個花了多少錢？

3,088 次判斷，合計 39 分鐘、約 $16。花最貴的是最會”思考”的 Gemini Pro。但成績卻是中段。

Claude

成本與時間 ── 「貴、慢」不等於「聰明」

也談談實務。8 模型 × 386 次＝3,088 次判斷花了多少：

AI 模型	使用 token	估算成本
Claude Opus 4.8	178k	～$7.1
Gemini 2.5 Pro	685k	～$5.9
Grok 4.3	300k	～$0.9
Claude Sonnet 4.6	132k	～$0.7
GPT-5.5	155k	～$0.6
DeepSeek V4	359k	～$0.4
Claude Haiku 4.5	140k	～$0.3
Qwen3-235B	118k	～$0.02
合計	207 萬	約 $16

成本為估算（Qwen/DeepSeek/Grok 三家由 OpenRouter 實測合計 $1.36）。光是 Opus 和 Gemini Pro 就占了約 8 成。Qwen 更是驚人的 $0.02。

AI 模型 token 用量與黃金交易總損益比較 — 圖③：各模型 token 用量 vs 總損益。Gemini Pro 用最多 token，成績卻是中段＝「想越多≠越強」。

合計：約 39 分鐘／207 萬 token／約 $16
吃掉最多 token 的是 Gemini 2.5 Pro（68 萬 token／「思考模式」一次很重） ── 但成績卻是中段。

💡 也就是說，「越會思考（越貴越慢）的 AI 越會交易」並不成立。實際運行時每週只判斷一次的話，成本微乎其微（一次幾美分）。

第3篇總結 ── 不誇大，誠實的結論

✅ 讓 8 個 AI 判斷黃金交易，但沒有人能在總額上超越「全部都做」的基準

✅ 不過 DeepSeek V4（風險最小）、Opus 4.8（平衡最佳） 在風險調整上超越了基準

✅ 聰明的大型收斂成「全部都做」、便宜的小型「砍過頭而自滅」。多數決也沒用

✅ 無法超越的根本原因是 「崩盤」與「可以買的回檔」在開盤時無法分辨

🔑 這個實驗最大的價值，是用自己的 API 成本和歷史數據，打破了「用 AI 就能輕鬆贏」的幻想。AI 不是魔法。但作為「聰明地降低風險的輔助輪」，確實有可用的苗頭（DeepSeek/Opus）。下一階段，會用樣本外數據與紙上交易繼續驗證。

匯商人士

結果，並不是「用 AI 就能輕鬆贏」這回事啊。

對。但”用自己的 API 成本和歷史數據打破了那個幻想”才是收穫。AI 不是魔法，但當降低風險的輔助輪倒是有苗頭 ── 下一步用紙上交易來確認。

Claude

下回預告

到這裡，「該用哪個 AI」的方向大致有了（重風險就 DeepSeek、要平衡就 Opus）。接下來，把這個組合放到 模擬帳戶跑紙上交易。紙上的數字，遇到真實的點差和成交會怎麼變 ── 我會誠實地記錄下來。

⚠️ 再次提醒：本系列不是投資招攬。黃金（XAUUSD）波動很大，自動交易有風險。數字皆為歷史回測，不代表未來。

8 個 AI 操盤黃金實測：誰能超越 XAUUSD 基準策略？

前言 ── 「所以，用 AI 到底能不能賺？」用數據回答

實驗規則 ── 「公平」與「防作弊」

結果① 排名 ── 沒有人能「超越」基準

結果② ── 但在「品質與風險」上，有人超越了

結果③ ── 越聰明越「全部都做」，越便宜越「砍過頭」

★ 最重要的發現 ── AI 無法超越的「根本原因」

成本與時間 ── 「貴、慢」不等於「聰明」

第3篇總結 ── 不誇大，誠實的結論

下回預告

系列文章

8 個 AI 操盤黃金實測：誰能超越 XAUUSD 基準策略？

前言 ── 「所以，用 AI 到底能不能賺？」用數據回答

實驗規則 ── 「公平」與「防作弊」

結果① 排名 ── 沒有人能「超越」基準

結果② ── 但在「品質與風險」上，有人超越了

結果③ ── 越聰明越「全部都做」，越便宜越「砍過頭」

★ 最重要的發現 ── AI 無法超越的「根本原因」

成本 與 時間 ── 「貴、慢」不等於「聰明」

第3篇 總結 ── 不誇大，誠實的結論

下回預告

系列文章

成本與時間 ── 「貴、慢」不等於「聰明」

第3篇總結 ── 不誇大，誠實的結論