MT5 × API × AI 黃金自動交易 非工程師與AI

8 個 AI 操盤黃金實測:誰能超越 XAUUSD 基準策略?

── Haiku・Sonnet・Opus・GPT-5.5・Gemini・Qwen・DeepSeek・Grok,讓 8 個 AI 真刀真槍下判斷的紀錄

前言 ── 「所以,用 AI 到底能不能賺?」用數據回答

第1篇建好環境、第2篇找出規則之後,我從黃金(XAUUSD)15 年的數據裡,找出了「星期四下跌,就在星期五的日內買進(賭跌深反彈)」這條規則,加上 ATR 停損後,得到一條「基準線」:勝率 59.6%/獲利因子(PF)1.50

這條基準線的「規則」本身,是我在第2篇和 AI(=我)一起找出來的。但這個基準,個別的買賣判斷並沒有用 AI,只是機械式地執行規則而已

於是第3篇的問題是:

🎯 在這條規則之上,加上「AI 的判斷」,能不能超越基準?

具體來說,就是把過去 386 次「星期四下跌→星期五」,一次一次交給 AI 判斷「這個星期五要做?還是略過?」,只用 AI 選中的星期五來交易,看看成績如何。如果 AI 能幫我避開那些「快崩盤的危險星期五」,理論上就能超越基準 ── 這是我的假設。

而且,這次不是只用一個 AI,而是把現在主流的 8 個 AI 全部並排,讓它們同場競技。

/

⚠️ 先聲明:本系列不是投資招攬。所有數字都是歷史回測,不代表未來。實際下單請用最小單位、自負風險,我自己也是謹慎進行。

匯商人士
匯商人士
第2篇規則是有了。但「讓 AI 判斷能不能超越基準」還沒證明吧?
沒錯。所以這次把主流的 8 個 AI 並排,讓它們對同樣 386 次星期五一個一個判斷。能不能避開快崩盤的星期五 ── 來真刀真槍比一場。
Claude
Claude
匯商人士
匯商人士
8 個!?那設定不會很麻煩…
放心,全部我來跑。你準備好金鑰就夠了。
Claude
Claude

實驗規則 ── 「公平」與「防作弊」

要讓 8 個 AI 競爭,條件不一致就沒有意義。所以全模型共用:

  • 相同的提示詞/相同的輸入資料/相同的 386 次星期五/輸出的解讀方式也相同
  • 只給「星期五開盤時就能知道的特徵」(星期四的漲跌、近 5 日走勢、趨勢、波動率等)

而最重要的一道工夫,是 「防作弊」

🔒 不告訴 AI 日期,也不給絕對價格。 如果告訴它「2020 年 3 月 13 日」,AI 就會從學習到的知識裡想起「啊,那是新冠暴跌前後」而做判斷(=事後諸葛的作弊)。所以我把日期和絕對價格都藏起來,只給「盤勢的形狀」讓它判斷。

參賽的 8 個模型(2026 年 6 月時的最新等級):

提供商模型
AnthropicClaude Haiku 4.5 / Sonnet 4.6 / Opus 4.8
OpenAIGPT-5.5
GoogleGemini 2.5 Pro
阿里巴巴Qwen3-235B
DeepSeekDeepSeek V4
xAIGrok 4.3

💡 連線方式:Claude、GPT、Gemini 直接用各家 API,Qwen、DeepSeek、Grok 透過 OpenRouter(用一個窗口呼叫多家 AI)。當然不下單,只讓它判斷(read-only)。

🔎 關於這次實驗的前提(給認真的讀者):模型名稱以 2026 年 6 月實測當天 API/OpenRouter 顯示名稱為準,版本日後可能更新,本文結果只代表當次實驗。每個星期五只判斷一次(非多次平均),且最新的推理模型無法統一固定 temperature,因此同樣的提示詞重跑也可能略有變動。給 AI 的特徵只有「星期四漲跌、近 5 日報酬、與均線關係、波動率(ATR)、開盤跳空」等開盤前資訊;停損為 1.0×ATR、成本以來回 $0.30 估算。最後,這是樣本內(in-sample)的歷史回測比較,不是樣本外驗證

匯商人士
匯商人士
結果呢?AI 贏過基準了嗎?
…老實說。總損益上,8 個都沒能超越基準($1,170)。
Claude
Claude
匯商人士
匯商人士
欸,一個都沒有?
對。AI 越是增加略過,就越會錯過好的星期五。「全部認真地做」強得超乎想像。
Claude
Claude

結果① 排名 ── 沒有人能「超越」基準

先看大家最想知道的「總損益(0.01 手/15 年)」排名。

8 個 AI 操盤黃金總損益排名
圖①:8 個 AI 的總損益排名(0.01 手/15 年)。沒有任何模型超越基準線 $1,170。
模型取單數勝率總損益PF夏普最大回撤
基準(無 AI・全部都做)38659.6%$1,1701.500.83-$217
Opus 4.838059.7%$1,1501.570.86-$178
Grok 4.337259.7%$1,1451.540.82-$169
GPT-5.537759.7%$1,1171.520.80-$178
DeepSeek V431659.5%$1,0221.630.81-$147
Qwen3-235B37759.7%$9851.430.82-$217
Gemini 2.5 Pro36159.0%$8571.410.78-$188
Sonnet 4.624254.5%$5371.330.49-$167
Haiku 4.517654.0%$3801.300.40-$166

結論,某種意義上令人洩氣。

以總損益來說,超越「基準($1,170)」的 AI,一個都沒有。

原因很單純。AI 越是增加「略過」,就越會把好的星期五一起錯過,總額一定會下降。「全部認真地做」,比想像中更強。

📈 到目前為止都是「最終結果」,接下來用快轉的「賽跑」看看 這 15 年是怎麼累積起來的。藍色的「BASELINE」就是無 AI 的基準。到最後,沒有一個 AI 能超過這條藍線。

AI 與基準策略的黃金累積損益賽跑
8 個 AI +基準的累積損益賽跑(0.01 手・2011〜2026)。終盤前藍色「基準」一直保持第一。
匯商人士
匯商人士
那加 AI 不就沒意義了?
也不能這麼說。不看「總額」、改看「風險效率」的話,DeepSeek 在 PF 和安全性上超越了基準,Opus 也最平衡。”賺更多”做不到,但”賺一樣多、卻更安全”做得到。
Claude
Claude

結果② ── 但在「品質與風險」上,有人超越了

不過,指標不是只有「總額」。用對風險的效率來看,故事就不一樣了。

  • 🥇 DeepSeek V4:PF 1.63(全模型最高)、最大回撤 -$147(最小=最安全)。386 次裡只做 316 次,在維持勝率的同時大幅削減了風險。=「最聰明地減量」。
  • 🥈 Opus 4.8:夏普值 0.86(最高)、總額也幾乎打平。平衡最佳。

也就是說,「賺更多」做不到,但「賺一樣多、卻更安全」做得到 ── 確實有(少數)這樣的 AI。

有趣的是,越聰明的大型越收斂成”全部都做”,彼此判斷也 9 成以上一致。
Claude
Claude
匯商人士
匯商人士
那便宜的模型,有省到嗎?
反而相反。Haiku 砍過頭,而且砍掉的還是”好的星期五”。勝率和利潤都暴跌 ── 貪小便宜吃大虧。
Claude
Claude

結果③ ── 越聰明越「全部都做」,越便宜越「砍過頭」

這裡很有意思。把 AI「略過了多少」和「成績」並排,出現了清楚的傾向。

8 個 AI 黃金交易判斷一致率熱力圖
圖②:兩個 AI 在「同一個星期五做出相同判斷」的比例。顏色越深=意見越像。大型勢互相 9 成以上一致,只有 Haiku 與其他僅 4〜5 成。
  • 聰明的大型模型(Opus・GPT-5.5・Grok・Qwen)幾乎「全部都做」(386 次中做了 372〜380 次)。=結果跟基準幾乎一樣。彼此的判斷也92〜98% 一致
  • 便宜的小型模型(Haiku・Sonnet)砍過頭而自滅。Haiku 只做了 176 次,勝率 54%、利潤只剩基準的三分之一

於是把「做了的星期五的平均」和「略過的星期五的平均」相比,就能一眼看出「選得好不好」(做了的比較高,就是聰明地捨棄)。

模型略過數選別分數(做−略過)評價
Grok 4.314+1.33✓聰明地捨棄
DeepSeek V470+1.12✓聰明地捨棄(量與質兼具)
Opus / GPT-5.56 / 9-0.35 / -2.91幾乎全做=形同沒過濾
Haiku / Sonnet210 / 144-1.60 / -2.17把好的星期五捨棄而自滅
Gemini / Qwen25 / 9-10 / -18罕見的略過剛好砸中「最賺的星期五」

能做出有意義的「聰明選別」的,其實只有 DeepSeek。多數 AI 不是「全部都做(=跟基準一樣)」,就是「捨棄錯的那些」。

順帶一提,多數決(共識)也沒用。8 家裡有 5 家以上說「做」的星期五才做,成績仍低於基準;全體一致才做的話只有 149 次、$296,最差 ── 「大家都說要做的星期五」,並不是最好的星期五。

這是這次最大的發現。最慘的那個星期五,8 家有 7 家正確避開了,理由還說得頭頭是道「這是落下的刀」。
Claude
Claude
匯商人士
匯商人士
喔,AI 果然聰明嘛!
…你會這麼想吧。但用一模一樣的「落下的刀」判斷略過的另一個星期五,其實反彈了 +$205。
Claude
Claude

★ 最重要的發現 ── AI 無法超越的「根本原因」

最後,把所有模型「略過的星期五」一個一個對照實際結果,跑出了一個衝擊性的事實。

看看過去 15 年最慘的星期五(2026 年 3 月 20 日・-$161)──

8 家裡有 7 家,正確地略過了。 理由也很到位:「Falling knife(落下的刀):5 日內 -8.5%、在兩條均線之下、高波動」「加速的賣壓,是恐慌不是普通的回檔」等。AI 確實看穿了「暴跌」。

「喔,AI 很聰明!」對吧。但是 ──

星期五8 家的判斷實際結果
2026-03-207/8 家「落下的刀」→ 略過(只有 Qwen 進場)-$161(略過正確 👍)
2026-02-065/8 家「落下的刀」→ 略過(GPT-5.5/DeepSeek/Grok 進場)反彈 +$205(略過失敗 👎)

同樣的「落下的刀」判斷,一個正確、一個大失誤。連理由的用詞,幾乎都一樣。

🔑 這就是 AI 無法超越基準的根本原因。崩盤(落下的刀)」和「可以買的絕佳回檔」,在星期五開盤的那一刻,是無法分辨的。兩者都長著「最近跌得很兇、很可怕」的形狀。所以人看、最新的 AI 看,都會用同樣的詞下判斷。

而諷刺的是 ── 「避開暴跌的聰明」和「敢買可怕回檔的勇氣」,是一體兩面。把前者加強,就會連後者(=這個策略的獲利來源)一起殺掉。所以 AI 才無法穩定地超越機械式的基準。

匯商人士
匯商人士
對了,這個花了多少錢?
3,088 次判斷,合計 39 分鐘、約 $16。花最貴的是最會”思考”的 Gemini Pro。但成績卻是中段。
Claude
Claude

成本 與 時間 ── 「貴、慢」不等於「聰明」

也談談實務。8 模型 × 386 次=3,088 次判斷花了多少:

AI 模型使用 token估算成本
Claude Opus 4.8178k~$7.1
Gemini 2.5 Pro685k~$5.9
Grok 4.3300k~$0.9
Claude Sonnet 4.6132k~$0.7
GPT-5.5155k~$0.6
DeepSeek V4359k~$0.4
Claude Haiku 4.5140k~$0.3
Qwen3-235B118k~$0.02
合計207 萬約 $16

成本為估算(Qwen/DeepSeek/Grok 三家由 OpenRouter 實測合計 $1.36)。光是 Opus 和 Gemini Pro 就占了約 8 成。Qwen 更是驚人的 $0.02。

AI 模型 token 用量與黃金交易總損益比較
圖③:各模型 token 用量 vs 總損益。Gemini Pro 用最多 token,成績卻是中段=「想越多≠越強」。
  • 合計 約 39 分鐘・207 萬 token・約 $16
  • 吃掉最多 token 的是 Gemini 2.5 Pro(68 萬・”思考模式”一次很重) ── 但成績卻是中段。

💡 也就是說,「越會思考(越貴越慢)的 AI 越會交易」並不成立。實際運行時每週只判斷一次的話,成本微乎其微(一次幾美分)。

第3篇 總結 ── 不誇大,誠實的結論

✅ 讓 8 個 AI 判斷黃金交易,但沒有人能在總額上超越「全部都做」的基準

✅ 不過 DeepSeek V4(風險最小)・Opus 4.8(平衡最佳) 在風險調整上超越了基準

聰明的大型收斂成「全部都做」、便宜的小型「砍過頭而自滅」。多數決也沒用

✅ 無法超越的根本原因是 「崩盤」與「可以買的回檔」在開盤時無法分辨

🔑 這個實驗最大的價值,是用自己的 API 成本和歷史數據,打破了「用 AI 就能輕鬆贏」的幻想。AI 不是魔法。但作為「聰明地降低風險的輔助輪」,確實有可用的苗頭(DeepSeek/Opus)。下一階段,會用樣本外數據與紙上交易繼續驗證。

匯商人士
匯商人士
結果,並不是「用 AI 就能輕鬆贏」這回事啊。
對。但”用自己的 API 成本和歷史數據打破了那個幻想”才是收穫。AI 不是魔法,但當降低風險的輔助輪倒是有苗頭 ── 下一步用紙上交易來確認。
Claude
Claude

下回預告

到這裡,「該用哪個 AI」的方向大致有了(重風險就 DeepSeek、要平衡就 Opus)。接下來,把這個組合放到 模擬帳戶跑紙上交易。紙上的數字,遇到真實的點差和成交會怎麼變 ── 我會誠實地記錄下來。

⚠️ 再次提醒:本系列不是投資招攬。黃金(XAUUSD)波動很大,自動交易有風險。數字皆為歷史回測,不代表未來。

  • 本文作者

匯商專業人士

1985年出生於台灣。
99年因為父親的工作來到日本。
畢業橫濱大陸系中華學校與日本國內大學。
07年到職日系製藥公司,10年換工作到日本外匯公司。在疫情期間離職(被開除),開始做專業投資者。(無職)
2013年開始海外外匯交易平台投資。開戶過23家海外外匯經紀商的帳號,其中遇到過3次詐騙平台。
2022年由於公司的業績不佳,被開除。開始專業投資者的生活,也就是“無職”
關於筆者的詳細介紹
筆者Facebook

-MT5 × API × AI 黃金自動交易, 非工程師與AI