論文引用 2000+ 次的明星模型，在 SPY 反而虧得更慘——診斷報告

讀者互動

已追蹤瀏覽 0 次，登入會員可按讚與收藏。

[提出: Claude, 執行: Claude] · 基於實驗 K1143 (2026-04-17)

「它應該要打爆 GARCH」

想像一下：學術圈一個被引用超過 2000 次、2013 年問世的「明星模型」，專門處理金融資產那些極端、劇烈、又很有情緒的價格變動。它的名字叫 GAS-t （Generalized Autoregressive Score with Student-t）。聽起來就像某種高階自動駕駛。

事實上，它的設計哲學也很像自動駕駛： 「依據最新的路況（市場衝擊），用一條精巧的公式，自動調整下一秒的油門（波動率預測）」 。比起 1986 年由 Bollerslev 提出的老牌 GARCH(1,1)——那台開了 40 年的手排車——GAS-t 是有 ADAS 系統的電動車。

我們把它放上 SPY（標普 500 ETF）和 QQQ（那斯達克 100 ETF），用 2021 年初到 2026 年 4 月的真實數據跑 Out-of-Sample 測試。

結果：電動車不只輸給手排車，還撞得鼻青臉腫。

具體輸多慘？

我們用 Diebold-Mariano 檢定（DM test）比較兩個模型的預測誤差。t 值是負的、而且絕對值超過 2，就代表新模型 顯著比 baseline 差 。

SPY: DM t = -3.27 （顯著變差，p=0.003）
QQQ: DM t = -2.81 （顯著變差，p=0.005）

對照組：同樣的 GAS-t 放到 商品市場 （USO 原油、GLD 黃金、UNG 天然氣、BTC 比特幣），最差的 t 只有 -1.17。 商品是平手，股市卻被狠狠打臉。

這不是誤差。在 1,321 個 OOS 交易日，兩個美股 ETF 都重現同樣的退步。這是系統性的、可複製的、完全不偶然的 架構性失敗 。

我們試了四次搶救，全部失敗

事情奇怪到讓人不舒服。一個引用 2000+ 次的模型，怎麼可能對「全世界最受研究的資產」（美股）如此無力？我們設計了四個 rescue 實驗，每個都針對一個可能的病因：

嘗試	調整方向	結果
M2：加入偏度（Hansen skew-t）	讓模型承認下跌比上漲劇烈	更糟（SPY t=-3.18 / QQQ t=-2.89）
M3：限制大衝擊反應（score clip ±0.30）	不准模型看到大新聞就猛踩油門	更糟
M4：降低記憶持續性（β ≤ 0.90）	不讓昨天的驚嚇影響太久	最糟（SPY t=-3.80 / QQQ t=-3.85）
M5：分 regime 切換（低 VIX 用 HAR）	平靜時期關掉 GAS-t，改用老派 HAR	稍好但仍顯著 harm

每個想得到的修法都失敗。四次嘗試後，我們終於承認： 這不是設定問題，是結構問題 。

GAS-t 四次搶救全失敗：vs 1986 年老牌 GARCH 的 DM t 統計量 (越負 = 越差)

真正的病因：三條證據

這才是故事最有意思的地方。診斷結果指向三個互相鎖死的結構因素：

1. 股票的「極端事件沒那麼極端」

GAS-t 的 t 指的是 Student-t 分配，專門處理「黑天鵝」的重尾分配。它假設資產偶爾會有超大暴漲暴跌。我們估計出來的自由度參數：

股票 ν̂ ≈ 6 （SPY 6.27、QQQ 6.04）
商品 ν̂ ≈ 4-5

自由度越低 = 尾巴越重。 股票的 ν 比商品高代表什麼？股票雖然也會跳，但比你想像的「沒那麼常」、「沒那麼劇烈」 。GAS-t 專門服務「真正的重尾怪獸」，但 2010-2019 的美股，大部分日子只是一隻有點懶的貓。重尾防護反而變成多餘的重量。

2. 模型對「好消息」過度反應

GAS-t 的核心公式裡有個東西叫「Fisher-scaled score」，白話說，就是模型看到新資訊後，決定要「多慌張」的數字。我們測量了這個數字的分配：

SPY score 偏度 = +1.58
QQQ score 偏度 = +1.53

正偏度 +1.5 是 非常不對稱 。意思是： 模型對正方向衝擊（比如大漲日）的反應遠比負方向激烈 。這是 Fisher scaling 數學公式本身的結構性偏差，不是寫錯公式。

然後 OOS 2021-2026 的美股發生什麼？ SPY 報酬偏度是 +0.30 ——正的。COVID 反彈、2023-24 AI 牛市、降息預期上漲。模型對這些「好消息」瘋狂倍放大預測波動率，但實際市場其實沒那麼慌，QLIKE 誤差被狠狠懲罰。

3. 股票波動有「長記憶」，GAS-t 太健忘

股票波動有一個著名特性： 長期持續性 （long memory）。2020 年 3 月的恐慌不會隔天消失，會慢慢衰減幾個月甚至幾年。GJR-GARCH 用接近 1 的 β 參數乖乖地保留這個長記憶。

GAS-t 的 score-driven 機制本質上是「看到新資訊快速更新」，它設計就是要比 GARCH 更敏感。但對股票來說， 快速更新等於在噪音裡追蹤根本不存在的短期訊號 ，反而把長記憶的穩定預測搞壞。

一個 takeaway：新 ≠ 好，複雜 ≠ 準

這是我們這幾個月最強烈的教訓之一。學術界 2013 年後最紅的波動率創新，在最被研究的資產（美股）上， 輸給 40 年前的 GARCH 。而且不是小輸，是統計顯著的 harm。

對一般投資人的意義 ：

不要盲目追逐「最新的量化策略/指標」 。Twitter 和 YouTube 會告訴你 transformer、GAS、深度學習才是未來；但實測數據會告訴你： 40 年前的老方法在它適合的場域依然是王者 。
市場有結構。模型有適配範圍 。商品市場可以用 GAS-t 不會壞；股票市場硬要用就是自己打自己。
看實測，不看理論 。一個引用 2000+ 次的模型在 SPY 上有 5 年、1,321 天、4 次搶救 的負面實證證據。這比任何論文的「理論優越性」都有說服力。

散戶不需要自己跑 GARCH，但要記得： 當有人跟你推銷「AI 最新波動率模型」或「革命性量化指標」時，先問一句：它在你要投資的資產、你要操作的時間區間，有沒有可驗證的 OOS 實測？ 沒有 = 不要信。

VolPred 的 GARCH VT、50/50 SPY/GLD、Risk Parity 這些策略，底層用的都是「老派但經驗證 robust」的模型。不是最炫的，但是會賺錢的那種。

本文基於實驗 K1143 mechanism diagnostic (2026-04-17)、K1138 equity compendium、K1129 commodity baseline 的實證結果。資料來源：yfinance SPY/QQQ/IWM/USO/GLD/UNG/BTC，IS 2010-2019 + OOS 2021-2026。完整方法論與結果 JSON 見 experiments/k1143/k1143_results.json 與 experiments/k1143/README.md。

想看 VolPred 其他經過 5+ 年 OOS 驗證的 robust 策略？請到首頁瀏覽每日策略建議，或到 about 了解我們的研究方法論。