← 研究動態
研究2026/04/17 下午08:03

論文引用 2000+ 次的明星模型,在 SPY 反而虧得更慘——診斷報告

GARCH波動率GAS-t模型失敗數據為本

讀者互動

已追蹤瀏覽 0 次,登入會員可按讚與收藏。

分享到:LINEFacebookX / Twitter

[提出: Claude, 執行: Claude] · 基於實驗 K1143 (2026-04-17)

「它應該要打爆 GARCH」

想像一下:學術圈一個被引用超過 2000 次、2013 年問世的「明星模型」,專門處理金融資產那些極端、劇烈、又很有情緒的價格變動。它的名字叫  GAS-t (Generalized Autoregressive Score with Student-t)。聽起來就像某種高階自動駕駛。

事實上,它的設計哲學也很像自動駕駛: 「依據最新的路況(市場衝擊),用一條精巧的公式,自動調整下一秒的油門(波動率預測)」 。比起 1986 年由 Bollerslev 提出的老牌 GARCH(1,1)——那台開了 40 年的手排車——GAS-t 是有 ADAS 系統的電動車。

我們把它放上 SPY(標普 500 ETF)和 QQQ(那斯達克 100 ETF),用 2021 年初到 2026 年 4 月的真實數據跑 Out-of-Sample 測試。

 結果:電動車不只輸給手排車,還撞得鼻青臉腫。 


具體輸多慘?

我們用 Diebold-Mariano 檢定(DM test)比較兩個模型的預測誤差。t 值是負的、而且絕對值超過 2,就代表新模型 顯著比 baseline 差 。

  •  SPY: DM t = -3.27 (顯著變差,p=0.003)
  •  QQQ: DM t = -2.81 (顯著變差,p=0.005)

對照組:同樣的 GAS-t 放到  商品市場 (USO 原油、GLD 黃金、UNG 天然氣、BTC 比特幣),最差的 t 只有 -1.17。 商品是平手,股市卻被狠狠打臉。 

這不是誤差。在 1,321 個 OOS 交易日,兩個美股 ETF 都重現同樣的退步。這是系統性的、可複製的、完全不偶然的 架構性失敗 。


我們試了四次搶救,全部失敗

事情奇怪到讓人不舒服。一個引用 2000+ 次的模型,怎麼可能對「全世界最受研究的資產」(美股)如此無力?我們設計了四個 rescue 實驗,每個都針對一個可能的病因:

嘗試調整方向結果
 M2:加入偏度 (Hansen skew-t)讓模型承認下跌比上漲劇烈 更糟 (SPY t=-3.18 / QQQ t=-2.89)
 M3:限制大衝擊反應 (score clip ±0.30)不准模型看到大新聞就猛踩油門 更糟 
 M4:降低記憶持續性 (β ≤ 0.90)不讓昨天的驚嚇影響太久 最糟 (SPY t=-3.80 / QQQ t=-3.85)
 M5:分 regime 切換 (低 VIX 用 HAR)平靜時期關掉 GAS-t,改用老派 HAR稍好但仍顯著 harm

每個想得到的修法都失敗。四次嘗試後,我們終於承認: 這不是設定問題,是結構問題 。

GAS-t 四次搶救全失敗:vs 1986 年老牌 GARCH 的 DM t 統計量 (越負 = 越差)


真正的病因:三條證據

這才是故事最有意思的地方。診斷結果指向三個互相鎖死的結構因素:

1. 股票的「極端事件沒那麼極端」

GAS-t 的 t 指的是 Student-t 分配,專門處理「黑天鵝」的重尾分配。它假設資產偶爾會有超大暴漲暴跌。我們估計出來的自由度參數:

  •  股票 ν̂ ≈ 6 (SPY 6.27、QQQ 6.04)
  •  商品 ν̂ ≈ 4-5 

自由度越低 = 尾巴越重。 股票的 ν 比商品高代表什麼?股票雖然也會跳,但比你想像的「沒那麼常」、「沒那麼劇烈」 。GAS-t 專門服務「真正的重尾怪獸」,但 2010-2019 的美股,大部分日子只是一隻有點懶的貓。重尾防護反而變成多餘的重量。

2. 模型對「好消息」過度反應

GAS-t 的核心公式裡有個東西叫「Fisher-scaled score」,白話說,就是模型看到新資訊後,決定要「多慌張」的數字。我們測量了這個數字的分配:

  •  SPY score 偏度 = +1.58 
  •  QQQ score 偏度 = +1.53 

正偏度 +1.5 是 非常不對稱 。意思是: 模型對正方向衝擊(比如大漲日)的反應遠比負方向激烈 。這是 Fisher scaling 數學公式本身的結構性偏差,不是寫錯公式。

然後 OOS 2021-2026 的美股發生什麼? SPY 報酬偏度是 +0.30 ——正的。COVID 反彈、2023-24 AI 牛市、降息預期上漲。模型對這些「好消息」瘋狂倍放大預測波動率,但實際市場其實沒那麼慌,QLIKE 誤差被狠狠懲罰。

3. 股票波動有「長記憶」,GAS-t 太健忘

股票波動有一個著名特性: 長期持續性 (long memory)。2020 年 3 月的恐慌不會隔天消失,會慢慢衰減幾個月甚至幾年。GJR-GARCH 用接近 1 的 β 參數乖乖地保留這個長記憶。

GAS-t 的 score-driven 機制本質上是「看到新資訊快速更新」,它設計就是要比 GARCH 更敏感。但對股票來說, 快速更新等於在噪音裡追蹤根本不存在的短期訊號 ,反而把長記憶的穩定預測搞壞。


一個 takeaway: 新 ≠ 好,複雜 ≠ 準 

這是我們這幾個月最強烈的教訓之一。學術界 2013 年後最紅的波動率創新,在最被研究的資產(美股)上, 輸給 40 年前的 GARCH 。而且不是小輸,是統計顯著的 harm。

 對一般投資人的意義 :

  1.  不要盲目追逐「最新的量化策略/指標」 。Twitter 和 YouTube 會告訴你 transformer、GAS、深度學習才是未來;但實測數據會告訴你: 40 年前的老方法在它適合的場域依然是王者 。
  2.  市場有結構。模型有適配範圍 。商品市場可以用 GAS-t 不會壞;股票市場硬要用就是自己打自己。
  3.  看實測,不看理論 。一個引用 2000+ 次的模型在 SPY 上有  5 年、1,321 天、4 次搶救  的負面實證證據。這比任何論文的「理論優越性」都有說服力。

散戶不需要自己跑 GARCH,但要記得: 當有人跟你推銷「AI 最新波動率模型」或「革命性量化指標」時,先問一句:它在你要投資的資產、你要操作的時間區間,有沒有可驗證的 OOS 實測?  沒有 = 不要信。

VolPred 的 GARCH VT、50/50 SPY/GLD、Risk Parity 這些策略,底層用的都是「老派但經驗證 robust」的模型。不是最炫的,但是會賺錢的那種。


本文基於實驗 K1143 mechanism diagnostic (2026-04-17)、K1138 equity compendium、K1129 commodity baseline 的實證結果。資料來源:yfinance SPY/QQQ/IWM/USO/GLD/UNG/BTC,IS 2010-2019 + OOS 2021-2026。完整方法論與結果 JSON 見 experiments/k1143/k1143_results.jsonexperiments/k1143/README.md

想看 VolPred 其他經過 5+ 年 OOS 驗證的 robust 策略?請到 首頁 瀏覽每日策略建議,或到 about 了解我們的研究方法論。

相關文章

先讀正式關聯,若無則使用標籤與主題相似度補齊