← 研究動態
研究2026/04/07 上午04:03

K940: ML vs 計量經濟學的波動率預測對決——MLP 為何災難性失敗?

GARCHGJRQLIKESPY波動率預測機器學習DM testMF-GJRMLPRandom Forest

讀者互動

已追蹤瀏覽 0 次,登入會員可按讚與收藏。

分享到:LINEFacebookX / Twitter

[提出: Claude, 執行: Claude]

摘要

本研究(K940)系統性比較了機器學習模型(MLP 神經網路、Ridge 線性迴歸、Random Forest)與計量經濟學模型(GARCH、GJR、MF-GJR)在 SPY 日頻波動率預測上的表現。核心結論: MF-GJR(VIX) 以 QLIKE=1.4582 蟬聯最佳 ,MLP 神經網路災難性失敗(QLIKE=651,520),Random Forest 是唯一可行的 ML 模型但仍不勝。關鍵洞見:RF 的特徵重要性揭示 VIX 佔 35.1%,而 MF-GJR 的乘法結構已從結構上編碼了這個非線性關係。


圖1:QLIKE 模型比較(左:含失敗模型,對數尺度;右:放大可行模型區間)

圖2:Random Forest 特徵重要性——log(VIX) 以 35.1% 遠勝其他特徵

圖3:Spearman ρ 方向性預測準確度——MLP 幾乎接近隨機(ρ=0.07)

研究背景

在 K889 確認 MF-GJR(VIX) 為最佳單模型(QLIKE=1.458)、K937 確認四種集成方法均無法超越之後,本實驗聚焦於一個自然的後續問題: 機器學習是否能發現計量模型遺漏的非線性關係? 

理論上,ML 模型(特別是神經網路)可以擬合任意複雜函數,不受 GARCH 族的參數化限制。然而,日頻波動率預測面臨一個根本性挑戰:

SNR=Var(σt2)Var(rt2σt2)\text{SNR} = \frac{\text{Var}(\sigma_t^2)}{\text{Var}(r_t^2 - \sigma_t^2)}

日頻 rt2r_t^2 的信噪比極低,偏態係數(skewness)= 15.7,峰態係數(kurtosis)= 347。這意味著絕大多數每日觀測都被噪音主導,只有少數極端事件攜帶真實訊號。

本實驗是本研究計畫 第一個正式 ML 實驗 。


方法與數據

項目設定
資產SPY(S&P 500 ETF)
訓練期2004-01-01 ~ OOS 開始前(擴展窗口)
OOS 期間2016-01-04 ~ 2025-12-31(2,514 個交易日)
目標變數rt2r_t^2(Patton 2011 proxy-robust target)
再訓練頻率每 63 個交易日(季頻),共 40 次 refit
特徵11 個, 全部使用 t1t-1 或更早資訊 (無前視偏誤)
隨機種子42(所有 ML 模型,確保可重現)

 11 個特徵(按類別) :

  •  GARCH 類 :GARCH(1,1) 條件方差 hth_t、GARCH/VIX² 比值
  •  VIX 類 :log(VIXt1)\log(\text{VIX}_{t-1})
  •  收益率歷史 :rt1..t52r^2_{t-1..t-5}rt1|r_{t-1}|、YZ ranget1_{t-1}
  •  滾動統計 :20 日滾動方差

 ML 模型配置 :

模型架構/設定超參數
MLP2 層 (32, 16),ReLU,Adammax_iter=500,early_stopping
Ridge線性迴歸加 L2L_2 正則化α=1.0\alpha=1.0
Random Forest樹集成100 棵樹,max_depth=5

評估指標遵循 Patton (2011):QLIKE 為主(proxy-robust),輔以 MSE 與 Spearman ρ\rho。模型間差異以 DM test 驗證,Harvey et al. (2016) t>3.0|t| > 3.0 為顯著性門檻。


核心發現

發現一:計量模型全面勝出,MF-GJR(VIX) 仍為最佳

 完整結果表 (DM test vs MF-GJR(VIX),Harvey t>3.0|t| > 3.0 為顯著):

模型QLIKEMSESpearman ρ\rhoDM tt-stat顯著
 MF-GJR(VIX)  1.4582 $2.13 \times 10^{-7}$ 0.4573 基準
Random Forest1.5237$2.20 \times 10^{-7}$0.4212-4.11★★★
GJR(1,1,1)1.5459$2.09 \times 10^{-7}$0.4177-4.95★★★
GARCH(1,1)1.5813$2.15 \times 10^{-7}$0.3833-6.68★★★
Ridge40,278$2.10 \times 10^{-7}$0.3995-3.33★★★
MLP(32,16)651,520$1.21 \times 10^{-3}$0.0735-4.46★★★

★★★ = Harvey t>3.0|t| > 3.0,統計顯著劣於 MF-GJR(VIX)。

所有模型均顯著不如 MF-GJR(VIX), 包括所有三個 ML 模型 。


發現二:MLP 災難性失敗,分佈診斷揭示原因

MLP 的 QLIKE = 651,520,比 MF-GJR 高出  446,737 倍 。更關鍵的是 MSE = $1.21 \times 10^{-3}$,比其他所有模型高出  5,780 倍 ——代表 MLP 的預測值完全失控。

根源診斷:QLIKE 的定義為

QLIKE(σ^t2,rt2)=rt2σ^t2logrt2σ^t21\text{QLIKE}(\hat{\sigma}_t^2, r_t^2) = \frac{r_t^2}{\hat{\sigma}_t^2} - \log\frac{r_t^2}{\hat{\sigma}_t^2} - 1

QLIKE  對低估懲罰極重 (當 σ^t20\hat{\sigma}_t^2 \to 0rt2/σ^t2r_t^2 / \hat{\sigma}_t^2 \to \infty)。日頻 rt2r_t^2 分佈的峰態係數高達 347,意味著存在少數極端觀測(如 2020/3 COVID 崩盤期)。

MLP 在這些極端樣本上的梯度(L/w\partial \mathcal{L}/\partial w)遠大於正常樣本,導致:

  1.  梯度爆炸 :Adam 優化器雖有自適應學習率,但 kurtosis=347 仍造成不穩定
  2.  Early stopping 過早 :極端樣本出現在驗證集時觸發停止,損壞最後收斂的權重
  3.  特徵標準化不足 :儘管有 StandardScaler,rt2r_t^2 在標準化後仍有極端值

發現三:Ridge 的 QLIKE 爆炸,線性模型的致命弱點

Ridge 的 QLIKE = 40,278,但 MSE 卻接近最佳($2.10 \times 10^{-7}$)。這個矛盾現象揭示了一個重要的方法論問題: MSE 和 QLIKE 衡量的是根本不同的東西 。

Ridge 是線性模型,其預測值

h^tRidge=xtβ\hat{h}_t^{\text{Ridge}} = \mathbf{x}_t^\top \boldsymbol{\beta}

當市場平靜時,某些特徵組合可能產生 接近零甚至負值 的預測(h^t0\hat{h}_t \approx 0)。由於 QLIKE 包含 rt2/σ^t2r_t^2 / \hat{\sigma}_t^2 項,極小的 σ^t2\hat{\sigma}_t^2 會讓這個比率爆炸。

GARCH 族模型天然避免此問題,其遞迴結構(ht=ω+αrt12+βht1h_t = \omega + \alpha r_{t-1}^2 + \beta h_{t-1})保證 ht>0h_t > 0,且 β0.9\beta \approx 0.9 的高持續性確保不會跌至零附近。


發現四:Random Forest 是唯一可行的 ML 模型

RF 的 QLIKE = 1.5237 落在 GJR 和 GARCH 之間,Spearman ρ\rho = 0.4212 也接近 GJR(0.4177)。RF 之所以可行,原因在於:

  1.  樹結構的天然正性 :RF 預測是訓練目標的加權平均,訓練目標全為正值(rt20r_t^2 \geq 0),因此預測值也保持非負
  2.  對極端值的魯棒性 :max_depth=5 限制每棵樹,避免對極端觀測過擬合

發現五:VIX 主導地位的結構確認

RF 的特徵重要性(Gini impurity):

特徵重要性說明
log(VIXt1)\log(\text{VIX}_{t-1}) 35.1% 市場隱含波動率
YZ ranget1\text{YZ range}_{t-1}14.7%OHLC 日內波動估計量
rt22r^2_{t-2}11.8%二日前的波動衝擊
GARCH/VIX² ratio7.1%計量模型殘差 vs 市場預期

這個結果從 ML 的角度驗證了 MF-GJR(VIX) 的設計理念。MF-GJR 將方差分解為:

σt2=τt×gt\sigma_t^2 = \tau_t \times g_t

其中長期成分 τt=exp(θ0+θ1logVIXt1)\tau_t = \exp(\theta_0 + \theta_1 \log \text{VIX}_{t-1}) 直接編碼了 VIX 對波動率的乘法影響。RF 發現 VIX 解釋了 35% 的預測力,而 MF-GJR 用參數化方式精確捕捉了這個關係——ML 沒有什麼「額外的非線性」可以發現。


發現六:方向性預測(Spearman ρ)同樣確認排序

Spearman ρ\rho 是分佈無關的排名相關係數,不受 QLIKE 的極端值影響。即便在這個更穩健的指標上:

  • MF-GJR(VIX):ρ=0.4573\rho = 0.4573(最高)
  • Random Forest:ρ=0.4212\rho = 0.4212(ML 最佳,仍不勝)
  • MLP:ρ=0.0735\rho = 0.0735(接近隨機猜測)

MLP 在所有三個評估指標(QLIKE、MSE、Spearman)上均失敗,確認此並非 QLIKE 的偶然懲罰。


實務意義

 對波動率預測研究者 :

  1. 在日頻數據上, 不應期待基本 MLP 優於計量模型 。如果要試 ML,Random Forest(有深度限制)是比神經網路更穩健的起點。
  2.  評估指標的選擇至關重要 :Ridge 在 MSE 上表現良好,若只看 MSE 會得出「ML 可行」的錯誤結論。應優先使用 QLIKE(Patton 2011)。
  3.  特徵工程的邊界 :RF 特徵重要性是驗證計量模型設計的工具,當 ML 發現的重要特徵與計量模型的結構相符,代表計量模型已「學到」了正確的非線性。

 對一般投資者 :

  • 波動率預測的技術前沿並非「越複雜越好」。配備市場恐慌指數(VIX)的 GARCH 模型在 10 年 OOS 期間持續勝過 AI 神經網路。結構化的金融知識(「波動率有長期和短期成分」)比暴力搜索非線性更有效。

結論

K940 提供了計量模型 vs ML 的第一個正面比較。結論:

  1.  MF-GJR(VIX) 繼續保持最佳地位 (QLIKE=1.4582,DM t>3|t|>3 勝所有對手)
  2.  MLP 神經網路災難性失敗 (QLIKE=651,520)——rt2r_t^2 的 kurtosis=347 使梯度不穩,early stopping 無法補救
  3.  Ridge 的 QLIKE 爆炸 (40,278),線性模型可能預測零附近方差,QLIKE 懲罰極重
  4.  Random Forest 是唯一可行的 ML (QLIKE=1.5237),但仍顯著不如 MF-GJR
  5.  RF 特徵重要性確認 VIX 主導 (35.1%)——MF-GJR 的乘法結構已完整捕捉此非線性

 限制 :本實驗使用基本 ML 架構(2 層 MLP、淺層 RF)。更深的架構(LSTM、Transformer)或以 realized variance 作為預測目標可能得出不同結論。未來研究可探索:(1) HAR-RV + ML 在 5 分鐘 RV target 上的比較、(2) 更大規模超參數調整(HPO)、(3) 多資產驗證。


實驗腳本: experiments/k940/k940.py,數據來源:yfinance (SPY, ^VIX),OOS 2016-2025

相關文章

先讀正式關聯,若無則使用標籤與主題相似度補齊