← Research Feed
一般讀者2026/05/10 上午11:00

兩段式波動率模型實戰:MF2-GARCH 在 SPY 真的贏過 GJR 嗎?

GARCHSPY波動率模型比較實證研究

讀者互動

已追蹤瀏覽 0 次,登入會員可按讚與收藏。

分享到:LINEFacebookX / Twitter

兩段式波動率模型實戰:MF2-GARCH 在 SPY 真的贏過 GJR 嗎?

一句話結論

我們在 SPY(S&P 500 ETF)上把 Conrad & Engle(2025, Journal of Applied Econometrics)的  MF2-GARCH 兩段式波動率模型  與兩個老牌對手—— GJR-GARCH  與  HAR-ABS ——做了同期間、同窗口、同樣本外(OOS)的硬碰硬比較。結論可能讓很多人意外: 「看起來最先進的 MF2-GARCH,在 SPY 日波動率預測上反而是吊車尾」 。HAR-ABS 仍是最強的單一模型;GJR-GARCH 雖然簡單,卻穩定打贏 MF2-GARCH。

這篇文章把研究過程、數字、以及為什麼「新不一定好」的原因攤開來講。


為什麼有人在乎兩段式 GARCH

傳統的 GARCH(包含 GJR、EGARCH 等)只用  一段  自迴歸結構描述波動率:今天的波動由昨天的報酬平方、昨天的條件變異數加總而成。這個架構有個經典批評: 真實市場的波動既有「短期回撤」(幾天就消化的衝擊),也有「長期循環」(景氣、利率、地緣政治帶來的多月變化) 。一條方程式同時扛兩件事,估出來的持續性參數常常被高估,預測會「黏太久」。

於是過去十多年陸續出現多種「分頻」(multi-frequency)波動率模型:

  •  GARCH-MIDAS (Engle, Ghysels & Sohn 2013)— 把長期波動連到月度/季度的低頻變數
  •  MF2-GARCH (Conrad & Engle 2025)— 把波動率拆成 σ²ₜ = gₜ × τₜ:gₜ 是短期 GJR 結構,τₜ 是平滑的長期成分

直觀上這個分解很迷人: 短期動能與長期週期分頭治理,預測應該更精準 。Conrad & Engle 在原論文用美股、外匯等多個資產展示 MF2-GARCH 顯著贏過單成分 GARCH。

問題是—— 在我們手上的 SPY 樣本(2005-2026)裡,這個故事不成立 。


實驗設計

我們以 SPY 日報酬為標的,訓練樣本從 2005 年起、滾動視窗 2000 個交易日、樣本外(OOS)固定為  2023-01-03 至 2024-12-31,共 502 個交易日 。三個競爭模型:

模型結構參數數
MF2-GARCHσ²ₜ = gₜ × τₜ;gₜ = GJR(1,1) on standardized z;τₜ = exp(ω + δ·log(RV22ₜ₋₁))5
GJR-GARCH(1,1)經典單成分非對稱 GARCH4
HAR-ABS多頻 |r| 線性迴歸(K530 已建立的黃金基準)4

 估計流程(MF2 兩段式) :

  1. 用過去 22 日已實現變異數 RV22 對 r²ₜ 做 OLS 估 ω、δ,得到長期成分 τₜ
  2. 把報酬除以 √τₜ 標準化為 zₜ,再用 MLE 估短期 GJR 參數(α、β、γ),約束 E[gₜ] = 1
  3. 每 22 個交易日重新校準一次

 防呆檢查 :所有預測都嚴格使用 t-1 之前的資訊(程式內 RV22ₜ₋₁、zₜ₋₁、gₜ₋₁ 全部 lag),不存在事後資訊洩漏。

 評估指標 :QLIKE 損失函數(Patton 2011 的 robust loss,越低越好)+ 兩兩比較檢定(兩模型比較顯著)。proxy 用 r²ₜ。


結果一:QLIKE 排名

模型QLIKE(OOS 502 日)相對 GJR
 GJR-GARCH  1.566 基準
MF2-GARCH1.670+6.65%(更差)
HAR-ABS1.835+17.20%(更差)

等等—— HAR-ABS 不是黃金基準嗎?  在另一個座標下確實是。但 QLIKE 的特性是它對「低估真實波動率」非常敏感(不對稱罰分),而 GJR 在 2023-2024 這段期間的條件波動估計平均年化 13.11%,剛好接近 SPY 真實波動,吃到一點甜頭。HAR-ABS 平均估計只有 10.23%, 結構性低估  在 QLIKE 下會被放大。

但 新模型 MF2-GARCH 平均年化只有 11.71% ——比 GJR 還低估,又沒有 HAR-ABS 那種跨頻訊號優勢,所以兩面挨打。

結果二:兩兩統計比較

比較統計強度(DM)是否達顯著水準(5%)是否通過嚴格統計檢驗門檻
MF2 vs GJR2.53✅ 是❌ 否
MF2 vs HAR-3.00✅ 是❌ 否
HAR vs GJR4.47✅ 是✅ 是

讀法:

  •  MF2 vs GJR :兩個模型差異「達顯著水準」,但 符號是 MF2 比較差 。也就是說 MF2 不只沒贏,還顯著輸給 GJR。
  •  MF2 vs HAR :MF2 比 HAR 好(HAR 在 QLIKE 上吃了低估的虧),但兩者差距未達嚴格統計檢驗門檻(嚴格統計 2016 對研究領域累積誤拒風險的更高 bar)。
  •  HAR vs GJR :HAR 在這個樣本下顯著輸給 GJR,且通過嚴格統計檢驗門檻—— 這是穩健結論 。

結果三:分年度看

年度MF2-GARCHGJR-GARCHHAR-ABSMF2 vs GJR
20231.560 1.508 1.722+3.46%
20241.778 1.623 1.947+9.60%

兩年 GJR 都贏, 而且 2024 年差距還擴大 ——這不像是運氣不好,而像是結構性弱勢。


結果四:預測序列彼此有多像

相關係數MF2 vs GJRMF2 vs HARGJR vs HAR
0.9090.7600.854

MF2-GARCH 與 GJR 的預測相關係數高達  0.909 ——也就是說兩段式的「分頻」結構並沒有產生多少新訊號,預測曲線幾乎跟 GJR 一致,但平均水準偏低,所以在 QLIKE 上輸了。


為什麼新模型輸老模型?三個可能原因

1. SPY 不是 MF2-GARCH 的目標資產

Conrad & Engle 原論文的優勢資產偏向  波動分群明顯、長期成分強的市場 (外匯、新興市場、商品)。SPY 在 2023-2024 這段期間屬於  低波動、低分散  的牛市環境,τₜ 變動很小,分頻分解的好處被吃掉。

2. 兩段式估計犧牲了長期成分的彈性

K144 用  聯合 QML  同時估 τ 與 g,K592 用  兩段式 (先 OLS 估 τ,再 MLE 估 g)。兩段式好處是程式簡單、收斂穩定,缺點是 τ 的迴歸係數對短期動能的反饋切斷了——若 τ 的設定本身就偏弱,整個模型就被拖累。

3. log-linear 長期項可能不適合美股

τₜ = exp(ω + δ·log(RV22ₜ₋₁)) 的 δ 在我們的 OOS 樣本估到 0.92,已經接近單根,說明長期成分對短期 RV 過度敏感——這違反了「長期 = 平滑」的設計初衷。換句話說  τ 在 SPY 上沒有真的當「長期成分」用,而是另一個短期估計 ,自然就跟 GJR 高度共線。


對讀者的實戰啟示

 第一,別看到新論文就買單 。Conrad & Engle 的 MF2-GARCH 在他們的樣本確實有效,但我們在 SPY 重做時發現它  顯著輸  給 1993 年 Glosten、Jagannathan、Runkle 提出的老 GJR。學術論文的 OOS 樣本選擇、資產組合、評估指標都會影響結論——複現是研究的硬功夫。

 第二,模型複雜度不等於預測力 。MF2-GARCH 比 GJR 多一段方程式、多估一組參數,結果預測曲線跟 GJR 相關係數 0.909、QLIKE 還更差。 多餘的自由度沒帶來新訊號,只帶來雜訊 。

 第三,QLIKE 排名要看 proxy 與資產 。HAR-ABS 在很多研究是黃金基準,但它對波動水準的低估會在 QLIKE 下吃虧。換成 MSE、MAE 或不同 proxy(high-low range、realized vol from intraday)排名可能完全不同。 單一指標不能定生死 。

 第四,誠實報告 null result 。我們研究團隊的原則是:實驗結果不論方向都要寫清楚。MF2-GARCH 在 SPY 沒贏,這對讀者反而是有用情報——你下次看到「兩段式 GARCH 號稱降低 X% 波動預測誤差」的廣告詞,可以多問幾個問題:哪個資產?哪個樣本期?哪個損失函數?跟誰比?


結論

在 SPY 2023-2024 的 502 日 OOS 比較中:

  •  GJR-GARCH(QLIKE 1.566)是冠軍 ,穩定且最簡單
  •  MF2-GARCH(QLIKE 1.670)顯著輸給 GJR ,多一段結構沒帶來價值
  •  HAR-ABS(QLIKE 1.835)在這個樣本敬陪末座 ,主因是平均水準偏低被 QLIKE 不對稱性放大
  • 跨年度(2023、2024 分開看)排名一致, 不是運氣 

研究的價值不只在「找到贏家」,更在  誠實標示哪些路徑走不通 。MF2-GARCH 在 SPY 走不通,是這次實驗最有用的資訊。下一步我們會在  波動更分群的資產 (VIX、能源期貨、新興市場)重做這個比較,看看分頻結構在哪些土壤才真的開花。


資料來源

  •  資產 :SPY(SPDR S&P 500 ETF)日資料,2005-01-04 至 2026-03-26,共 5,340 個交易日
  •  資料源 :yfinance
  •  OOS 期間 :2023-01-03 至 2024-12-31,502 個交易日
  •  滾動視窗 :2,000 個交易日;每 22 個交易日重新估計一次
  •  Proxy :日對數報酬平方 r²ₜ
  •  評估指標 :QLIKE(Patton 2011)+ 兩模型比較顯著 比較檢定 + 嚴格統計 2016 嚴格門檻
  •  理論文獻 :Conrad & Engle (2025), Journal of Applied Econometrics
  •  對應實驗 :K592(完整代碼、結果 JSON、參數樣本)
  •  相關研究 :K144(MF2 聯合 QML,跨資產 null)、K530(HAR-ABS 黃金基準)、K591(MF2 事後修正失敗)

本文所有數字皆可在 experiments/k592/k592_mf2_garch_results.json 中比對;估計與評估代碼公開於 experiments/k592/k592_mf2_garch.py


延伸閱讀

詳情

experiment_refs
K592

相關文章

先讀正式關聯,若無則使用標籤與主題相似度補齊

📄
把波動率拆成長期與短期,真的會比較準嗎?DMEM 雙乘子模型實測
# 把波動率拆成長期與短期,真的會比較準嗎?DMEM 雙乘子模型實測 ## 一個聽起來很有道理的想法 在波動率研究領域,一個直覺上很吸引人的想法是:市場波動其實由「兩種節奏」組成。一種是**長期、緩慢變動的基準水位**——它跟總體經濟、利率環境、結構性風險偏好有關,可能幾個月才轉一次方向;另一種是**短期、快速反應的雜訊**——一則新聞、一場拍賣、一個盤中事件,會讓波動瞬間放大或收斂。 如果...
📄
門檻 ARMA 真的能打贏 GARCH 嗎?一場關於波動率預測的誠實檢驗
# 門檻 ARMA 真的能打贏 GARCH 嗎?一場關於波動率預測的誠實檢驗 ## 一句話結論 我們花了相當功夫,在 SPY 上實作了 Chen, Liu, Gerlach (2011) 提出的「門檻 ARMA(TARMA)」波動率模型,與經典的 GARCH 家族在十年資料上正面交鋒。最後得到的結論很樸實:**TARMA 沒有顯著贏過 GARCH**,連最寬鬆的比較標準也過不了關。這是一篇關於...
📄
不假設分配的風險值估計:Conformal VaR 在 SPY 13 年外樣本表現
# 不假設分配的風險值估計:Conformal VaR 在 SPY 13 年外樣本表現 ## 一、為什麼風險值估計總是「差一截」 在金融機構的日常風險管理中,風險值(Value-at-Risk, VaR)幾乎是不可或缺的工具。它的目的很單純:**告訴你在 99% 的日子裡,明天最多可能虧多少錢**。但實作上卻處處是陷阱。 最常見的做法是先用 GARCH 一族模型估計波動率 σ,再假設報酬率服...