兩段式波動率模型實戰:MF2-GARCH 在 SPY 真的贏過 GJR 嗎?
讀者互動
已追蹤瀏覽 0 次,登入會員可按讚與收藏。
兩段式波動率模型實戰:MF2-GARCH 在 SPY 真的贏過 GJR 嗎?
一句話結論
我們在 SPY(S&P 500 ETF)上把 Conrad & Engle(2025, Journal of Applied Econometrics)的 MF2-GARCH 兩段式波動率模型 與兩個老牌對手—— GJR-GARCH 與 HAR-ABS ——做了同期間、同窗口、同樣本外(OOS)的硬碰硬比較。結論可能讓很多人意外: 「看起來最先進的 MF2-GARCH,在 SPY 日波動率預測上反而是吊車尾」 。HAR-ABS 仍是最強的單一模型;GJR-GARCH 雖然簡單,卻穩定打贏 MF2-GARCH。
這篇文章把研究過程、數字、以及為什麼「新不一定好」的原因攤開來講。
為什麼有人在乎兩段式 GARCH
傳統的 GARCH(包含 GJR、EGARCH 等)只用 一段 自迴歸結構描述波動率:今天的波動由昨天的報酬平方、昨天的條件變異數加總而成。這個架構有個經典批評: 真實市場的波動既有「短期回撤」(幾天就消化的衝擊),也有「長期循環」(景氣、利率、地緣政治帶來的多月變化) 。一條方程式同時扛兩件事,估出來的持續性參數常常被高估,預測會「黏太久」。
於是過去十多年陸續出現多種「分頻」(multi-frequency)波動率模型:
- GARCH-MIDAS (Engle, Ghysels & Sohn 2013)— 把長期波動連到月度/季度的低頻變數
- MF2-GARCH (Conrad & Engle 2025)— 把波動率拆成 σ²ₜ = gₜ × τₜ:gₜ 是短期 GJR 結構,τₜ 是平滑的長期成分
直觀上這個分解很迷人: 短期動能與長期週期分頭治理,預測應該更精準 。Conrad & Engle 在原論文用美股、外匯等多個資產展示 MF2-GARCH 顯著贏過單成分 GARCH。
問題是—— 在我們手上的 SPY 樣本(2005-2026)裡,這個故事不成立 。
實驗設計
我們以 SPY 日報酬為標的,訓練樣本從 2005 年起、滾動視窗 2000 個交易日、樣本外(OOS)固定為 2023-01-03 至 2024-12-31,共 502 個交易日 。三個競爭模型:
| 模型 | 結構 | 參數數 |
|---|---|---|
| MF2-GARCH | σ²ₜ = gₜ × τₜ;gₜ = GJR(1,1) on standardized z;τₜ = exp(ω + δ·log(RV22ₜ₋₁)) | 5 |
| GJR-GARCH(1,1) | 經典單成分非對稱 GARCH | 4 |
| HAR-ABS | 多頻 |r| 線性迴歸(K530 已建立的黃金基準) | 4 |
估計流程(MF2 兩段式) :
- 用過去 22 日已實現變異數 RV22 對 r²ₜ 做 OLS 估 ω、δ,得到長期成分 τₜ
- 把報酬除以 √τₜ 標準化為 zₜ,再用 MLE 估短期 GJR 參數(α、β、γ),約束 E[gₜ] = 1
- 每 22 個交易日重新校準一次
防呆檢查 :所有預測都嚴格使用 t-1 之前的資訊(程式內 RV22ₜ₋₁、zₜ₋₁、gₜ₋₁ 全部 lag),不存在事後資訊洩漏。
評估指標 :QLIKE 損失函數(Patton 2011 的 robust loss,越低越好)+ 兩兩比較檢定(兩模型比較顯著)。proxy 用 r²ₜ。
結果一:QLIKE 排名
| 模型 | QLIKE(OOS 502 日) | 相對 GJR |
|---|---|---|
| GJR-GARCH | 1.566 | 基準 |
| MF2-GARCH | 1.670 | +6.65%(更差) |
| HAR-ABS | 1.835 | +17.20%(更差) |
等等—— HAR-ABS 不是黃金基準嗎? 在另一個座標下確實是。但 QLIKE 的特性是它對「低估真實波動率」非常敏感(不對稱罰分),而 GJR 在 2023-2024 這段期間的條件波動估計平均年化 13.11%,剛好接近 SPY 真實波動,吃到一點甜頭。HAR-ABS 平均估計只有 10.23%, 結構性低估 在 QLIKE 下會被放大。
但 新模型 MF2-GARCH 平均年化只有 11.71% ——比 GJR 還低估,又沒有 HAR-ABS 那種跨頻訊號優勢,所以兩面挨打。
結果二:兩兩統計比較
| 比較 | 統計強度(DM) | 是否達顯著水準(5%) | 是否通過嚴格統計檢驗門檻 |
|---|---|---|---|
| MF2 vs GJR | 2.53 | ✅ 是 | ❌ 否 |
| MF2 vs HAR | -3.00 | ✅ 是 | ❌ 否 |
| HAR vs GJR | 4.47 | ✅ 是 | ✅ 是 |
讀法:
- MF2 vs GJR :兩個模型差異「達顯著水準」,但 符號是 MF2 比較差 。也就是說 MF2 不只沒贏,還顯著輸給 GJR。
- MF2 vs HAR :MF2 比 HAR 好(HAR 在 QLIKE 上吃了低估的虧),但兩者差距未達嚴格統計檢驗門檻(嚴格統計 2016 對研究領域累積誤拒風險的更高 bar)。
- HAR vs GJR :HAR 在這個樣本下顯著輸給 GJR,且通過嚴格統計檢驗門檻—— 這是穩健結論 。
結果三:分年度看
| 年度 | MF2-GARCH | GJR-GARCH | HAR-ABS | MF2 vs GJR |
|---|---|---|---|---|
| 2023 | 1.560 | 1.508 | 1.722 | +3.46% |
| 2024 | 1.778 | 1.623 | 1.947 | +9.60% |
兩年 GJR 都贏, 而且 2024 年差距還擴大 ——這不像是運氣不好,而像是結構性弱勢。
結果四:預測序列彼此有多像
| 相關係數 | MF2 vs GJR | MF2 vs HAR | GJR vs HAR |
|---|---|---|---|
| 0.909 | 0.760 | 0.854 |
MF2-GARCH 與 GJR 的預測相關係數高達 0.909 ——也就是說兩段式的「分頻」結構並沒有產生多少新訊號,預測曲線幾乎跟 GJR 一致,但平均水準偏低,所以在 QLIKE 上輸了。
為什麼新模型輸老模型?三個可能原因
1. SPY 不是 MF2-GARCH 的目標資產
Conrad & Engle 原論文的優勢資產偏向 波動分群明顯、長期成分強的市場 (外匯、新興市場、商品)。SPY 在 2023-2024 這段期間屬於 低波動、低分散 的牛市環境,τₜ 變動很小,分頻分解的好處被吃掉。
2. 兩段式估計犧牲了長期成分的彈性
K144 用 聯合 QML 同時估 τ 與 g,K592 用 兩段式 (先 OLS 估 τ,再 MLE 估 g)。兩段式好處是程式簡單、收斂穩定,缺點是 τ 的迴歸係數對短期動能的反饋切斷了——若 τ 的設定本身就偏弱,整個模型就被拖累。
3. log-linear 長期項可能不適合美股
τₜ = exp(ω + δ·log(RV22ₜ₋₁)) 的 δ 在我們的 OOS 樣本估到 0.92,已經接近單根,說明長期成分對短期 RV 過度敏感——這違反了「長期 = 平滑」的設計初衷。換句話說 τ 在 SPY 上沒有真的當「長期成分」用,而是另一個短期估計 ,自然就跟 GJR 高度共線。
對讀者的實戰啟示
第一,別看到新論文就買單 。Conrad & Engle 的 MF2-GARCH 在他們的樣本確實有效,但我們在 SPY 重做時發現它 顯著輸 給 1993 年 Glosten、Jagannathan、Runkle 提出的老 GJR。學術論文的 OOS 樣本選擇、資產組合、評估指標都會影響結論——複現是研究的硬功夫。
第二,模型複雜度不等於預測力 。MF2-GARCH 比 GJR 多一段方程式、多估一組參數,結果預測曲線跟 GJR 相關係數 0.909、QLIKE 還更差。 多餘的自由度沒帶來新訊號,只帶來雜訊 。
第三,QLIKE 排名要看 proxy 與資產 。HAR-ABS 在很多研究是黃金基準,但它對波動水準的低估會在 QLIKE 下吃虧。換成 MSE、MAE 或不同 proxy(high-low range、realized vol from intraday)排名可能完全不同。 單一指標不能定生死 。
第四,誠實報告 null result 。我們研究團隊的原則是:實驗結果不論方向都要寫清楚。MF2-GARCH 在 SPY 沒贏,這對讀者反而是有用情報——你下次看到「兩段式 GARCH 號稱降低 X% 波動預測誤差」的廣告詞,可以多問幾個問題:哪個資產?哪個樣本期?哪個損失函數?跟誰比?
結論
在 SPY 2023-2024 的 502 日 OOS 比較中:
- GJR-GARCH(QLIKE 1.566)是冠軍 ,穩定且最簡單
- MF2-GARCH(QLIKE 1.670)顯著輸給 GJR ,多一段結構沒帶來價值
- HAR-ABS(QLIKE 1.835)在這個樣本敬陪末座 ,主因是平均水準偏低被 QLIKE 不對稱性放大
- 跨年度(2023、2024 分開看)排名一致, 不是運氣
研究的價值不只在「找到贏家」,更在 誠實標示哪些路徑走不通 。MF2-GARCH 在 SPY 走不通,是這次實驗最有用的資訊。下一步我們會在 波動更分群的資產 (VIX、能源期貨、新興市場)重做這個比較,看看分頻結構在哪些土壤才真的開花。
資料來源
- 資產 :SPY(SPDR S&P 500 ETF)日資料,2005-01-04 至 2026-03-26,共 5,340 個交易日
- 資料源 :yfinance
- OOS 期間 :2023-01-03 至 2024-12-31,502 個交易日
- 滾動視窗 :2,000 個交易日;每 22 個交易日重新估計一次
- Proxy :日對數報酬平方 r²ₜ
- 評估指標 :QLIKE(Patton 2011)+ 兩模型比較顯著 比較檢定 + 嚴格統計 2016 嚴格門檻
- 理論文獻 :Conrad & Engle (2025), Journal of Applied Econometrics
- 對應實驗 :K592(完整代碼、結果 JSON、參數樣本)
- 相關研究 :K144(MF2 聯合 QML,跨資產 null)、K530(HAR-ABS 黃金基準)、K591(MF2 事後修正失敗)
本文所有數字皆可在 experiments/k592/k592_mf2_garch_results.json 中比對;估計與評估代碼公開於 experiments/k592/k592_mf2_garch.py。
延伸閱讀
詳情
- experiment_refs
- K592
相關文章
先讀正式關聯,若無則使用標籤與主題相似度補齊