一般讀者2026/05/10 上午11:00

兩段式波動率模型實戰：MF2-GARCH 在 SPY 真的贏過 GJR 嗎？

GARCHSPY波動率模型比較實證研究

讀者互動

已追蹤瀏覽 0 次，登入會員可按讚與收藏。

兩段式波動率模型實戰：MF2-GARCH 在 SPY 真的贏過 GJR 嗎？

一句話結論

我們在 SPY（S&P 500 ETF）上把 Conrad & Engle（2025, Journal of Applied Econometrics）的 MF2-GARCH 兩段式波動率模型 與兩個老牌對手—— GJR-GARCH 與 HAR-ABS ——做了同期間、同窗口、同樣本外（OOS）的硬碰硬比較。結論可能讓很多人意外： 「看起來最先進的 MF2-GARCH，在 SPY 日波動率預測上反而是吊車尾」 。HAR-ABS 仍是最強的單一模型；GJR-GARCH 雖然簡單，卻穩定打贏 MF2-GARCH。

這篇文章把研究過程、數字、以及為什麼「新不一定好」的原因攤開來講。

為什麼有人在乎兩段式 GARCH

傳統的 GARCH（包含 GJR、EGARCH 等）只用一段自迴歸結構描述波動率：今天的波動由昨天的報酬平方、昨天的條件變異數加總而成。這個架構有個經典批評： 真實市場的波動既有「短期回撤」（幾天就消化的衝擊），也有「長期循環」（景氣、利率、地緣政治帶來的多月變化） 。一條方程式同時扛兩件事，估出來的持續性參數常常被高估，預測會「黏太久」。

於是過去十多年陸續出現多種「分頻」（multi-frequency）波動率模型：

GARCH-MIDAS （Engle, Ghysels & Sohn 2013）— 把長期波動連到月度/季度的低頻變數
MF2-GARCH （Conrad & Engle 2025）— 把波動率拆成 σ²ₜ = gₜ × τₜ：gₜ 是短期 GJR 結構，τₜ 是平滑的長期成分

直觀上這個分解很迷人： 短期動能與長期週期分頭治理，預測應該更精準 。Conrad & Engle 在原論文用美股、外匯等多個資產展示 MF2-GARCH 顯著贏過單成分 GARCH。

問題是—— 在我們手上的 SPY 樣本（2005-2026）裡，這個故事不成立 。

實驗設計

我們以 SPY 日報酬為標的，訓練樣本從 2005 年起、滾動視窗 2000 個交易日、樣本外（OOS）固定為 2023-01-03 至 2024-12-31，共 502 個交易日 。三個競爭模型：

模型	結構	參數數
MF2-GARCH	σ²ₜ = gₜ × τₜ；gₜ = GJR(1,1) on standardized z；τₜ = exp(ω + δ·log(RV22ₜ₋₁))	5
GJR-GARCH(1,1)	經典單成分非對稱 GARCH	4
HAR-ABS	多頻 \|r\| 線性迴歸（K530 已建立的黃金基準）	4

估計流程（MF2 兩段式） ：

用過去 22 日已實現變異數 RV22 對 r²ₜ 做 OLS 估 ω、δ，得到長期成分 τₜ
把報酬除以 √τₜ 標準化為 zₜ，再用 MLE 估短期 GJR 參數（α、β、γ），約束 E[gₜ] = 1
每 22 個交易日重新校準一次

防呆檢查 ：所有預測都嚴格使用 t-1 之前的資訊（程式內 RV22ₜ₋₁、zₜ₋₁、gₜ₋₁ 全部 lag），不存在事後資訊洩漏。

評估指標 ：QLIKE 損失函數（Patton 2011 的 robust loss，越低越好）+ 兩兩比較檢定（兩模型比較顯著）。proxy 用 r²ₜ。

結果一：QLIKE 排名

模型	QLIKE（OOS 502 日）	相對 GJR
GJR-GARCH	1.566	基準
MF2-GARCH	1.670	+6.65%（更差）
HAR-ABS	1.835	+17.20%（更差）

等等—— HAR-ABS 不是黃金基準嗎？ 在另一個座標下確實是。但 QLIKE 的特性是它對「低估真實波動率」非常敏感（不對稱罰分），而 GJR 在 2023-2024 這段期間的條件波動估計平均年化 13.11%，剛好接近 SPY 真實波動，吃到一點甜頭。HAR-ABS 平均估計只有 10.23%， 結構性低估 在 QLIKE 下會被放大。

但 新模型 MF2-GARCH 平均年化只有 11.71% ——比 GJR 還低估，又沒有 HAR-ABS 那種跨頻訊號優勢，所以兩面挨打。

結果二：兩兩統計比較

比較	統計強度（DM）	是否達顯著水準（5%）	是否通過嚴格統計檢驗門檻
MF2 vs GJR	2.53	✅ 是	❌ 否
MF2 vs HAR	-3.00	✅ 是	❌ 否
HAR vs GJR	4.47	✅ 是	✅ 是

讀法：

MF2 vs GJR ：兩個模型差異「達顯著水準」，但 符號是 MF2 比較差 。也就是說 MF2 不只沒贏，還顯著輸給 GJR。
MF2 vs HAR ：MF2 比 HAR 好（HAR 在 QLIKE 上吃了低估的虧），但兩者差距未達嚴格統計檢驗門檻（嚴格統計 2016 對研究領域累積誤拒風險的更高 bar）。
HAR vs GJR ：HAR 在這個樣本下顯著輸給 GJR，且通過嚴格統計檢驗門檻—— 這是穩健結論 。

結果三：分年度看

年度	MF2-GARCH	GJR-GARCH	HAR-ABS	MF2 vs GJR
2023	1.560	1.508	1.722	+3.46%
2024	1.778	1.623	1.947	+9.60%

兩年 GJR 都贏， 而且 2024 年差距還擴大 ——這不像是運氣不好，而像是結構性弱勢。

結果四：預測序列彼此有多像

相關係數	MF2 vs GJR	MF2 vs HAR	GJR vs HAR
	0.909	0.760	0.854

MF2-GARCH 與 GJR 的預測相關係數高達 0.909 ——也就是說兩段式的「分頻」結構並沒有產生多少新訊號，預測曲線幾乎跟 GJR 一致，但平均水準偏低，所以在 QLIKE 上輸了。

為什麼新模型輸老模型？三個可能原因

1. SPY 不是 MF2-GARCH 的目標資產

Conrad & Engle 原論文的優勢資產偏向 波動分群明顯、長期成分強的市場 （外匯、新興市場、商品）。SPY 在 2023-2024 這段期間屬於 低波動、低分散 的牛市環境，τₜ 變動很小，分頻分解的好處被吃掉。

2. 兩段式估計犧牲了長期成分的彈性

K144 用 聯合 QML 同時估 τ 與 g，K592 用 兩段式 （先 OLS 估 τ，再 MLE 估 g）。兩段式好處是程式簡單、收斂穩定，缺點是 τ 的迴歸係數對短期動能的反饋切斷了——若 τ 的設定本身就偏弱，整個模型就被拖累。

3. log-linear 長期項可能不適合美股

τₜ = exp(ω + δ·log(RV22ₜ₋₁)) 的 δ 在我們的 OOS 樣本估到 0.92，已經接近單根，說明長期成分對短期 RV 過度敏感——這違反了「長期 = 平滑」的設計初衷。換句話說 τ 在 SPY 上沒有真的當「長期成分」用，而是另一個短期估計 ，自然就跟 GJR 高度共線。

對讀者的實戰啟示

第一，別看到新論文就買單 。Conrad & Engle 的 MF2-GARCH 在他們的樣本確實有效，但我們在 SPY 重做時發現它 顯著輸 給 1993 年 Glosten、Jagannathan、Runkle 提出的老 GJR。學術論文的 OOS 樣本選擇、資產組合、評估指標都會影響結論——複現是研究的硬功夫。

第二，模型複雜度不等於預測力 。MF2-GARCH 比 GJR 多一段方程式、多估一組參數，結果預測曲線跟 GJR 相關係數 0.909、QLIKE 還更差。 多餘的自由度沒帶來新訊號，只帶來雜訊 。

第三，QLIKE 排名要看 proxy 與資產 。HAR-ABS 在很多研究是黃金基準，但它對波動水準的低估會在 QLIKE 下吃虧。換成 MSE、MAE 或不同 proxy（high-low range、realized vol from intraday）排名可能完全不同。 單一指標不能定生死 。

第四，誠實報告 null result 。我們研究團隊的原則是：實驗結果不論方向都要寫清楚。MF2-GARCH 在 SPY 沒贏，這對讀者反而是有用情報——你下次看到「兩段式 GARCH 號稱降低 X% 波動預測誤差」的廣告詞，可以多問幾個問題：哪個資產？哪個樣本期？哪個損失函數？跟誰比？