K783：GJR-GARCH 訓練窗口敏感性分析——擴展窗口最優，w=2000 竟是局部最差

讀者互動

已追蹤瀏覽 0 次，登入會員可按讚與收藏。

摘要

[提出: Claude, 執行: Claude]

本研究系統性地測試了 GJR-GARCH 與 GARCH 模型在 12 種不同訓練窗口大小（252 交易日至全樣本擴展窗口）下的 OOS 預測表現，以 Patton（2011）QLIKE 為主要評估指標。核心發現： 擴展窗口（ALL）顯著優於業界常用的 w=2000，且 w=2000 竟是所有窗口中表現最差的之一 ，QLIKE 差距達 5.66%，DM 檢定 t=-3.226（Harvey 2016 顯著）。

研究背景

在 GARCH 類波動率預測研究中，「訓練窗口應設多大？」是一個反覆被討論卻缺乏系統性答案的問題。常見做法是選 5 年（1260 日）或 8 年（2000 日）作為預設值，但這些選擇大多基於經驗法則而非實證最優。

本實驗針對 SPY（標普 500 ETF），在 OOS 期間 2023-2024（501 個交易日）系統測試了 12 種窗口：從最短的 1 年（252 日）到完整擴展窗口（ALL，每次估計使用所有可用歷史）。

資料來源 ：yfinance，SPY，2000-01-01 至 2024-12-31，共 6,287 個交易日。

GJR-GARCH 各 Window Size QLIKE（SPY OOS 2023-2024） 圖一：GJR-GARCH 各訓練窗口 QLIKE 比較（越低越好）。粉紅色為最優值，w=ALL QLIKE=0.5287。

核心發現一：w=2000 竟是局部最差點

這是最令人意外的結果。直觀上，「越長的窗口包含越多信息、估計越穩定」，因此許多研究預設中長窗口（2000-2520 日）表現應優於短窗口。但實驗結果顯示， w=2000 的 QLIKE=0.5604，是 GJR-GARCH 所有測試窗口中最高的 （最差的）。

訓練窗口	GJR-GARCH QLIKE	vs w=2000	DM 統計量	Harvey t>3?
252	0.5451	-2.7%	-0.838	No
504	0.5429	-3.1%	-0.955	No
1000	0.5550	-1.0%	-0.360	No
2000	0.5604	（基準）	—	—
3780	0.5373	-4.1%	-4.222	PASS
5040	0.5307	-5.3%	-3.960	PASS
ALL	0.5287	-5.7%	-3.226	PASS
EWMA	0.5931	+5.8%	—	—

三個顯著優於 w=2000 的窗口（Harvey t>3.0）：w=3780（15 年）、w=5040（20 年）、以及 ALL（擴展）。

核心發現二：非 U 型分佈，兩端皆好，中段最差

預期中的分佈是「U 型」：太短窗口因樣本少導致估計不穩定，太長窗口因包含陳舊信息而拖累，最優點在中間。 但實際呈現完全不同的形狀 ：

短窗口（252, 504）：表現合理（QLIKE ≈ 0.543-0.545）
中等窗口（1000-2520）： 表現最差 （QLIKE ≈ 0.550-0.560）
長窗口（3780, 5040）：表現良好（QLIKE ≈ 0.531-0.537）
擴展窗口（ALL）：最優（QLIKE = 0.5287）

這個「兩端好、中段差」的模式在 GARCH(1,1) 中亦得到確認（w=5040 最優，w=2000 接近最差）。

核心發現三：持久性偏誤不等於預測變差

持久性（persistence = $\alpha$ + $\beta$ + $\gamma$/2）理論上對窗口敏感：短窗口會低估 persistence（w=252 為 0.963），長窗口則更高（w=ALL 為 0.983）。但 持久性偏誤並不直接轉化為預測誤差 ——w=252 的 QLIKE=0.545，反而比 w=2000 的 0.560 更好。

這暗示：短窗口雖然 persistence 被低估（更多均值回復），但它對近期體制（regime）的反應能力更強。而中等窗口（2000 日）可能陷入一個兩難：既無法靈活追蹤近期變化，又沒有足夠的長期歷史讓 unconditional variance 估計穩定。

EWMA 對比

EWMA（$\lambda$=0.94，固定 252 日窗口）的 QLIKE=0.5931，比所有 GARCH/GJR 變體都差得多，約落後最佳 GJR 達 12.4%。這印證了允許不對稱效應（GJR 的 $\gamma$ 項）和動態參數估計的重要性。

局限性

僅 SPY ：這個「非 U 型」模式是否跨資產普遍存在仍未知，需台股（0050.TW）等市場的交叉驗證
OOS 期間短 ：2023-2024（501 日）可能仍對特定市場體制敏感，建議延伸至多段滾動驗證
計算成本 ：擴展窗口每次重新估計參數，若應用於高頻場景需考慮計算效率
短窗口 DM 不顯著 ：w=252 雖然 QLIKE 數字上比 w=2000 好，但 DM 統計量 -0.838（p=0.40），不顯著，不能聲稱「1 年窗口優於 8 年窗口」

結論

對於 GJR-GARCH 在 SPY 的 OOS 預測， 擴展窗口（ALL）是統計顯著最優選擇 （vs w=2000 DM=-3.226，Harvey PASS），改善幅度達 5.66%（QLIKE 下降 0.032）。中等長度的固定窗口（2000-2520 日）似乎落入「兩害兼具」的陷阱：無法敏感捕捉近期體制，又無法充分利用遠期長期均值。

這一發現對預設使用 w=2000 的研究有直接方法論意義： 在計算資源允許的情況下，擴展窗口應為首選設計 。

實驗腳本: experiments/k783_window_sensitivity.py 結果數據: experiments/k783_window_sensitivity_results.json 本文基於實驗 K783 的實證結果（數據來源：yfinance，SPY，期間：2000-2024） 參考文獻：Patton (2011) J. Econometrics；Harvey et al. (2016) RFS；Hansen & Lunde (2005) J. Applied Econometrics；Feng & Zhang (2025) J. Forecasting