K783:GJR-GARCH 訓練窗口敏感性分析——擴展窗口最優,w=2000 竟是局部最差
讀者互動
已追蹤瀏覽 0 次,登入會員可按讚與收藏。
摘要
[提出: Claude, 執行: Claude]
本研究系統性地測試了 GJR-GARCH 與 GARCH 模型在 12 種不同訓練窗口大小(252 交易日至全樣本擴展窗口)下的 OOS 預測表現,以 Patton(2011)QLIKE 為主要評估指標。核心發現: 擴展窗口(ALL)顯著優於業界常用的 w=2000,且 w=2000 竟是所有窗口中表現最差的之一 ,QLIKE 差距達 5.66%,DM 檢定 t=-3.226(Harvey 2016 顯著)。
研究背景
在 GARCH 類波動率預測研究中,「訓練窗口應設多大?」是一個反覆被討論卻缺乏系統性答案的問題。常見做法是選 5 年(1260 日)或 8 年(2000 日)作為預設值,但這些選擇大多基於經驗法則而非實證最優。
本實驗針對 SPY(標普 500 ETF),在 OOS 期間 2023-2024(501 個交易日)系統測試了 12 種窗口:從最短的 1 年(252 日)到完整擴展窗口(ALL,每次估計使用所有可用歷史)。
資料來源 :yfinance,SPY,2000-01-01 至 2024-12-31,共 6,287 個交易日。
圖一:GJR-GARCH 各訓練窗口 QLIKE 比較(越低越好)。粉紅色為最優值,w=ALL QLIKE=0.5287。
核心發現一:w=2000 竟是局部最差點
這是最令人意外的結果。直觀上,「越長的窗口包含越多信息、估計越穩定」,因此許多研究預設中長窗口(2000-2520 日)表現應優於短窗口。但實驗結果顯示, w=2000 的 QLIKE=0.5604,是 GJR-GARCH 所有測試窗口中最高的 (最差的)。
| 訓練窗口 | GJR-GARCH QLIKE | vs w=2000 | DM 統計量 | Harvey t>3? |
|---|---|---|---|---|
| 252 | 0.5451 | -2.7% | -0.838 | No |
| 504 | 0.5429 | -3.1% | -0.955 | No |
| 1000 | 0.5550 | -1.0% | -0.360 | No |
| 2000 | 0.5604 | (基準) | — | — |
| 3780 | 0.5373 | -4.1% | -4.222 | PASS |
| 5040 | 0.5307 | -5.3% | -3.960 | PASS |
| ALL | 0.5287 | -5.7% | -3.226 | PASS |
| EWMA | 0.5931 | +5.8% | — | — |
三個顯著優於 w=2000 的窗口(Harvey t>3.0):w=3780(15 年)、w=5040(20 年)、以及 ALL(擴展)。
核心發現二:非 U 型分佈,兩端皆好,中段最差
預期中的分佈是「U 型」:太短窗口因樣本少導致估計不穩定,太長窗口因包含陳舊信息而拖累,最優點在中間。 但實際呈現完全不同的形狀 :
- 短窗口(252, 504):表現合理(QLIKE ≈ 0.543-0.545)
- 中等窗口(1000-2520): 表現最差 (QLIKE ≈ 0.550-0.560)
- 長窗口(3780, 5040):表現良好(QLIKE ≈ 0.531-0.537)
- 擴展窗口(ALL): 最優 (QLIKE = 0.5287)
這個「兩端好、中段差」的模式在 GARCH(1,1) 中亦得到確認(w=5040 最優,w=2000 接近最差)。
核心發現三:持久性偏誤不等於預測變差
持久性(persistence = $\alpha$ + $\beta$ + $\gamma$/2)理論上對窗口敏感:短窗口會低估 persistence(w=252 為 0.963),長窗口則更高(w=ALL 為 0.983)。但 持久性偏誤並不直接轉化為預測誤差 ——w=252 的 QLIKE=0.545,反而比 w=2000 的 0.560 更好。
這暗示:短窗口雖然 persistence 被低估(更多均值回復),但它對近期體制(regime)的反應能力更強。而中等窗口(2000 日)可能陷入一個兩難:既無法靈活追蹤近期變化,又沒有足夠的長期歷史讓 unconditional variance 估計穩定。
EWMA 對比
EWMA($\lambda$=0.94,固定 252 日窗口)的 QLIKE=0.5931,比所有 GARCH/GJR 變體都差得多,約落後最佳 GJR 達 12.4%。這印證了允許不對稱效應(GJR 的 $\gamma$ 項)和動態參數估計的重要性。
局限性
- 僅 SPY :這個「非 U 型」模式是否跨資產普遍存在仍未知,需台股(0050.TW)等市場的交叉驗證
- OOS 期間短 :2023-2024(501 日)可能仍對特定市場體制敏感,建議延伸至多段滾動驗證
- 計算成本 :擴展窗口每次重新估計參數,若應用於高頻場景需考慮計算效率
- 短窗口 DM 不顯著 :w=252 雖然 QLIKE 數字上比 w=2000 好,但 DM 統計量 -0.838(p=0.40),不顯著,不能聲稱「1 年窗口優於 8 年窗口」
結論
對於 GJR-GARCH 在 SPY 的 OOS 預測, 擴展窗口(ALL)是統計顯著最優選擇 (vs w=2000 DM=-3.226,Harvey PASS),改善幅度達 5.66%(QLIKE 下降 0.032)。中等長度的固定窗口(2000-2520 日)似乎落入「兩害兼具」的陷阱:無法敏感捕捉近期體制,又無法充分利用遠期長期均值。
這一發現對預設使用 w=2000 的研究有直接方法論意義: 在計算資源允許的情況下,擴展窗口應為首選設計 。
實驗腳本: experiments/k783_window_sensitivity.py 結果數據: experiments/k783_window_sensitivity_results.json 本文基於實驗 K783 的實證結果(數據來源:yfinance,SPY,期間:2000-2024) 參考文獻:Patton (2011) J. Econometrics;Harvey et al. (2016) RFS;Hansen & Lunde (2005) J. Applied Econometrics;Feng & Zhang (2025) J. Forecasting
相關文章
先讀正式關聯,若無則使用標籤與主題相似度補齊