← 研究動態
研究2026/05/21 下午10:19

K1313:HAR 分位數回歸 VaR — SPY 外樣本覆蓋率全通過,GARCH-Normal 兩個水準都失敗

GARCHKupiecSPYVaR風險管理HAR-QR分位數回歸

讀者互動

已追蹤瀏覽 0 次,登入會員可按讚與收藏。

分享到:LINEFacebookX / Twitter

摘要

用 SPY 2018-2024 共 1,760 個交易日的外樣本資料,本文比較三種每日 VaR 預測方法的覆蓋率合格率(Kupiec 回測)。結果清楚:GARCH(1,1)-Normal 在 5% 和 1% 兩個水準都拿不到監管門檻;HAR-QR 分位數回歸兩個水準全通過,且在 Diebold-Mariano 檢定下顯著優於 GARCH-Normal(5% 水準 p=0.003,1% 水準 p=0.002)。

[提出: 用戶, 執行: Claude]


研究背景

HAR-RV 模型在 K784 到 K1312 的一系列實驗裡,連續 8 次在 QLIKE 點預測上無法超越基準,額外的機器學習複雜度沒能提升精度。K1313 轉換問題框架:不再追求更精準的點預測,而是直接問「HAR 結構能不能給出合格的風險覆蓋率?」

背後邏輯很直接:HAR-OLS 把 VaR 設成對稱 Normal 分佈下的分位數,但 SPY 日報酬有厚尾、負偏。如果直接對報酬序列做分位數回歸(以滯後 RV 為預測子),就不需要假設分佈形狀,讓資料自己決定尾部在哪裡。

比較的對象是 GARCH(1,1)-Normal,這是學術文獻和市場實務最常見的 VaR 生成器,也是巴塞爾協議框架下銀行最廣泛使用的模型之一。


方法與資料

項目設定
資產SPY(SPDR S&P 500 ETF)
全期2010-01-01 到 2024-12-31
OOS 期間2018-01-01 到 2024-12-31
OOS 樣本數1,760 個交易日
每次 refit 間隔21 個交易日(共 84 次重新估計)
RV proxy日平方對數報酬
Lookahead 控制所有 RV 預測子均 shift(1) 後 rolling
隨機 seed42

三個模型:

  •  M1 HAR-OLS :OLS 回歸 log(rv) 的條件均值,再套 Normal 假設推 VaR
  •  M2 HAR-QR :直接對 return_t 做分位數回歸(τ=0.01 和 τ=0.05),預測子為 sqrt(rv_d)、sqrt(rv_w)、sqrt(rv_m)
  •  M3 GARCH-Normal :arch 套件的標準 GARCH(1,1),dist=Normal,expanding window refit

評估工具:Kupiec UC 檢定(H0:真實覆蓋率等於目標水準),Christoffersen CC 檢定,以及 HAC Diebold-Mariano 檢定(Newey-West lag=10,以 pinball loss 差值為評估函數)。


核心發現

5% VaR 覆蓋率

模型違反次數實際覆蓋率Kupiec p 值判定
M1 HAR-OLS318 / 1,76018.07%p ≈ 0FAIL
M2 HAR-QR97 / 1,7605.51%p = 0.333PASS
M3 GARCH-Normal108 / 1,7606.14%p = 0.034FAIL

目標是 5%,也就是每 100 天大約 5 天的報酬超過 VaR 閾值。HAR-OLS 跑出 18%,相當於實際損失比「預期最壞」更糟的頻率高出 3.6 倍。GARCH-Normal 的 108 次違反(6.14%)剛好在顯著性臨界點外——p=0.034 小於 5%,不符合覆蓋率合格標準。只有 HAR-QR 的 97 次(5.51%)通過 Kupiec 檢定。

1% VaR 覆蓋率

模型違反次數實際覆蓋率Kupiec p 值判定
M1 HAR-OLS224 / 1,76012.73%p ≈ 0FAIL
M2 HAR-QR19 / 1,7601.08%p = 0.741PASS
M3 GARCH-Normal58 / 1,7603.30%p ≈ 2×10⁻¹⁴FAIL

1% VaR 的目標是每 100 天有 1 天觸及。GARCH-Normal 跑出 58 次違反(3.30%),是預期的 3.3 倍,p 值趨近零。HAR-QR 的 19 次(1.08%)與目標值僅相差 0.08 個百分點,Kupiec p=0.741,遠高於任何合理的顯著性水準。

DM 比較:HAR-QR vs GARCH-Normal

分位數DM t 統計量p 值較佳模型
τ = 0.05-2.954p = 0.003M2 (HAR-QR)
τ = 0.01-3.103p = 0.002M2 (HAR-QR)

t 統計量為負表示 HAR-QR 的 pinball loss(分位數損失函數)更小,且在兩個水準上都達到 1% 顯著性。這個差距不只是統計上的,從覆蓋率數字看也有明確的實務意義。

覆蓋率對比圖

SPY VaR 回測:三模型覆蓋率比較

圖:OOS 2018-2024(1,760 交易日),三模型在 5% 和 1% VaR 水準的實際覆蓋率。橫線為目標覆蓋率;綠色柱(HAR-QR)通過 Kupiec 檢定,橘紅色柱未通過。


為什麼 GARCH-Normal 在 1% 失敗得這麼嚴重?

58 次違反 vs 預期 17.6 次,差了 3.3 倍。這背後有幾個原因:

  1.  正態假設在尾部低估風險 :SPY 日報酬有明顯的負偏和超額峰度,正態分佈的左尾比實際資料薄很多,1% 分位數被設得太不保守。

  2.  GARCH sigma 更新頻率 :本實驗的 GARCH 每 21 天重新估計一次,期間 sigma 固定不動。市場急跌時,GARCH-Normal 的 VaR 反應會落後幾週。這個設計上的不對稱讓 GARCH 在 DM 比較上額外吃虧,但 1% 水準的 58 次違反問題,正態假設本身就是主要原因,不只是 sigma 更新頻率。

  3.  HAR-QR 不做分佈假設 :分位數回歸直接估計 τ 分位點對應的報酬值,不需要先估 sigma 再套分佈。當真實報酬分佈在某段市場環境下有特殊形狀,這個方法可以自適應。


侷限性

 GARCH sigma staleness(重要) :本實驗的 GARCH 使用每 21 天重新估計的 batch sigma,而 HAR-QR 使用每日更新的 RV 預測子。這個不對稱讓 DM 比較略為高估 HAR-QR 的相對優勢,若 GARCH 改用每日更新,DM 效果量可能縮小。但 Kupiec 覆蓋率問題(特別是 1% 水準 3.3 倍超標)來自 Normal 假設本身,sigma 更新頻率無法解決這個問題。結論方向仍然成立。

Christoffersen CC 檢定的存法(目前儲存為獨立性成分而非完整聯合統計量)只能解讀為違反自相關檢定,非完整的條件覆蓋率聯合檢定,這在 K1313_results.json 的 caveats 中已記錄。

 樣本限制 :單資產(SPY)、單一 OOS 期間(2018-2024),包含 Covid-19 急跌與 2022 升息修正。不同市場環境組合下的覆蓋率穩健性需要進一步跨資產、跨時段驗證。


實務意義

對於使用 GARCH(1,1)-Normal 作為日 VaR 生成器的量化風控框架,K1313 提供一個直接的校準替代方案:

  • 5% VaR:HAR-QR 實際違反率 5.51% vs GARCH-Normal 6.14%,Kupiec 差距明確
  • 1% VaR(監管層面更敏感):HAR-QR 1.08% vs GARCH-Normal 3.30%,差距 3 倍以上

分位數回歸的計算成本低於 GARCH:不需要 MLE 收斂、不需要 variance targeting、直接 OLS 型算法求解。在高頻 refit 場景下,這是實務可行的替換路徑。

後續方向:(1)跨資產測試(QQQ, GLD, 0050.TW)確認覆蓋率結果的普遍性;(2)GARCH-t 或 GARCH-skewed-t 與 HAR-QR 的直接比較(排除正態假設影響);(3)更高頻 GARCH refit(每日)對 DM 效果量的敏感性分析。


結論

HAR-QR 在 SPY 外樣本 2018-2024 的 VaR 回測中,兩個水準(5% 和 1%)全部通過 Kupiec 檢定,GARCH(1,1)-Normal 兩個水準都未通過。DM 統計量確認 HAR-QR 的 pinball loss 在 5% 顯著性下更低(5% 水準 p=0.003,1% 水準 p=0.002)。主要侷限是 GARCH sigma 更新頻率的不對稱設計可能略為高估 DM 效果量,但覆蓋率問題的主因仍是 Normal 分佈假設。


資料來源:yfinance,SPY 2010-2024,樣本 2,510 個觀測值(OOS 1,760 個)。實驗代碼:experiments/K1313/K1313.py,結果:experiments/K1313/K1313_results.json(K1313,Codex reviewed,verdict: CONDITIONAL_PASS)。

相關文章

先讀正式關聯,若無則使用標籤與主題相似度補齊