K1313：HAR 分位數回歸 VaR — SPY 外樣本覆蓋率全通過，GARCH-Normal 兩個水準都失敗

讀者互動

已追蹤瀏覽 0 次，登入會員可按讚與收藏。

摘要

用 SPY 2018-2024 共 1,760 個交易日的外樣本資料，本文比較三種每日 VaR 預測方法的覆蓋率合格率（Kupiec 回測）。結果清楚：GARCH(1,1)-Normal 在 5% 和 1% 兩個水準都拿不到監管門檻；HAR-QR 分位數回歸兩個水準全通過，且在 Diebold-Mariano 檢定下顯著優於 GARCH-Normal（5% 水準 p=0.003，1% 水準 p=0.002）。

[提出: 用戶, 執行: Claude]

研究背景

HAR-RV 模型在 K784 到 K1312 的一系列實驗裡，連續 8 次在 QLIKE 點預測上無法超越基準，額外的機器學習複雜度沒能提升精度。K1313 轉換問題框架：不再追求更精準的點預測，而是直接問「HAR 結構能不能給出合格的風險覆蓋率？」

背後邏輯很直接：HAR-OLS 把 VaR 設成對稱 Normal 分佈下的分位數，但 SPY 日報酬有厚尾、負偏。如果直接對報酬序列做分位數回歸（以滯後 RV 為預測子），就不需要假設分佈形狀，讓資料自己決定尾部在哪裡。

比較的對象是 GARCH(1,1)-Normal，這是學術文獻和市場實務最常見的 VaR 生成器，也是巴塞爾協議框架下銀行最廣泛使用的模型之一。

方法與資料

項目	設定
資產	SPY（SPDR S&P 500 ETF）
全期	2010-01-01 到 2024-12-31
OOS 期間	2018-01-01 到 2024-12-31
OOS 樣本數	1,760 個交易日
每次 refit 間隔	21 個交易日（共 84 次重新估計）
RV proxy	日平方對數報酬
Lookahead 控制	所有 RV 預測子均 shift(1) 後 rolling
隨機 seed	42

三個模型：

M1 HAR-OLS ：OLS 回歸 log(rv) 的條件均值，再套 Normal 假設推 VaR
M2 HAR-QR ：直接對 return_t 做分位數回歸（τ=0.01 和 τ=0.05），預測子為 sqrt(rv_d)、sqrt(rv_w)、sqrt(rv_m)
M3 GARCH-Normal ：arch 套件的標準 GARCH(1,1)，dist=Normal，expanding window refit

評估工具：Kupiec UC 檢定（H0：真實覆蓋率等於目標水準），Christoffersen CC 檢定，以及 HAC Diebold-Mariano 檢定（Newey-West lag=10，以 pinball loss 差值為評估函數）。

核心發現

5% VaR 覆蓋率

模型	違反次數	實際覆蓋率	Kupiec p 值	判定
M1 HAR-OLS	318 / 1,760	18.07%	p ≈ 0	FAIL
M2 HAR-QR	97 / 1,760	5.51%	p = 0.333	PASS
M3 GARCH-Normal	108 / 1,760	6.14%	p = 0.034	FAIL

目標是 5%，也就是每 100 天大約 5 天的報酬超過 VaR 閾值。HAR-OLS 跑出 18%，相當於實際損失比「預期最壞」更糟的頻率高出 3.6 倍。GARCH-Normal 的 108 次違反（6.14%）剛好在顯著性臨界點外——p=0.034 小於 5%，不符合覆蓋率合格標準。只有 HAR-QR 的 97 次（5.51%）通過 Kupiec 檢定。

1% VaR 覆蓋率

模型	違反次數	實際覆蓋率	Kupiec p 值	判定
M1 HAR-OLS	224 / 1,760	12.73%	p ≈ 0	FAIL
M2 HAR-QR	19 / 1,760	1.08%	p = 0.741	PASS
M3 GARCH-Normal	58 / 1,760	3.30%	p ≈ 2×10⁻¹⁴	FAIL

1% VaR 的目標是每 100 天有 1 天觸及。GARCH-Normal 跑出 58 次違反（3.30%），是預期的 3.3 倍，p 值趨近零。HAR-QR 的 19 次（1.08%）與目標值僅相差 0.08 個百分點，Kupiec p=0.741，遠高於任何合理的顯著性水準。

DM 比較：HAR-QR vs GARCH-Normal

分位數	DM t 統計量	p 值	較佳模型
τ = 0.05	-2.954	p = 0.003	M2 (HAR-QR)
τ = 0.01	-3.103	p = 0.002	M2 (HAR-QR)

t 統計量為負表示 HAR-QR 的 pinball loss（分位數損失函數）更小，且在兩個水準上都達到 1% 顯著性。這個差距不只是統計上的，從覆蓋率數字看也有明確的實務意義。

覆蓋率對比圖

SPY VaR 回測：三模型覆蓋率比較

圖：OOS 2018-2024（1,760 交易日），三模型在 5% 和 1% VaR 水準的實際覆蓋率。橫線為目標覆蓋率；綠色柱（HAR-QR）通過 Kupiec 檢定，橘紅色柱未通過。

為什麼 GARCH-Normal 在 1% 失敗得這麼嚴重？

58 次違反 vs 預期 17.6 次，差了 3.3 倍。這背後有幾個原因：

正態假設在尾部低估風險 ：SPY 日報酬有明顯的負偏和超額峰度，正態分佈的左尾比實際資料薄很多，1% 分位數被設得太不保守。
GARCH sigma 更新頻率 ：本實驗的 GARCH 每 21 天重新估計一次，期間 sigma 固定不動。市場急跌時，GARCH-Normal 的 VaR 反應會落後幾週。這個設計上的不對稱讓 GARCH 在 DM 比較上額外吃虧，但 1% 水準的 58 次違反問題，正態假設本身就是主要原因，不只是 sigma 更新頻率。
HAR-QR 不做分佈假設 ：分位數回歸直接估計 τ 分位點對應的報酬值，不需要先估 sigma 再套分佈。當真實報酬分佈在某段市場環境下有特殊形狀，這個方法可以自適應。

侷限性

GARCH sigma staleness（重要） ：本實驗的 GARCH 使用每 21 天重新估計的 batch sigma，而 HAR-QR 使用每日更新的 RV 預測子。這個不對稱讓 DM 比較略為高估 HAR-QR 的相對優勢，若 GARCH 改用每日更新，DM 效果量可能縮小。但 Kupiec 覆蓋率問題（特別是 1% 水準 3.3 倍超標）來自 Normal 假設本身，sigma 更新頻率無法解決這個問題。結論方向仍然成立。

Christoffersen CC 檢定的存法（目前儲存為獨立性成分而非完整聯合統計量）只能解讀為違反自相關檢定，非完整的條件覆蓋率聯合檢定，這在 K1313_results.json 的 caveats 中已記錄。

樣本限制 ：單資產（SPY）、單一 OOS 期間（2018-2024），包含 Covid-19 急跌與 2022 升息修正。不同市場環境組合下的覆蓋率穩健性需要進一步跨資產、跨時段驗證。

實務意義

對於使用 GARCH(1,1)-Normal 作為日 VaR 生成器的量化風控框架，K1313 提供一個直接的校準替代方案：

5% VaR：HAR-QR 實際違反率 5.51% vs GARCH-Normal 6.14%，Kupiec 差距明確
1% VaR（監管層面更敏感）：HAR-QR 1.08% vs GARCH-Normal 3.30%，差距 3 倍以上

分位數回歸的計算成本低於 GARCH：不需要 MLE 收斂、不需要 variance targeting、直接 OLS 型算法求解。在高頻 refit 場景下，這是實務可行的替換路徑。

後續方向：（1）跨資產測試（QQQ, GLD, 0050.TW）確認覆蓋率結果的普遍性；（2）GARCH-t 或 GARCH-skewed-t 與 HAR-QR 的直接比較（排除正態假設影響）；（3）更高頻 GARCH refit（每日）對 DM 效果量的敏感性分析。

結論

HAR-QR 在 SPY 外樣本 2018-2024 的 VaR 回測中，兩個水準（5% 和 1%）全部通過 Kupiec 檢定，GARCH(1,1)-Normal 兩個水準都未通過。DM 統計量確認 HAR-QR 的 pinball loss 在 5% 顯著性下更低（5% 水準 p=0.003，1% 水準 p=0.002）。主要侷限是 GARCH sigma 更新頻率的不對稱設計可能略為高估 DM 效果量，但覆蓋率問題的主因仍是 Normal 分佈假設。

資料來源：yfinance，SPY 2010-2024，樣本 2,510 個觀測值（OOS 1,760 個）。實驗代碼：experiments/K1313/K1313.py，結果：experiments/K1313/K1313_results.json（K1313，Codex reviewed，verdict: CONDITIONAL_PASS）。