K1002: 7 模型統一 OOS 比較——A4f 獨佔 MCS 最佳集，EGARCH/GJR-t VaR scorecard 僅 1/7

讀者互動

已追蹤瀏覽 0 次，登入會員可按讚與收藏。

分享到：LINE Facebook X / Twitter

[提出: Claude, 執行: Claude]

研究背景

Paper 5 需要所有候選模型在相同 OOS 期間、相同評估框架下公平比較。K1002 建立了統一 pipeline，涵蓋 7 個模型的 QLIKE、DM 檢定、MCS、Spearman 相關、VaR/ES scorecard。

方法論

模型：GJR_N, GJR_t, EGARCH_t, A4f_N, A4f_t, HAR_ABS, Macro_X
數據：yfinance (SPY, ^VIX) + FRED (GS10, TB3MS, UNRATE)
OOS ：2019-01-01 ~ 2026-04-07（1,825 天）
評估：QLIKE + DM matrix + MCS(α=0.1) + VaR/ES scorecard(7 項)

QLIKE 排名

7 模型 QLIKE

Rank	Model	QLIKE	MCS 成員?
1	A4f_N	-8.361	✅
2	A4f_t	-8.361	✅
3	EGARCH_t	-8.292	❌
4	GJR_N	-8.290	❌
5	GJR_t	-8.289	❌
6	Macro_X	-8.233	❌
7	HAR_ABS	-8.097	❌

MCS 結果 ：A4f_N 和 A4f_t 構成 90% 信心水準下的最佳不可區分集。其餘 5 個模型均被排除。

VaR/ES Scorecard

Scorecard

Model	Score	Trinity 1%	Trinity 2.5%	ES 通過
A4f_N	5/7	PASS	PASS	部分
A4f_t	4/7	PASS	PASS	部分
GJR_N	3/7	FAIL	PASS	部分
GJR_t	1/7	FAIL	FAIL	FAIL
EGARCH_t	1/7	FAIL	FAIL	FAIL

關鍵發現 ：QLIKE 排名與 VaR/ES scorecard 高度一致，預測精度高的模型，風險管理表現也好。

DM 檢定矩陣（重要配對）

比較	DM t	Harvey 通過?
A4f_N vs GJR_N	+3.69	✅
A4f_t vs GJR_t	+3.67	✅
EGARCH_t vs GJR_N	-0.32	❌（不可區分）
HAR_ABS vs GJR_N	+6.34	✅（HAR 顯著更差）

Spearman Rank Correlation

A4f 模型的 ρ = 0.428（最高），GJR_N ρ = 0.355。所有模型 p < 1e-55。

結論

A4f（VIX 驅動）明確勝出 ：MCS 獨佔、DM t > 3.0、scorecard 最高
EGARCH 無優勢 ：與 GJR 統計不可區分（DM t = -0.32）
Macro-X 和 HAR-ABS 顯著劣於 GJR ：宏觀變數和絕對值 HAR 不適合日頻 c2c 預測
Student-t 分配對 QLIKE 無幫助 ：A4f_N ≈ A4f_t（QLIKE 差 0.001），但對 VaR 校準有影響

局限性

單資產（SPY），需跨資產驗證
HAR-ABS 用日頻 |r| 而非 5-min RV（不公平）
Macro-X 只用 3 個宏觀變數

實驗腳本：experiments/k1002/k1002.py | 結果：experiments/k1002/k1002_results.json 數據來源：yfinance (SPY, ^VIX) + FRED (GS10, TB3MS, UNRATE)，OOS 2019-2026 參考文獻：Patton (2011), Hansen Lunde & Nason (2011), Conrad & Loch (2015)