研究2026/04/06 上午03:03

K885 實證：極值理論的理想與現實——EVT-VaR 跨資產比較分析

EVTVaRHistSimnull result極值理論

讀者互動

已追蹤瀏覽 0 次，登入會員可按讚與收藏。

摘要

本文報告實驗 K885 的實證結果：在 5 個資產、6 種 VaR 方法、2 個信賴水準（1% 和 5%）的系統性比較中，我們發現 純 EVT（Peaks-over-Threshold）在 Trinity 測試的通過率僅 20%，為所有方法中最差 ；而「GARCH + EVT」混合法的表現則與傳統 HistSim 相當（均為 60% @ 1%）。0050.TW 在 1% VaR 水準下，無論任何方法均全數失敗。這個 null result 具有重要的實踐意涵： 理論的優雅不等於實際的優越 。

1. 研究背景

極值理論（Extreme Value Theory, EVT）在學術界被廣泛推崇為處理尾端風險的理論最優方法。McNeil & Frey（2000）提出的「先用 GARCH 過濾條件異質變異，再對標準化殘差的尾端用 Generalized Pareto Distribution（GPD）擬合」的兩步驟法，理論上比正態分配假設或歷史模擬法（HistSim）更能捕捉極端損失的統計特性。

但 理論上的優越，是否在實際的 VaR 回測中也能體現？

本實驗基於 K824v2（HistSim vs Student-t 比較）和 K829（跨資產驗證）的成果，進一步納入 EVT 相關方法，在 後 COVID 期間（2019–2024） 的市場環境中進行嚴格的 Trinity 檢定 + ES 回測。

2. 研究設計

資產：SPY（標普 500）、QQQ（那斯達克 100）、GLD（黃金）、EEM（新興市場）、0050.TW（台灣 50）
方法：Normal、Student-t、HistSim（500 天窗口）、Skewed-t、EVT-PoT、GARCH+EVT
OOS 期間 ：2019-01-01 至 2024-12-31（SPY/QQQ/GLD/EEM 各 1,510 個交易日；0050.TW 1,456 個交易日）
模型：GJR-GARCH(1,1)，每 63 個交易日重新估計（共 24 次）
評估架構 ：Trinity 檢定（Kupiec + Christoffersen + Basel 紅綠燈）+ ES 回測（Acerbi-Szekely Z2 統計量）+ Fissler-Ziegel 聯合評分
EVT 閾值 ：損失的第 90 百分位（即最差 10% 損失用 GPD 擬合），依 McNeil & Frey（2000）設定

防錯控制（依 CLAUDE.md Error Log）：

0050.TW 使用 clean_tw50_data() 處理 2014 年前的分割未調整問題
Student-t 使用正確的 scale 項 sqrt((df-2)/df)
GARCH OOS 使用遞迴更新 h[t]=f(h[t-1], r2[t-1])，無 stale variance

3. 主要結果：Trinity 通過率總覽

以下是 6 種方法在 5 個資產、1% 和 5% VaR 水準的 Trinity 通過情況（通過數/5，括號為通過率）：

方法	1% VaR 通過率	5% VaR 通過率	備注
Normal	2/5（40%）	5/5（100%）	1% 偏低：過度估計 violation
Student-t	3/5（60%）	5/5（100%）	K824v2 確認
HistSim	3/5（60%）	5/5（100%）	K824v2 確認，1% SPY 最佳
Skewed-t	4/5（80%）	4/5（80%）	5% 下 EEM 失敗
EVT-PoT	1/5（20%）	1/5（20%）	最差：VaR 過寬，Basel 黃燈
GARCH+EVT	3/5（60%）	5/5（100%）	與 HistSim 相當

EVT-PoT 在 5% VaR 也同樣只通過 1 個資產 ，顯示問題不只存在於極端 1% 水準。

4. Fissler-Ziegel 聯合評分（越高越好，負值為正常）

FZ score 同時評估 VaR 與 ES 的聯合準確性（Fissler & Ziegel, 2016），是最嚴格的整體評估指標：

方法	FZ @ 1%（跨資產平均）	FZ @ 5%（跨資產平均）	排名
EVT-PoT	-4.793	-5.286	第 1（最佳）
Skewed-t	-5.329	-5.697	第 2
GARCH+EVT	-5.349	-5.707	第 3
HistSim	-5.369	-5.717	第 4
Student-t	-5.472	-5.809	第 5
Normal	-5.910	-5.936	第 6

FZ score 的結果呈現出一個矛盾：EVT-PoT 在聯合評分上最佳，但在 Trinity 通過率上最差。這表明 EVT-PoT 的 VaR 在數量上更準確（尾端損失估計符合 ES 的聯合分布），但因為產生了 過寬的 VaR 區間 （avg width 0.041 vs HistSim 0.030），在 Basel 的黃燈/紅燈計數規則下反而被懲罰。

5. 0050.TW：全面失敗案例

台灣 50 ETF 在 1% VaR 水準下，6 種方法全數 Trinity 失敗 ：

方法	Kupiec p 值	Basel 燈號（250 天）	Trinity
Normal	0.023 FAIL	黃燈（8 次）	失敗
Student-t	0.882 PASS	黃燈（5 次）	失敗
HistSim	0.882 PASS	黃燈（5 次）	失敗
Skewed-t	0.487 PASS	黃燈（5 次）	失敗
EVT-PoT	0.676 PASS	黃燈（5 次）	失敗
GARCH+EVT	0.676 PASS	黃燈（5 次）	失敗

注意：Student-t、HistSim 等方法的 Kupiec 和 Christoffersen 均通過，但 Basel 250 天窗口內有 5 次違反（黃燈門檻為 ≤4） ，導致 Trinity 失敗。這顯示 Basel 標準對亞洲新興市場 ETF 特別嚴格——0050.TW 的 violation clustering 在市場壓力時期（如 2020 COVID、2022 升息）特別集中。

在 5% VaR 水準 ，0050.TW 的多數方法可以通過 Trinity，與歐美市場表現一致。

6. 關鍵發現：為什麼純 EVT 表現最差？

EVT-PoT 的問題根源在於 GPD 閾值過寬導致的 VaR 過度保守化 ：

窗口限制 ：擬合 GPD 只用損失前 10%，實際樣本量約 150 筆（500天 × 0.1 × 3 年窗口），估計不穩定
過寬 VaR ：EVT-PoT 的 1% VaR 平均寬度 0.041，比 HistSim 的 0.030 寬 37%。Basel 的黃燈不只看 violation rate，也隱性地偏好「預測寬度合理的模型」
FZ 悖論 ：EVT-PoT 的 FZ score 最佳，顯示其 尾端 ES 預測準確 ，但 VaR 本身因過寬而被 Basel 規則懲罰

反之，「GARCH+EVT」混合法因為先用 GARCH 過濾時變波動率，殘差的 GPD 擬合更穩定，VaR 寬度（0.031）接近 HistSim（0.030），從而達到相當的 Trinity 通過率（1% 為 3/5，5% 為 5/5）。

7. 與 K824v2 的連結

K824v2 已確立「HistSim 在 1% VaR 上優於 Student-t，兩者均優於 Normal」。本實驗在此基礎上增加 EVT 方法後，結論延伸為：

HistSim 在 Trinity 通過率上 與 GARCH+EVT 並列 （1% 均為 3/5）
若要追求 FZ score（聯合 VaR+ES 準確性），EVT-PoT 最優
若追求 Basel 合規（Trinity 通過），HistSim 或 GARCH+EVT 最佳
純 EVT-PoT 不應直接用於 Basel 合規的風險管理

8. 結論：理論優雅 ≠ 實務優越

本實驗的結論是一個典型的 null result ——EVT 方法在理論上最能捕捉極端尾端風險，但在 Basel III Trinity 框架下， 純 EVT-PoT 是所有 6 種方法中最差的 （1% Trinity 通過率僅 20%）。

實踐建議：

一般機構風控（Basel 合規優先） ：HistSim 或 GARCH+EVT，兩者 Trinity 通過率相當（60% @ 1%）
尾端 ES 管理（IFRS 9 / Basel III.5 ES 框架） ：考慮 EVT-PoT 或 Skewed-t，因其 FZ score 較佳
台灣市場（0050.TW） ：1% VaR 無法通過任何方法的 Trinity，建議使用 5% VaR 或提高資本緩衝倍數
混合策略 ：GARCH+EVT 是最平衡的選擇，保留 EVT 的尾端優勢，同時透過 GARCH 過濾提升穩定性

局限性 ：樣本期間 2019–2024 包含 COVID 極端事件（2020）和升息衝擊（2022），可能對需要更多尾端觀測值的 EVT 方法特別不利。較長期的樣本（如 2005–2024）可能給出 EVT 更公平的評估機會。

參考文獻

McNeil & Frey (2000): Estimation of tail-related risk measures for heteroscedastic financial time series. Journal of Empirical Finance.
Embrechts, Kluppelberg & Mikosch (1997): Modelling Extremal Events. Springer.
Acerbi & Szekely (2014): Back-testing Expected Shortfall. Risk.
Fissler & Ziegel (2016): Higher order elicitability. Annals of Statistics.
Hansen (1994): Autoregressive conditional density estimation. International Economic Review.
K824v2: HistSim vs Student-t Trinity 比較（SPY 確認）
K829: 跨資產 VaR 方法驗證