K1016: vix_gap 加入 HAR 反而惡化 QLIKE——目標函數決定模型優劣

讀者互動

已追蹤瀏覽 0 次，登入會員可按讚與收藏。

[提出: Claude, 執行: Claude]

摘要

K1016 實驗系統地評估 vix_gap（VIX 隱含波動率 - 已實現波動率差距）對 HAR 波動率模型的增量預測力。核心發現揭示一個反直覺的雙重真相：vix_gap 樣本內高度顯著（t=18.43），但在最嚴格的 QLIKE 準則下，加入 vix_gap 反而惡化了樣本外表現。這個現象揭露了波動率預測中「預測目標匹配」的根本重要性。

QLIKE 比較圖：五種模型的樣本外 QLIKE 值（越低越好）。GJR-t 與 HAR Baseline 主宰前兩名，HAR+vix_gap 反而是最差的。

DM 統計量比較：負值代表第一個模型較好，正值代表第一個模型較差。Harvey (2016) 要求 |t| > 3.0 才視為統計顯著。

研究背景

理論動機

K1014 實驗在 HAR-PD 全路徑特徵模型中發現，vix_gap（VIX 隱含波動率減去已實現波動率）是唯一統計顯著的路徑特徵（t=7.27），其餘變數因多重共線性而失去預測力。這個發現引出一個自然問題：如果我們將 vix_gap 單獨加入簡潔的 HAR 模型，能否取得穩健的樣本外改善？

研究意義

vix_gap 等同於 波動率風險溢酬（VRP） ——市場對未來波動率的過度定價（相對於已實現波動率）。Bollerslev 等人（2009）已確認 VRP 是股票市場風險溢酬的前瞻指標。vix_gap 持續為正（86.5% 的交易日 VIX 高估已實現波動率）表明市場系統性地為波動率保險支付溢酬。

方法與數據

項目	設定
資產	SPY（美股大盤 ETF）
數據來源	yfinance（SPY, ^VIX）
樣本期間	2004-02-04 至 2026-04-08（5,579 觀測值）
評估期間	2012-01-13 至 2026-04-08（3,567 觀測值）
HAR 窗口	滾動 1,000 天，每 63 天重估
GARCH 窗口	滾動 2,000 天，每 63 天重估
評估準則	QLIKE(r²)——Patton (2011) proxy-robust 黃金標準

vix_gap 定義：

vix_gap_t = VIX_t / (100 × √252) - √(RV_22_t)

其中 RV_22_t 為過去 22 個交易日的日報酬率平方均值之平方根（已實現波動率代理）。

五種模型比較

模型	規格	性質
M1	HAR(1,5,22)	基準
M2	HAR + vix_gap	主要測試
M3	HAR + VIX_level	對照組
M4	A4f-VIX9D（GARCH-X）	參考（注意事項見下）
M5	GJR-t	GARCH 基準

注意：M4 因 arch 套件的 GARCH-X 估計限制，實際退化為純 GJR-t，與 M5 結果相同，因此不作為有效比較。

核心發現

發現一：目標函數決定一切

這是 K1016 最重要的發現—— 相同的模型，在不同的損失函數下產生截然相反的結論：

模型比較	評估準則	DM 統計量	結論
M2 vs M1	QLIKE r²	+1.583（未達顯著）	vix_gap 惡化表現
M2 vs M1	MSE \|r\|	-2.869（p=0.004）	vix_gap 改善表現

解讀：vix_gap 確實能改善對絕對報酬（|r|）的預測，但這個改善在轉換為 r² 目標後反而變成損害。原因在於 vix_gap 長期為正（平均超過市場已實現波動率），使 HAR+vix_gap 系統性地高估波動率。在 MSE(|r|) 準則下，高估偏誤可以被接受；但在 QLIKE(r²) 準則下，高估的懲罰是非對稱且嚴重的。

發現二：樣本內顯著性 ≠ 樣本外預測力

vix_gap 的樣本內表現令人印象深刻：

統計量	數值
vix_gap 係數 t 統計量（樣本內）	18.43
73 次滾動重估中係數為正的比例	100%
滾動係數均值	0.918（範圍 0.561 至 1.274）

然而，這樣的樣本內顯著性完全無法預示樣本外的 QLIKE 改善。這是計量財務文獻中「樣本內 vs. 樣本外」背離的教科書案例。

發現三：VIX 水準 vs. VRP——兩種 VIX 信息的等價性

比較 M2（HAR+vix_gap）和 M3（HAR+VIX_level）：

QLIKE r² 差異：DM t=+1.561（p=0.119，不顯著）
Spearman 相關係數：M2=0.384，M3=0.393（相近）

vix_gap 和 VIX 水準攜帶幾乎等量的信息 ，在 QLIKE 準則下兩者均無法顯著改善 HAR 基準。這意味著不論是使用「VIX 隱含-已實現差距」還是「VIX 絕對水準」，對 r² 目標的預測幫助相同，也就是說，研究者不需要構建複雜的 VRP 代理，直接使用 VIX 水準效果相同。

發現四：GJR-GARCH 主宰 QLIKE r² 競賽

GJR-t（M5）在 QLIKE r² 上取得 1.537 分，顯著優於 HAR 基準（M1=1.616）：

DM(M1 vs M5) = +3.041，p=0.0024——通過 Harvey (2016) t>3.0 門檻
這直接確認了 K782 的核心結論： GARCH 家族在 QLIKE r² 上系統性優於 HAR

HAR 模型的強項在於對絕對報酬（|r|）的預測，而非 r² 目標。這與 K530 的發現（HAR-ABS 在 |r| 目標 DM=-15.45 優於 GJR）形成完整的鏡像結構。

技術深探：為什麼 vix_gap 傷害 QLIKE r²？

轉換問題

HAR+vix_gap 的樣本外預測需要將 |r| 預測值轉換為 r²：

σ² = |r_hat|² × (π/2)    （假設正態分布）

vix_gap 86.5% 的時間為正（VIX 高估已實現波動率），使 HAR+vix_gap 的 |r| 預測值系統性偏高。平方後，這個偏誤被放大，在 QLIKE 的非對稱懲罰下造成嚴重損失。

波動率風險溢酬（VRP）的信息角色

vix_gap 均值為每日 0.00225（年化約 3.6%），這是已被文獻記錄的 波動率風險溢酬 。VRP 反映的是市場對波動率的保險需求，而非未來波動率本身的方向性預測。因此，vix_gap 對波動率排序（Spearman）有幫助，但對量值（QLIKE）預測的幫助有限。

實務意義

HAR 模型最適預測目標是 |r| ：若研究目標是 r² 預測（QLIKE），應選擇 GARCH 家族，特別是 GJR-t。HAR 在 |r| 目標上的優勢不會自動轉移到 r² 目標。
VRP 信號適合作為排序指標，而非量化預測 ：vix_gap 改善了 Spearman 排序相關（0.384 vs 0.323），這對分位數回歸或波動率 regime 識別有參考價值，但不宜直接加入 OLS HAR 框架。
簡潔性原則 ：HAR+VIX_level 與 HAR+vix_gap 在 QLIKE 上表現相近，而前者構造更簡單。在沒有顯著改善的情況下，複雜度不合理。
警惕樣本內顯著性 ：t=18.43 的樣本內係數看起來無可挑剔，但樣本外 QLIKE 反而惡化。研究者在見到高 t 統計量時，仍需謹慎評估是否伴隨真實的樣本外預測改善。

結論

K1016 揭示了波動率預測的一個根本張力：implied-realized spread（vix_gap）在預測波動率排序上有真實信息，但在量值預測（QLIKE r²）上反而有害。這個雙重發現不是矛盾，而是對不同損失函數的一致性回應。

核心教訓 ：評估準則的選擇（MSE |r| vs. QLIKE r²）不只是技術細節，它從根本上改變了哪個模型「更好」的結論。在多準則框架下，模型優劣可以完全反轉。

局限性

僅測試 SPY；跨資產穩健性未驗證
|r| → r² 轉換假設正態分布，在胖尾下可能偏誤
M4（GARCH-X）因技術限制退化，未完成有效比較
VRP 在長樣本中的非平穩性可能影響滾動係數穩定性

實驗腳本: experiments/k1016/k1016.py，結果: experiments/k1016/k1016_results.json（數據來源：yfinance SPY/VIX 2005-2026）