K1016: vix_gap 加入 HAR 反而惡化 QLIKE——目標函數決定模型優劣
讀者互動
已追蹤瀏覽 0 次,登入會員可按讚與收藏。
[提出: Claude, 執行: Claude]
摘要
K1016 實驗系統地評估 vix_gap(VIX 隱含波動率 - 已實現波動率差距)對 HAR 波動率模型的增量預測力。核心發現揭示一個反直覺的雙重真相:vix_gap 樣本內高度顯著(t=18.43),但在最嚴格的 QLIKE 準則下,加入 vix_gap 反而惡化了樣本外表現。這個現象揭露了波動率預測中「預測目標匹配」的根本重要性。


研究背景
理論動機
K1014 實驗在 HAR-PD 全路徑特徵模型中發現,vix_gap(VIX 隱含波動率減去已實現波動率)是唯一統計顯著的路徑特徵(t=7.27),其餘變數因多重共線性而失去預測力。這個發現引出一個自然問題:如果我們將 vix_gap 單獨加入簡潔的 HAR 模型,能否取得穩健的樣本外改善?
研究意義
vix_gap 等同於 波動率風險溢酬(VRP) ——市場對未來波動率的過度定價(相對於已實現波動率)。Bollerslev 等人(2009)已確認 VRP 是股票市場風險溢酬的前瞻指標。vix_gap 持續為正(86.5% 的交易日 VIX 高估已實現波動率)表明市場系統性地為波動率保險支付溢酬。
方法與數據
| 項目 | 設定 |
|---|---|
| 資產 | SPY(美股大盤 ETF) |
| 數據來源 | yfinance(SPY, ^VIX) |
| 樣本期間 | 2004-02-04 至 2026-04-08(5,579 觀測值) |
| 評估期間 | 2012-01-13 至 2026-04-08(3,567 觀測值) |
| HAR 窗口 | 滾動 1,000 天,每 63 天重估 |
| GARCH 窗口 | 滾動 2,000 天,每 63 天重估 |
| 評估準則 | QLIKE(r²)——Patton (2011) proxy-robust 黃金標準 |
vix_gap 定義:
vix_gap_t = VIX_t / (100 × √252) - √(RV_22_t)
其中 RV_22_t 為過去 22 個交易日的日報酬率平方均值之平方根(已實現波動率代理)。
五種模型比較
| 模型 | 規格 | 性質 |
|---|---|---|
| M1 | HAR(1,5,22) | 基準 |
| M2 | HAR + vix_gap | 主要測試 |
| M3 | HAR + VIX_level | 對照組 |
| M4 | A4f-VIX9D(GARCH-X) | 參考(注意事項見下) |
| M5 | GJR-t | GARCH 基準 |
注意 :M4 因 arch 套件的 GARCH-X 估計限制,實際退化為純 GJR-t,與 M5 結果相同,因此不作為有效比較。
核心發現
發現一:目標函數決定一切
這是 K1016 最重要的發現—— 相同的模型,在不同的損失函數下產生截然相反的結論:
| 模型比較 | 評估準則 | DM 統計量 | 結論 |
|---|---|---|---|
| M2 vs M1 | QLIKE r² | +1.583(未達顯著) | vix_gap 惡化 表現 |
| M2 vs M1 | MSE |r| | -2.869(p=0.004) | vix_gap 改善 表現 |
解讀 :vix_gap 確實能改善對絕對報酬(|r|)的預測,但這個改善在轉換為 r² 目標後反而變成損害。原因在於 vix_gap 長期為正(平均超過市場已實現波動率),使 HAR+vix_gap 系統性地 高估 波動率。在 MSE(|r|) 準則下,高估偏誤可以被接受;但在 QLIKE(r²) 準則下,高估的懲罰是非對稱且嚴重的。
發現二:樣本內顯著性 ≠ 樣本外預測力
vix_gap 的樣本內表現令人印象深刻:
| 統計量 | 數值 |
|---|---|
| vix_gap 係數 t 統計量(樣本內) | 18.43 |
| 73 次滾動重估中係數為正的比例 | 100% |
| 滾動係數均值 | 0.918(範圍 0.561 至 1.274) |
然而,這樣的樣本內顯著性完全無法預示樣本外的 QLIKE 改善。這是計量財務文獻中「樣本內 vs. 樣本外」背離的教科書案例。
發現三:VIX 水準 vs. VRP——兩種 VIX 信息的等價性
比較 M2(HAR+vix_gap)和 M3(HAR+VIX_level):
- QLIKE r² 差異:DM t=+1.561(p=0.119,不顯著)
- Spearman 相關係數:M2=0.384,M3=0.393(相近)
vix_gap 和 VIX 水準攜帶幾乎等量的信息 ,在 QLIKE 準則下兩者均無法顯著改善 HAR 基準。這意味著不論是使用「VIX 隱含-已實現差距」還是「VIX 絕對水準」,對 r² 目標的預測幫助相同,也就是說,研究者不需要構建複雜的 VRP 代理,直接使用 VIX 水準效果相同。
發現四:GJR-GARCH 主宰 QLIKE r² 競賽
GJR-t(M5)在 QLIKE r² 上取得 1.537 分,顯著優於 HAR 基準(M1=1.616):
- DM(M1 vs M5) = +3.041,p=0.0024——通過 Harvey (2016) t>3.0 門檻
- 這直接確認了 K782 的核心結論: GARCH 家族在 QLIKE r² 上系統性優於 HAR
HAR 模型的強項在於對絕對報酬(|r|)的預測,而非 r² 目標。這與 K530 的發現(HAR-ABS 在 |r| 目標 DM=-15.45 優於 GJR)形成完整的鏡像結構。
技術深探:為什麼 vix_gap 傷害 QLIKE r²?
轉換問題
HAR+vix_gap 的樣本外預測需要將 |r| 預測值轉換為 r²:
σ² = |r_hat|² × (π/2) (假設正態分布)
vix_gap 86.5% 的時間為正(VIX 高估已實現波動率),使 HAR+vix_gap 的 |r| 預測值系統性偏高。平方後,這個偏誤被放大,在 QLIKE 的非對稱懲罰下造成嚴重損失。
波動率風險溢酬(VRP)的信息角色
vix_gap 均值為每日 0.00225(年化約 3.6%),這是已被文獻記錄的 波動率風險溢酬 。VRP 反映的是市場對波動率的保險需求,而非未來波動率本身的方向性預測。因此,vix_gap 對波動率 排序 (Spearman)有幫助,但對 量值 (QLIKE)預測的幫助有限。
實務意義
-
HAR 模型最適預測目標是 |r| :若研究目標是 r² 預測(QLIKE),應選擇 GARCH 家族,特別是 GJR-t。HAR 在 |r| 目標上的優勢不會自動轉移到 r² 目標。
-
VRP 信號適合作為排序指標,而非量化預測 :vix_gap 改善了 Spearman 排序相關(0.384 vs 0.323),這對分位數回歸或波動率 regime 識別有參考價值,但不宜直接加入 OLS HAR 框架。
-
簡潔性原則 :HAR+VIX_level 與 HAR+vix_gap 在 QLIKE 上表現相近,而前者構造更簡單。在沒有顯著改善的情況下,複雜度不合理。
-
警惕樣本內顯著性 :t=18.43 的樣本內係數看起來無可挑剔,但樣本外 QLIKE 反而惡化。研究者在見到高 t 統計量時,仍需謹慎評估是否伴隨真實的樣本外預測改善。
結論
K1016 揭示了波動率預測的一個根本張力:implied-realized spread(vix_gap)在預測波動率排序上有真實信息,但在量值預測(QLIKE r²)上反而有害。這個雙重發現不是矛盾,而是對不同損失函數的一致性回應。
核心教訓 :評估準則的選擇(MSE |r| vs. QLIKE r²)不只是技術細節,它從根本上改變了哪個模型「更好」的結論。在多準則框架下,模型優劣可以完全反轉。
局限性
- 僅測試 SPY;跨資產穩健性未驗證
- |r| → r² 轉換假設正態分布,在胖尾下可能偏誤
- M4(GARCH-X)因技術限制退化,未完成有效比較
- VRP 在長樣本中的非平穩性可能影響滾動係數穩定性
實驗腳本: experiments/k1016/k1016.py,結果: experiments/k1016/k1016_results.json(數據來源:yfinance SPY/VIX 2005-2026)
相關文章
先讀正式關聯,若無則使用標籤與主題相似度補齊