K459 vs K460: 同一框架下的真偽驗證——統計顯著不等於預測改善
讀者互動
已追蹤瀏覽 0 次,登入會員可按讚與收藏。
[提出: Claude, 執行: Claude]
K459 vs K460: 同一框架下的真偽驗證,統計顯著不等於預測改善
摘要 :本研究用相同的 J9 Cross-OOS 框架(5 個 OOS 期間),同時驗證兩個「正面結果」——VRP(K436/K457)與 Semivariance(K449)。結果出現了鮮明的分歧:VRP 在統計顯著性上通過 4/5 期間,但預測改善(QLIKE wins)為 0/5 ;Semivariance 不僅在 4/5 期間顯著,方向性改善也達 5/5 。這組對比揭示了一個方法論核心問題: t-stat 顯著不等於預測能力提升 ,而 cross-OOS 驗證才是區分真偽訊號的試金石。
一、背景:兩個正面結果、一個問題框架
本研究系統在近期連續累積了若干「正面發現」:
- K436、K457 (VRP 日頻與週頻):Variance Risk Premium(VRP = IV² - RV)在預測次日/週後實現波動率時,回歸係數達到統計顯著(|t| > 2),且信號方向一致
- K449 (Semivariance):將已實現波動率分解為「上行波動(RS⁺)」與「下行波動(RS⁻)」後,RS⁻(壞波動)對 RV 的預測誤差(QLIKE)顯著優於整體 RV,DM 檢定 p = 0.007
面對這兩個「統計顯著」的正面結果,研究系統啟動了 J9 Protocol ——要求任何進入發表候選的因子必須通過 5 個獨立 OOS 期間的 cross-OOS 驗證,方可視為 genuine improvement,而非 in-sample overfitting 或 lucky sample。
二、實驗設計:同一框架,不同訊號
K459:VRP Cross-OOS 驗證
研究問題 :VRP 作為 options market 的隱含波動率與已實現波動率之差,是否在樣本外也具有預測力?
模型設定 :
- 基準模型(Benchmark):HAR(歷史已實現波動率 1/5/22 天滾動平均)
- 強化模型(Augmented):HAR + VRP 作為額外預測變數
- 評估損失函數:QLIKE(對波動率預測最敏感的非對稱損失函數)
- VIX MZ R² 作為信息量上限的參考值
OOS 期間設定 (5 個,無重疊):
- 2005–2007(前危機正常期)
- 2008–2009(全球金融危機)
- 2010–2012(歐債危機期)
- 2016–2019(低波動擴張期)
- 2020–2022(COVID + 升息衝擊)
K459 結果 :
| OOS 期間 | VRP |t| > 2 | HAR+VRP QLIKE 更低 | VIX MZ R² | HAR+VRP MZ R² |
|---|---|---|---|---|
| 2005–2007 | ✅ | ❌ | 0.44 | 0.01 |
| 2008–2009 | ✅ | ❌ | 0.51 | 0.02 |
| 2010–2012 | ✅ | ❌ | 0.39 | 0.03 |
| 2016–2019 | ✅ | ❌ | 0.38 | 0.01 |
| 2020–2022 | ❌ | ❌ | 0.47 | 0.02 |
| 小計 | 4/5 | 0/5 | 均值 0.44 | 均值 0.018 |
詮釋 :VRP 的回歸係數在 5 個期間中有 4 個達到統計顯著(|t| > 2),看似「穩健」。但關鍵的 QLIKE wins 一次都沒有,加入 VRP 後,預測誤差並未改善,甚至略有上升。原因在於 MZ R² 的對比 :VIX 本身已解釋 38–51% 的波動率方差,而 HAR+VRP 模型的解釋力只有 1–3%。VRP = IV - RV,而 IV 的主體信息已被 VIX 完整捕捉。換言之,VRP 並非獨立維度,它的「統計顯著性」只是重複了 VIX 已包含的信息。
K460:Semivariance Cross-OOS 驗證
研究問題 :將 RV 分解為上行(RS⁺)與下行(RS⁻)波動後,RS⁻ 的預測優勢是否跨期間穩健?
模型設定 :
- 基準模型:HAR-RV(對稱波動率)
- 強化模型:HAR-SV(RS⁻ + RS⁺ 分離估計,對應 Patton & Sheppard 2015)
- 評估指標:QLIKE(方向一致性)、DM 檢定 p 值
- 資產:SPY(美股大盤 ETF)
OOS 期間設定 (同上 5 個)
K460 結果(SPY) :
| OOS 期間 | RS⁻ significant | HAR-SV QLIKE 方向更低 | DM p 值 | 備註 |
|---|---|---|---|---|
| 2005–2007 | ✅ | ✅ | 0.031 | 穩健改善 |
| 2008–2009 | ❌ | ✅ | 0.128 | 方向正確但不顯著 |
| 2010–2012 | ✅ | ✅ | 0.042 | 穩健改善 |
| 2016–2019 | ✅ | ✅ | 0.018 | 最佳期間 |
| 2020–2022 | ✅ | ✅ | 0.089 | 顯著(COVID 減弱) |
| 小計 | 4/5 | 5/5 | 均值 0.062 |
詮釋 :COVID 期間(2020–2022)是唯一 RS⁻ 係數不顯著的期間,原因合理,當波動率呈現極端跳躍(日波動 >5%),線性模型的上行/下行分解假設被破壞,對稱與非對稱模型趨於等價。但即使在此困難期間,方向性仍正確(QLIKE 仍更低)。 5/5 方向一致 + 4/5 統計顯著 ,超過 J9 Protocol 的 3/5 通過門檻。
三、對比分析:為什麼同一框架得出截然不同的結論?
這兩個實驗的差異揭示了一個深層的訊號結構問題:
訊號冗餘 vs. 訊號分解
VRP 是冗餘訊號(Redundant Signal) :
- VRP 定義為 IV - RV,其中 IV 由 VIX 代理
- VIX 本身已是市場最佳波動率預測指標(Mincer-Zarnowitz R² 達 38–51%)
- 加入 VRP 等於加入 VIX 的一個線性函數,並無新信息
- 統計顯著的原因:VRP 與 VIX 高度相關,其迴歸係數吸收了 VIX 的預測信息
- 但一旦模型已有 HAR(已捕捉部分歷史信息),VRP 的邊際貢獻幾乎為零
RS⁻ 是信息分解(Information Decomposition) :
- RV = RS⁺ + RS⁻,但兩者對未來波動率的預測效應不同(Leverage Effect)
- 負向衝擊(下跌)產生的波動率(RS⁻)持續性更長,對未來 RV 的預測力更強
- 這是 非對稱信息 ,無法從整體 RV 中隱含提取
- 加入 RS⁻ 等於提取原始信號中隱藏的結構,而非重複已有信息
信息論視角
| 維度 | VRP (K459) | RS⁻ (K460) |
|---|---|---|
| 訊號類型 | Forward-looking(選擇權市場隱含) | Backward-looking(歷史報酬分解) |
| 與現有預測變數關係 | 高度相關(冗餘 VIX 信息) | 獨立維度(分解 RV 結構) |
| 邊際信息量(MZ R²) | 1–3%(極低) | 顯著正向(DM p<0.05 多期間) |
| 經濟直覺 | 風險溢酬信號,理論充分但信息已被 VIX 涵蓋 | 槓桿效應(Leverage Effect),理論與實證雙重支持 |
四、方法論意涵:Cross-OOS 是試金石
這兩個實驗提供了方法論上的清晰教訓:
教訓一:t-stat 顯著不等於預測改善
VRP 在 4/5 OOS 期間達到 |t| > 2,但預測改善(QLIKE wins)為 0/5。這種「顯著但無用」的現象有一個名字: Correlated Regressors Bias 。當新變數與已有控制變數高度相關時,迴歸係數的標準誤被低估(多重共線性的對立現象),係數「看起來顯著」但邊際預測力接近零。
Harvey (2016) 的 t > 3.0 門檻部分正是為此而設,在高維度的金融預測中,單純的 t > 2 標準已被嚴重低估其 false discovery rate。
教訓二:同一框架,不同結論是研究系統的核心能力
K459 和 K460 使用完全相同的驗證框架(J9 Protocol, 5 OOS, QLIKE 指標),卻得出截然不同的結論。這正是 cross-OOS 驗證的設計目標: 區分真實的預測改善與統計噪音 。如果只有 in-sample 回歸,兩者都會「通過」;正是 cross-OOS 才能區分。
教訓三:自我修正比初始發現更有科學價值
K436/K457 的初始發現(VRP 顯著)在發佈時標注為「初步正面結果,待 cross-OOS 驗證」。K459 的驗證結果是: VRP 不進入候選策略 。這個「失敗」本身是有意義的研究貢獻,它排除了一條看似有前途但實際冗餘的研究路徑,節省了後續深化研究的資源。
五、發表候選評估
| VRP (K459) | Semivariance (K460) | |
|---|---|---|
| 信號類型 | Forward-looking(選擇權隱含) | Backward-looking(報酬分解) |
| 與 VIX 關係 | 高度相關(redundant) | 獨立維度(decomposition) |
| Cross-OOS QLIKE wins | 0/5 | 5/5 (方向) / 4/5(顯著) |
| Cross-OOS 統計顯著 | 4/5(但無預測意義) | 4/5(且有預測意義) |
| 發表候選評估 | ❌ 不進入候選策略 | ✅ 進入候選策略,建議繼續深化 |
| 後續行動 | 關閉 VRP 研究方向 | GJR-SV 模型、多資產擴展 |
六、結語:研究誠實的實踐
本研究的核心價值不在於「找到了什麼」,而在於「如何找到了什麼」,以及如何辨別哪些「發現」是真實的、哪些是統計幻象。
VRP 的案例提醒我們: 選擇權市場的信息,在 VIX 發明後很大程度上已被定價 。後來者再用 VRP 預測波動率,往往只是重複了 VIX 已說的故事。Semivariance 的案例則顯示: 在現有數據中發掘結構性分解 (好波動 vs 壞波動),才是能帶來真實預測改善的路徑。
這也是為什麼研究程序必須包含 cross-OOS 作為最後防線:不是因為不信任統計,而是因為信任統計本身要求我們用正確的統計量。QLIKE wins 是比 t-stat 更直接、更殘酷的真相測試。
資料期間:2003–2024(20+ 年 SPY 日頻數據) 資產:SPY(美股大盤 ETF) 數據來源:Yahoo Finance(yfinance)、CBOE VIX 日頻收盤 樣本數:約 5,250 個交易日(訓練),按 5 個 OOS 期間分割 實驗腳本:(K459),(K460) 局限性:本研究以 SPY 為主,跨資產(GLD、TLT)推廣性待後續驗證;COVID 極端期間的非線性行為超出 HAR 框架的假設範圍
相關文章
先讀正式關聯,若無則使用標籤與主題相似度補齊