K500 Grand Retrospective:119 個實驗,一句話總結
讀者互動
已追蹤瀏覽 0 次,登入會員可按讚與收藏。
[提出: 用戶指定, 執行: Claude]
K500 Grand Retrospective:119 個實驗,我們學到了什麼?
一句話總結 :GJR-GARCH-X(VIX) 是最佳預測模型,12/VIX 是最佳策略,嚴格驗證比模型複雜度更重要。
數字概覽
這份回顧整合了 K380 至 K507 的全部實驗結果:
| 指標 | 數值 |
|---|---|
| 總實驗數 | 119 個 |
| Null result 比例 | 24.4%(29 個) |
| 正向發現比例 | 26.9%(32 個) |
| Cross-OOS 存活率 | ~47%(正向發現中通過 5-fold 驗證者) |
| 混合/部分結果 | 28.7% |
| 平均每個發現所需實驗數 | 8.5 個 |
| Cross-OOS 誤報率 | 52.9%(K492 研究效率元分析) |

左:119 個實驗結果分布。中:K426-K495 重要發現時間線,顏色代表重要性等級。右:核心量化發現摘要(資料來源:VolPred Research K500回顧,2026-03-26)。
三大頂級發現(★★★)
1. GJR-GARCH-X(VIX9D) 是最佳預測模型(K490)
在 QLIKE 損失函數下,GJR-GARCH-X 加入 VIX 作為外生變數,相較基準模型 GJR-GARCH 改善 17.4% 。加入 VIX9D(9天期 VIX)進一步提升,DM 檢定 t = 6.63(遠超 Harvey 2016 建議的 t > 3.0 門檻)。
更重要的是穩定性:VIX9D 版本的 delta 係數變異係數(CV)= 0.08,比 VIX 版本穩定 10倍 。這意味著模型不只是在某段時期偶然表現好,而是在跨期驗證(5 個 OOS 期間全部通過)中始終如一。
K481 的 Model Confidence Set(MCS)capstone 驗證 :使用 Econometrica 級的 MCS 方法,在 5 個模型中,GJR-X 為核心的 ensemble 5/5 最穩健。
2. VIX 是充分統計量(32次確認)
從 K1 到 K507,我們測試了超過 30 個外生變數(Google Trends、氣候災害、VRP、Amihud 流動性、收益率曲線、期貨基差、半方差...),幾乎全部被 VIX 所吸收。
VIX sufficiency 的統計意義:控制 VIX 後,幾乎所有其他資訊的邊際 ΔR² 都不顯著(partial r < 0.05)。K477 更進一步,用 Granger 因果法確認 VIX 是「接收器」而非「來源」,信息由市場流向 VIX,不是反過來。
實際意義 :想要改進波動率預測,直接用 VIX,而不是嘗試找 VIX 的替代品。
3. Grand Unified Model Guide(K495):Gamma 決策樹
我們發現了一個簡單的決策規則,幾乎完美替代研究人員的模型選擇判斷:
IF 資產的 GJR gamma 係數 > 0.05(有顯著槓桿效應)
→ 使用 GJR-GARCH-X(VIX) 或 Semivariance 模型
ELSE
→ 使用 GARCH-X(VIX) 或 GARCH(1,1)
驗證結果:15/15 個資產,此決策樹的選擇都在 oracle(最優模型)的 1% QLIKE 誤差內。適用範圍:股票(SPY/QQQ/0050)、商品(GLD/USO)、外匯(JPY)、加密貨幣(BTC)。
兩大重要正向發現(★★)
4. 半方差(Semivariance),方向性損失的預測力(K449/K460)
下行半方差(RS⁻)在 SPY 的樣本內 R² 提升 5.5 倍 。Cross-OOS 驗證:4/5 顯著,5/5 方向正確(K460 確認)。
背後機制:GJR-GARCH 的 gamma 係數(槓桿效應參數)解釋了半方差的橫截面差異,r = 0.812(K453)。高 gamma 資產(SPY)從半方差獲益最大;低 gamma 資產(台灣 0050.TW, gamma < 0.05)半方差完全無效(K456)。
5. HAR Log-Range——高頻波動率的日頻近似(K465)
利用每日 High-Low range 估計已實現波動率,HAR 模型 cross-OOS 通過率: 10/10(Parkinson proxy) 和 8/10(R² proxy,K469 驗證) 。達到 publication-ready 水準。
重要澄清:K468 測試了「Tautology」問題(用 range proxy 評估 range model 是否存在循環邏輯)。K469 確認 tautology 只降低通過率 2/10,結論穩健。
三大反直覺的 Null Results
6. VRP(波動率風險溢酬)的假陽性警告(K436→K459)
K436 初步測試 VRP 為 GARCH-X 外生變數,樣本內 IS t = 4.38,通過 Harvey 門檻,結論「VRP IS significant」。
K459 推翻了這個結論 :Cross-OOS 驗證 0/5 QLIKE 期間顯著優於基準。「樣本內顯著 ≠ 樣本外預測力」的教訓再次確認。
7. 複雜模型不如簡單模型(K431/K437/K442)
- STGARCH(Smooth-Transition,9個參數):GJR(3個參數)顯著勝,DM p < 0.001
- GAS-t(Score-Driven):在日頻資料排名 6/6(最後)
- FIGARCH(長記憶,d = 0.61):OOS 不改善
教訓 :過度擬合是日頻波動率模型的宿敵。複雜度不是美德。
8. 預測力 ≠ 策略應用(4次確認)
最好的預測模型不一定帶來最好的策略績效。確認案例:
- K440:VRP-VT 策略,預測改善 +6.3% 但 Sharpe 未改善
- K467:HAR VaR Trinity,最佳預測模型(HAR range)VaR 0/6 通過
- K470:HAR-VT 策略,Sharpe +0.067 但 p = 0.181 NS
- K488:GJR-X(VIX) VT,4th confirmation,12/VIX 仍不可替代
最重要的方法論教訓
一、Cross-OOS 是必要的,不是選項
K492 的研究效率元分析顯示:如果只做單期 OOS 驗證,誤報率高達 52.9% 。Cross-OOS(至少 5 個不重疊期間)將誤報率降至可接受水準。
我們捕獲了 4 個 false positives(K459/K474/K476/K506),全部都是「單期看起來很好但 cross-OOS 失敗」的案例。
二、Harvey (2016) t > 3.0 門檻有其道理
傳統 t > 2 的顯著性標準在大量多重比較下會產生大量假陽性。Harvey et al. (2016) 建議的 t > 3.0 在我們的研究中被反覆驗證:許多通過 t > 2 的發現在 cross-OOS 中失敗,但通過 t > 3.0 的幾乎都站穩了。
三、負向結果同樣有價值
24.4% 的 null results 不是失敗,而是「已關閉的路徑」。研究者知道「VRP 不行、高階矩不行、ML 方法不行(U1)、注意力數據不行」,這本身就是知識積累。
研究局限性
- 資產範圍 :主要集中在 SPY,跨資產驗證(K487)仍有限
- OOS 期間 :2020-2024 包含特殊的 COVID 波動,可能高估某些模型的適應能力
- 日頻限制 :高頻 HAR 模型(arXiv:2503.00851 等最新前沿)需要 5-min 數據,目前受限於數據積累期(ETA 2026-04)
- 台灣市場 :K472 顯示所有美股驗證方法在台股失敗(GARCH ceiling 跨市場通用),台股方向尚待開拓
- 策略側 :波動率預測框架已飽和,但下一階段(策略轉化)仍在探索中
接下來的研究方向
基於 119 個實驗的飽和分析,日頻方向已達邊際報酬遞減。下一個突破點:
- 高頻 HAR-RV (等 5-min 數據 2026-04):Rough Volatility, HAR-PD, Intraday Commonality
- 策略轉化 (Decision-focused policy learning, Codex 建議)
- 台灣市場深化 :K501-K508 系列,用不同框架探索台股的獨特結構
本文基於 VolPred Research K380-K507 實驗系列(2025-2026)。全部 119 個實驗均有對應 experiments/.py 腳本和 _results.json 存檔,可驗證。資料來源:yfinance(SPY/QQQ/GLD/TLT/BTC/0050.TW 等)+ CBOE VIX + FRED STLFSI4。評估指標:QLIKE 損失函數,DM 檢定,Harvey (2016) t > 3.0 門檻,5-fold Cross-OOS 驗證。
相關文章
先讀正式關聯,若無則使用標籤與主題相似度補齊