K500 Grand Retrospective：119 個實驗，一句話總結

讀者互動

已追蹤瀏覽 0 次，登入會員可按讚與收藏。

[提出: 用戶指定, 執行: Claude]

K500 Grand Retrospective：119 個實驗，我們學到了什麼？

一句話總結 ：GJR-GARCH-X(VIX) 是最佳預測模型，12/VIX 是最佳策略，嚴格驗證比模型複雜度更重要。

數字概覽

這份回顧整合了 K380 至 K507 的全部實驗結果：

指標	數值
總實驗數	119 個
Null result 比例	24.4%（29 個）
正向發現比例	26.9%（32 個）
Cross-OOS 存活率	~47%（正向發現中通過 5-fold 驗證者）
混合/部分結果	28.7%
平均每個發現所需實驗數	8.5 個
Cross-OOS 誤報率	52.9%（K492 研究效率元分析）

K500 Grand Retrospective 視覺化摘要

左：119 個實驗結果分布。中：K426-K495 重要發現時間線，顏色代表重要性等級。右：核心量化發現摘要（資料來源：VolPred Research K500回顧，2026-03-26）。

三大頂級發現（★★★）

1. GJR-GARCH-X(VIX9D) 是最佳預測模型（K490）

在 QLIKE 損失函數下，GJR-GARCH-X 加入 VIX 作為外生變數，相較基準模型 GJR-GARCH 改善 17.4% 。加入 VIX9D（9天期 VIX）進一步提升，DM 檢定 t = 6.63（遠超 Harvey 2016 建議的 t > 3.0 門檻）。

更重要的是穩定性：VIX9D 版本的 delta 係數變異係數（CV）= 0.08，比 VIX 版本穩定 10倍 。這意味著模型不只是在某段時期偶然表現好，而是在跨期驗證（5 個 OOS 期間全部通過）中始終如一。

K481 的 Model Confidence Set（MCS）capstone 驗證 ：使用 Econometrica 級的 MCS 方法，在 5 個模型中，GJR-X 為核心的 ensemble 5/5 最穩健。

2. VIX 是充分統計量（32次確認）

從 K1 到 K507，我們測試了超過 30 個外生變數（Google Trends、氣候災害、VRP、Amihud 流動性、收益率曲線、期貨基差、半方差...），幾乎全部被 VIX 所吸收。

VIX sufficiency 的統計意義：控制 VIX 後，幾乎所有其他資訊的邊際 ΔR² 都不顯著（partial r < 0.05）。K477 更進一步，用 Granger 因果法確認 VIX 是「接收器」而非「來源」，信息由市場流向 VIX，不是反過來。

實際意義 ：想要改進波動率預測，直接用 VIX，而不是嘗試找 VIX 的替代品。

3. Grand Unified Model Guide（K495）：Gamma 決策樹

我們發現了一個簡單的決策規則，幾乎完美替代研究人員的模型選擇判斷：

IF 資產的 GJR gamma 係數 > 0.05（有顯著槓桿效應）
    → 使用 GJR-GARCH-X(VIX) 或 Semivariance 模型
ELSE
    → 使用 GARCH-X(VIX) 或 GARCH(1,1)

驗證結果：15/15 個資產，此決策樹的選擇都在 oracle（最優模型）的 1% QLIKE 誤差內。適用範圍：股票（SPY/QQQ/0050）、商品（GLD/USO）、外匯（JPY）、加密貨幣（BTC）。

兩大重要正向發現（★★）

4. 半方差（Semivariance），方向性損失的預測力（K449/K460）

下行半方差（RS⁻）在 SPY 的樣本內 R² 提升 5.5 倍 。Cross-OOS 驗證：4/5 顯著，5/5 方向正確（K460 確認）。

背後機制：GJR-GARCH 的 gamma 係數（槓桿效應參數）解釋了半方差的橫截面差異，r = 0.812（K453）。高 gamma 資產（SPY）從半方差獲益最大；低 gamma 資產（台灣 0050.TW, gamma < 0.05）半方差完全無效（K456）。

5. HAR Log-Range——高頻波動率的日頻近似（K465）

利用每日 High-Low range 估計已實現波動率，HAR 模型 cross-OOS 通過率： 10/10（Parkinson proxy） 和 8/10（R² proxy，K469 驗證） 。達到 publication-ready 水準。

重要澄清：K468 測試了「Tautology」問題（用 range proxy 評估 range model 是否存在循環邏輯）。K469 確認 tautology 只降低通過率 2/10，結論穩健。

三大反直覺的 Null Results

6. VRP（波動率風險溢酬）的假陽性警告（K436→K459）

K436 初步測試 VRP 為 GARCH-X 外生變數，樣本內 IS t = 4.38，通過 Harvey 門檻，結論「VRP IS significant」。

K459 推翻了這個結論 ：Cross-OOS 驗證 0/5 QLIKE 期間顯著優於基準。「樣本內顯著 ≠ 樣本外預測力」的教訓再次確認。

7. 複雜模型不如簡單模型（K431/K437/K442）

STGARCH（Smooth-Transition，9個參數）：GJR（3個參數）顯著勝，DM p < 0.001
GAS-t（Score-Driven）：在日頻資料排名 6/6（最後）
FIGARCH（長記憶，d = 0.61）：OOS 不改善

教訓：過度擬合是日頻波動率模型的宿敵。複雜度不是美德。

8. 預測力 ≠ 策略應用（4次確認）

最好的預測模型不一定帶來最好的策略績效。確認案例：

K440：VRP-VT 策略，預測改善 +6.3% 但 Sharpe 未改善
K467：HAR VaR Trinity，最佳預測模型（HAR range）VaR 0/6 通過
K470：HAR-VT 策略，Sharpe +0.067 但 p = 0.181 NS
K488：GJR-X(VIX) VT，4th confirmation，12/VIX 仍不可替代

最重要的方法論教訓

一、Cross-OOS 是必要的，不是選項

K492 的研究效率元分析顯示：如果只做單期 OOS 驗證，誤報率高達 52.9% 。Cross-OOS（至少 5 個不重疊期間）將誤報率降至可接受水準。

我們捕獲了 4 個 false positives（K459/K474/K476/K506），全部都是「單期看起來很好但 cross-OOS 失敗」的案例。

二、Harvey (2016) t > 3.0 門檻有其道理

傳統 t > 2 的顯著性標準在大量多重比較下會產生大量假陽性。Harvey et al. (2016) 建議的 t > 3.0 在我們的研究中被反覆驗證：許多通過 t > 2 的發現在 cross-OOS 中失敗，但通過 t > 3.0 的幾乎都站穩了。

三、負向結果同樣有價值

24.4% 的 null results 不是失敗，而是「已關閉的路徑」。研究者知道「VRP 不行、高階矩不行、ML 方法不行（U1）、注意力數據不行」，這本身就是知識積累。

研究局限性

資產範圍 ：主要集中在 SPY，跨資產驗證（K487）仍有限
OOS 期間 ：2020-2024 包含特殊的 COVID 波動，可能高估某些模型的適應能力
日頻限制 ：高頻 HAR 模型（arXiv:2503.00851 等最新前沿）需要 5-min 數據，目前受限於數據積累期（ETA 2026-04）
台灣市場 ：K472 顯示所有美股驗證方法在台股失敗（GARCH ceiling 跨市場通用），台股方向尚待開拓
策略側 ：波動率預測框架已飽和，但下一階段（策略轉化）仍在探索中

接下來的研究方向

基於 119 個實驗的飽和分析，日頻方向已達邊際報酬遞減。下一個突破點：

高頻 HAR-RV （等 5-min 數據 2026-04）：Rough Volatility, HAR-PD, Intraday Commonality
策略轉化 （Decision-focused policy learning, Codex 建議）
台灣市場深化 ：K501-K508 系列，用不同框架探索台股的獨特結構

本文基於 VolPred Research K380-K507 實驗系列（2025-2026）。全部 119 個實驗均有對應 experiments/.py 腳本和 _results.json 存檔，可驗證。資料來源：yfinance（SPY/QQQ/GLD/TLT/BTC/0050.TW 等）+ CBOE VIX + FRED STLFSI4。評估指標：QLIKE 損失函數，DM 檢定，Harvey (2016) t > 3.0 門檻，5-fold Cross-OOS 驗證。