← 研究動態
研究2026/06/12 上午09:07

K482:MCS p-value 加權平均輸給等權重,不是 5 段全敗

GARCHMCSQLIKESPY波動率預測Ensemble加權方案

讀者互動

已追蹤瀏覽 0 次,登入會員可按讚與收藏。

分享到:LINEFacebookX / Twitter

K482:MCS p-value 加權平均輸給等權重,不是 5 段全敗

 [提出: User, 執行: Claude;2026-06-12 Codex review 更正] 

更正摘要

原文把 K482 的主要結果寫成「等權重在 5 個市況全勝」與「MCS p-value 加權在 5 個市況全輸」。這個說法過強。experiments/k482/k482_mcs_weighted_ensemble_results.json 支持的正確結論是:

  • 等權重在 5 個 OOS 期間的 平均 QLIKE  低於 MCS p-value 加權:0.721023 vs 0.735633,MCS 平均損失高 2.03%。
  • 逐期間比較不是 clean sweep:Equal 在 2015-2016、2017-2018、2019-2020 較好;MCS_PValue 在 2021-2022 與 2023-2025 數值上略好。
  • 只有 2017-2018 Volmageddon 期間的 Equal vs MCS 差異達 5% 顯著:DM=-2.6034p=0.0092
  • 五期間 Wilcoxon test 未達顯著:W=3.0p=0.3125
  • Inv_QLIKE_Prev 是無 lookahead 的 period-level 自適應變體,但它的平均 QLIKE 是 0.755654,整體比等權重差,不應描述為接近等權重。

因此,本文結論改為:K482 支持 Timmermann forecast combination puzzle 的「平均 loss」版本,也就是 naive equal weight 在這個 SPY / 4-model / 5-period 設定下平均勝過 MCS p-value weighting;但它不支持「每個市況都勝」的強宣稱。


研究背景

波動率預測文獻有一個反覆出現的現象:把模型的統計資訊用來決定如何分配權重,理論上應該比平均分配更好,但實證上往往沒有。Timmermann(2006)將這類現象整理為 forecast combination puzzle。

K481 用 MCS 方法(Hansen, Lunde, Nason 2011)找出 4 個可納入 ensemble 的成份模型:GJR-GARCH、EGARCH、HAR log-range、HAR-Semivariance。K482 的問題是:既然 MCS 已提供 p-value 訊號,把 p-value 正規化成權重,是否能打敗 1/4 等權重?


方法與數據

項目設定
資產SPY(yfinance,2005-02-02 至 2026-03-25)
樣本數5,319 個觀測值
IS 窗口2,000 個交易日
重估頻率每季(63 個交易日)
成份模型GJR-GARCH(1,1) Student-t / EGARCH(1,1) / HAR log-range / HAR-Semivariance
OOS 期間2015-2016 / 2017-2018 / 2019-2020 / 2021-2022 / 2023-2025
損失函數QLIKE(Patton 2011),使用 r2 proxy 作為真實波動率替代
顯著性檢定Diebold-Mariano test + 五期間 Wilcoxon signed-rank test

 六種比較方案 

方案定義是否可實際執行
Equal_Weight各模型 1/4 等權
MCS_PValue依 K481 MCS p-value 比例加權是(靜態)
MCS_Subperiod依 K481 子期間 MCS p-value 比例加權是(但需先有子期間估計)
Inv_QLIKE依當期 QLIKE 倒數加權否,oracle
Inv_QLIKE_Prev依前一期 QLIKE 倒數加權是,period-level 無 lookahead
Best_Single每期事後最佳單一模型否,ex-post benchmark

核心結果

K482:五個 OOS 期間各加權方案的 QLIKE 比較

圖1:5 個 OOS 期間下各加權方案的 QLIKE。數值越低代表損失越小。

期間nEqual_WeightMCS_PValueMCS_SubperiodInv_QLIKE_PrevBest_SingleEqual vs MCS
2015-2016(低波動)5040.57530.58760.5760-0.5892Equal 較好
2017-2018(Volmageddon)5020.10930.15070.10720.09020.1098Equal 較好,且顯著
2019-2020(COVID)5051.08761.10851.09111.09671.1329Equal 較好
2021-2022(升息)5031.21981.21821.26061.22251.2205MCS 略好,未顯著
2023-2025(後疫情)7520.61310.61310.61290.61320.6251MCS 極小幅略好,未顯著
 平均  0.7210 0.73560.72960.75570.7355Equal 平均較好

表中保留了兩個重點。第一,Equal_Weight 的平均 QLIKE 最低,這是本文的主要實證訊號。第二,這不是每期都贏;2021-2022 與 2023-2025 的 MCS_PValue 數值略低,但差距非常小,DM test 不支持把這兩段解讀為有統計意義的 MCS 優勢。


MCS p-value 權重為何沒有改善平均 QLIKE

MCS p-value 權重與平均 QLIKE 排名

圖2:MCS p-value 正規化後的靜態權重,以及各方案跨期間平均表現。

K482 使用的 MCS p-values 為 GJR=0.186、EGARCH=0.461、HAR=0.141、Semi=0.785。正規化後,HAR-Semivariance 佔 49.9%,EGARCH 佔 29.3%,GJR 與 HAR 合計只剩約 20.7%。

這不是 MCS 方法本身錯,而是「把特定估計期間的 p-value 固化為跨市況永久權重」引入了穩定性假設。若市場結構切換,過高的 Semi 權重會讓 ensemble 變得不夠分散。等權重沒有估計誤差優勢;它只是避免讓任何單一模型主導。


正式檢定

Equal_Weight vs MCS_PValue 的 DM test 如下:

期間DM statp-valueEqual 較好5% 顯著
2015-2016-1.01530.3100
2017-2018-2.60340.0092
2019-2020-1.87810.0604
2021-20220.19360.8465
2023-20250.00020.9998

整體五期間 Wilcoxon signed-rank test 為 W=3.0p=0.3125,沒有達到顯著。這代表本文不能宣稱「MCS p-value weighting 在每個市場狀態都失敗」;能宣稱的是,在這個設計下,Equal_Weight 的平均 QLIKE 較低,而最強的 period-level 統計證據集中在 Volmageddon。


Lookahead 與可執行性

K482 的核心 forecast loop 對 Equal_Weight、MCS_PValue、MCS_Subperiod 都是 ex-ante:第 t 日預測使用 feat.iloc[is_start:pos] 的資料估計模型,再和第 t 日 realized variance 比較。

Inv_QLIKE 使用當期 QLIKE 來決定權重,是 oracle 上界,不可實際執行。Inv_QLIKE_Prev 使用上一個 OOS period 的 component QLIKE,沒有同期間 lookahead,但它在跨市況切換時不穩定,平均 QLIKE 0.755654 比等權重差。


實務意義

  1.  MCS 比較適合作為篩選工具,而不是直接權重工具。  K481 的 p-values 可以幫助決定哪些模型進入候選集合;K482 顯示,把 p-value 直接正規化成固定權重不一定改善平均 OOS loss。

  2.  等權重仍是非常強的 baseline。  若一個 adaptive weighting 方法沒有清楚通過 Harvey/DM 或 bootstrap 類正式檢定,不能只因方法更複雜就宣稱它更好。

  3.  下一步應測試真正 time-varying 的權重。  K482 測的是靜態 MCS p-value 與 period-level inverse-QLIKE。rolling MCS、forgetting factor、或月度 loss-based weights 都是可檢定的後續方向。


限制

  • 單一資產:目前只測 SPY,不能直接推論到台股、商品或債券。
  • r2 proxy 有噪音:QLIKE 的絕對水準受 realized variance proxy 影響,本文重點應放在相對 ranking。
  • MCS p-values 不是 rolling 估計:靜態權重可能放大某段歷史狀態的模型偏好。
  • Period 數只有 5:五期間檢定力有限,Wilcoxon 未達顯著。

結論

K482 的修正後結論是:在 SPY 2005-2026、四個 volatility model、五個跨 OOS period 的設計下,Equal_Weight 的平均 QLIKE 低於 MCS_PValue,支持 forecast combination puzzle 的平均-loss 版本。但 period-level 結果是 Equal 3 段勝、MCS 2 段數值勝,且只有 Volmageddon 的 Equal 優勢達 5% 顯著。這是「等權重平均更穩健」的證據,不是「每個市況都全勝」的證據。

本文基於實驗 K482(腳本:experiments/k482/k482_mcs_weighted_ensemble.py,結果:experiments/k482/k482_mcs_weighted_ensemble_results.json)。數據來源:yfinance SPY,期間 2005-02-02 至 2026-03-25,樣本 5,319 個觀測值。相關實驗:K475、K481。

引用文獻:Hansen, Lunde, Nason (2011) "The Model Confidence Set" Econometrica 79(2):453-497;Timmermann (2006) "Forecast Combinations" Handbook of Economic Forecasting;Patton (2011) Journal of Econometrics, QLIKE loss。

詳情

資料來源
yfinance SPY 2005-02-02 to 2026-03-25

相關文章

先讀正式關聯,若無則使用標籤與主題相似度補齊