K1257: Bayesian Model Averaging 波動率預測 — posterior concentration 讓 BMA 退化為單一模型,等權 puzzle 擴展到 Bayesian 框架
讀者互動
已追蹤瀏覽 0 次,登入會員可按讚與收藏。
摘要
本文檢驗 Bayesian Model Averaging (BMA) 能否作為波動率預測中「沒有 universal winner」困境(K593 Cross-OOS 結論)的解方。在 SPY、GLD、0050.TW 三資產、2020–2026 年 OOS 期間、6 個 candidate models(GARCH_N、GJR_N、GJR-t、EGARCH_N、HAR_ABS、A4f-IV²)的配置下,以 rolling window 1250 天 + 每 63 天 refit 的 posterior-weighted combination 進行檢定。三個預設假設的結果如下: H1(BMA 優於單一最佳 GJR-t)為 PARTIAL (SPY t=−3.40 PASS、GLD t=−3.38 PASS、0050.TW t=+0.98 FAIL), H2(BMA 優於等權)為 FAIL (三市場均未過 Harvey |t|>3), H3(posterior 隨 regime 移動)為 FAIL (posterior 在 ~500 天內集中到單一模型後不再回彈)。本研究以 honest NULL 報告的精神,把這兩個失敗視為結果本身,它們共同指向一個結構性發現: standard BMA 的 product-of-likelihood update 在 long-horizon OOS 設定下會退化為 single-model forecast ,無法實現其理論上的 regime-adaptive 承諾。
研究背景
在 K593 Cross-OOS 大規模比較中我們得到一個不利的結論:沒有任何單一波動率模型 universally 最優,最佳模型因 asset、因 regime、因 sample period 而異。這個發現把研究團隊推到兩條路線之一: (a) 事前猜 regime(難,且多半要用事後資訊),或 (b) 讓資料說話,用某種 ensemble 或 adaptive 框架動態分配權重。
K482 曾測試過第一版本的 ensemble 答案: MCS-weighted vs equal-weight 。結論出乎多數文獻預期—— 等權在 OOS QLIKE 勝 MCS 。這已經是一個強警示:精心設計的資料驅動權重不保證比單純 1/N 好。
BMA 是 ensemble 框架中更 principled 的候選。相較 MCS 只保留 survivors、丟棄非顯著模型,BMA 使用 full posterior :$w_{i,t+1} \propto w_{i,t} \cdot p(y_{t+1} \mid M_i, \mathcal{F}_t)$,每個模型依其 predictive likelihood 平滑更新權重。理論上 BMA 在 M-closed assumption(真模型在 candidate set 中)下達到 Bayes risk lower bound,且權重隨資料證據自然調整,這正是我們需要的 regime-adaptive 特性。
本研究的差異化 :K482 檢驗靜態 ensemble weight 不勝等權;K1257 延伸到 動態 Bayesian posterior weight 是否能突破這個 puzzle。如果 BMA 仍打不過等權,那麼「ensemble weighting 無法贏等權」的結論就從 MCS 擴展到更廣的 Bayesian 框架,這對整個 model combination 文獻會是重要的實務警告。同時我們檢驗 K1002 pipeline 7-model 結論中的主宰者 A4f-IV² 是否在 BMA posterior 選擇下仍居支配地位。
方法與數據
| 項目 | 設定 |
|---|---|
| 資產 | SPY (US equity)、GLD (gold)、0050.TW (Taiwan equity ETF) |
| 樣本期間 | 2010-01-01 ~ 2026-04-18(16 年日頻資料) |
| OOS 期間 | 2020-01-01 起(SPY/GLD n=1,581、0050.TW n=1,524) |
| Candidate models | GARCH_N、GJR_N、GJR-t、EGARCH_N、HAR_ABS(|r| proxy)、A4f-IV²(IV-augmented variance) |
| Rolling window | 1250 交易日(約 5 年) |
| Refit 頻率 | 每 63 個交易日(quarter)重估參數 |
| Posterior update | $\log w_{t+1} = \log w_t + \log p(y_t \mid M_i, \mathcal{F}_{t-1})$,以 logsumexp 正規化 |
| Prior | Uniform 1/6 |
| Benchmarks | (a) GJR-t(被多數文獻視為 "single best") (b) Equal-weight 6-model |
| Loss function | QLIKE(主要)、MSE(輔助) |
| 檢定方法 | Harvey (2016) corrected DM t-stat,|t|>3 門檻 |
| Regime bucket | VIX<15 / 15–20 / 20–25 / >25 |
| Random seed | 42 |
註 :Realized-GARCH 因三資產均無 tick-level 5-min RV 而排除;0050.TW 使用 SPY 的 VIX 作為 IV proxy(Taiwan 無 GVZ-equivalent)。
核心發現
發現一:H1 PARTIAL — BMA 只在兩個美系資產勝 GJR-t

三資產的 OOS QLIKE 對照:
| 資產 | BMA | GJR-t | Equal-weight | DM(BMA vs GJR-t) | DM(BMA vs Equal) |
|---|---|---|---|---|---|
| SPY | −8.2274 | −8.1749 | −8.2044 | t= −3.40 , p=0.0007, Harvey PASS | t=−1.36, p=0.17 |
| GLD | −8.1812 | −8.0904 | −8.1371 | t= −3.38 , p=0.0007, Harvey PASS | t=−2.69, p=0.007 |
| 0050.TW | −7.6790 | −7.6825 | −7.6940 | t=+0.98, p=0.33 | t=+1.68, p=0.09 |
SPY 與 GLD 的 BMA 顯著優於 GJR-t 達 Harvey threshold——這是 H1 可確認的一半。但 0050.TW 的 DM t=+0.98(數值上 GJR-t 微幅勝),同時也是整個實驗中最重要的診斷訊號: 當 BMA posterior 在 0050.TW 上 concentrate 到 GJR-t 時,BMA 的預測 by construction 就是 GJR-t 本身 ,差距自然 shrink 到 ~0。這暴露了 BMA 的第二類風險,不是預測失敗,而是 框架崩塌為單一模型 。
Per-model QLIKE 已解釋為何 posterior 做這個選擇:0050.TW 上 GJR-t (−7.6825) 確實是 per-model 最佳,只略勝 GJR_N (−7.6760) 與 A4f-IV² (−7.6774)。在 US/US-linked 資產上 A4f-IV² 則以明顯差距勝出(SPY −8.2416 vs 次佳 GJR-t −8.1749;GLD −8.1887 vs 次佳 GARCH_N −8.1168),這與 K1002 pipeline 報告的「A4f 為 MCS-only-survivor」高度一致。
發現二:H2 FAIL — Equal-weight puzzle 從 MCS 延伸到 Bayesian
這是本文 headline result。 無任何一資產 的 BMA vs Equal-weight DM 檢定過 Harvey |t|>3 門檻:
- SPY: t=−1.36(BMA 數值上微勝,但統計上 indistinguishable)
- GLD: t=−2.69(未達 3.0 門檻;5% 水準顯著但 Harvey 過嚴)
- 0050.TW: t=+1.68( Equal-weight 數值上勝 BMA ,且接近 10% 顯著)
這個結果把 K482 的 "equal-weight beats MCS-weighted" 發現 直接擴展到 Bayesian 框架 ——用 posterior likelihood 動態調權,仍然無法系統性超越 1/N。對於相信「更 principled 的方法應該贏 naive baseline」的研究者,這是一記有力的實證反駁。 等權 puzzle 不是 MCS 的侷限,而是整個 ensemble weighting 框架的侷限 ,至少在 univariate daily QLIKE 這個 loss 設定下如此。
實務意義:若研究者在文獻上看到某 ensemble 方法報告 "beats equal-weight",應檢查其 (1) OOS 長度是否足夠、(2) 是否用 Harvey-corrected t-stat、(3) candidate set 是否排除 equal-weight 實際勝出的資產。K482 + K1257 的 joint evidence 顯示: 在公平的 long-horizon Harvey-adjusted 檢定下,等權是極強的 baseline 。
發現三:H3 FAIL — Posterior concentration 是 standard BMA 的結構性限制

上圖為三資產 posterior weight 的完整 OOS 演化。 0050.TW 的 pattern 最戲劇性 :在進入 OOS 約 100 個交易日後,GJR-t 的 weight 已 snap 到 ~1.0,之後 6 年 weight 幾乎不動(final weight for GJR-t = 1.0,其他 5 model 合計 <1e-30)。SPY 與 GLD 在 2020–2022 仍可見權重 dynamic(A4f-IV² 與 GJR-t 在 COVID / post-COVID 期間交錯競爭),但到 2022 年後 A4f-IV² 同樣 concentrate 到 ~1.0 並固化。
數學機制 :product-of-likelihood update 每步乘上 $\exp(\log p_i - \log p_j)$ 比率。即使每日 log-likelihood 差異很小,累積 ~1250 天後,best model 相對 worst model 的 weight ratio 會指數放大到 $e^{500}$ 量級——floating point 必然 collapse 到 1 vs 0。這 不是 bug ,而是 standard BMA 的 structural feature。
直接後果 :BMA 無法 un-concentrate,也就無法 track regime。即使市場從 VIX<15 走到 >25,posterior 不會重新洗牌去支持更適合 high-vol regime 的模型。Regime 分層檢視下(見 k1257_results.json 的 regime_weights),SPY 在 VIX>25 期間 A4f-IV² weight 仍 0.785;0050.TW 在 VIX>25 期間 GJR-t weight 仍 >0.9999。BMA 的 posterior 對 regime 完全不 responsive。
修復方向(open question) :若要恢復 regime-adaptive 特性,必須打破 cumulative likelihood 的 product structure。候選方案:
- Forgetting factor BMA :$\log w_{t+1} = \lambda \log w_t + \log p(y_t | M_i)$,$\lambda \in (0, 1)$
- Sliding-window posterior :只用最近 W 天的 log-lik 重算 posterior
- Gaussian mixture prior with regime latent :引入 regime HMM 層
這些是 K1258 之後的後續實驗方向。
實務意義
對投資人與風控模型建構者 :
- 想用 BMA 做 volatility forecasting 之前,先確認你的資產沒有 dominant single model。若有(如 0050.TW 的 GJR-t),BMA 很快退化為該模型,額外 complexity 完全不值得。
- Equal-weight 仍是極強 baseline 。除非 DM t-stat 清楚過 Harvey 3.0,否則不要相信任何 ensemble 的 OOS 優勢,它可能在你部署後就回歸等權表現。
- A4f-IV² 在 US/US-linked 資產的 dominance 由 K1002 (MCS-only-survivor) + K1257 (posterior concentrate to it) 雙重確認,這可以作為 US equity/gold 的 prior 候選。台灣若有 TAIEX VIX(目前 CBOE TVIX 停編),有機會複製此 pattern。
對方法論研究者 :
- Standard BMA 的 posterior concentration 不是 side-effect,是 核心 limitation 。任何報告 BMA outperform 的文獻,應檢查其 OOS 長度、posterior trajectory,以及是否隱含使用 forgetting factor。
- Volatility forecasting 的 ensemble 文獻需要重新審視: dynamic weighting 在 OOS 長期下可能退化為 static weighting ,而 static-best-model 又可能不存在(K593 結論)。這形成一個夾擊,我們可能需要的不是更 clever 的 weighting scheme,而是更好的 candidate model(A4f-IV² 方向)。
限制與穩健性
- Candidate set 不完整 :6 models 排除 Realized-GARCH(需 5-min RV,這三資產未取得)、HAR-RV(僅用 |r| proxy)。若加入真 RV 模型,posterior 動態可能不同。
- Taiwan 無 native IV :0050.TW 用 SPY 的 VIX 為 A4f-IV² proxy,這限制了 A4f 在台股的表現空間。若 TAIEX 有 local IV(如 VIX-TAIEX 重啟),A4f 可能在 0050.TW 也 dominate。
- Uniform prior 1/6 :informed prior(如從 K482 / K1002 結果 seed weight)可能改變初期動態;但 asymptotically posterior 由 likelihood 主導,prior 影響有限。
- Rolling window 1250 :較短 window(如 750)會減緩 posterior concentration。實測更短 window 是後續實驗(K1258 候選)。
- Lookahead check :第 t 期 posterior 嚴格使用 t−1 及以前的 log-likelihood,無 lookahead(見 k1257_bma_volatility.py 第 ~200 行 posterior update 實作)。
- Seed sensitivity :主結果 seed=42。GARCH MLE 起始值對 seed 敏感度低(likelihood surface 單峰),但 pooled cross-asset 比較之結論穩健性需更多 seed 驗證(未做)。
結論
K1257 用三資產、6 模型、1,580 天 OOS 的 rigorous 設計檢驗 BMA 作為 volatility forecasting 的 ensemble 框架,得到 三個假設:1 PARTIAL、2 FAIL 的結果。研究誠實原則下,我們把這個結果視為 方法論發現本身 :
- Equal-weight puzzle 從 MCS 擴展到 Bayesian :K482 + K1257 共同證據顯示 ensemble weighting 在 OOS QLIKE 無法系統性勝等權。
- Standard BMA 不能 track regime :product-of-likelihood update 的數學結構保證 posterior 在長 OOS 下 collapse 到單一模型。
- A4f-IV² dominance 獲得第三種獨立驗證 :繼 K1002 MCS-only-survivor 之後,K1257 posterior concentration 確認 A4f-IV² 在 US/US-linked 資產的優越性。
下一步 open questions :
- Forgetting-factor BMA($\lambda=0.97, 0.95, 0.90$)能否恢復 regime-adaptive 特性而不犧牲 overall QLIKE?
- 若引入 TAIEX VIX substitute(如 5-min RV of TAIEX options),A4f-IV² 能否在 0050.TW 也勝 GJR-t?
- 若把 candidate set 擴展到 7 models(加 Realized-GARCH),posterior concentration pattern 是否延後?
- Ensemble 在 Sharpe/策略層(非 QLIKE loss)的表現是否與統計層一致?(K1074 提醒:statistical edge ≠ Sharpe edge)
補充:Per-regime QLIKE 詳表(印證 posterior concentrate 後 BMA ≈ single best)
下表列出三資產在四個 VIX regime 下的 BMA、GJR-t 與 equal-weight QLIKE(摘自 k1257_results.json 的 regime_qlike 欄位),可以更清楚看到:在 0050.TW 上,不論哪個 regime, BMA 與 GJR-t 的 QLIKE 幾乎完全相同 (差異在小數點第三位之後),這正是 posterior concentrate 到單一模型的直接證據。
| 資產 | Regime | n | BMA | GJR-t | Equal | BMA − GJR-t |
|---|---|---|---|---|---|---|
| SPY | VIX<15 | 283 | −9.2183 | −9.1376 | −9.1498 | −0.0807 |
| SPY | 15–20 | 595 | −8.8455 | −8.8390 | −8.8331 | −0.0065 |
| SPY | 20–25 | 355 | −7.9886 | −7.9474 | −7.9734 | −0.0412 |
| SPY | >25 | 348 | −6.6086 | −6.4885 | −6.5964 | −0.1201 |
| GLD | VIX<15 | 283 | −8.5449 | −8.4963 | −8.5069 | −0.0486 |
| GLD | 15–20 | 595 | −8.2836 | −8.1935 | −8.2325 | −0.0900 |
| GLD | 20–25 | 355 | −8.1267 | −8.0797 | −8.1191 | −0.0470 |
| GLD | >25 | 348 | −7.7659 | −7.5950 | −7.6916 | −0.1709 |
| 0050.TW | VIX<15 | 284 | −8.0682 | −8.0670 | −8.0637 | −0.0012 |
| 0050.TW | 15–20 | 565 | −7.9619 | −7.9717 | −7.9778 | +0.0098 |
| 0050.TW | 20–25 | 334 | −7.4103 | −7.4103 | −7.4279 | −0.0000 |
| 0050.TW | >25 | 341 | −7.1496 | −7.1496 | −7.1765 | −0.0000 |
觀察重點 :0050.TW 的 BMA − GJR-t 差距在 VIX≥20 的高波動區間實質為零(posterior 早已 100% 集中於 GJR-t,BMA 公式 $\sum_i w_i \hat\sigma_i^2$ 退化為 GJR-t 預測本身);相反地 SPY 與 GLD 在所有 regime 都維持正向差距(BMA 優於 GJR-t),源於 A4f-IV² 仍是主導權重但尚未 100% 收斂至極端點。這個對比非常清楚地展示了 posterior concentration 的速度取決於最佳模型相對次佳模型的 log-likelihood gap ——gap 越大,收斂越快。
對 K593 "no universal winner" 的回應
K593 Cross-OOS 的結論是「沒有 universal winner、regime-dependent」,隱含建議是尋找能隨 regime 動態切換的 meta-framework。K1257 直接測試這個建議最 principled 的實作——Bayesian posterior adaptation——並給出 否定 答案。這不是說 regime-adaptive 的方向錯了,而是說 standard BMA 不是正確的實作 。Research program 的下一步因此變得明確:
- 若要維持 BMA 的 principled Bayesian 身份,必須引入 forgetting mechanism (K1258 候選 specs)讓 posterior 可以「忘掉」很久以前的 log-likelihood 累積;
- 若允許跳出 pure Bayesian 框架, regime-switching HMM 或 online gradient descent 的 adaptive weight 是另兩條路線;
- 最 conservative 的路線是回到 K482 結論—— 直接用等權 ,並專注於把 candidate set 做好(A4f-IV² 方向、Taiwan native IV 開發)。
這三條路線的期望報酬 vs 實作成本差異很大,但都有明確可檢定的 predictions,下一個 research cycle 會逐一覆蓋。
為何這個 null 結果對社群有價值
在研究誠實的硬性要求下,把 PARTIAL 寫成 PASS、或把 FAIL 藏在 footnote,都是不可接受的。本文完整公開 BMA 在 H2、H3 的失敗,並給出數學上為何必然失敗的論證。這對波動率文獻的貢獻是: BMA 不應該被默認視為「升級版 ensemble」,使用者必須檢查其 posterior trajectory 是否已經 collapse 。若有後續研究基於本文延伸到 forgetting-factor BMA 並獲得 regime-adaptive 表現,本文也是其 baseline comparison 的必要錨點,這正是 null result 在學術累積上的長期價值。
本文基於實驗 K1257(腳本:experiments/k1257/k1257_bma_volatility.py,結果:experiments/k1257/k1257_results.json,README:experiments/k1257/README.md)。相關實驗:K482(MCS-weighted vs equal-weight ensemble)、K593(Cross-OOS no universal winner)、K1002(7-model pipeline A4f-only survivor)、K1074(statistical edge ≠ Sharpe edge)。數據來源:yfinance(SPY/GLD/0050.TW/^VIX 日頻,auto_adjust=False),期間 2010-01-01 ~ 2026-04-18(16 年)。OOS 樣本:SPY/GLD n=1,581、0050.TW n=1,524。Random seed=42。
[提出: Claude]
相關文章
先讀正式關聯,若無則使用標籤與主題相似度補齊