K1257: Bayesian Model Averaging 波動率預測 — posterior concentration 讓 BMA 退化為單一模型，等權 puzzle 擴展到 Bayesian 框架

摘要

本文檢驗 Bayesian Model Averaging (BMA) 能否作為波動率預測中「沒有 universal winner」困境（K593 Cross-OOS 結論）的解方。在 SPY、GLD、0050.TW 三資產、2020–2026 年 OOS 期間、6 個 candidate models（GARCH_N、GJR_N、GJR-t、EGARCH_N、HAR_ABS、A4f-IV²）的配置下，以 rolling window 1250 天 + 每 63 天 refit 的 posterior-weighted combination 進行檢定。三個預設假設的結果如下： H1（BMA 優於單一最佳 GJR-t）為 PARTIAL （SPY t=−3.40 PASS、GLD t=−3.38 PASS、0050.TW t=+0.98 FAIL）， H2（BMA 優於等權）為 FAIL （三市場均未過 Harvey |t|>3）， H3（posterior 隨 regime 移動）為 FAIL （posterior 在 ~500 天內集中到單一模型後不再回彈）。本研究以 honest NULL 報告的精神，把這兩個失敗視為結果本身，它們共同指向一個結構性發現： standard BMA 的 product-of-likelihood update 在 long-horizon OOS 設定下會退化為 single-model forecast ，無法實現其理論上的 regime-adaptive 承諾。

研究背景

在 K593 Cross-OOS 大規模比較中我們得到一個不利的結論：沒有任何單一波動率模型 universally 最優，最佳模型因 asset、因 regime、因 sample period 而異。這個發現把研究團隊推到兩條路線之一： (a) 事前猜 regime（難，且多半要用事後資訊），或 (b) 讓資料說話，用某種 ensemble 或 adaptive 框架動態分配權重。

K482 曾測試過第一版本的 ensemble 答案： MCS-weighted vs equal-weight 。結論出乎多數文獻預期—— 等權在 OOS QLIKE 勝 MCS 。這已經是一個強警示：精心設計的資料驅動權重不保證比單純 1/N 好。

BMA 是 ensemble 框架中更 principled 的候選。相較 MCS 只保留 survivors、丟棄非顯著模型，BMA 使用 full posterior ：$w_{i,t+1} \propto w_{i,t} \cdot p(y_{t+1} \mid M_i, \mathcal{F}_t)$，每個模型依其 predictive likelihood 平滑更新權重。理論上 BMA 在 M-closed assumption（真模型在 candidate set 中）下達到 Bayes risk lower bound，且權重隨資料證據自然調整，這正是我們需要的 regime-adaptive 特性。

本研究的差異化 ：K482 檢驗靜態 ensemble weight 不勝等權；K1257 延伸到 動態 Bayesian posterior weight 是否能突破這個 puzzle。如果 BMA 仍打不過等權，那麼「ensemble weighting 無法贏等權」的結論就從 MCS 擴展到更廣的 Bayesian 框架，這對整個 model combination 文獻會是重要的實務警告。同時我們檢驗 K1002 pipeline 7-model 結論中的主宰者 A4f-IV² 是否在 BMA posterior 選擇下仍居支配地位。

方法與數據

項目	設定
資產	SPY (US equity)、GLD (gold)、0050.TW (Taiwan equity ETF)
樣本期間	2010-01-01 ~ 2026-04-18（16 年日頻資料）
OOS 期間	2020-01-01 起（SPY/GLD n=1,581、0050.TW n=1,524）
Candidate models	GARCH_N、GJR_N、GJR-t、EGARCH_N、HAR_ABS（\|r\| proxy）、A4f-IV²（IV-augmented variance）
Rolling window	1250 交易日（約 5 年）
Refit 頻率	每 63 個交易日（quarter）重估參數
Posterior update	$\log w_{t+1} = \log w_t + \log p(y_t \mid M_i, \mathcal{F}_{t-1})$，以 logsumexp 正規化
Prior	Uniform 1/6
Benchmarks	(a) GJR-t（被多數文獻視為 "single best") (b) Equal-weight 6-model
Loss function	QLIKE（主要）、MSE（輔助）
檢定方法	Harvey (2016) corrected DM t-stat，\|t\|>3 門檻
Regime bucket	VIX<15 / 15–20 / 20–25 / >25
Random seed	42

註：Realized-GARCH 因三資產均無 tick-level 5-min RV 而排除；0050.TW 使用 SPY 的 VIX 作為 IV proxy（Taiwan 無 GVZ-equivalent）。

核心發現

發現一：H1 PARTIAL — BMA 只在兩個美系資產勝 GJR-t

QLIKE 與 DM-Harvey t-stat 比較

三資產的 OOS QLIKE 對照：

資產	BMA	GJR-t	Equal-weight	DM(BMA vs GJR-t)	DM(BMA vs Equal)
SPY	−8.2274	−8.1749	−8.2044	t= −3.40 , p=0.0007, Harvey PASS	t=−1.36, p=0.17
GLD	−8.1812	−8.0904	−8.1371	t= −3.38 , p=0.0007, Harvey PASS	t=−2.69, p=0.007
0050.TW	−7.6790	−7.6825	−7.6940	t=+0.98, p=0.33	t=+1.68, p=0.09

SPY 與 GLD 的 BMA 顯著優於 GJR-t 達 Harvey threshold——這是 H1 可確認的一半。但 0050.TW 的 DM t=+0.98（數值上 GJR-t 微幅勝），同時也是整個實驗中最重要的診斷訊號： 當 BMA posterior 在 0050.TW 上 concentrate 到 GJR-t 時，BMA 的預測 by construction 就是 GJR-t 本身 ，差距自然 shrink 到 ~0。這暴露了 BMA 的第二類風險，不是預測失敗，而是 框架崩塌為單一模型 。

Per-model QLIKE 已解釋為何 posterior 做這個選擇：0050.TW 上 GJR-t (−7.6825) 確實是 per-model 最佳，只略勝 GJR_N (−7.6760) 與 A4f-IV² (−7.6774)。在 US/US-linked 資產上 A4f-IV² 則以明顯差距勝出（SPY −8.2416 vs 次佳 GJR-t −8.1749；GLD −8.1887 vs 次佳 GARCH_N −8.1168），這與 K1002 pipeline 報告的「A4f 為 MCS-only-survivor」高度一致。

發現二：H2 FAIL — Equal-weight puzzle 從 MCS 延伸到 Bayesian

這是本文 headline result。 無任何一資產 的 BMA vs Equal-weight DM 檢定過 Harvey |t|>3 門檻：

SPY: t=−1.36（BMA 數值上微勝，但統計上 indistinguishable）
GLD: t=−2.69（未達 3.0 門檻；5% 水準顯著但 Harvey 過嚴）
0050.TW: t=+1.68（ Equal-weight 數值上勝 BMA ，且接近 10% 顯著）

這個結果把 K482 的 "equal-weight beats MCS-weighted" 發現 直接擴展到 Bayesian 框架 ——用 posterior likelihood 動態調權，仍然無法系統性超越 1/N。對於相信「更 principled 的方法應該贏 naive baseline」的研究者，這是一記有力的實證反駁。 等權 puzzle 不是 MCS 的侷限，而是整個 ensemble weighting 框架的侷限 ，至少在 univariate daily QLIKE 這個 loss 設定下如此。

實務意義：若研究者在文獻上看到某 ensemble 方法報告 "beats equal-weight"，應檢查其 (1) OOS 長度是否足夠、(2) 是否用 Harvey-corrected t-stat、(3) candidate set 是否排除 equal-weight 實際勝出的資產。K482 + K1257 的 joint evidence 顯示： 在公平的 long-horizon Harvey-adjusted 檢定下，等權是極強的 baseline 。

發現三：H3 FAIL — Posterior concentration 是 standard BMA 的結構性限制

Posterior weight 隨時間演化（3 資產 × 6 模型）

上圖為三資產 posterior weight 的完整 OOS 演化。 0050.TW 的 pattern 最戲劇性 ：在進入 OOS 約 100 個交易日後，GJR-t 的 weight 已 snap 到 ~1.0，之後 6 年 weight 幾乎不動（final weight for GJR-t = 1.0，其他 5 model 合計 <1e-30）。SPY 與 GLD 在 2020–2022 仍可見權重 dynamic（A4f-IV² 與 GJR-t 在 COVID / post-COVID 期間交錯競爭），但到 2022 年後 A4f-IV² 同樣 concentrate 到 ~1.0 並固化。

數學機制 ：product-of-likelihood update 每步乘上 $\exp(\log p_i - \log p_j)$ 比率。即使每日 log-likelihood 差異很小，累積 ~1250 天後，best model 相對 worst model 的 weight ratio 會指數放大到 $e^{500}$ 量級——floating point 必然 collapse 到 1 vs 0。這 不是 bug ，而是 standard BMA 的 structural feature。

直接後果 ：BMA 無法 un-concentrate，也就無法 track regime。即使市場從 VIX<15 走到 >25，posterior 不會重新洗牌去支持更適合 high-vol regime 的模型。Regime 分層檢視下（見 k1257_results.json 的 regime_weights），SPY 在 VIX>25 期間 A4f-IV² weight 仍 0.785；0050.TW 在 VIX>25 期間 GJR-t weight 仍 >0.9999。BMA 的 posterior 對 regime 完全不 responsive。

修復方向（open question） ：若要恢復 regime-adaptive 特性，必須打破 cumulative likelihood 的 product structure。候選方案：

Forgetting factor BMA ：$\log w_{t+1} = \lambda \log w_t + \log p(y_t | M_i)$，$\lambda \in (0, 1)$
Sliding-window posterior ：只用最近 W 天的 log-lik 重算 posterior
Gaussian mixture prior with regime latent ：引入 regime HMM 層

這些是 K1258 之後的後續實驗方向。

實務意義

對投資人與風控模型建構者 ：

想用 BMA 做 volatility forecasting 之前，先確認你的資產沒有 dominant single model。若有（如 0050.TW 的 GJR-t），BMA 很快退化為該模型，額外 complexity 完全不值得。
Equal-weight 仍是極強 baseline 。除非 DM t-stat 清楚過 Harvey 3.0，否則不要相信任何 ensemble 的 OOS 優勢，它可能在你部署後就回歸等權表現。
A4f-IV² 在 US/US-linked 資產的 dominance 由 K1002 (MCS-only-survivor) + K1257 (posterior concentrate to it) 雙重確認，這可以作為 US equity/gold 的 prior 候選。台灣若有 TAIEX VIX（目前 CBOE TVIX 停編），有機會複製此 pattern。

對方法論研究者 ：

Standard BMA 的 posterior concentration 不是 side-effect，是 核心 limitation 。任何報告 BMA outperform 的文獻，應檢查其 OOS 長度、posterior trajectory，以及是否隱含使用 forgetting factor。
Volatility forecasting 的 ensemble 文獻需要重新審視： dynamic weighting 在 OOS 長期下可能退化為 static weighting ，而 static-best-model 又可能不存在（K593 結論）。這形成一個夾擊，我們可能需要的不是更 clever 的 weighting scheme，而是更好的 candidate model（A4f-IV² 方向）。

限制與穩健性

Candidate set 不完整 ：6 models 排除 Realized-GARCH（需 5-min RV，這三資產未取得）、HAR-RV（僅用 |r| proxy）。若加入真 RV 模型，posterior 動態可能不同。
Taiwan 無 native IV ：0050.TW 用 SPY 的 VIX 為 A4f-IV² proxy，這限制了 A4f 在台股的表現空間。若 TAIEX 有 local IV（如 VIX-TAIEX 重啟），A4f 可能在 0050.TW 也 dominate。
Uniform prior 1/6 ：informed prior（如從 K482 / K1002 結果 seed weight）可能改變初期動態；但 asymptotically posterior 由 likelihood 主導，prior 影響有限。
Rolling window 1250 ：較短 window（如 750）會減緩 posterior concentration。實測更短 window 是後續實驗（K1258 候選）。
Lookahead check ：第 t 期 posterior 嚴格使用 t−1 及以前的 log-likelihood，無 lookahead（見 k1257_bma_volatility.py 第 ~200 行 posterior update 實作）。
Seed sensitivity ：主結果 seed=42。GARCH MLE 起始值對 seed 敏感度低（likelihood surface 單峰），但 pooled cross-asset 比較之結論穩健性需更多 seed 驗證（未做）。

結論

K1257 用三資產、6 模型、1,580 天 OOS 的 rigorous 設計檢驗 BMA 作為 volatility forecasting 的 ensemble 框架，得到 三個假設：1 PARTIAL、2 FAIL 的結果。研究誠實原則下，我們把這個結果視為 方法論發現本身 ：

Equal-weight puzzle 從 MCS 擴展到 Bayesian ：K482 + K1257 共同證據顯示 ensemble weighting 在 OOS QLIKE 無法系統性勝等權。
Standard BMA 不能 track regime ：product-of-likelihood update 的數學結構保證 posterior 在長 OOS 下 collapse 到單一模型。
A4f-IV² dominance 獲得第三種獨立驗證 ：繼 K1002 MCS-only-survivor 之後，K1257 posterior concentration 確認 A4f-IV² 在 US/US-linked 資產的優越性。

下一步 open questions ：

Forgetting-factor BMA（$\lambda=0.97, 0.95, 0.90$）能否恢復 regime-adaptive 特性而不犧牲 overall QLIKE？
若引入 TAIEX VIX substitute（如 5-min RV of TAIEX options），A4f-IV² 能否在 0050.TW 也勝 GJR-t？
若把 candidate set 擴展到 7 models（加 Realized-GARCH），posterior concentration pattern 是否延後？
Ensemble 在 Sharpe/策略層（非 QLIKE loss）的表現是否與統計層一致？（K1074 提醒：statistical edge ≠ Sharpe edge）

補充：Per-regime QLIKE 詳表（印證 posterior concentrate 後 BMA ≈ single best）

下表列出三資產在四個 VIX regime 下的 BMA、GJR-t 與 equal-weight QLIKE（摘自 k1257_results.json 的 regime_qlike 欄位），可以更清楚看到：在 0050.TW 上，不論哪個 regime， BMA 與 GJR-t 的 QLIKE 幾乎完全相同 （差異在小數點第三位之後），這正是 posterior concentrate 到單一模型的直接證據。

資產	Regime	n	BMA	GJR-t	Equal	BMA − GJR-t
SPY	VIX<15	283	−9.2183	−9.1376	−9.1498	−0.0807
SPY	15–20	595	−8.8455	−8.8390	−8.8331	−0.0065
SPY	20–25	355	−7.9886	−7.9474	−7.9734	−0.0412
SPY	>25	348	−6.6086	−6.4885	−6.5964	−0.1201
GLD	VIX<15	283	−8.5449	−8.4963	−8.5069	−0.0486
GLD	15–20	595	−8.2836	−8.1935	−8.2325	−0.0900
GLD	20–25	355	−8.1267	−8.0797	−8.1191	−0.0470
GLD	>25	348	−7.7659	−7.5950	−7.6916	−0.1709
0050.TW	VIX<15	284	−8.0682	−8.0670	−8.0637	−0.0012
0050.TW	15–20	565	−7.9619	−7.9717	−7.9778	+0.0098
0050.TW	20–25	334	−7.4103	−7.4103	−7.4279	−0.0000
0050.TW	>25	341	−7.1496	−7.1496	−7.1765	−0.0000

觀察重點 ：0050.TW 的 BMA − GJR-t 差距在 VIX≥20 的高波動區間實質為零（posterior 早已 100% 集中於 GJR-t，BMA 公式 $\sum_i w_i \hat\sigma_i^2$ 退化為 GJR-t 預測本身）；相反地 SPY 與 GLD 在所有 regime 都維持正向差距（BMA 優於 GJR-t），源於 A4f-IV² 仍是主導權重但尚未 100% 收斂至極端點。這個對比非常清楚地展示了 posterior concentration 的速度取決於最佳模型相對次佳模型的 log-likelihood gap ——gap 越大，收斂越快。

對 K593 "no universal winner" 的回應

K593 Cross-OOS 的結論是「沒有 universal winner、regime-dependent」，隱含建議是尋找能隨 regime 動態切換的 meta-framework。K1257 直接測試這個建議最 principled 的實作——Bayesian posterior adaptation——並給出否定答案。這不是說 regime-adaptive 的方向錯了，而是說 standard BMA 不是正確的實作 。Research program 的下一步因此變得明確：

若要維持 BMA 的 principled Bayesian 身份，必須引入 forgetting mechanism （K1258 候選 specs）讓 posterior 可以「忘掉」很久以前的 log-likelihood 累積；
若允許跳出 pure Bayesian 框架， regime-switching HMM 或 online gradient descent 的 adaptive weight 是另兩條路線；
最 conservative 的路線是回到 K482 結論—— 直接用等權 ，並專注於把 candidate set 做好（A4f-IV² 方向、Taiwan native IV 開發）。

這三條路線的期望報酬 vs 實作成本差異很大，但都有明確可檢定的 predictions，下一個 research cycle 會逐一覆蓋。

為何這個 null 結果對社群有價值

在研究誠實的硬性要求下，把 PARTIAL 寫成 PASS、或把 FAIL 藏在 footnote，都是不可接受的。本文完整公開 BMA 在 H2、H3 的失敗，並給出數學上為何必然失敗的論證。這對波動率文獻的貢獻是： BMA 不應該被默認視為「升級版 ensemble」，使用者必須檢查其 posterior trajectory 是否已經 collapse 。若有後續研究基於本文延伸到 forgetting-factor BMA 並獲得 regime-adaptive 表現，本文也是其 baseline comparison 的必要錨點，這正是 null result 在學術累積上的長期價值。

本文基於實驗 K1257（腳本：experiments/k1257/k1257_bma_volatility.py，結果：experiments/k1257/k1257_results.json，README：experiments/k1257/README.md）。相關實驗：K482（MCS-weighted vs equal-weight ensemble）、K593（Cross-OOS no universal winner）、K1002（7-model pipeline A4f-only survivor）、K1074（statistical edge ≠ Sharpe edge）。數據來源：yfinance（SPY/GLD/0050.TW/^VIX 日頻，auto_adjust=False），期間 2010-01-01 ~ 2026-04-18（16 年）。OOS 樣本：SPY/GLD n=1,581、0050.TW n=1,524。Random seed=42。

[提出: Claude]