研究2026/06/12 上午03:07

把兩個模型加在一起，反而打敗了其中最強的那一個

harensembleforecast-combinationhar-rvtimmermann

讀者互動

已追蹤瀏覽 0 次，登入會員可按讚與收藏。

分享到：LINE Facebook X / Twitter

把兩個模型加在一起，反而打敗了其中最強的那一個

SPY 從 2015 年到 2025 年，十年間穿越低波動、Volmageddon、COVID 崩盤、升息循環、後 COVID 復甦，五段截然不同的市場環境。我們拿同一組模型在這五段分別做跨樣本外預測，排出名次。

結果有點反直覺：拿下 5 期平均排名第 1 的，是把 GJR-GARCH 和 HAR 直接對半加起來的等權集成，兩個單獨模型都排在它後面。

背景：問題從 K467 開始

K467 實驗發現了一個麻煩事。HAR 模型的波動率預測排名很好，但拿 HAR 去做 VaR（風險值，用來估計「某天虧損不會超過多少」），反而是所有模型裡最差的一個。

GJR-GARCH 則相反：VaR 表現穩定，但預測精度不如 HAR。

這代表什麼？代表兩個模型各有瞎眼的方向。HAR 對長期波動結構抓得好，但短期尾部風險低估；GJR 反應速度快，但對長程依賴建模偏弱。

如果你只能選一個，就得接受這個取捨。

但如果把兩個平均呢？

實驗設計：最傻的方法

K475 測的就是這個問題，用的方法傻到有點好笑：把 GJR 和 HAR 的條件變異數預測值，直接 50/50 加在一起。

沒有動態權重，沒有 Bayesian 更新，沒有機器學習。就是算術平均。

這個集成模型叫 Ens_GJR_HAR。

資料用 SPY 日報酬，2005 年 2 月到 2026 年 3 月，共 5319 個交易日。訓練窗口固定 2000 天做滾動預測，五個測試期各有約 500-750 天。評估指標用 QLIKE（數字越低代表預測越準），VaR 用 Kupiec、Christoffersen、DQ 三項檢定。

數字怎麼說

跨期預測排名（QLIKE r² proxy，五期平均）

模型	平均 QLIKE	平均排名（共 7 個）
Ens_GJR_HAR	0.694	1
Ens_3way	0.705	2
Ens_HAR_Semi	0.712	3
HAR	0.737	4
Ens_GJR_Semi	0.740	5
GJR	0.742	6
Semi（半變異數）	32719	7（異常值）

Ens_GJR_HAR 的平均 QLIKE 是 0.694，GJR 是 0.742，差了 6.4%。HAR 是 0.737，也輸了。

K475 跨期 QLIKE 與平均排名

這不是一期的結果，是五期加起來算平均排名，Ens_GJR_HAR 都是第一。5 期裡有 3 期它排 r² 第一名；另外一期排第 2，最後一期排第 4。換句話說，它不是每一段都在前三，但平均排名仍是全模型最好。

用 Parkinson 範圍估計法（高低價計算的波動率代理）來看，也是同樣的格局：Ens_GJR_HAR 平均 QLIKE 0.252，所有模型最低，HAR 是 0.267，GJR 是 0.350。

VaR 表現

最新 1005 個交易日，做 1% VaR 回測。HAR 通過三項檢定（Kupiec p=0.144，違反率 1.49%）。Ens_GJR_HAR 也通過三項（Kupiec p=0.082，違反率 1.59%）。GJR 只過兩項：Kupiec p=0.001，違反率 2.19%，明顯偏高，代表低估了尾部風險。

K475 1% VaR 回測違反率

等一下，HAR 的 VaR 在最終期通過了，之前不是說 HAR 的 VaR 很差嗎？

K467 測的是跨 OOS 的平均表現，那個結論仍然成立。K475 這裡的 VaR 只是最近一段期間的快照，不矛盾。重點是：集成把 GJR 的 1% 違反率從 2.19% 壓到 1.59%，同時保住了預測準度。

為什麼加了會更好？

Timmermann 在 2006 年就把這個現象整理出來，後來文獻叫它「forecast combination puzzle」：把幾個模型平均之後，預測表現往往超過其中最好的那一個。

直覺上的解釋有三個：

第一，個別模型各有偏誤，但偏誤的方向不同。GJR 低估長程波動，HAR 低估短期尾部。加在一起，偏誤互相抵消一部分。

第二，集成降低了過度配適的機會。你用 2000 天訓練 GJR，它學到的是樣本內的特定規律，可能在下一段市場環境裡偏掉。集成把這個風險分散了一點。

第三，在市場結構不斷切換的情況下（低波動到 COVID 到升息），沒有任何一個模型能永遠最準。集成提供了跨環境的穩健性，以輕微放棄「在最好的那段期間當冠軍」為代價，換取「不在任何一段期間崩掉」的保險。

這三點加在一起，其實說的是同一件事：在訊號嘈雜的領域裡，過度押注於某一個模型的判斷，往往是在放大偏誤而不是消除它。

相對照：K434 的 BMA 為什麼失敗了

K434 試過 Bayesian Model Averaging（BMA），用歷史預測誤差動態調整各模型的權重。聽起來比等權平均聰明多了。

結果 BMA 把 99.8% 的權重集中在單一模型，等於失去了所有集成效益。

這不是 BMA 這個概念的問題，是這個 spec 的問題：BMA 在預測誤差訊號裡看到一個模型持續領先，就把幾乎全部的籌碼押過去。偏偏波動率預測本來就是很嘈雜的訊號，「過去哪個模型比較準」並不穩定地預測「下一段哪個模型比較準」。押太集中的結果，反而輸給了傻傻的 1/N。

要說明的事

5 期 OOS 確認了 Ens_GJR_HAR 排名最高，但每一期的 Diebold-Mariano 檢定，集成對最佳單模型的優勢都沒有達到統計顯著水準（p 值最低也在 0.10 以上）。

5 期的排名觀察，不等於統計上能宣稱「集成永遠贏」。這是一個跨不同環境的一致性樣式，但樣本期數太少，還沒辦法做強結論。

要真的確認這個優勢持續，需要在未來的市場期間做前向驗證，看排名能不能繼續維持。

對實務的意義

這個結果有個對操作者的簡單啟示：在模型選擇上，如果你有兩個設計邏輯不同的模型，而且各有短板，把它們平均可能比從裡面選一個好，也很可能比花很多時間調參數還穩定。這件事在風險模型上特別值得注意，因為一個 VaR 失準的代價，在實務上遠比預測誤差高出一點的代價嚴重。

複雜的組合方法（動態加權、BMA、機器學習混合）在方法論上沒有問題，但需要更多資料才能訓練，也需要更複雜的超參數穩定。等權是一個極低成本的基線，先跑這個看看，再決定複雜方法是否值得額外成本。

特別是在你不確定市場環境下一段要怎麼走的時候，集成給你的緩衝是「不在某段環境裡踩雷」，精度可能稍微讓出一點，但穩定性留住了。

小結

K475 的核心發現用一句話說：對 SPY 做跨 2015-2025 五段 OOS 測試，GJR 和 HAR 的等權平均（Ens_GJR_HAR）在波動率預測上平均排名第一，並且在最近 1005 個交易日的 1% VaR 回測中通過三項檢定；平均 QLIKE 比最好的單模型低 5.7%。

這個結果對應 Timmermann（2006）整理的 forecast combination puzzle，也印證了 K434 的反面教材：讓 BMA 過度集中反而是錯的方向，把權重押回到 1/N 反而贏了。

5 期 OOS 沒有任何一期達統計顯著，結論要謹慎，但一致性排名是可以觀察到的。

先讀正式關聯，若無則使用標籤與主題相似度補齊

📄

新興市場主權債的波動率,能提前預告 EM 股市風暴嗎?一次誠實的否定(K1621)

新興市場的美元主權債，波動起來的時候，會不會比股市早一步聞到火藥味？如果會，那些免費就能取得的債券 ETF 與信用利差，或許能當作跨資產的預警訊號。我們用 2015 到 2026 十一年的資料把這個念頭認真測了一遍，結論很乾脆：**不會**。主權信用的「波動率」和新興市場股票的波動率幾乎是同一時間一起動的，不存在可以拿來做日頻預測的領先關係。這是一個 NULL 結果，但它是乾淨、可複現、而且對...

→📄

K1582：HARQ / SHARK-style 測量誤差修正 HAR-RV 的台指期日盤試驗

## 摘要 [提出: Claude, 執行: Claude] K1582 檢驗 realized quarticity 測量誤差修正與 signed intraday components，是否能改善標準 HAR-RV 的一步期 realized variance 預測。正式可判斷樣本是 TAIFEX TX active-contract 日盤，原始日資料 2,219 筆，樣本外預測 1,697...

→📄

日頻波動率，HAR-RV 贏不了 GARCH：60 場跨資產對戰的紀錄

# 日頻波動率，HAR-RV 贏不了 GARCH：60 場跨資產對戰的紀錄 > 實驗 K188 | OOS 期間 2023-01-01 至 2024-12-31 | 5 資產 × 4 波動率代理 × 3 模型變體 --- HAR-RV 是過去二十年波動率預測文獻裡出現率最高的模型之一。它把波動率分解成日、週、月三個頻率的加總，捕捉長記憶結構，跑在五分鐘高頻數據上幾乎無敵。那在日頻數據上呢...

→

讀者互動

把兩個模型加在一起，反而打敗了其中最強的那一個

背景：問題從 K467 開始

實驗設計：最傻的方法

數字怎麼說

跨期預測排名（QLIKE r² proxy，五期平均）

VaR 表現

為什麼加了會更好？

相對照：K434 的 BMA 為什麼失敗了

要說明的事

對實務的意義

小結

相關文章