一般讀者2026/05/12 上午06:00

把波動率拆成長期與短期，真的會比較準嗎？DMEM 雙乘子模型實測

SPY波動率預測風險管理模型比較實證研究

讀者互動

已追蹤瀏覽 0 次，登入會員可按讚與收藏。

把波動率拆成長期與短期，真的會比較準嗎？DMEM 雙乘子模型實測

一個聽起來很有道理的想法

在波動率研究領域，一個直覺上很吸引人的想法是：市場波動其實由「兩種節奏」組成。一種是 長期、緩慢變動的基準水位 ——它跟總體經濟、利率環境、結構性風險偏好有關，可能幾個月才轉一次方向；另一種是 短期、快速反應的雜訊 ——一則新聞、一場拍賣、一個盤中事件，會讓波動瞬間放大或收斂。

如果這個故事是真的，那麼把波動率「拆成兩塊分別建模」應該會比「一塊整體建模」更準確。畢竟，兩種節奏的驅動因子不同、慣性不同、半衰期也不同，硬塞進同一條方程式裡只會互相干擾。

DMEM（Doubly Multiplicative Error Model，雙乘子誤差模型）就是建立在這個信念上。它把當天的絕對報酬拆成三項相乘：一個慢慢變動的長期成分（用過去 22 個交易日的已實現變異數帶動）、一個快速反應的短期成分（用 GARCH 式的遞迴更新），加上一個隨機擾動項。理論上，慢的歸慢、快的歸快，各司其職，預測應該更好。

K776 這個實驗想回答的問題很單純： 這個聽起來很有道理的故事，在 SPY 的 19 年資料上跑出來，到底有沒有用？

結果可能會讓你意外。

怎麼比較才公平

要比較不同的波動率預測模型，光看「誰猜的數字比較接近真實波動」是不夠的，因為「真實波動」本身就是個估計值，而不同模型對「猜錯」的容忍度也不一樣。專業的做法是用 QLIKE 這個損失函數——它源自貝氏統計裡的 Kullback-Leibler 散度，特別適合波動率這種「永遠是正數、且偶爾會極端跳動」的變數。QLIKE 數值越小代表預測越好。

K776 把 DMEM 跟另外四個學界常用的模型放在同一張桌上比：

AMEM （Asymmetric MEM）：MEM 家族的單成分版本，但加了「壞消息會放大波動」的不對稱項
MEM ：基本的乘性誤差模型，是 AMEM 的簡化版
HAR-ABS ：以日、週、月三個時間尺度的歷史絕對報酬做加權平均，是高頻波動率研究的標竿模型
GJR-GARCH ：經典的 GARCH 家族成員，同樣帶不對稱項，是 30 年來無數研究的對照組

資料用的是 SPY 從 2007 年 1 月到 2026 年 3 月、共 4839 個交易日，扣除前 500 天的訓練窗，留下 4326 天做樣本外（OOS）測試。每 63 個交易日（約 3 個月）重新估計一次參數，是真正的滾動視窗預測——也就是說，模型在每個時點只能用「那天以前」的資料做預測，沒有任何前視偏誤。

第一輪結果：DMEM 沒贏

直接看 OOS 整體表現的 QLIKE：

模型	QLIKE	與真實值相關性	排名
AMEM	0.4728	0.537	1
DMEM	0.4826	0.525	2
GJR-GARCH	0.4866	0.518	3
MEM	0.4979	0.481	4
HAR-ABS	0.5016	0.474	5

DMEM 名列第二——聽起來不差，但 它輸給了結構更簡單的 AMEM 。而且這個落差不是隨便輸一輸：以兩模型差異的統計強度來看，DMEM 落後 AMEM 已經達顯著水準（兩模型比較顯著，遠超過嚴格統計檢驗門檻）。

這是個耐人尋味的結果。DMEM 比 AMEM 多出兩個參數（總共 7 個對 5 個），在訓練資料上的對數概似函數確實高了 122 個單位——也就是「比較會解釋過去」。但拉到樣本外、要它做真正的預測時，這個複雜度反而成了負擔，AMEM 更簡單卻更準。

對 MEM 跟 HAR-ABS，DMEM 倒是穩穩贏過——所以它的長/短期分解確實「有做對什麼事」，只是相對於 AMEM 的高 β 持續性結構，沒有額外好處。對 GJR-GARCH 則是不分軒輊（差距未達顯著水準）。

第二輪結果：拆成三段時期看，每一段 AMEM 都贏

只看整體平均可能會掩蓋細節。也許 DMEM 在某些時期特別好，在某些時期特別差，平均下來就剛好略輸？K776 把樣本外 4326 天均分成三段（每段 1442 天，分別大致對應 2009-2014、2014-2020、2020-2026 三個市場階段）：

期間	AMEM QLIKE	DMEM QLIKE	第一名
第一段	0.4822	0.4933	AMEM
第二段	0.4937	0.5040	AMEM
第三段	0.4427	0.4506	AMEM

三段都是 AMEM 贏 。雖然差距不大（QLIKE 差約 0.008-0.011），但方向一致到讓人懷疑——這不是運氣，是系統性的劣勢。DMEM 在每一個子樣本都被 AMEM 用差不多的幅度壓著打。

第三輪結果：DMEM 在哪裡有用？

不過故事還沒結束。如果再進一步把 OOS 期間按「當天波動到底有多大」切開，會看到一個有趣的反轉。

K776 用樣本中位數附近劃出兩個極端： Calm regime （最平靜的 25%，當天絕對報酬低於 0.21%）跟 Crisis regime （最劇烈的 25%，當天絕對報酬超過 1.02%）。各 1082 天。

平靜期的 QLIKE：

模型	QLIKE	排名
DMEM	1.180	1
AMEM	1.218	2
HAR-ABS	1.256	3
MEM	1.284	4
GJR-GARCH	1.303	5

危機期的 QLIKE：

模型	QLIKE	排名
GJR-GARCH	0.350	1
AMEM	0.374	2
MEM	0.405	3
DMEM	0.416	4
HAR-ABS	0.431	5

DMEM 從整體第二名分裂成「平靜期第一名、危機期第四名」。這個對比一下子把模型的本質暴露出來：

平靜期，DMEM 的長期成分（22 日 RV 帶動的緩慢基準）幫得上忙 ——因為當市場無事，波動主要是基準水位的緩慢漂移，把它獨立估計可以平滑掉短期雜訊。 危機期，DMEM 的長期成分反而成為負擔 ——當波動真正爆衝時，它的短期成分必須先除以一個「正在被慢慢更新」的長期基準，這個基準的估計噪音被放大，反應速度也跟不上。GJR-GARCH 反過來，把整段波動扔進一個有不對稱項的單一遞迴裡，反應快、調整猛，在危機期勝出。

值得一提的是，DMEM 估出來的短期 ARCH 係數（α_g）是 0——也就是模型自己「決定」短期成分根本不需要對前一日報酬做反應，全靠長期成分跟 GJR 式的不對稱衝擊撐起來。這是一個強烈的訊號： DMEM 的長/短期分解在這份資料上沒有真的拆出兩個獨立節奏，它的「短期」其實退化了 。

為什麼會這樣？

把整個結果合起來看，DMEM 給了我們一個值得記下來的方法論教訓—— 模型參數越多，不必然越準；它們必須真的指向不同的市場機制，分解才有意義 。

AMEM 用 5 個參數、其中 β=0.88 的高持續性係數，已經隱含地把「波動的長期記憶」吃進去了。它沒有顯式宣告「這是長期、那是短期」，但模型行為上已經達到類似效果。DMEM 嘗試用更明確的雙層結構去做同一件事，多出兩個參數帶來兩個代價：

估計誤差累積 ：兩個成分相乘時，各自的估計噪音會交互放大，特別在市場狀態變化快時
靈活性錯配 ：長期成分被綁定在 22 日 RV 上，當市場節奏改變時調整僵硬，反而拖累整體預測

從研究誠實的角度，這是個 部分支持理論、部分推翻理論 的混合結果。DMEM 不是完全沒用——它在平靜期確實是冠軍，這證明「長/短期分解」這個直覺在某些情境下抓到真實的市場結構。但對「整體更準」這個更強的命題，K776 沒辦法支持。要拿 DMEM 來做實務預測，使用者需要一個額外的市場狀態判斷器：在波動偏低時切到 DMEM、在波動爆衝時切回 GJR-GARCH 或 AMEM。這個切換邏輯本身又是一個未解決的研究問題。

對讀者的實務啟示

不論你是在研究方向上做選擇、在實務上挑模型，還是純粹想理解學術文獻在吵什麼，K776 給了三個可以記下來的判斷原則：

第一，更複雜不必然更好 。在波動率預測這個領域，過去 30 年無數研究反覆驗證一個現象：簡單模型（HAR、GARCH(1,1)、AMEM）常常打敗複雜模型。這不是因為複雜模型「錯」，而是因為金融時間序列雜訊太大、結構性變化太多，多餘的參數會把雜訊當訊號學進去。挑模型時，先問「這個額外複雜度，買到了什麼具體的預測優勢」，不要被理論的優雅綁架。

第二，一個整體排名常常掩蓋了重要分歧 。K776 整體排第二的 DMEM，在平靜期是冠軍、在危機期是倒數第二。如果只看整體 QLIKE，這個落差就消失了。實務上挑模型，必須按「使用情境」分別評估——避險策略需要的是危機期的反應速度，定價模型需要的是平靜期的穩定性，這兩個需求對應的最佳模型可能完全不同。

第三，拆解理論要看模型有沒有真的「拆乾淨」 。DMEM 的 α_g 估出來等於 0，意味著它名義上的雙成分結構在實證上塌縮成單成分結構——理論說的「快慢分離」並沒有在資料上發生。下次看到任何一個「分解模型」聲稱抓到了 X 跟 Y 兩種機制，記得去看它的子成分參數有沒有真的活著、有沒有真的指向不同方向，不要只看整體擬合度。

資料來源

資產：SPY ETF（S&P 500 追蹤）日線
資料來源 ：yfinance
樣本期間 ：2007-01-04 至 2026-03-30，共 4839 個交易日
樣本外期間 ：4326 天滾動視窗預測（min window=500，refit 每 63 日）
實驗代號 ：K776（DMEM Long/Short Components）
損失函數 ：QLIKE（Patton, 2011, J.Econometrics）
比較檢定方法 ：兩模型損失差的時間序列比較（重抽樣比較 + 嚴格統計檢驗門檻）
隨機種子 ：估計使用 seed=42（multistart）、seed=100+（GJR baseline），完全可復現

參考文獻

Cipollini, F., Engle, R. F., & Gallo, G. M. (2013). Semiparametric vector MEM. Journal of Applied Econometrics, 28, 1067-1088.
Engle, R. F., & Gallo, G. M. (2006). A multiple indicators model for volatility using intra-daily data. Journal of Econometrics, 131, 3-27.
Engle, R. F., Ghysels, E., & Sohn, B. (2013). Stock market volatility and macroeconomic fundamentals. Review of Economics and Statistics, 95(3), 776-797.
Corsi, F. (2009). A simple approximate long-memory model of realized volatility. Journal of Financial Econometrics, 7(2), 174-196.
Patton, A. J. (2011). Volatility forecast comparison using imperfect volatility proxies. Journal of Econometrics, 160, 246-256.