一般讀者2026/05/15 下午04:00

把振幅資訊和 VIX 加在一起，能比現有最強模型更準嗎？K939 給的誠實答案

SPYVIX波動率風險管理預測模型

讀者互動

已追蹤瀏覽 0 次，登入會員可按讚與收藏。

把振幅資訊和 VIX 加在一起，能比現有最強模型更準嗎？K939 給的誠實答案

一、起心動念：兩條線索撞在一起

研究波動率預測這件事，常常會出現「兩個看起來有用的線索」。

第一條線索： 振幅資訊（range）比每日報酬更會描述當天股市跳動的劇烈程度 。你可以想像一檔股票，從早上開盤到收盤，價格上下跑了 3%，但收盤剛好回到開盤價附近。如果只看「收盤對收盤」的報酬率，今天看起來像是「沒事的一天」；可是看當日最高、最低之間的振幅，會發現市場其實非常激動。前期實驗 K935 證實，採用 Yang–Zhang 振幅估計（同時涵蓋日內波動與隔夜跳空）的 CARR 模型，QLIKE 損失值比常見的 Parkinson 振幅估計低約 8%。

第二條線索： VIX 是市場對未來 30 天波動的「集體報價」 ，把它放進 GARCH 家族當作乘法因子（multiplicative factor）幾乎總是顯著降低預測誤差。我們之前的最佳模型 MF-GJR(VIX)，QLIKE 大約落在 1.48。

這兩條線索都已經個別驗證過。直覺上，把兩個都加進來——「Yang–Zhang 振幅 + VIX 乘法因子」——應該會做出更好的模型。這就是 K939 想要回答的問題： 1 + 1 > 2 嗎？

二、設計：六模型同場較量

K939 用最直接的方式比較：在同一份資料、同一個樣本期間、同一個評估標準下，把六個模型一起跑。

模型	描述	線索類型
GARCH(1,1)	經典基準	收盤報酬
GJR(1,1,1)	帶不對稱效應的基準	收盤報酬
MF-GJR(VIX)	目前最佳（K889）	收盤報酬 + VIX
CARR_YZ	Yang–Zhang 振幅模型（K935）	振幅
CARR_YZ-MF(VIX)	本次新模型：振幅 + VIX 乘法因子	振幅 + VIX
CARR_YZ-MF-A(VIX)	上面再加不對稱效應	振幅 + VIX + 不對稱

資料：SPY（追蹤美股大盤的 ETF）+ ^VIX，2004-01-05 至 2025-12-31
樣本外（OOS）測試期：2016-01-04 至 2025-12-31，共 2,514 個交易日
訓練視窗：滾動 2,000 日，每 21 個交易日重新校準一次模型參數，總共 120 次重新校準
評估指標：QLIKE 損失（Patton 2011，學界對波動率預測損失公平比較的標準）
預測對齊：所有解釋變數都是用 t−1 的資訊預測 t 期，符合無前視（no lookahead）原則

三、結果（全部數字來自 K939 結果檔）

1. 名次：新模型確實排第一

排名	模型	QLIKE	對 MF-GJR(VIX)
1	CARR_YZ-MF(VIX)	1.4622	−1.21%
2	CARR_YZ-MF-A(VIX)	1.4724	−0.52%
3	MF-GJR(VIX)	1.4801	基準
4	CARR_YZ	1.5550	+5.06%
5	GJR	1.5834	+6.98%
6	GARCH	1.6037	+8.35%

從點估計來看，CARR_YZ-MF(VIX) 的 QLIKE 是 1.4622，比現任最佳 MF-GJR(VIX) 的 1.4801 略低 1.21%。乍看之下「新模型贏了」。

2. Spearman 等級相關：兩者幾乎打平

QLIKE 衡量「預測值與實際值在水準（level）上的差異」，但有時候兩個模型在排序高低波動日的能力差異會更值得看。Spearman rho 衡量這件事。

模型	rho
CARR_YZ-MF(VIX)	0.4606
MF-GJR(VIX)	0.4583
CARR_YZ-MF-A(VIX)	0.4573
CARR_YZ	0.4177
GJR	0.3927
GARCH	0.3777

新模型 0.4606 vs 舊冠軍 0.4583，幾乎是同一個水準。在「哪一天會是高波動日」的排序能力上，兩者打平。

3. 統計檢定：差距不夠大

這是最關鍵、也最容易被忽略的一段。

我們把兩個模型的逐日 QLIKE 損失序列拿來做配對比較（學界稱 Diebold–Mariano 比較），看點估計上的 1.21% 差距能不能通過嚴格統計檢驗門檻（嚴格統計等人 2016 建議統計強度統計強度 > 3.0）。

比較	統計強度	達顯著水準？
CARR_YZ-MF(VIX) vs MF-GJR(VIX)	−1.59	否
CARR_YZ-MF-A(VIX) vs MF-GJR(VIX)	−0.71	否
CARR_YZ-MF(VIX) vs CARR_YZ	−5.90	是
CARR_YZ-MF(VIX) vs GARCH	−6.43	是
MF-GJR(VIX) vs GJR	−4.33	是
MF-GJR(VIX) vs GARCH	−5.24	是

新模型 vs 舊冠軍，統計強度只有 −1.59， 沒有通過嚴格門檻 。

4. 但有一段令人意外的觀察

如果改看「每個模型在自己原生目標上的 QLIKE」，會看到一個很乾淨的 VIX 增量效應：

CARR_YZ 在 Yang–Zhang 振幅上的 QLIKE：0.467
CARR_YZ-MF(VIX) 在 Yang–Zhang 振幅上的 QLIKE：0.372
改善幅度： 約 20%

也就是說， VIX 對「振幅模型本身」的貢獻是巨大的、明確的 ——這在 DM 比較上統計強度=−5.90，達到嚴格門檻。VIX 不只能幫助以收盤報酬為基礎的模型，也能顯著提升以日內振幅為基礎的模型。

四、誠實結論：三件事

結論 1：點估計贏，統計檢定打平

K939 給出的最誠實版本是：

CARR_YZ-MF(VIX) 在點估計上是新的最低 QLIKE 模型（1.4622），但相對於現任 MF-GJR(VIX)（1.4801）的 1.21% 改善，沒有通過嚴格統計檢驗門檻。

這不是「新模型沒用」，也不是「新模型確定比較好」。這是「兩個模型表現太接近，憑這 10 年 OOS 樣本還無法分出勝負」。

研究誠實的講法是：CARR_YZ-MF(VIX) 是 MF-GJR(VIX) 的 可信替代品（credible alternative） ，但 不是統計意義上的升級 。

結論 2：VIX 才是主角，振幅是配角

把所有比較串起來看，VIX 的貢獻每次都很顯著、很穩定：

加 VIX 進報酬模型（GARCH → MF-GJR）：QLIKE 改善 7.7%，統計強度統計強度=5.24
加 VIX 進振幅模型（CARR_YZ → CARR_YZ-MF）：QLIKE 改善 6.0%，統計強度統計強度=5.90

但「振幅資訊在已經有 VIX 之後的額外貢獻」就小很多：

報酬+VIX vs 振幅+VIX：差距只有 1.21%，沒有達到嚴格門檻

換句話說， VIX 把報酬模型和振幅模型都拉到差不多的水準 。一旦 VIX 在場，模型結構（用收盤報酬還是日內振幅）就變成次要因素。這是一個重要的發現——它告訴我們，過去研究界花很多心力區分各種波動率代理變數的結構差異，當 VIX 能加入時，那些差異會被大幅抹平。

結論 3：不對稱性對振幅模型沒用

GJR 模型有一個經典結果：把「下跌時的衝擊比上漲時更大」這件事（leverage effect）放進去，會顯著降低 QLIKE。

但對振幅模型而言，CARR_YZ-MF-A(VIX) 的 QLIKE 是 1.4724， 比沒加不對稱項的 CARR_YZ-MF(VIX) 的 1.4622 還高一點 。原因合理：日內振幅本來就同時涵蓋了「跌得多」和「漲得多」兩個方向的訊息，再額外加一個「下跌啞變數乘上振幅」反而是冗餘訊號。

這個觀察呼應一個更廣的方法論教訓： 不是每個在 GARCH 家族有效的擴展，都會在 CARR 家族同樣有效 。模型的內部結構決定了哪些外加成分會帶來增量、哪些會冗餘。

五、對讀者的實務含義

如果你只想用最簡單的指標當市場波動的領先指標——直接看 VIX 就好。它提供的訊息量遠超模型結構選擇上的差異。

如果你已經在用 MF-GJR(VIX) 這類模型，可以放心 不需要切換 到 CARR_YZ-MF(VIX)。兩個模型在現有樣本上不可區分，切換的成本（重寫程式、重新驗證、重新風控簽核）大於可預期的效益。

如果你正在做學術研究，K939 的價值不在「找到更好的模型」，而在於 確立了一個有意義的負面結果 ：在加入 VIX 之後，振幅型與報酬型 GARCH 家族在 SPY 月頻校準的設定下無法被分辨。這是一條重要的 boundary condition——未來想要找到「振幅真正比報酬好」的場景，可能要去看 VIX 訊號質地不佳的市場（例如新興市場無 VIX 等價物）、或拆得更細的高頻時段、或極端事件當天。

六、為什麼這篇文章值得讀完

研究界（包含我們自己）很常掉進一個陷阱：找到一個「點估計贏一點點」的新模型，就急著宣稱「新冠軍誕生」。K939 是反例。它告訴我們， 1.21% 的點估計改善 + 統計強度統計強度=−1.59，誠實的講法是「打平」 ，不是「贏」。

當你看到任何一篇研究宣稱「我們的新模型比舊基準改善 X%」時，請看三件事：

X 是不是在合適的損失函數（QLIKE 而不是 MSE）下計算？
樣本外有多長？多少天？跨多少個市場狀態？
統計檢定的強度有多少？通過什麼門檻？

K939 在這三件事上都做了——OOS 2,514 天、Patton 2011 QLIKE、嚴格統計 2016 統計強度>3.0 門檻——所以它的「打平」結論才是可信的。

七、限制

單一資產（SPY），單一 OOS 期間。在台股、新興市場、商品市場上是否成立未知。
VIX 在 tau 中是用同期值，並非完全嚴格的滯後。不過這對 t+1 預測的影響有限（VIX 序列高度持續）。
CARR 用的是 Exponential 創新假設，採用 Gamma 分配可能更貼合振幅資料的尾部。
沒有做 VaR / ES 風險指標的回測——這留給後續實驗。

資料來源

SPY 與 ^VIX 日頻 OHLC：yfinance（公開資料）
樣本期間：2004-01-05 ~ 2025-12-31（22 年）
OOS 測試期：2016-01-04 ~ 2025-12-31（10 年，2,514 個交易日）
模型校準：Python + scipy.optimize 自寫 MLE，固定隨機種子 seed=42
完整實驗檔案：experiments/k939/（k939.py / k939_results.json / k939_comparison.png / README.md）
相關前期實驗：K889（MF-GJR(VIX) 確立為最佳）、K935（CARR_YZ 在振幅模型中最佳）
方法論參考文獻：Patton (2011) J. Econometrics 160；嚴格統計 et al. (2016) "Tests for Forecast Encompassing"；Yang & Zhang (2000)；Chou (2005)；Engle & Rangel (2008)

[實驗對照圖：https://qxhfgdfzazwpkdgesavm.supabase.co/storage/v1/object/public/article-images/k939_comparison.png — QLIKE 排名、Spearman 排名、累積 QLIKE 差、樣本期間預測值對照四宮格]

實驗編號：K939