← Research Feed
一般讀者2026/05/15 下午04:00

把振幅資訊和 VIX 加在一起,能比現有最強模型更準嗎?K939 給的誠實答案

SPYVIX波動率風險管理預測模型

讀者互動

已追蹤瀏覽 0 次,登入會員可按讚與收藏。

分享到:LINEFacebookX / Twitter

把振幅資訊和 VIX 加在一起,能比現有最強模型更準嗎?K939 給的誠實答案

一、起心動念:兩條線索撞在一起

研究波動率預測這件事,常常會出現「兩個看起來有用的線索」。

第一條線索: 振幅資訊(range)比每日報酬更會描述當天股市跳動的劇烈程度 。 你可以想像一檔股票,從早上開盤到收盤,價格上下跑了 3%,但收盤剛好回到開盤價附近。如果只看「收盤對收盤」的報酬率,今天看起來像是「沒事的一天」;可是看當日最高、最低之間的振幅,會發現市場其實非常激動。前期實驗 K935 證實,採用 Yang–Zhang 振幅估計(同時涵蓋日內波動與隔夜跳空)的 CARR 模型,QLIKE 損失值比常見的 Parkinson 振幅估計低約 8%。

第二條線索: VIX 是市場對未來 30 天波動的「集體報價」 ,把它放進 GARCH 家族當作乘法因子(multiplicative factor)幾乎總是顯著降低預測誤差。我們之前的最佳模型 MF-GJR(VIX),QLIKE 大約落在 1.48。

這兩條線索都已經個別驗證過。直覺上,把兩個都加進來——「Yang–Zhang 振幅 + VIX 乘法因子」——應該會做出更好的模型。這就是 K939 想要回答的問題: 1 + 1 > 2 嗎? 

二、設計:六模型同場較量

K939 用最直接的方式比較:在同一份資料、同一個樣本期間、同一個評估標準下,把六個模型一起跑。

模型描述線索類型
GARCH(1,1)經典基準收盤報酬
GJR(1,1,1)帶不對稱效應的基準收盤報酬
MF-GJR(VIX)目前最佳(K889)收盤報酬 + VIX
CARR_YZYang–Zhang 振幅模型(K935)振幅
 CARR_YZ-MF(VIX)  本次新模型:振幅 + VIX 乘法因子 振幅 + VIX
CARR_YZ-MF-A(VIX)上面再加不對稱效應振幅 + VIX + 不對稱
  • 資料:SPY(追蹤美股大盤的 ETF)+ ^VIX,2004-01-05 至 2025-12-31
  • 樣本外(OOS)測試期:2016-01-04 至 2025-12-31,共 2,514 個交易日
  • 訓練視窗:滾動 2,000 日,每 21 個交易日重新校準一次模型參數,總共 120 次重新校準
  • 評估指標:QLIKE 損失(Patton 2011,學界對波動率預測損失公平比較的標準)
  • 預測對齊:所有解釋變數都是用 t−1 的資訊預測 t 期,符合無前視(no lookahead)原則

三、結果(全部數字來自 K939 結果檔)

1. 名次:新模型確實排第一

排名模型QLIKE對 MF-GJR(VIX)
1 CARR_YZ-MF(VIX)  1.4622 −1.21%
2CARR_YZ-MF-A(VIX)1.4724−0.52%
3MF-GJR(VIX)1.4801基準
4CARR_YZ1.5550+5.06%
5GJR1.5834+6.98%
6GARCH1.6037+8.35%

從點估計來看,CARR_YZ-MF(VIX) 的 QLIKE 是 1.4622,比現任最佳 MF-GJR(VIX) 的 1.4801 略低 1.21%。乍看之下「新模型贏了」。

2. Spearman 等級相關:兩者幾乎打平

QLIKE 衡量「預測值與實際值在水準(level)上的差異」,但有時候兩個模型在排序高低波動日的能力差異會更值得看。Spearman rho 衡量這件事。

模型rho
CARR_YZ-MF(VIX)0.4606
MF-GJR(VIX)0.4583
CARR_YZ-MF-A(VIX)0.4573
CARR_YZ0.4177
GJR0.3927
GARCH0.3777

新模型 0.4606 vs 舊冠軍 0.4583,幾乎是同一個水準。在「哪一天會是高波動日」的排序能力上,兩者打平。

3. 統計檢定:差距不夠大

這是最關鍵、也最容易被忽略的一段。

我們把兩個模型的逐日 QLIKE 損失序列拿來做配對比較(學界稱 Diebold–Mariano 比較),看點估計上的 1.21% 差距能不能通過嚴格統計檢驗門檻(嚴格統計 等人 2016 建議統計強度 統計強度 > 3.0)。

比較統計強度達顯著水準?
 CARR_YZ-MF(VIX) vs MF-GJR(VIX)  −1.59   
CARR_YZ-MF-A(VIX) vs MF-GJR(VIX)−0.71
CARR_YZ-MF(VIX) vs CARR_YZ−5.90
CARR_YZ-MF(VIX) vs GARCH−6.43
MF-GJR(VIX) vs GJR−4.33
MF-GJR(VIX) vs GARCH−5.24

新模型 vs 舊冠軍,統計強度只有 −1.59, 沒有通過嚴格門檻 。

4. 但有一段令人意外的觀察

如果改看「每個模型在自己原生目標上的 QLIKE」,會看到一個很乾淨的 VIX 增量效應:

  • CARR_YZ 在 Yang–Zhang 振幅上的 QLIKE:0.467
  • CARR_YZ-MF(VIX) 在 Yang–Zhang 振幅上的 QLIKE:0.372
  • 改善幅度: 約 20% 

也就是說, VIX 對「振幅模型本身」的貢獻是巨大的、明確的 ——這在 DM 比較上 統計強度=−5.90,達到嚴格門檻。VIX 不只能幫助以收盤報酬為基礎的模型,也能顯著提升以日內振幅為基礎的模型。

四、誠實結論:三件事

結論 1:點估計贏,統計檢定打平

K939 給出的最誠實版本是:

 CARR_YZ-MF(VIX) 在點估計上是新的最低 QLIKE 模型(1.4622),但相對於現任 MF-GJR(VIX)(1.4801)的 1.21% 改善,沒有通過嚴格統計檢驗門檻。 

這不是「新模型沒用」,也不是「新模型確定比較好」。這是「兩個模型表現太接近,憑這 10 年 OOS 樣本還無法分出勝負」。

研究誠實的講法是:CARR_YZ-MF(VIX) 是 MF-GJR(VIX) 的 可信替代品(credible alternative) ,但 不是統計意義上的升級 。

結論 2:VIX 才是主角,振幅是配角

把所有比較串起來看,VIX 的貢獻每次都很顯著、很穩定:

  • 加 VIX 進報酬模型(GARCH → MF-GJR):QLIKE 改善 7.7%,統計強度 統計強度=5.24
  • 加 VIX 進振幅模型(CARR_YZ → CARR_YZ-MF):QLIKE 改善 6.0%,統計強度 統計強度=5.90

但「振幅資訊在已經有 VIX 之後的額外貢獻」就小很多:

  • 報酬+VIX vs 振幅+VIX:差距只有 1.21%,沒有達到嚴格門檻

換句話說, VIX 把報酬模型和振幅模型都拉到差不多的水準 。一旦 VIX 在場,模型結構(用收盤報酬還是日內振幅)就變成次要因素。這是一個重要的發現——它告訴我們,過去研究界花很多心力區分各種波動率代理變數的結構差異,當 VIX 能加入時,那些差異會被大幅抹平。

結論 3:不對稱性對振幅模型沒用

GJR 模型有一個經典結果:把「下跌時的衝擊比上漲時更大」這件事(leverage effect)放進去,會顯著降低 QLIKE。

但對振幅模型而言,CARR_YZ-MF-A(VIX) 的 QLIKE 是 1.4724, 比沒加不對稱項的 CARR_YZ-MF(VIX) 的 1.4622 還高一點 。原因合理:日內振幅本來就同時涵蓋了「跌得多」和「漲得多」兩個方向的訊息,再額外加一個「下跌啞變數乘上振幅」反而是冗餘訊號。

這個觀察呼應一個更廣的方法論教訓: 不是每個在 GARCH 家族有效的擴展,都會在 CARR 家族同樣有效 。模型的內部結構決定了哪些外加成分會帶來增量、哪些會冗餘。

五、對讀者的實務含義

如果你只想用最簡單的指標當市場波動的領先指標——直接看 VIX 就好。它提供的訊息量遠超模型結構選擇上的差異。

如果你已經在用 MF-GJR(VIX) 這類模型,可以放心 不需要切換 到 CARR_YZ-MF(VIX)。兩個模型在現有樣本上不可區分,切換的成本(重寫程式、重新驗證、重新風控簽核)大於可預期的效益。

如果你正在做學術研究,K939 的價值不在「找到更好的模型」,而在於 確立了一個有意義的負面結果 :在加入 VIX 之後,振幅型與報酬型 GARCH 家族在 SPY 月頻校準的設定下無法被分辨。這是一條重要的 boundary condition——未來想要找到「振幅真正比報酬好」的場景,可能要去看 VIX 訊號質地不佳的市場(例如新興市場無 VIX 等價物)、或拆得更細的高頻時段、或極端事件當天。

六、為什麼這篇文章值得讀完

研究界(包含我們自己)很常掉進一個陷阱:找到一個「點估計贏一點點」的新模型,就急著宣稱「新冠軍誕生」。K939 是反例。它告訴我們, 1.21% 的點估計改善 + 統計強度 統計強度=−1.59,誠實的講法是「打平」 ,不是「贏」。

當你看到任何一篇研究宣稱「我們的新模型比舊基準改善 X%」時,請看三件事:

  1. X 是不是在合適的損失函數(QLIKE 而不是 MSE)下計算?
  2. 樣本外有多長?多少天?跨多少個市場狀態?
  3. 統計檢定的強度有多少?通過什麼門檻?

K939 在這三件事上都做了——OOS 2,514 天、Patton 2011 QLIKE、嚴格統計 2016 統計強度>3.0 門檻——所以它的「打平」結論才是可信的。

七、限制

  • 單一資產(SPY),單一 OOS 期間。在台股、新興市場、商品市場上是否成立未知。
  • VIX 在 tau 中是用同期值,並非完全嚴格的滯後。不過這對 t+1 預測的影響有限(VIX 序列高度持續)。
  • CARR 用的是 Exponential 創新假設,採用 Gamma 分配可能更貼合振幅資料的尾部。
  • 沒有做 VaR / ES 風險指標的回測——這留給後續實驗。

資料來源

  • SPY 與 ^VIX 日頻 OHLC:yfinance(公開資料)
  • 樣本期間:2004-01-05 ~ 2025-12-31(22 年)
  • OOS 測試期:2016-01-04 ~ 2025-12-31(10 年,2,514 個交易日)
  • 模型校準:Python + scipy.optimize 自寫 MLE,固定隨機種子 seed=42
  • 完整實驗檔案:experiments/k939/(k939.py / k939_results.json / k939_comparison.png / README.md)
  • 相關前期實驗:K889(MF-GJR(VIX) 確立為最佳)、K935(CARR_YZ 在振幅模型中最佳)
  • 方法論參考文獻:Patton (2011) J. Econometrics 160;嚴格統計 et al. (2016) "Tests for Forecast Encompassing";Yang & Zhang (2000);Chou (2005);Engle & Rangel (2008)

[實驗對照圖:https://qxhfgdfzazwpkdgesavm.supabase.co/storage/v1/object/public/article-images/k939_comparison.png — QLIKE 排名、Spearman 排名、累積 QLIKE 差、樣本期間預測值對照四宮格]


實驗編號:K939

詳情

experiment_refs
K939

相關文章

先讀正式關聯,若無則使用標籤與主題相似度補齊