把振幅資訊和 VIX 加在一起,能比現有最強模型更準嗎?K939 給的誠實答案
讀者互動
已追蹤瀏覽 0 次,登入會員可按讚與收藏。
把振幅資訊和 VIX 加在一起,能比現有最強模型更準嗎?K939 給的誠實答案
一、起心動念:兩條線索撞在一起
研究波動率預測這件事,常常會出現「兩個看起來有用的線索」。
第一條線索: 振幅資訊(range)比每日報酬更會描述當天股市跳動的劇烈程度 。 你可以想像一檔股票,從早上開盤到收盤,價格上下跑了 3%,但收盤剛好回到開盤價附近。如果只看「收盤對收盤」的報酬率,今天看起來像是「沒事的一天」;可是看當日最高、最低之間的振幅,會發現市場其實非常激動。前期實驗 K935 證實,採用 Yang–Zhang 振幅估計(同時涵蓋日內波動與隔夜跳空)的 CARR 模型,QLIKE 損失值比常見的 Parkinson 振幅估計低約 8%。
第二條線索: VIX 是市場對未來 30 天波動的「集體報價」 ,把它放進 GARCH 家族當作乘法因子(multiplicative factor)幾乎總是顯著降低預測誤差。我們之前的最佳模型 MF-GJR(VIX),QLIKE 大約落在 1.48。
這兩條線索都已經個別驗證過。直覺上,把兩個都加進來——「Yang–Zhang 振幅 + VIX 乘法因子」——應該會做出更好的模型。這就是 K939 想要回答的問題: 1 + 1 > 2 嗎?
二、設計:六模型同場較量
K939 用最直接的方式比較:在同一份資料、同一個樣本期間、同一個評估標準下,把六個模型一起跑。
| 模型 | 描述 | 線索類型 |
|---|---|---|
| GARCH(1,1) | 經典基準 | 收盤報酬 |
| GJR(1,1,1) | 帶不對稱效應的基準 | 收盤報酬 |
| MF-GJR(VIX) | 目前最佳(K889) | 收盤報酬 + VIX |
| CARR_YZ | Yang–Zhang 振幅模型(K935) | 振幅 |
| CARR_YZ-MF(VIX) | 本次新模型:振幅 + VIX 乘法因子 | 振幅 + VIX |
| CARR_YZ-MF-A(VIX) | 上面再加不對稱效應 | 振幅 + VIX + 不對稱 |
- 資料:SPY(追蹤美股大盤的 ETF)+ ^VIX,2004-01-05 至 2025-12-31
- 樣本外(OOS)測試期:2016-01-04 至 2025-12-31,共 2,514 個交易日
- 訓練視窗:滾動 2,000 日,每 21 個交易日重新校準一次模型參數,總共 120 次重新校準
- 評估指標:QLIKE 損失(Patton 2011,學界對波動率預測損失公平比較的標準)
- 預測對齊:所有解釋變數都是用 t−1 的資訊預測 t 期,符合無前視(no lookahead)原則
三、結果(全部數字來自 K939 結果檔)
1. 名次:新模型確實排第一
| 排名 | 模型 | QLIKE | 對 MF-GJR(VIX) |
|---|---|---|---|
| 1 | CARR_YZ-MF(VIX) | 1.4622 | −1.21% |
| 2 | CARR_YZ-MF-A(VIX) | 1.4724 | −0.52% |
| 3 | MF-GJR(VIX) | 1.4801 | 基準 |
| 4 | CARR_YZ | 1.5550 | +5.06% |
| 5 | GJR | 1.5834 | +6.98% |
| 6 | GARCH | 1.6037 | +8.35% |
從點估計來看,CARR_YZ-MF(VIX) 的 QLIKE 是 1.4622,比現任最佳 MF-GJR(VIX) 的 1.4801 略低 1.21%。乍看之下「新模型贏了」。
2. Spearman 等級相關:兩者幾乎打平
QLIKE 衡量「預測值與實際值在水準(level)上的差異」,但有時候兩個模型在排序高低波動日的能力差異會更值得看。Spearman rho 衡量這件事。
| 模型 | rho |
|---|---|
| CARR_YZ-MF(VIX) | 0.4606 |
| MF-GJR(VIX) | 0.4583 |
| CARR_YZ-MF-A(VIX) | 0.4573 |
| CARR_YZ | 0.4177 |
| GJR | 0.3927 |
| GARCH | 0.3777 |
新模型 0.4606 vs 舊冠軍 0.4583,幾乎是同一個水準。在「哪一天會是高波動日」的排序能力上,兩者打平。
3. 統計檢定:差距不夠大
這是最關鍵、也最容易被忽略的一段。
我們把兩個模型的逐日 QLIKE 損失序列拿來做配對比較(學界稱 Diebold–Mariano 比較),看點估計上的 1.21% 差距能不能通過嚴格統計檢驗門檻(嚴格統計 等人 2016 建議統計強度 統計強度 > 3.0)。
| 比較 | 統計強度 | 達顯著水準? |
|---|---|---|
| CARR_YZ-MF(VIX) vs MF-GJR(VIX) | −1.59 | 否 |
| CARR_YZ-MF-A(VIX) vs MF-GJR(VIX) | −0.71 | 否 |
| CARR_YZ-MF(VIX) vs CARR_YZ | −5.90 | 是 |
| CARR_YZ-MF(VIX) vs GARCH | −6.43 | 是 |
| MF-GJR(VIX) vs GJR | −4.33 | 是 |
| MF-GJR(VIX) vs GARCH | −5.24 | 是 |
新模型 vs 舊冠軍,統計強度只有 −1.59, 沒有通過嚴格門檻 。
4. 但有一段令人意外的觀察
如果改看「每個模型在自己原生目標上的 QLIKE」,會看到一個很乾淨的 VIX 增量效應:
- CARR_YZ 在 Yang–Zhang 振幅上的 QLIKE:0.467
- CARR_YZ-MF(VIX) 在 Yang–Zhang 振幅上的 QLIKE:0.372
- 改善幅度: 約 20%
也就是說, VIX 對「振幅模型本身」的貢獻是巨大的、明確的 ——這在 DM 比較上 統計強度=−5.90,達到嚴格門檻。VIX 不只能幫助以收盤報酬為基礎的模型,也能顯著提升以日內振幅為基礎的模型。
四、誠實結論:三件事
結論 1:點估計贏,統計檢定打平
K939 給出的最誠實版本是:
CARR_YZ-MF(VIX) 在點估計上是新的最低 QLIKE 模型(1.4622),但相對於現任 MF-GJR(VIX)(1.4801)的 1.21% 改善,沒有通過嚴格統計檢驗門檻。
這不是「新模型沒用」,也不是「新模型確定比較好」。這是「兩個模型表現太接近,憑這 10 年 OOS 樣本還無法分出勝負」。
研究誠實的講法是:CARR_YZ-MF(VIX) 是 MF-GJR(VIX) 的 可信替代品(credible alternative) ,但 不是統計意義上的升級 。
結論 2:VIX 才是主角,振幅是配角
把所有比較串起來看,VIX 的貢獻每次都很顯著、很穩定:
- 加 VIX 進報酬模型(GARCH → MF-GJR):QLIKE 改善 7.7%,統計強度 統計強度=5.24
- 加 VIX 進振幅模型(CARR_YZ → CARR_YZ-MF):QLIKE 改善 6.0%,統計強度 統計強度=5.90
但「振幅資訊在已經有 VIX 之後的額外貢獻」就小很多:
- 報酬+VIX vs 振幅+VIX:差距只有 1.21%,沒有達到嚴格門檻
換句話說, VIX 把報酬模型和振幅模型都拉到差不多的水準 。一旦 VIX 在場,模型結構(用收盤報酬還是日內振幅)就變成次要因素。這是一個重要的發現——它告訴我們,過去研究界花很多心力區分各種波動率代理變數的結構差異,當 VIX 能加入時,那些差異會被大幅抹平。
結論 3:不對稱性對振幅模型沒用
GJR 模型有一個經典結果:把「下跌時的衝擊比上漲時更大」這件事(leverage effect)放進去,會顯著降低 QLIKE。
但對振幅模型而言,CARR_YZ-MF-A(VIX) 的 QLIKE 是 1.4724, 比沒加不對稱項的 CARR_YZ-MF(VIX) 的 1.4622 還高一點 。原因合理:日內振幅本來就同時涵蓋了「跌得多」和「漲得多」兩個方向的訊息,再額外加一個「下跌啞變數乘上振幅」反而是冗餘訊號。
這個觀察呼應一個更廣的方法論教訓: 不是每個在 GARCH 家族有效的擴展,都會在 CARR 家族同樣有效 。模型的內部結構決定了哪些外加成分會帶來增量、哪些會冗餘。
五、對讀者的實務含義
如果你只想用最簡單的指標當市場波動的領先指標——直接看 VIX 就好。它提供的訊息量遠超模型結構選擇上的差異。
如果你已經在用 MF-GJR(VIX) 這類模型,可以放心 不需要切換 到 CARR_YZ-MF(VIX)。兩個模型在現有樣本上不可區分,切換的成本(重寫程式、重新驗證、重新風控簽核)大於可預期的效益。
如果你正在做學術研究,K939 的價值不在「找到更好的模型」,而在於 確立了一個有意義的負面結果 :在加入 VIX 之後,振幅型與報酬型 GARCH 家族在 SPY 月頻校準的設定下無法被分辨。這是一條重要的 boundary condition——未來想要找到「振幅真正比報酬好」的場景,可能要去看 VIX 訊號質地不佳的市場(例如新興市場無 VIX 等價物)、或拆得更細的高頻時段、或極端事件當天。
六、為什麼這篇文章值得讀完
研究界(包含我們自己)很常掉進一個陷阱:找到一個「點估計贏一點點」的新模型,就急著宣稱「新冠軍誕生」。K939 是反例。它告訴我們, 1.21% 的點估計改善 + 統計強度 統計強度=−1.59,誠實的講法是「打平」 ,不是「贏」。
當你看到任何一篇研究宣稱「我們的新模型比舊基準改善 X%」時,請看三件事:
- X 是不是在合適的損失函數(QLIKE 而不是 MSE)下計算?
- 樣本外有多長?多少天?跨多少個市場狀態?
- 統計檢定的強度有多少?通過什麼門檻?
K939 在這三件事上都做了——OOS 2,514 天、Patton 2011 QLIKE、嚴格統計 2016 統計強度>3.0 門檻——所以它的「打平」結論才是可信的。
七、限制
- 單一資產(SPY),單一 OOS 期間。在台股、新興市場、商品市場上是否成立未知。
- VIX 在 tau 中是用同期值,並非完全嚴格的滯後。不過這對 t+1 預測的影響有限(VIX 序列高度持續)。
- CARR 用的是 Exponential 創新假設,採用 Gamma 分配可能更貼合振幅資料的尾部。
- 沒有做 VaR / ES 風險指標的回測——這留給後續實驗。
資料來源
- SPY 與 ^VIX 日頻 OHLC:yfinance(公開資料)
- 樣本期間:2004-01-05 ~ 2025-12-31(22 年)
- OOS 測試期:2016-01-04 ~ 2025-12-31(10 年,2,514 個交易日)
- 模型校準:Python + scipy.optimize 自寫 MLE,固定隨機種子 seed=42
- 完整實驗檔案:experiments/k939/(k939.py / k939_results.json / k939_comparison.png / README.md)
- 相關前期實驗:K889(MF-GJR(VIX) 確立為最佳)、K935(CARR_YZ 在振幅模型中最佳)
- 方法論參考文獻:Patton (2011) J. Econometrics 160;嚴格統計 et al. (2016) "Tests for Forecast Encompassing";Yang & Zhang (2000);Chou (2005);Engle & Rangel (2008)
[實驗對照圖:https://qxhfgdfzazwpkdgesavm.supabase.co/storage/v1/object/public/article-images/k939_comparison.png — QLIKE 排名、Spearman 排名、累積 QLIKE 差、樣本期間預測值對照四宮格]
實驗編號:K939
詳情
- experiment_refs
- K939
相關文章
先讀正式關聯,若無則使用標籤與主題相似度補齊