← 研究動態
一般讀者2026/06/20 下午07:00

換一把尺,波動率模型的名次就會變嗎?

SPY方法論波動率預測模型評比

讀者互動

已追蹤瀏覽 0 次,登入會員可按讚與收藏。

分享到:LINEFacebookX / Twitter

[提出: 多評分尺度檢驗, 執行: Codex]

摘要

很多模型比較最後都會做成一張排行榜,看起來像是在回答一個很簡單的問題:

誰最好?

但這裡有個常被忽略的前提: 你用哪一把尺來量。 

這次我們把同一批 SPY 波動率模型,換 5 種不同評分方式各排一次名。結果不是完全翻盤,但也遠遠不是「永遠同一個冠軍」。平均來看,這 5 份排行榜的相似度只有  0.7071 ,屬於 中等穩定 。

意思很直接: 如果一個模型只在某一種評分方式下看起來最好,還不能太快把它當成真正的全面冠軍。 

同一批模型在 5 種評分方式下的名次熱力圖:名次沒有完全亂掉,但冠軍確實會換人

這次在比什麼?

資料是 SPY 的日資料,樣本外一共  752 天 。

我們拿 8 個常見模型一起比,包括幾種 GARCH、HAR、半變異版本、EWMA、等權組合,還有一個很簡單的 21 日滾動基準。

關鍵不是模型本身,而是我們故意換了 5 種不同的評分方式。有些評分方式比較重視大錯,有些比較重視比例偏差,有些則比較接近研究界常用標準。

問題只有一個:

 如果模型真的夠穩,它換一把尺之後,名次應該還站得住嗎? 

結果一:名次不會亂成一團,但也不會完全固定

整體來看,5 份排行榜之間的平均相似度是  0.7071 。

這個數字代表的不是「完全一致」,而是「大致類似,但仍有明顯位移」。

最典型的例子有三個:

  • 有一個模型在 5 種評分方式裡拿了  3 次第一 ,但另外兩次只排到第 2 和第 3。
  • 另一個模型在某一把尺下拿第 1,換一把尺就掉到第 6。
  • 還有一個模型幾乎每次都排在中前段,看起來不特別耀眼,但穩定度反而很好。

這是很重要的提醒。因為它表示「最好」常常不是絕對概念,而是跟你怎麼定義失誤有關。

結果二:真正穩定的,不是冠軍,而是那個穩定墊底的模型

不同評分方式之間的名次相似度矩陣:有些彼此很像,有些分歧明顯

這次最穩的結果,不是誰第一,而是誰最後。

Rolling_21d 這個非常簡單的基準模型,在 5 種評分方式裡 全部都是第 8 名 。也就是說,它是唯一一個不管怎麼量都穩定落後的模型。

反過來看前段班,就沒這麼單純:

  • Semivar_RS- 平均名次最好,但不是每次都第一。
  • HAR_logrange 有時拿第一,有時掉到第 6。
  • EW_Ensemble 幾乎都排第 3 或第 4,看起來沒有奪冠,卻意外地穩。

這種結果比「某模型宇宙第一」更接近真實世界。因為模型比較本來就不只是在比平均分數,也在比它對不同錯誤定義有多敏感。

結果三:沒有任何一個模型能在所有評分方式下都被封王

各模型在不同評分方式下被保留為前段候選的次數:沒有任何一個是全勝

如果再把標準拉嚴一點,不只問「誰排第一」,而是問「誰在不同評分方式下都能穩定留在前段候選名單」,答案更明確:

  •  沒有任何一個模型是全勝冠軍 
  •  也沒有任何一個模型是全數被淘汰 

換句話說,這批模型比較像是一群各有強弱、互相拉鋸的選手,而不是一個人遙遙領先。

這也是為什麼只拿單一排行榜說故事,常常會把差距講得太滿。因為很多時候,前兩三名其實沒有拉開到足以讓你很有把握地下定論。

這對讀者真正有什麼用?

這篇最實際的翻譯是:

  1. 看到「某模型第一名」時,先問它是在哪一種評分方式下第一。
  2. 如果換個評分方式就明顯掉隊,那個第一名就比較像條件式勝利,不是全面勝利。
  3. 如果一個模型在不同評分方式下都維持前段,即使它不是每次冠軍,反而可能更值得信任。

對做研究的人,這篇的提醒更直接:

 不要只報一張排行榜。 

至少多換一把尺,才能知道你看到的是穩定優勢,還是剛好符合某一種評分偏好。

一句話結論

同一批波動率模型,換一種評分方式之後,名次確實會變,但不至於整個翻盤。真正站得住的結論不是「誰永遠第一」,而是「哪些模型在不同尺下都還留在前段」。


本文基於 SPY 波動率模型排名穩定性實驗。資料來源:yfinance;樣本外期間 2023-01-01 至 2025-12-31,共 752 天。比較的是 8 個模型在 5 種評分方式下的相對名次與前段保留情況。


延伸閱讀

相關文章

先讀正式關聯,若無則使用標籤與主題相似度補齊

📄
AI 波動率模型真的比較聰明嗎?RECH-X 的答案很克制
一個波動率模型加上 AI 後,真的會比較會預測嗎? 這個問題最近又被 RECH-X 拉回桌上。RECH-X 的想法很直覺:保留老派波動率模型的骨架,再塞進一個很小的神經網路,讓模型能讀昨天的市場震動、昨天估出的風險、以及已實現波動率。2024 年一篇 Finance Research Letters 論文給出漂亮結果,主張 RECH-X 在 S&P 500 上勝過 RealGARCH。 我們把...
📄
波動率「測不準」能不能當減碼訊號?六檔 ETF、六十天的老實答案
打開任何一套波動率監控面板,你會發現同一天的「市場有多晃」其實不只一個數字。用 5 分鐘資料算出一個,用當天的開盤、最高、最低、收盤算出另一個,把隔夜跳空也加進去又是一個。多數時候它們差不多,偶爾會明顯對不上。這篇想回答一個很實際的問題:當這些數字彼此吵起來的時候,是不是代表隔天更難預測、應該先把部位縮小一點? ## 先講清楚「分歧」是什麼 把量測市場波動的方法想像成幾支溫度計。它們原理不同、...
📄
把五分鐘資料切得更細,預測真的會更準嗎?台指期給了一個保守答案
做波動率預測時,很容易想把資料切得更細。一天一筆收盤價太粗,那就看每五分鐘一筆;只看總波動太粗,那就再拆成上漲、下跌、跳動、估計噪音。直覺上,資料越細,模型應該越聰明。 這次台指期日盤實測給的答案比較冷靜:細資料有幫助,但幫助還不夠硬。 VolPred 把台指期日盤的五分鐘資料整理成每日波動,期間從 2017-05-16 到 2026-06-29,共 2219 個原始交易日。正式可判斷的樣本外...