← 研究動態
研究2026/05/21 下午02:00

波動率預測還能再擠出更多訊號嗎?高階動差的誠實檢驗

SPY波動率預測實證研究風險值高階動差HAR模型

讀者互動

已追蹤瀏覽 0 次,登入會員可按讚與收藏。

分享到:LINEFacebookX / Twitter

波動率預測還能再擠出更多訊號嗎?高階動差的誠實檢驗

一個老問題:日內報酬的「形狀」有沒有用?

研究員預測股市波動的時候,最常用的工具是「已實現變異數」(realized variance, RV),把當天每 5 分鐘報酬的平方加起來,就得到一個對當天總波動的精準量測。把昨天、上週、上個月的 RV 餵進一個簡單的線性模型(這就是文獻裡赫赫有名的 HAR 模型),對明天波動的預測力已經非常硬。

但 RV 只用了「報酬平方和」這一個數字。日內 75 根 5 分鐘 K 棒裡藏的訊息,遠不只「總平方和」這麼簡單:

  •  報酬的偏態 (skewness):今天上漲的力道比下跌的力道強,還是反過來?
  •  報酬的峰態 (kurtosis):今天有沒有出現極端的尖峰?分配的尾巴有多厚?

學界把這兩個量稱作「已實現偏態」(realized skewness, RSk)與「已實現峰態」(realized kurtosis, RKt)。Amaya、Christoffersen、Jacobs 與 Vasquez 在 2015 年發表於 Journal of Financial Economics 的研究,曾證明已實現偏態能夠解釋下一週的個股報酬橫斷面,是過去十年資產訂價文獻的重要里程碑。

順著這個思路,一個自然的延伸問題是: 這些更精細的「形狀資訊」,能不能在預測下一天的波動率上,多榨出一些訊號? 

K1084 這個實驗就是要回答這個問題。本文先把答案攤開: 在我們手上這份 60 個交易日的 SPY 5 分鐘樣本中,高階動差並沒有提供額外的、嚴謹意義上能站得住腳的預測力 。但這個 NULL 結果不是浪費,它清楚劃出了訊號的邊界,也保護了下游論文不去追逐一個其實不存在的優勢。


實驗怎麼設計

資料

  •  5 分鐘 SPY :60 個交易日,2026-01-14 至 2026-04-10。每天約 75 根 5 分鐘 K 棒。
  •  日線資料 :來自 yfinance 的 SPY 與 ^VIX,用於做槓桿效應檢測、波動率分組、以及風險值(VaR)目標。
  •  訓練/測試切分 :前 30 天做 in-sample 校準,後 30 天做 out-of-sample(OOS)測試。

比較哪些模型?

我們把目標設定為「預測明天的已實現變異數 RV_{t+1}」,比較七個模型:

模型加進去的資訊
HAR-RV(基準)昨天、上週、上月的 RV
HAR-RSk多加:昨天的已實現偏態
HAR-RKt多加:昨天的已實現峰態
HAR-SJ多加:昨天的「正負半變異差」(signed jump,下跌變異減上漲變異)
HAR-Full偏態 + 峰態 + 半變異差全部加進去
GJR-GARCH經典條件變異數模型,2000 天滾動重估
A4f-VIX²用 VIX² 直接當預測

預測誤差用文獻標準的  QLIKE 損失函數 (Patton 2011),數字越小代表預測越好。兩模型比較顯著與否,採用 Newey-West HAC 修正後的標準比較檢定。本研究的判定門檻採取 HLZ(2016)所建議的嚴格統計檢驗門檻:「統計強度」絕對值要超過 3.0 才算數,這比一般的「達顯著水準」要嚴格得多,因為高階動差研究歷年下來累積了大量重複檢定,文獻警告這類資料若不抬高門檻,假發現率會非常高。

樣本敘述:日內形狀長什麼樣

實驗第一步先看樣本本身的特徵:

  •  平均 RV :5.47e-05(年化大約 21% 的波動率,符合 SPY 在這段期間的市場條件)。
  •  平均 RSk :+0.059,與「對稱(=0)」沒有顯著差異,也就是說,60 天裡上漲與下跌的力道平均上沒有系統性偏離。
  •  平均 RKt :+4.49, 遠大於對稱常態分配的 BM 理論基準 3.0 ,達到嚴格統計檢驗門檻(重抽樣比較顯示 p 值小於 0.001)。85% 的交易日都呈現超出常態的尖峰肥尾。
  •  RSk 序列相關 :lag-1 的相關係數 = -0.46,今天偏正、明天偏負, day-to-day 翻面翻得很頻繁 。這個觀察其實已經在暗示:把 RSk_{t-1} 直接拿去預測 RV_{t+1},要找到穩定的線性關係並不容易。

主結果:四個假說,三個 NULL

預測 RV_{t+1}

七個模型在 30 天 OOS 期間的 QLIKE 表現:

模型QLIKE與 HAR-RV 的比較是否達嚴格門檻?
 HAR-RSk  −8.6214 (最佳)比較強度 −1.78  
HAR-SJ−8.6116比較強度 −0.83
HAR-RV(基準)−8.5973
HAR-RKt−8.5805比較強度 +0.67
HAR-Full−8.5758比較強度 +0.53
GJR-GARCH−8.5042
A4f-VIX²−8.0742

數字本身沒問題:HAR-RSk 的 QLIKE 最佳,比 HAR-RV 改善了 0.28%。但 比較檢定的統計強度只有 −1.78,沒有跨過嚴格的 3.0 門檻 。改善的幅度還落在「樣本誤差能夠製造的雜訊」之內。

更值得注意的是  HAR-Full(把偏態、峰態、半變異差全加上去)反而比 HAR-RV 還差 ——QLIKE 從 −8.5973 滑到 −8.5758。這是統計學上的典型陷阱:當高度相關的解釋變數疊在一起,模型不僅沒有累加效益,還會因參數估計誤差變大而拖累預測。

風險值(VaR)回測:5% 全軍覆沒、1% 通過但結論不強

許多人關心高階動差的真正動機,是「能不能更好地估計極端風險」。實驗用三種方法把波動率預測轉成 1 日 VaR:

  • 常態分配(Normal)
  • 學生 t(Student-t,自由度固定 5)
  • Cornish-Fisher(用 RKt 與 RSk 對常態做四階修正)

接著用 Kupiec 的對數概似比檢定(Kupiec 1995)看實際違反次數有沒有偏離預期:

α方法違反 / N違反率Kupiec 結果
5%Normal6/3020.0% 未達覆蓋率 
5%Student-t6/3020.0% 未達覆蓋率 
5%Cornish-Fisher5/3016.7% 未達覆蓋率 
1%Normal1/303.3%通過
1%Student-t0/300.0%通過
1%Cornish-Fisher1/303.3%通過

 5% VaR 三種方法全部 fail Kupiec ——目標 5% 的違反率,實際拉到 17–20%。Cornish-Fisher 用了 RKt 的尾部修正後只把違反從 6 次降到 5 次,本質上沒解決問題。

問題的根因不是「分位數的形狀」,而是 HAR-RV 點估計把 σ² 預測得太低 。2026-Q1 是一個波動上升的階段,VIX 中位數來到 24.7,模型還沒完全跟上。即使你把分配尾巴加肥(Cornish-Fisher 做的事),但你給的「波動半徑 σ」本身就太小,乘上一個再厚的尾巴係數也救不回來。

1% 層級 OOS n=30 樣本太小,三種方法都通過 Kupiec,但這個結論的力度不強——30 天裡只期待 0.3 次違反,實際 0–1 次都「合法」。

分組分析:低 VIX 與高 VIX

把 30 天 OOS 用 VIX 中位數(24.74)切兩半,每組 15 天:

模型低 VIX(n=15)高 VIX(n=15)
HAR-RV−8.7188−8.4758
 HAR-RSk  −8.7644 −8.4784
HAR-RKt−8.6794−8.4817
HAR-Full−8.6652 −8.4864 

方向上很有意思: 低 VIX 時偏態幫得上忙 (HAR-RSk 勝出), 高 VIX 時所有高階動差合在一起略勝 (HAR-Full 勝出)。但每組只有 15 天,跨組差距全部沒達嚴格統計門檻。這個「分組訊號」目前 只能當作未來實驗的方向線索 ,不能拿去寫進論文當結論。


一個有趣的副產品:HAR-SJ 的全樣本係數

雖然 HAR-SJ 在 OOS 沒有跨過嚴格門檻,但在 全樣本內估計 時,半變異差(signed jump)的係數出現了清楚的訊號:SJ_d 係數 = −0.78,統計強度達 −3.10——亦即下跌半變異對明天 RV 有顯著的正向預測力(係數為負是因為 SJ 定義為 RV+ 減 RV-)。

這個結果跟我們先前在 K1063 做半變異實驗(已實現變異數的上下行分解)的發現完全一致: 「形狀」當中真正可預測的部分,主要來自「上漲與下跌之間的不對稱」,而不是更高階的偏度與峰度 。

而且當 RSk、RKt 與 SJ 三個高階動差 同時 放進 HAR-Full 模型,SJ 的個別係數從 −0.78 縮到 −0.28、統計強度從 −3.10 掉到 −0.59,明顯被高度相關的高階動差拉糊。這是統計學裡的共線性(multicollinearity)現象,三個變數都在描述「同一件事」(日內非對稱性)的不同切面,硬塞在一起會互相吃掉解釋力。


為什麼 NULL 也是一個有價值的結果?

研究誠實意味著: 不能因為「找不到效果」就把樣本切薄、切到剛好顯著、或重新定義門檻把結論強行塞進顯著區 。這份實驗的四個假說檢驗結果如下:

假說結果
H1:偏態提升 RV 預測 NULL (比較強度 −1.78,未達嚴格門檻)
H2:峰態改善尾部 VaR NULL  at 5%(Kupiec 全 fail);at 1% 樣本太小無效論述
H3:HAR-Full 全動差打贏 HAR-RV NULL (甚至更差)
H4:分組相關 未達嚴格門檻,方向性線索保留 

這給了下游的研究與論文三個明確的指引:

  1.  Paper 9 不要升級到 HAR-Full 高階動差規格 ——前一個實驗 K1063 的半變異版本已經把可驗證的訊號抓完了。
  2.  5% VaR 該修的是點估計 σ²,不是分位數的尾部形狀 。Cornish-Fisher 並不能取代一個更好的波動率水準預測。
  3.  下一步重做這實驗的條件 :等 5 分鐘資料延伸到 ≥252 天(一年)再跑一次 K1086,或改用 jump-robust 估計子(MedRV / bipower variation, K1087)剝掉日內微結構雜訊。在目前 60 天的樣本下硬說有效果,會踩到 HLZ 警示的「累積重複檢定」陷阱。

對讀者的小提醒

當你看到任何研究宣稱「我們的新指標把波動率預測力提升 X%」時,可以拿這篇實驗當尺子問三個問題:

  1.  OOS 樣本多長?  30 天的 0.28% 改善,跟 5 年的 5% 改善,是兩個量級的證據強度。
  2.  採用什麼門檻?  一般的「達顯著水準」(達顯著水準(顯著性低於 0.05))在多重檢定脈絡下假發現率很高,HLZ 嚴格門檻才是金融計量近年共識的做法。
  3.  新指標和舊指標互相吃掉訊號嗎?  HAR-Full 比 HAR-RV 還差不是 bug,而是共線性的提醒,多就是亂。

K1084 是一個 60 天的探索性實驗,結果是 NULL。這個結論不會出現在我們的論文最終版裡的「主表」中,但它會在「附錄 / 穩健性檢查」區段被引用,明確告訴未來的讀者: 我們有試過,並沒有效果 。這就是研究誠實的具體形狀。


資料來源

  •  5 分鐘 SPY 報酬 :本地存檔 data/intraday/SPY_5min_*.csv,60 個交易日(2026-01-14 至 2026-04-10)。
  •  日線 SPY 與 ^VIX :透過 yfinance 抓取,作為槓桿檢測、分組與 VaR 目標。
  •  實驗腳本與全結果 :本平台 K1084 實驗(experiments/k1084/),random seed = 42,可重現。
  •  方法論文獻 :Amaya, Christoffersen, Jacobs & Vasquez (2015) JFE;Barndorff-Nielsen, Kinnebrock & Shephard (2010);Corsi (2009);Patton (2011);HLZ (2016) RFS;Neuberger (2012)。

本文所有統計量與表格數字,均直接讀取自 experiments/k1084/k1084_results.json。改善百分比、OOS 樣本數、Kupiec 結果與分組 QLIKE 皆與該檔案 byte-for-byte 對應。


K1084 verdict:高階動差在 60 天 SPY 樣本中對 RV 預測沒有可靠的增量訊號;半變異效應(K1063)已捕捉到主要的不對稱訊號。Paper 9 維持 HAR-semi-variance 設定。


延伸閱讀

相關文章

先讀正式關聯,若無則使用標籤與主題相似度補齊

📄
日頻波動率,HAR-RV 贏不了 GARCH:60 場跨資產對戰的紀錄
# 日頻波動率,HAR-RV 贏不了 GARCH:60 場跨資產對戰的紀錄 > 實驗 K188 | OOS 期間 2023-01-01 至 2024-12-31 | 5 資產 × 4 波動率代理 × 3 模型變體 --- HAR-RV 是過去二十年波動率預測文獻裡出現率最高的模型之一。它把波動率分解成日、週、月三個頻率的加總,捕捉長記憶結構,跑在五分鐘高頻數據上幾乎無敵。 那在日頻數據上呢...
📄
K1582:HARQ / SHARK-style 測量誤差修正 HAR-RV 的台指期日盤試驗
## 摘要 [提出: Claude, 執行: Claude] K1582 檢驗 realized quarticity 測量誤差修正與 signed intraday components,是否能改善標準 HAR-RV 的一步期 realized variance 預測。正式可判斷樣本是 TAIFEX TX active-contract 日盤,原始日資料 2,219 筆,樣本外預測 1,697...
📄
把 VIX 期限結構算成「波動風險溢酬」,能預測美股回檔嗎?4500 天回測,答案是不行
# 把 VIX 期限結構算成「波動風險溢酬」,能預測美股回檔嗎?4500 天回測,答案是不行 VIX 大家都熟。它是市場恐慌指數。 但市場其實還有兩個少人提的兄弟:VIX3M(3 個月版)和 VIX6M(6 個月版)。把這三個拉出來看「斜率」,理論上能告訴你交易員對未來幾週與未來半年的恐慌定價差多少。 更進一步,把 IV²(隱含波動率平方)減去同期間的實現波動率平方,就是學界很重視的 VRP...
波動率預測還能再擠出更多訊號嗎?高階動差的誠實檢驗 | VolPred