研究2026/05/21 下午02:00

波動率預測還能再擠出更多訊號嗎？高階動差的誠實檢驗

SPY波動率預測實證研究風險值高階動差HAR模型

讀者互動

已追蹤瀏覽 0 次，登入會員可按讚與收藏。

波動率預測還能再擠出更多訊號嗎？高階動差的誠實檢驗

一個老問題：日內報酬的「形狀」有沒有用？

研究員預測股市波動的時候，最常用的工具是「已實現變異數」（realized variance, RV），把當天每 5 分鐘報酬的平方加起來，就得到一個對當天總波動的精準量測。把昨天、上週、上個月的 RV 餵進一個簡單的線性模型（這就是文獻裡赫赫有名的 HAR 模型），對明天波動的預測力已經非常硬。

但 RV 只用了「報酬平方和」這一個數字。日內 75 根 5 分鐘 K 棒裡藏的訊息，遠不只「總平方和」這麼簡單：

報酬的偏態 （skewness）：今天上漲的力道比下跌的力道強，還是反過來？
報酬的峰態 （kurtosis）：今天有沒有出現極端的尖峰？分配的尾巴有多厚？

學界把這兩個量稱作「已實現偏態」（realized skewness, RSk）與「已實現峰態」（realized kurtosis, RKt）。Amaya、Christoffersen、Jacobs 與 Vasquez 在 2015 年發表於 Journal of Financial Economics 的研究，曾證明已實現偏態能夠解釋下一週的個股報酬橫斷面，是過去十年資產訂價文獻的重要里程碑。

順著這個思路，一個自然的延伸問題是： 這些更精細的「形狀資訊」，能不能在預測下一天的波動率上，多榨出一些訊號？

K1084 這個實驗就是要回答這個問題。本文先把答案攤開： 在我們手上這份 60 個交易日的 SPY 5 分鐘樣本中，高階動差並沒有提供額外的、嚴謹意義上能站得住腳的預測力 。但這個 NULL 結果不是浪費，它清楚劃出了訊號的邊界，也保護了下游論文不去追逐一個其實不存在的優勢。

實驗怎麼設計

資料

5 分鐘 SPY ：60 個交易日，2026-01-14 至 2026-04-10。每天約 75 根 5 分鐘 K 棒。
日線資料 ：來自 yfinance 的 SPY 與 ^VIX，用於做槓桿效應檢測、波動率分組、以及風險值（VaR）目標。
訓練/測試切分 ：前 30 天做 in-sample 校準，後 30 天做 out-of-sample（OOS）測試。

比較哪些模型？

我們把目標設定為「預測明天的已實現變異數 RV_{t+1}」，比較七個模型：

模型	加進去的資訊
HAR-RV（基準）	昨天、上週、上月的 RV
HAR-RSk	多加：昨天的已實現偏態
HAR-RKt	多加：昨天的已實現峰態
HAR-SJ	多加：昨天的「正負半變異差」（signed jump，下跌變異減上漲變異）
HAR-Full	偏態 + 峰態 + 半變異差全部加進去
GJR-GARCH	經典條件變異數模型，2000 天滾動重估
A4f-VIX²	用 VIX² 直接當預測

預測誤差用文獻標準的 QLIKE 損失函數 （Patton 2011），數字越小代表預測越好。兩模型比較顯著與否，採用 Newey-West HAC 修正後的標準比較檢定。本研究的判定門檻採取 HLZ（2016）所建議的嚴格統計檢驗門檻：「統計強度」絕對值要超過 3.0 才算數，這比一般的「達顯著水準」要嚴格得多，因為高階動差研究歷年下來累積了大量重複檢定，文獻警告這類資料若不抬高門檻，假發現率會非常高。

樣本敘述：日內形狀長什麼樣

實驗第一步先看樣本本身的特徵：

平均 RV ：5.47e-05（年化大約 21% 的波動率，符合 SPY 在這段期間的市場條件）。
平均 RSk ：+0.059，與「對稱（=0）」沒有顯著差異，也就是說，60 天裡上漲與下跌的力道平均上沒有系統性偏離。
平均 RKt ：+4.49， 遠大於對稱常態分配的 BM 理論基準 3.0 ，達到嚴格統計檢驗門檻（重抽樣比較顯示 p 值小於 0.001）。85% 的交易日都呈現超出常態的尖峰肥尾。
RSk 序列相關 ：lag-1 的相關係數 = -0.46，今天偏正、明天偏負， day-to-day 翻面翻得很頻繁 。這個觀察其實已經在暗示：把 RSk_{t-1} 直接拿去預測 RV_{t+1}，要找到穩定的線性關係並不容易。

主結果：四個假說，三個 NULL

預測 RV_{t+1}

七個模型在 30 天 OOS 期間的 QLIKE 表現：

模型	QLIKE	與 HAR-RV 的比較	是否達嚴格門檻？
HAR-RSk	−8.6214 （最佳）	比較強度 −1.78	否
HAR-SJ	−8.6116	比較強度 −0.83	否
HAR-RV（基準）	−8.5973	—	—
HAR-RKt	−8.5805	比較強度 +0.67	否
HAR-Full	−8.5758	比較強度 +0.53	否
GJR-GARCH	−8.5042	—	—
A4f-VIX²	−8.0742	—	—

數字本身沒問題：HAR-RSk 的 QLIKE 最佳，比 HAR-RV 改善了 0.28%。但 比較檢定的統計強度只有 −1.78，沒有跨過嚴格的 3.0 門檻 。改善的幅度還落在「樣本誤差能夠製造的雜訊」之內。

更值得注意的是 HAR-Full（把偏態、峰態、半變異差全加上去）反而比 HAR-RV 還差 ——QLIKE 從 −8.5973 滑到 −8.5758。這是統計學上的典型陷阱：當高度相關的解釋變數疊在一起，模型不僅沒有累加效益，還會因參數估計誤差變大而拖累預測。

風險值（VaR）回測：5% 全軍覆沒、1% 通過但結論不強

許多人關心高階動差的真正動機，是「能不能更好地估計極端風險」。實驗用三種方法把波動率預測轉成 1 日 VaR：

常態分配（Normal）
學生 t（Student-t，自由度固定 5）
Cornish-Fisher（用 RKt 與 RSk 對常態做四階修正）

接著用 Kupiec 的對數概似比檢定（Kupiec 1995）看實際違反次數有沒有偏離預期：

α	方法	違反 / N	違反率	Kupiec 結果
5%	Normal	6/30	20.0%	未達覆蓋率
5%	Student-t	6/30	20.0%	未達覆蓋率
5%	Cornish-Fisher	5/30	16.7%	未達覆蓋率
1%	Normal	1/30	3.3%	通過
1%	Student-t	0/30	0.0%	通過
1%	Cornish-Fisher	1/30	3.3%	通過

5% VaR 三種方法全部 fail Kupiec ——目標 5% 的違反率，實際拉到 17–20%。Cornish-Fisher 用了 RKt 的尾部修正後只把違反從 6 次降到 5 次，本質上沒解決問題。

問題的根因不是「分位數的形狀」，而是 HAR-RV 點估計把 σ² 預測得太低 。2026-Q1 是一個波動上升的階段，VIX 中位數來到 24.7，模型還沒完全跟上。即使你把分配尾巴加肥（Cornish-Fisher 做的事），但你給的「波動半徑 σ」本身就太小，乘上一個再厚的尾巴係數也救不回來。

1% 層級 OOS n=30 樣本太小，三種方法都通過 Kupiec，但這個結論的力度不強——30 天裡只期待 0.3 次違反，實際 0–1 次都「合法」。

分組分析：低 VIX 與高 VIX

把 30 天 OOS 用 VIX 中位數（24.74）切兩半，每組 15 天：

模型	低 VIX（n=15）	高 VIX（n=15）
HAR-RV	−8.7188	−8.4758
HAR-RSk	−8.7644	−8.4784
HAR-RKt	−8.6794	−8.4817
HAR-Full	−8.6652	−8.4864

方向上很有意思： 低 VIX 時偏態幫得上忙 （HAR-RSk 勝出）， 高 VIX 時所有高階動差合在一起略勝 （HAR-Full 勝出）。但每組只有 15 天，跨組差距全部沒達嚴格統計門檻。這個「分組訊號」目前 只能當作未來實驗的方向線索 ，不能拿去寫進論文當結論。

一個有趣的副產品：HAR-SJ 的全樣本係數

雖然 HAR-SJ 在 OOS 沒有跨過嚴格門檻，但在 全樣本內估計 時，半變異差（signed jump）的係數出現了清楚的訊號：SJ_d 係數 = −0.78，統計強度達 −3.10——亦即下跌半變異對明天 RV 有顯著的正向預測力（係數為負是因為 SJ 定義為 RV+ 減 RV-）。

這個結果跟我們先前在 K1063 做半變異實驗（已實現變異數的上下行分解）的發現完全一致： 「形狀」當中真正可預測的部分，主要來自「上漲與下跌之間的不對稱」，而不是更高階的偏度與峰度 。

而且當 RSk、RKt 與 SJ 三個高階動差同時放進 HAR-Full 模型，SJ 的個別係數從 −0.78 縮到 −0.28、統計強度從 −3.10 掉到 −0.59，明顯被高度相關的高階動差拉糊。這是統計學裡的共線性（multicollinearity）現象，三個變數都在描述「同一件事」（日內非對稱性）的不同切面，硬塞在一起會互相吃掉解釋力。

為什麼 NULL 也是一個有價值的結果？

研究誠實意味著： 不能因為「找不到效果」就把樣本切薄、切到剛好顯著、或重新定義門檻把結論強行塞進顯著區 。這份實驗的四個假說檢驗結果如下：

假說	結果
H1：偏態提升 RV 預測	NULL （比較強度 −1.78，未達嚴格門檻）
H2：峰態改善尾部 VaR	NULL at 5%（Kupiec 全 fail）；at 1% 樣本太小無效論述
H3：HAR-Full 全動差打贏 HAR-RV	NULL （甚至更差）
H4：分組相關	未達嚴格門檻，方向性線索保留

這給了下游的研究與論文三個明確的指引：

Paper 9 不要升級到 HAR-Full 高階動差規格 ——前一個實驗 K1063 的半變異版本已經把可驗證的訊號抓完了。
5% VaR 該修的是點估計 σ²，不是分位數的尾部形狀 。Cornish-Fisher 並不能取代一個更好的波動率水準預測。
下一步重做這實驗的條件 ：等 5 分鐘資料延伸到 ≥252 天（一年）再跑一次 K1086，或改用 jump-robust 估計子（MedRV / bipower variation, K1087）剝掉日內微結構雜訊。在目前 60 天的樣本下硬說有效果，會踩到 HLZ 警示的「累積重複檢定」陷阱。

對讀者的小提醒

當你看到任何研究宣稱「我們的新指標把波動率預測力提升 X%」時，可以拿這篇實驗當尺子問三個問題：

OOS 樣本多長？ 30 天的 0.28% 改善，跟 5 年的 5% 改善，是兩個量級的證據強度。
採用什麼門檻？ 一般的「達顯著水準」（達顯著水準（顯著性低於 0.05））在多重檢定脈絡下假發現率很高，HLZ 嚴格門檻才是金融計量近年共識的做法。
新指標和舊指標互相吃掉訊號嗎？ HAR-Full 比 HAR-RV 還差不是 bug，而是共線性的提醒，多就是亂。

K1084 是一個 60 天的探索性實驗，結果是 NULL。這個結論不會出現在我們的論文最終版裡的「主表」中，但它會在「附錄 / 穩健性檢查」區段被引用，明確告訴未來的讀者： 我們有試過，並沒有效果 。這就是研究誠實的具體形狀。

資料來源

5 分鐘 SPY 報酬 ：本地存檔 data/intraday/SPY_5min_*.csv，60 個交易日（2026-01-14 至 2026-04-10）。
日線 SPY 與 ^VIX ：透過 yfinance 抓取，作為槓桿檢測、分組與 VaR 目標。
實驗腳本與全結果 ：本平台 K1084 實驗（experiments/k1084/），random seed = 42，可重現。
方法論文獻 ：Amaya, Christoffersen, Jacobs & Vasquez (2015) JFE；Barndorff-Nielsen, Kinnebrock & Shephard (2010)；Corsi (2009)；Patton (2011)；HLZ (2016) RFS；Neuberger (2012)。