波動率預測還能再擠出更多訊號嗎?高階動差的誠實檢驗
讀者互動
已追蹤瀏覽 0 次,登入會員可按讚與收藏。
波動率預測還能再擠出更多訊號嗎?高階動差的誠實檢驗
一個老問題:日內報酬的「形狀」有沒有用?
研究員預測股市波動的時候,最常用的工具是「已實現變異數」(realized variance, RV),把當天每 5 分鐘報酬的平方加起來,就得到一個對當天總波動的精準量測。把昨天、上週、上個月的 RV 餵進一個簡單的線性模型(這就是文獻裡赫赫有名的 HAR 模型),對明天波動的預測力已經非常硬。
但 RV 只用了「報酬平方和」這一個數字。日內 75 根 5 分鐘 K 棒裡藏的訊息,遠不只「總平方和」這麼簡單:
- 報酬的偏態 (skewness):今天上漲的力道比下跌的力道強,還是反過來?
- 報酬的峰態 (kurtosis):今天有沒有出現極端的尖峰?分配的尾巴有多厚?
學界把這兩個量稱作「已實現偏態」(realized skewness, RSk)與「已實現峰態」(realized kurtosis, RKt)。Amaya、Christoffersen、Jacobs 與 Vasquez 在 2015 年發表於 Journal of Financial Economics 的研究,曾證明已實現偏態能夠解釋下一週的個股報酬橫斷面,是過去十年資產訂價文獻的重要里程碑。
順著這個思路,一個自然的延伸問題是: 這些更精細的「形狀資訊」,能不能在預測下一天的波動率上,多榨出一些訊號?
K1084 這個實驗就是要回答這個問題。本文先把答案攤開: 在我們手上這份 60 個交易日的 SPY 5 分鐘樣本中,高階動差並沒有提供額外的、嚴謹意義上能站得住腳的預測力 。但這個 NULL 結果不是浪費,它清楚劃出了訊號的邊界,也保護了下游論文不去追逐一個其實不存在的優勢。
實驗怎麼設計
資料
- 5 分鐘 SPY :60 個交易日,2026-01-14 至 2026-04-10。每天約 75 根 5 分鐘 K 棒。
- 日線資料 :來自 yfinance 的 SPY 與 ^VIX,用於做槓桿效應檢測、波動率分組、以及風險值(VaR)目標。
- 訓練/測試切分 :前 30 天做 in-sample 校準,後 30 天做 out-of-sample(OOS)測試。
比較哪些模型?
我們把目標設定為「預測明天的已實現變異數 RV_{t+1}」,比較七個模型:
| 模型 | 加進去的資訊 |
|---|---|
| HAR-RV(基準) | 昨天、上週、上月的 RV |
| HAR-RSk | 多加:昨天的已實現偏態 |
| HAR-RKt | 多加:昨天的已實現峰態 |
| HAR-SJ | 多加:昨天的「正負半變異差」(signed jump,下跌變異減上漲變異) |
| HAR-Full | 偏態 + 峰態 + 半變異差全部加進去 |
| GJR-GARCH | 經典條件變異數模型,2000 天滾動重估 |
| A4f-VIX² | 用 VIX² 直接當預測 |
預測誤差用文獻標準的 QLIKE 損失函數 (Patton 2011),數字越小代表預測越好。兩模型比較顯著與否,採用 Newey-West HAC 修正後的標準比較檢定。本研究的判定門檻採取 HLZ(2016)所建議的嚴格統計檢驗門檻:「統計強度」絕對值要超過 3.0 才算數,這比一般的「達顯著水準」要嚴格得多,因為高階動差研究歷年下來累積了大量重複檢定,文獻警告這類資料若不抬高門檻,假發現率會非常高。
樣本敘述:日內形狀長什麼樣
實驗第一步先看樣本本身的特徵:
- 平均 RV :5.47e-05(年化大約 21% 的波動率,符合 SPY 在這段期間的市場條件)。
- 平均 RSk :+0.059,與「對稱(=0)」沒有顯著差異,也就是說,60 天裡上漲與下跌的力道平均上沒有系統性偏離。
- 平均 RKt :+4.49, 遠大於對稱常態分配的 BM 理論基準 3.0 ,達到嚴格統計檢驗門檻(重抽樣比較顯示 p 值小於 0.001)。85% 的交易日都呈現超出常態的尖峰肥尾。
- RSk 序列相關 :lag-1 的相關係數 = -0.46,今天偏正、明天偏負, day-to-day 翻面翻得很頻繁 。這個觀察其實已經在暗示:把 RSk_{t-1} 直接拿去預測 RV_{t+1},要找到穩定的線性關係並不容易。
主結果:四個假說,三個 NULL
預測 RV_{t+1}
七個模型在 30 天 OOS 期間的 QLIKE 表現:
| 模型 | QLIKE | 與 HAR-RV 的比較 | 是否達嚴格門檻? |
|---|---|---|---|
| HAR-RSk | −8.6214 (最佳) | 比較強度 −1.78 | 否 |
| HAR-SJ | −8.6116 | 比較強度 −0.83 | 否 |
| HAR-RV(基準) | −8.5973 | — | — |
| HAR-RKt | −8.5805 | 比較強度 +0.67 | 否 |
| HAR-Full | −8.5758 | 比較強度 +0.53 | 否 |
| GJR-GARCH | −8.5042 | — | — |
| A4f-VIX² | −8.0742 | — | — |
數字本身沒問題:HAR-RSk 的 QLIKE 最佳,比 HAR-RV 改善了 0.28%。但 比較檢定的統計強度只有 −1.78,沒有跨過嚴格的 3.0 門檻 。改善的幅度還落在「樣本誤差能夠製造的雜訊」之內。
更值得注意的是 HAR-Full(把偏態、峰態、半變異差全加上去)反而比 HAR-RV 還差 ——QLIKE 從 −8.5973 滑到 −8.5758。這是統計學上的典型陷阱:當高度相關的解釋變數疊在一起,模型不僅沒有累加效益,還會因參數估計誤差變大而拖累預測。
風險值(VaR)回測:5% 全軍覆沒、1% 通過但結論不強
許多人關心高階動差的真正動機,是「能不能更好地估計極端風險」。實驗用三種方法把波動率預測轉成 1 日 VaR:
- 常態分配(Normal)
- 學生 t(Student-t,自由度固定 5)
- Cornish-Fisher(用 RKt 與 RSk 對常態做四階修正)
接著用 Kupiec 的對數概似比檢定(Kupiec 1995)看實際違反次數有沒有偏離預期:
| α | 方法 | 違反 / N | 違反率 | Kupiec 結果 |
|---|---|---|---|---|
| 5% | Normal | 6/30 | 20.0% | 未達覆蓋率 |
| 5% | Student-t | 6/30 | 20.0% | 未達覆蓋率 |
| 5% | Cornish-Fisher | 5/30 | 16.7% | 未達覆蓋率 |
| 1% | Normal | 1/30 | 3.3% | 通過 |
| 1% | Student-t | 0/30 | 0.0% | 通過 |
| 1% | Cornish-Fisher | 1/30 | 3.3% | 通過 |
5% VaR 三種方法全部 fail Kupiec ——目標 5% 的違反率,實際拉到 17–20%。Cornish-Fisher 用了 RKt 的尾部修正後只把違反從 6 次降到 5 次,本質上沒解決問題。
問題的根因不是「分位數的形狀」,而是 HAR-RV 點估計把 σ² 預測得太低 。2026-Q1 是一個波動上升的階段,VIX 中位數來到 24.7,模型還沒完全跟上。即使你把分配尾巴加肥(Cornish-Fisher 做的事),但你給的「波動半徑 σ」本身就太小,乘上一個再厚的尾巴係數也救不回來。
1% 層級 OOS n=30 樣本太小,三種方法都通過 Kupiec,但這個結論的力度不強——30 天裡只期待 0.3 次違反,實際 0–1 次都「合法」。
分組分析:低 VIX 與高 VIX
把 30 天 OOS 用 VIX 中位數(24.74)切兩半,每組 15 天:
| 模型 | 低 VIX(n=15) | 高 VIX(n=15) |
|---|---|---|
| HAR-RV | −8.7188 | −8.4758 |
| HAR-RSk | −8.7644 | −8.4784 |
| HAR-RKt | −8.6794 | −8.4817 |
| HAR-Full | −8.6652 | −8.4864 |
方向上很有意思: 低 VIX 時偏態幫得上忙 (HAR-RSk 勝出), 高 VIX 時所有高階動差合在一起略勝 (HAR-Full 勝出)。但每組只有 15 天,跨組差距全部沒達嚴格統計門檻。這個「分組訊號」目前 只能當作未來實驗的方向線索 ,不能拿去寫進論文當結論。
一個有趣的副產品:HAR-SJ 的全樣本係數
雖然 HAR-SJ 在 OOS 沒有跨過嚴格門檻,但在 全樣本內估計 時,半變異差(signed jump)的係數出現了清楚的訊號:SJ_d 係數 = −0.78,統計強度達 −3.10——亦即下跌半變異對明天 RV 有顯著的正向預測力(係數為負是因為 SJ 定義為 RV+ 減 RV-)。
這個結果跟我們先前在 K1063 做半變異實驗(已實現變異數的上下行分解)的發現完全一致: 「形狀」當中真正可預測的部分,主要來自「上漲與下跌之間的不對稱」,而不是更高階的偏度與峰度 。
而且當 RSk、RKt 與 SJ 三個高階動差 同時 放進 HAR-Full 模型,SJ 的個別係數從 −0.78 縮到 −0.28、統計強度從 −3.10 掉到 −0.59,明顯被高度相關的高階動差拉糊。這是統計學裡的共線性(multicollinearity)現象,三個變數都在描述「同一件事」(日內非對稱性)的不同切面,硬塞在一起會互相吃掉解釋力。
為什麼 NULL 也是一個有價值的結果?
研究誠實意味著: 不能因為「找不到效果」就把樣本切薄、切到剛好顯著、或重新定義門檻把結論強行塞進顯著區 。這份實驗的四個假說檢驗結果如下:
| 假說 | 結果 |
|---|---|
| H1:偏態提升 RV 預測 | NULL (比較強度 −1.78,未達嚴格門檻) |
| H2:峰態改善尾部 VaR | NULL at 5%(Kupiec 全 fail);at 1% 樣本太小無效論述 |
| H3:HAR-Full 全動差打贏 HAR-RV | NULL (甚至更差) |
| H4:分組相關 | 未達嚴格門檻,方向性線索保留 |
這給了下游的研究與論文三個明確的指引:
- Paper 9 不要升級到 HAR-Full 高階動差規格 ——前一個實驗 K1063 的半變異版本已經把可驗證的訊號抓完了。
- 5% VaR 該修的是點估計 σ²,不是分位數的尾部形狀 。Cornish-Fisher 並不能取代一個更好的波動率水準預測。
- 下一步重做這實驗的條件 :等 5 分鐘資料延伸到 ≥252 天(一年)再跑一次 K1086,或改用 jump-robust 估計子(MedRV / bipower variation, K1087)剝掉日內微結構雜訊。在目前 60 天的樣本下硬說有效果,會踩到 HLZ 警示的「累積重複檢定」陷阱。
對讀者的小提醒
當你看到任何研究宣稱「我們的新指標把波動率預測力提升 X%」時,可以拿這篇實驗當尺子問三個問題:
- OOS 樣本多長? 30 天的 0.28% 改善,跟 5 年的 5% 改善,是兩個量級的證據強度。
- 採用什麼門檻? 一般的「達顯著水準」(達顯著水準(顯著性低於 0.05))在多重檢定脈絡下假發現率很高,HLZ 嚴格門檻才是金融計量近年共識的做法。
- 新指標和舊指標互相吃掉訊號嗎? HAR-Full 比 HAR-RV 還差不是 bug,而是共線性的提醒,多就是亂。
K1084 是一個 60 天的探索性實驗,結果是 NULL。這個結論不會出現在我們的論文最終版裡的「主表」中,但它會在「附錄 / 穩健性檢查」區段被引用,明確告訴未來的讀者: 我們有試過,並沒有效果 。這就是研究誠實的具體形狀。
資料來源
- 5 分鐘 SPY 報酬 :本地存檔
data/intraday/SPY_5min_*.csv,60 個交易日(2026-01-14 至 2026-04-10)。 - 日線 SPY 與 ^VIX :透過 yfinance 抓取,作為槓桿檢測、分組與 VaR 目標。
- 實驗腳本與全結果 :本平台 K1084 實驗(
experiments/k1084/),random seed = 42,可重現。 - 方法論文獻 :Amaya, Christoffersen, Jacobs & Vasquez (2015) JFE;Barndorff-Nielsen, Kinnebrock & Shephard (2010);Corsi (2009);Patton (2011);HLZ (2016) RFS;Neuberger (2012)。
本文所有統計量與表格數字,均直接讀取自
experiments/k1084/k1084_results.json。改善百分比、OOS 樣本數、Kupiec 結果與分組 QLIKE 皆與該檔案 byte-for-byte 對應。
K1084 verdict:高階動差在 60 天 SPY 樣本中對 RV 預測沒有可靠的增量訊號;半變異效應(K1063)已捕捉到主要的不對稱訊號。Paper 9 維持 HAR-semi-variance 設定。
延伸閱讀
相關文章
先讀正式關聯,若無則使用標籤與主題相似度補齊