← 研究動態
研究2026/05/22 下午03:01

5 分鐘 SPY 真的乾淨嗎?Realized Kernel vs RV 初步觀察

SPY方法論波動率穩健性高頻數據微觀結構估計量

讀者互動

已追蹤瀏覽 0 次,登入會員可按讚與收藏。

分享到:LINEFacebookX / Twitter

5 分鐘 SPY 真的乾淨嗎?Realized Kernel vs RV 初步觀察

為什麼要在意「5 分鐘 RV」這件事

實證波動率研究的標準作法,是把日內每 5 分鐘的報酬平方加總,得到「Realized Variance(RV)」當作當天「真實波動率」的代理。我們先前的多個實驗(K1054、K1063、K1065、K1066)都是這麼做的:把 5 分鐘 RV 當成 ground truth,再去比 HAR、GJR-GARCH、A4f-VIX² 哪個預測得最準。

但這套作法背後藏著一個假設: 5 分鐘的取樣間隔已經夠稀疏,市場微觀結構雜訊(microstructure noise,包括 bid-ask bounce、非同步交易、tick rounding 等)小到可以忽略不計 。如果這假設不成立,那我們先前算出來的 RV 其實是「真 σ² + 噪音」,過去用它當基準的所有結論都可能被噪音污染。

學界對此早有解方。Barndorff-Nielsen, Hansen, Lunde & Shephard(2008,Econometrica)提出 Realized Kernel(RK),用 Parzen 核函數對自共變項做加權平均,理論上是 σ² 的一致估計量;Zhang, Mykland & Aït-Sahalia(2005,JASA)則提出 Subsampled RV,把多個錯位的 5 分鐘格子平均掉短期相關。本實驗 K1072 的核心問題很單純: SPY 在 5 分鐘頻率下,到底有沒有顯著的微觀結構雜訊?如果有,先前用 RV 當基準的結論會不會被翻盤? 

資料來源

  •  資產 :SPY(S&P 500 ETF),yfinance 5 分鐘 bars
  •  樣本期間 :2026-01-14 至 2026-04-10
  •  天數 :60 個交易日下載,58 天可用(每日門檻 ≥70 bars)
  •  OOS 預測天數 :28 天(HAR expanding window,initial=30 天)
  •  實驗編號 :K1072(status=PRELIMINARY,因樣本仍遠少於建議的 252 天)

三個 estimator 怎麼比

我們同時計算三個版本的日內波動估計:

Estimator公式角色直觀解讀
RVΣ r²(5 分鐘)標準作法,可能被噪音膨脹
RK(Parzen kernel)γ₀ + 加權自共變項噪音穩健,BNHLS 2008
RV_sub5 個 offset grid 平均ZMA 2005 中介估計

最佳 bandwidth H*由 BNHLS 2008 公式估出,結果落在 14 到 32 之間(平均 17.2)。58 天樣本的描述統計如下:

估計量平均標準差中位數
RV5.63e-53.00e-55.48e-5
RK5.70e-54.52e-54.42e-5
RV_sub5.25e-53.66e-54.20e-5

三者相關性都偏高:corr(RV, RK)=0.756、corr(RV, RV_sub)=0.872、corr(RK, RV_sub)=0.934。值得注意的是  RK 的標準差 (4.52e-5) 反而比 RV (3.00e-5) 大 ,這是 small-sample(n_bars≈78)下 RK 估計量本身變異較大的後果——RK 不一定是「更乾淨」的版本,只是對特定噪音模式比較穩健。

三個 estimator 的時序、散佈圖與分布比較

雜訊到底有沒有?初步證據說「不顯著」

如果 5 分鐘有 bid-ask bounce 等噪音,理論上會看到兩個現象:(a) RV 系統性高於 RK(噪音膨脹 RV);(b) 5 分鐘報酬的一階自相關(γ₁/γ₀)應為負。我們檢查:

指標數值解讀
(RV−RK)/RV 平均+2.99%RV 平均高出 ~3%
(RV−RK)/RV 中位數+8.43%中位數 ~8.4%,分布右偏
大於 RK 的天數比例63.8%多數日 RV 確實 > RK
配對均值比較統計強度極弱(達顯著水準遠未達 0.10,實際 0.87) 均值差不顯著 
Wilcoxon 非參數比較W=745,達顯著水準遠未達 0.10(實際 0.39)非參數也不顯著
γ₁/γ₀ 平均+0.0006近零,不像典型 bid-ask bounce 的負值
γ₁ 為負的天數比例43.1%不到一半

兩個關鍵訊號告訴我們: SPY 在 2026 年初的 58 天樣本裡,看不到顯著的微觀結構雜訊 。雖然 RV 有六成多的日子大於 RK(中位差 8.4% 看起來不小),但配對檢定與非參數檢定都遠未達顯著水準。更重要的是 γ₁/γ₀ 平均近零、且 只有 43% 的日子是負值 ——這完全不符合 bid-ask bounce 那種「報酬必為負相關」的指紋。

噪音對訊號比 q 的估計平均 0.31、中位 0.19,但這個估計量依賴 ω² = max(−γ₁/n, 0) 的粗估,因為超過一半的日子 γ₁ 是正的,這個估計量會被 floor 到 0——也就是說 q 的真實值很可能比 0.19 還小,這個量化「雜訊強度」的數字本身不可信賴。

微觀結構雜訊診斷:γ₁/γ₀、ω̂² 與 H* 時序

這個結果其實與 Liu, Patton & Sheppard(2015,Journal of Econometrics)對流動性最高的指數的觀察一致——5 分鐘對於主要 ETF 已經夠稀疏。SPY 的 daily volume 動輒上億股、bid-ask spread 經常只有 1 分錢,bid-ask bounce 在 5 分鐘聚合下基本被抹平。

HAR 預測:用 RK 當 target 時 HAR-RK 邊緣勝出

我們同時跑了三個 HAR 模型(Corsi 2009 規格),分別用 RV、RK、RV_sub 當訓練目標,再以 Patton(2011)proxy-robust 的 QLIKE 評分。28 天 OOS 結果:

QLIKE TargetHAR-RVHAR-RKHAR-sub
RV−8.592−8.590−8.590
 RK −8.660 −8.674 −8.661
RV_sub−8.703−8.726−8.713

當 target 是 RK 時,HAR-RK 看起來最好(−8.674),略優於 HAR-RV(−8.660)。兩模型比較的統計強度約為 2.0(達顯著水準 0.056), 但未通過 HLZ (2016) 嚴格統計門檻 。28 天 OOS 樣本太短,這個邊緣優勢不能下定論。換言之:如果未來真有微觀結構雜訊,理論上 HAR-RK 在更長樣本下會穩定勝出;但目前我們手上的 28 天 OOS 不足以證實這件事。

三個 HAR 模型在三種 target 下的 QLIKE 比較

真正讓人鬆一口氣的:K1054 的 A4f 結論完全穩健

這是 K1072 對 Paper 9 影響最大的一段。先前 K1054 用 5 分鐘 RV 當基準,發現  HAR-RV 顯著贏 A4f-VIX² (兩模型比較統計強度 t=−3.50,達顯著水準 0.0016,HLZ 嚴格門檻 PASS)。當時最大的疑慮是:「會不會 A4f 輸是因為 RV 被噪音污染、A4f 的 VIX² 結構反而更接近真 σ²?換成 RK 結果會不會翻盤?」

K1072 把同樣三個模型(HAR-RV、GJR-GARCH、A4f-VIX²)在四個 proxy 下重新評估:

ProxyHAR-RVGJR-GARCHA4f-VIX²排序
RV_5min−8.592−8.481−8.406HAR > GJR > A4f
 RK  −8.660  −8.543  −8.450  HAR > GJR > A4f 
RV_sub−8.703−8.559−8.466HAR > GJR > A4f
r²_daily−7.631−7.977−8.040A4f > GJR > HAR

 結論很乾脆 :把 noise-robust 的 RK 拿來當 target,HAR > GJR > A4f 的排序紋風不動。HAR-RV vs A4f 的兩模型比較統計強度只是從 t=−3.50 略縮到 −2.86(達顯著水準 0.008),方向完全一致,只是因為樣本短而沒過 HLZ 嚴格門檻。在 RV_sub 下統計強度 t=−3.31,仍達顯著水準(0.003),HLZ 門檻 PASS。

唯一翻盤的是用「日報酬平方 r²」當 target——這時排序變成 A4f > GJR > HAR。但這個翻盤是  K1054 已經知道的 model-target mismatch(機制性現象) :HAR 預測的是 intraday RV,本來就不該用全日 r² 來評,這是評分規則錯誤造成的 artifact,不是真實的預測能力翻轉。

A4f proxy 敏感性:QLIKE heatmap 與兩模型比較統計強度

這意味著 K1054 的核心結論—— HAR-RV 在日內 RV 預測上顯著贏 A4f-VIX² ——通過了「換 noise-robust proxy 也成立」的穩健性檢驗。Paper 9 可以放心用 RV 當主文 target,並把 RK robustness table 放進附錄。

局限與下一步:別把初步結論當定論

K1072 標記 PRELIMINARY 不是客套,是真的有重大限制:

  1.  58 天樣本過短 :兩模型比較 / 配對檢定的統計強度都不夠;q 估計超過一半被 floor 到 0,真實噪音強度其實沒有可靠估出。
  2.  噪音變異數估計粗糙 :BNHLS 2008 Table 1 提供更精確的多 lag autocovariance 估計程序,本實驗只用 ω² = max(−γ₁/n, 0) 簡化版。
  3.  Two-Scales RV (TSRV) 未實作 :subsampled RV 是 ZMA 2005 的簡化版,bias-corrected 版本還沒跑。
  4.  HAR-RK 預測 RK target 的迴圈論 :隱含假設 RK 是「真 vol」,但 RK 在 n=78 bars 下本身 noisy,這個假設可能過於理想化。
  5.  缺 signature plot :用 RV 對 sampling frequency 作圖(1-min, 2-min, 5-min, 10-min, 15-min)是診斷雜訊的標準工具,本實驗未涵蓋。

Lookahead audit

K1072 的 HAR 預測使用 expanding window OLS,每天的預測只用到 t 之前的歷史資料;當天的 RV/RK/RV_sub 是用當天 5 分鐘 bars 計算(這是「當日波動率的事後測量」,不是隔日預測 target,符合 realized variance 的標準定義)。Random seed 42 固定。 無 lookahead leakage 。

一句話收尾

5 分鐘 SPY 在 2026 年這 58 天裡看起來夠乾淨(沒有顯著微觀結構雜訊),先前用 5 分鐘 RV 為基準的 K1054 結論(HAR > A4f)通過了 noise-robust proxy 穩健性檢驗,但 28 天 OOS 太短,這只是初步觀察,等樣本累積到 252+ 天再下定論。研究誠實的鐵律是:邊緣顯著(達顯著水準 0.056)不是證實,而是「值得繼續看」的訊號。

參考文獻

  • Barndorff-Nielsen, P. R. Hansen, A. Lunde & N. Shephard (2008). "Designing Realized Kernels to Measure the Ex Post Variation of Equity Prices in the Presence of Noise." Econometrica 76(6).
  • Zhang, L., P. A. Mykland & Y. Aït-Sahalia (2005). "A Tale of Two Time Scales: Determining Integrated Volatility With Noisy High-Frequency Data." JASA 100.
  • Corsi, F. (2009). "A Simple Approximate Long-Memory Model of Realized Volatility." Journal of Financial Econometrics 7.
  • Patton, A. J. (2011). "Volatility Forecast Comparison Using Imperfect Volatility Proxies." Journal of Econometrics 160.
  • Liu, L. Y., A. J. Patton & K. Sheppard (2015). "Does Anything Beat 5-Minute RV? A Comparison of Realized Measures Across Multiple Asset Classes." Journal of Econometrics 187.
  • HLZ (2016). 嚴格統計門檻文獻基礎(|統計強度|>3.0)。

 實驗檔案 :experiments/k1072/(README.md、k1072.py、k1072_results.json、4 張 PNG)  狀態 :PRELIMINARY — 58 天樣本 / 28 天 OOS,所有結論待 252+ 天樣本累積後重跑驗證。

相關文章

先讀正式關聯,若無則使用標籤與主題相似度補齊