5 分鐘 SPY 真的乾淨嗎?Realized Kernel vs RV 初步觀察
讀者互動
已追蹤瀏覽 0 次,登入會員可按讚與收藏。
5 分鐘 SPY 真的乾淨嗎?Realized Kernel vs RV 初步觀察
為什麼要在意「5 分鐘 RV」這件事
實證波動率研究的標準作法,是把日內每 5 分鐘的報酬平方加總,得到「Realized Variance(RV)」當作當天「真實波動率」的代理。我們先前的多個實驗(K1054、K1063、K1065、K1066)都是這麼做的:把 5 分鐘 RV 當成 ground truth,再去比 HAR、GJR-GARCH、A4f-VIX² 哪個預測得最準。
但這套作法背後藏著一個假設: 5 分鐘的取樣間隔已經夠稀疏,市場微觀結構雜訊(microstructure noise,包括 bid-ask bounce、非同步交易、tick rounding 等)小到可以忽略不計 。如果這假設不成立,那我們先前算出來的 RV 其實是「真 σ² + 噪音」,過去用它當基準的所有結論都可能被噪音污染。
學界對此早有解方。Barndorff-Nielsen, Hansen, Lunde & Shephard(2008,Econometrica)提出 Realized Kernel(RK),用 Parzen 核函數對自共變項做加權平均,理論上是 σ² 的一致估計量;Zhang, Mykland & Aït-Sahalia(2005,JASA)則提出 Subsampled RV,把多個錯位的 5 分鐘格子平均掉短期相關。本實驗 K1072 的核心問題很單純: SPY 在 5 分鐘頻率下,到底有沒有顯著的微觀結構雜訊?如果有,先前用 RV 當基準的結論會不會被翻盤?
資料來源
- 資產 :SPY(S&P 500 ETF),yfinance 5 分鐘 bars
- 樣本期間 :2026-01-14 至 2026-04-10
- 天數 :60 個交易日下載,58 天可用(每日門檻 ≥70 bars)
- OOS 預測天數 :28 天(HAR expanding window,initial=30 天)
- 實驗編號 :K1072(status=PRELIMINARY,因樣本仍遠少於建議的 252 天)
三個 estimator 怎麼比
我們同時計算三個版本的日內波動估計:
| Estimator | 公式角色 | 直觀解讀 |
|---|---|---|
| RV | Σ r²(5 分鐘) | 標準作法,可能被噪音膨脹 |
| RK(Parzen kernel) | γ₀ + 加權自共變項 | 噪音穩健,BNHLS 2008 |
| RV_sub | 5 個 offset grid 平均 | ZMA 2005 中介估計 |
最佳 bandwidth H*由 BNHLS 2008 公式估出,結果落在 14 到 32 之間(平均 17.2)。58 天樣本的描述統計如下:
| 估計量 | 平均 | 標準差 | 中位數 |
|---|---|---|---|
| RV | 5.63e-5 | 3.00e-5 | 5.48e-5 |
| RK | 5.70e-5 | 4.52e-5 | 4.42e-5 |
| RV_sub | 5.25e-5 | 3.66e-5 | 4.20e-5 |
三者相關性都偏高:corr(RV, RK)=0.756、corr(RV, RV_sub)=0.872、corr(RK, RV_sub)=0.934。值得注意的是 RK 的標準差 (4.52e-5) 反而比 RV (3.00e-5) 大 ,這是 small-sample(n_bars≈78)下 RK 估計量本身變異較大的後果——RK 不一定是「更乾淨」的版本,只是對特定噪音模式比較穩健。

雜訊到底有沒有?初步證據說「不顯著」
如果 5 分鐘有 bid-ask bounce 等噪音,理論上會看到兩個現象:(a) RV 系統性高於 RK(噪音膨脹 RV);(b) 5 分鐘報酬的一階自相關(γ₁/γ₀)應為負。我們檢查:
| 指標 | 數值 | 解讀 |
|---|---|---|
| (RV−RK)/RV 平均 | +2.99% | RV 平均高出 ~3% |
| (RV−RK)/RV 中位數 | +8.43% | 中位數 ~8.4%,分布右偏 |
| 大於 RK 的天數比例 | 63.8% | 多數日 RV 確實 > RK |
| 配對均值比較 | 統計強度極弱(達顯著水準遠未達 0.10,實際 0.87) | 均值差不顯著 |
| Wilcoxon 非參數比較 | W=745,達顯著水準遠未達 0.10(實際 0.39) | 非參數也不顯著 |
| γ₁/γ₀ 平均 | +0.0006 | 近零,不像典型 bid-ask bounce 的負值 |
| γ₁ 為負的天數比例 | 43.1% | 不到一半 |
兩個關鍵訊號告訴我們: SPY 在 2026 年初的 58 天樣本裡,看不到顯著的微觀結構雜訊 。雖然 RV 有六成多的日子大於 RK(中位差 8.4% 看起來不小),但配對檢定與非參數檢定都遠未達顯著水準。更重要的是 γ₁/γ₀ 平均近零、且 只有 43% 的日子是負值 ——這完全不符合 bid-ask bounce 那種「報酬必為負相關」的指紋。
噪音對訊號比 q 的估計平均 0.31、中位 0.19,但這個估計量依賴 ω² = max(−γ₁/n, 0) 的粗估,因為超過一半的日子 γ₁ 是正的,這個估計量會被 floor 到 0——也就是說 q 的真實值很可能比 0.19 還小,這個量化「雜訊強度」的數字本身不可信賴。

這個結果其實與 Liu, Patton & Sheppard(2015,Journal of Econometrics)對流動性最高的指數的觀察一致——5 分鐘對於主要 ETF 已經夠稀疏。SPY 的 daily volume 動輒上億股、bid-ask spread 經常只有 1 分錢,bid-ask bounce 在 5 分鐘聚合下基本被抹平。
HAR 預測:用 RK 當 target 時 HAR-RK 邊緣勝出
我們同時跑了三個 HAR 模型(Corsi 2009 規格),分別用 RV、RK、RV_sub 當訓練目標,再以 Patton(2011)proxy-robust 的 QLIKE 評分。28 天 OOS 結果:
| QLIKE Target | HAR-RV | HAR-RK | HAR-sub |
|---|---|---|---|
| RV | −8.592 | −8.590 | −8.590 |
| RK | −8.660 | −8.674 | −8.661 |
| RV_sub | −8.703 | −8.726 | −8.713 |
當 target 是 RK 時,HAR-RK 看起來最好(−8.674),略優於 HAR-RV(−8.660)。兩模型比較的統計強度約為 2.0(達顯著水準 0.056), 但未通過 HLZ (2016) 嚴格統計門檻 。28 天 OOS 樣本太短,這個邊緣優勢不能下定論。換言之:如果未來真有微觀結構雜訊,理論上 HAR-RK 在更長樣本下會穩定勝出;但目前我們手上的 28 天 OOS 不足以證實這件事。

真正讓人鬆一口氣的:K1054 的 A4f 結論完全穩健
這是 K1072 對 Paper 9 影響最大的一段。先前 K1054 用 5 分鐘 RV 當基準,發現 HAR-RV 顯著贏 A4f-VIX² (兩模型比較統計強度 t=−3.50,達顯著水準 0.0016,HLZ 嚴格門檻 PASS)。當時最大的疑慮是:「會不會 A4f 輸是因為 RV 被噪音污染、A4f 的 VIX² 結構反而更接近真 σ²?換成 RK 結果會不會翻盤?」
K1072 把同樣三個模型(HAR-RV、GJR-GARCH、A4f-VIX²)在四個 proxy 下重新評估:
| Proxy | HAR-RV | GJR-GARCH | A4f-VIX² | 排序 |
|---|---|---|---|---|
| RV_5min | −8.592 | −8.481 | −8.406 | HAR > GJR > A4f |
| RK | −8.660 | −8.543 | −8.450 | HAR > GJR > A4f |
| RV_sub | −8.703 | −8.559 | −8.466 | HAR > GJR > A4f |
| r²_daily | −7.631 | −7.977 | −8.040 | A4f > GJR > HAR |
結論很乾脆 :把 noise-robust 的 RK 拿來當 target,HAR > GJR > A4f 的排序紋風不動。HAR-RV vs A4f 的兩模型比較統計強度只是從 t=−3.50 略縮到 −2.86(達顯著水準 0.008),方向完全一致,只是因為樣本短而沒過 HLZ 嚴格門檻。在 RV_sub 下統計強度 t=−3.31,仍達顯著水準(0.003),HLZ 門檻 PASS。
唯一翻盤的是用「日報酬平方 r²」當 target——這時排序變成 A4f > GJR > HAR。但這個翻盤是 K1054 已經知道的 model-target mismatch(機制性現象) :HAR 預測的是 intraday RV,本來就不該用全日 r² 來評,這是評分規則錯誤造成的 artifact,不是真實的預測能力翻轉。

這意味著 K1054 的核心結論—— HAR-RV 在日內 RV 預測上顯著贏 A4f-VIX² ——通過了「換 noise-robust proxy 也成立」的穩健性檢驗。Paper 9 可以放心用 RV 當主文 target,並把 RK robustness table 放進附錄。
局限與下一步:別把初步結論當定論
K1072 標記 PRELIMINARY 不是客套,是真的有重大限制:
- 58 天樣本過短 :兩模型比較 / 配對檢定的統計強度都不夠;q 估計超過一半被 floor 到 0,真實噪音強度其實沒有可靠估出。
- 噪音變異數估計粗糙 :BNHLS 2008 Table 1 提供更精確的多 lag autocovariance 估計程序,本實驗只用 ω² = max(−γ₁/n, 0) 簡化版。
- Two-Scales RV (TSRV) 未實作 :subsampled RV 是 ZMA 2005 的簡化版,bias-corrected 版本還沒跑。
- HAR-RK 預測 RK target 的迴圈論 :隱含假設 RK 是「真 vol」,但 RK 在 n=78 bars 下本身 noisy,這個假設可能過於理想化。
- 缺 signature plot :用 RV 對 sampling frequency 作圖(1-min, 2-min, 5-min, 10-min, 15-min)是診斷雜訊的標準工具,本實驗未涵蓋。
Lookahead audit
K1072 的 HAR 預測使用 expanding window OLS,每天的預測只用到 t 之前的歷史資料;當天的 RV/RK/RV_sub 是用當天 5 分鐘 bars 計算(這是「當日波動率的事後測量」,不是隔日預測 target,符合 realized variance 的標準定義)。Random seed 42 固定。 無 lookahead leakage 。
一句話收尾
5 分鐘 SPY 在 2026 年這 58 天裡看起來夠乾淨(沒有顯著微觀結構雜訊),先前用 5 分鐘 RV 為基準的 K1054 結論(HAR > A4f)通過了 noise-robust proxy 穩健性檢驗,但 28 天 OOS 太短,這只是初步觀察,等樣本累積到 252+ 天再下定論。研究誠實的鐵律是:邊緣顯著(達顯著水準 0.056)不是證實,而是「值得繼續看」的訊號。
參考文獻
- Barndorff-Nielsen, P. R. Hansen, A. Lunde & N. Shephard (2008). "Designing Realized Kernels to Measure the Ex Post Variation of Equity Prices in the Presence of Noise." Econometrica 76(6).
- Zhang, L., P. A. Mykland & Y. Aït-Sahalia (2005). "A Tale of Two Time Scales: Determining Integrated Volatility With Noisy High-Frequency Data." JASA 100.
- Corsi, F. (2009). "A Simple Approximate Long-Memory Model of Realized Volatility." Journal of Financial Econometrics 7.
- Patton, A. J. (2011). "Volatility Forecast Comparison Using Imperfect Volatility Proxies." Journal of Econometrics 160.
- Liu, L. Y., A. J. Patton & K. Sheppard (2015). "Does Anything Beat 5-Minute RV? A Comparison of Realized Measures Across Multiple Asset Classes." Journal of Econometrics 187.
- HLZ (2016). 嚴格統計門檻文獻基礎(|統計強度|>3.0)。
實驗檔案 :experiments/k1072/(README.md、k1072.py、k1072_results.json、4 張 PNG)
狀態 :PRELIMINARY — 58 天樣本 / 28 天 OOS,所有結論待 252+ 天樣本累積後重跑驗證。
相關文章
先讀正式關聯,若無則使用標籤與主題相似度補齊