K969: Bespoke RV — 日頻波動率代理最佳加權：HAR 結構勝過 OLS 與等權

讀者互動

已追蹤瀏覽 0 次，登入會員可按讚與收藏。

[提出: Claude, 執行: Claude]

摘要

Patton & Zhang (JoE 2026) 提出 Bespoke Realized Volatility，以機器學習對 5 分鐘日內報酬平方做最佳加權。本研究將此概念移植至 日頻 OHLCV 波動率代理 ，用 5 種經典 proxy（r², Parkinson, Garman-Klass, Rogers-Satchell, Yang-Zhang）在 SPY 2006–2026 共 5,094 個交易日進行樣本外（OOS）預測比較。核心發現： HAR-Bespoke 模型 QLIKE=1.448，以 DM test p<0.001 顯著勝過所有單一 proxy 和等權模型 ，但直接 OLS 加權因多重共線性災難性失敗（QLIKE=14,009）。HAR 時間聚合結構是驅動改善的關鍵。

研究背景與動機

波動率預測的核心挑戰之一是： 用什麼當預測目標（proxy）？ 傳統研究大多使用收盤對收盤的平方報酬 $r^2_t$ 作為波動率的代理變數（proxy），但這會浪費日內的價格資訊。Patton (2011) 的 robust loss function 理論允許在不知道真實波動率的前提下，用 QLIKE 等損失函數做公平的預測比較。

Patton & Zhang (2026) 更進一步，提出對 5 分鐘報酬平方的各 time slot 做最佳加權，每個交易日特定時段的資訊量不同（例如開盤前 30 分鐘波動較大），最佳權重應反映這種異質性。

本實驗將此概念移植到 日頻情境 ：沒有高頻數據的投資人，能否用 OHLCV 的 5 種波動率 proxy 的加權組合來改善預測？

方法與數據

項目	設定
資產	SPY（S&P 500 ETF）
期間	2006-01-04 至 2026-04-06（5,094 交易日）
樣本內（IS）	2006–2018（3,270 obs）
樣本外（OOS）	2019–2026（1,824 obs）
預測目標	$r^2_t$（收盤對收盤平方報酬）
評估指標	QLIKE (Patton 2011)、MSE、Mincer-Zarnowitz $R^2$
統計檢定	Diebold-Mariano test（HAL kernel）
隨機種子	42

五種波動率代理

$r^2$（Close-to-close） ：$r^2_t = (\ln P_{close,t} / P_{close,t-1})^2$
Parkinson (1980) ：利用 High/Low 價差估計，效率為 $r^2$ 的 5.2 倍
Garman-Klass (1980) ：結合 Open/High/Low/Close，理論效率最高
Rogers-Satchell (1991) ：允許非零漂移項的 range-based 估計
Yang-Zhang (2000) ：結合隔夜跳空 + 開盤波動 + Rogers-Satchell， 同時捕捉隔夜與日內資訊

模型設定

模型	說明
AR(1) 單一 proxy	各 proxy 各自跑 AR(1)，IS 估計 OOS 預測
Equal Weight	5 種 proxy 的等權平均，再跑 AR(1)
Bespoke OLS	IS 期間用 OLS 回歸 $r^2_t$ 對 5 個 proxy，OOS 用估計權重加權
Bespoke Ridge	同上但加 $\ell_2$ 正則化（$\alpha=1.0$）
HAR-Bespoke	先對每個 proxy 做 HAR 聚合（日/週/月平均），再跑多元 OLS，OOS 預測

核心發現

發現一：HAR-Bespoke 是最佳模型

QLIKE 比較圖 圖 1：OOS QLIKE 比較（越低越好）。HAR-Bespoke (1.448) 顯著勝過所有其他模型。

模型	QLIKE	MSE (×10⁻⁶)	MZ R²	DM p-value vs HAR-Bespoke
AR(1) r²	1.765	0.327	0.145	< 0.001***
AR(1) Parkinson	1.608	0.309	0.262	< 0.001***
AR(1) GK	1.580	0.305	0.286	< 0.001***
AR(1) RS	1.603	0.305	0.283	< 0.001***
AR(1) YZ	1.562	0.309	0.207	< 0.001***
Equal Weight	1.545	0.284	0.270	< 0.001***
Bespoke OLS	14,009	0.315	0.172	0.316 (n.s.)
Bespoke Ridge	1.973	0.376	0.002	< 0.001***
HAR-Bespoke	1.448	0.279	0.260	—

HAR-Bespoke 的 QLIKE 改善幅度：

vs r²： -18.0% （從 1.765 降至 1.448）
vs 最佳單一 proxy YZ： -7.3% （從 1.562 降至 1.448）
vs Equal Weight： -6.3% （從 1.545 降至 1.448）

所有改善均通過 DM test（p < 0.001），具備統計顯著性。

發現二：OLS 加權的共線性陷阱

MSE 比較圖 圖 2：OOS MSE 比較（×10⁻⁶，越低越好）。HAR-Bespoke (0.279) 在 MSE 維度同樣最優。

Bespoke OLS 的 QLIKE 高達 14,009—— 比最差的 AR(1) r² 還差 7,936 倍 。原因在於 range-based proxy 之間的極高相關性：

	r²	Parkinson	GK	RS	YZ
r²	1.00	0.71	0.60	0.54	0.70
Parkinson		1.00	0.95	0.89	0.81
GK			1.00	0.98	0.86
RS				1.00	0.87

GK 和 RS 的相關係數高達 0.98，Parkinson 和 GK 為 0.95。OLS 估計出的權重極不穩定：GK 為 +1.95，RS 為 -0.97（rolling window 標準差分別為 4.27 和 3.11），典型的多重共線性症狀。

對比：Ridge 正則化將 QLIKE 從 14,009 拉回到 1.973，但矯枉過正，所有權重被壓縮到接近 0（最大權重 0.0007），導致預測幾乎為常數，MZ R² 僅 0.002。

發現三：HAR 時間聚合是關鍵驅動力

HAR-Bespoke 成功的關鍵不在於「加權」，而在於 HAR 時間結構 ——將每個 proxy 做日（1 天）、週（5 天平均）、月（22 天平均）三個時間尺度的聚合，再進行迴歸。這等效於在不同頻率上捕捉波動率持續性（volatility persistence），比單一 AR(1) 包含更豐富的資訊。

Corsi (2009) 的 HAR-RV 模型之所以成功，正因其以簡單線性結構近似異質性市場假說（Heterogeneous Market Hypothesis），不同時間尺度的交易者驅動不同頻率的波動率動態。HAR-Bespoke 將此邏輯從 RV 延伸至 OHLCV proxy。

發現四：Yang-Zhang 是最佳單一 proxy

在 5 種 proxy 中，Yang-Zhang (QLIKE=1.562) 勝過其他所有單一 proxy：

vs r²：-11.5%（節省 0.203 QLIKE）
vs Parkinson：-2.9%
vs GK：-1.1%
vs RS：-2.6%

Yang-Zhang 的優勢在於 同時結合隔夜跳空（overnight return）和日內 range 。其他 range-based estimator 只用日內 OHLC，忽略了收盤到隔日開盤的資訊。

發現五：等權分散化穩健有效

Equal Weight (QLIKE=1.545) 勝過所有單一 proxy AR(1)，包括最佳的 Yang-Zhang：

vs YZ：-1.1%（幅度雖小但穩定）
vs r²：-12.5%

這與投資組合分散化的邏輯一致：即使不做最佳化，等權組合也能降低估計誤差。在缺乏好的正則化工具時， 等權是安全的基線選擇 。

實務意義

日頻波動率預測可以改善 ：即使沒有高頻 5 分鐘數據，利用 OHLCV 的多種 proxy 加上 HAR 結構就能取得 QLIKE 18% 的改善。
不要直接做 OLS 加權 ：range-based proxy 間的高相關性會導致權重爆炸。Ridge 也不理想，要嘛用 HAR 結構，要嘛用等權。
Yang-Zhang 應取代 r² 作為預設 proxy ：它結合隔夜和日內資訊，理論和實證都更優。
HAR 聚合是低成本且高效益的改善 ：HAR 的日/週/月平均只需要過去 22 天的數據，計算量微不足道，卻帶來最大的預測改善。

結論

本研究將 Patton & Zhang (2026) 的 Bespoke RV 概念從高頻日內延伸到日頻 OHLCV 層級。核心結論：

HAR-Bespoke 是最佳日頻波動率預測模型 （QLIKE=1.448，DM p<0.001 勝所有替代方案）
直接 OLS 加權因多重共線性而失敗 ——日頻 proxy 的維度太低、相關性太高
HAR 時間聚合結構是改善的關鍵驅動力 ，而非「最佳權重」本身
Yang-Zhang 是最佳單一 proxy ，等權是穩健的無模型基線

局限性

目標限制 ：以 $r^2$ 為預測目標，這本身是有雜訊的代理。若有 5-min RV 作為更精確的目標，結論可能不同
資產範圍 ：僅測試 SPY，對波動率結構不同的商品/外匯/新興市場尚需驗證
評估窗口 ：OOS 期間（2019–2026）包含 COVID 衝擊和 2022 升息，結果可能受極端事件影響
HAR 結構固定 ：使用標準 1/5/22 天聚合，未探索其他天數組合的影響
無交叉驗證 ：權重僅用單一 IS/OOS 切分估計，未做 expanding window 或 cross-validation

參考文獻

Patton, A. J., & Zhang, K. (2026). Bespoke Realized Volatility. Journal of Econometrics.
Patton, A. J. (2011). Volatility forecast comparison using imperfect volatility proxies. Journal of Econometrics, 160(1), 246–256.
Garman, M. B., & Klass, M. J. (1980). On the estimation of security price volatilities from historical data. Journal of Business, 53(1), 67–78.
Yang, D., & Zhang, Q. (2000). Drift-independent volatility estimation based on high, low, open, and close prices. Journal of Business, 73(3), 477–491.
Corsi, F. (2009). A simple approximate long-memory model of realized volatility. Journal of Financial Econometrics, 7(2), 174–196.

實驗腳本: experiments/k969/k969_bespoke_rv.py 結果數據: experiments/k969/k969_bespoke_rv_results.json 數據來源：yfinance（SPY），期間：2006-2026，樣本：5,094 個交易日