研究2026/06/09 上午01:00

換把獨立的尺量，結果還是一樣：HAR Log-Range 的可靠性再確認

methodologyrobustnessvolatility-forecastinghar-log-rangecross-oos

讀者互動

已追蹤瀏覽 0 次，登入會員可按讚與收藏。

分享到：LINE Facebook X / Twitter

換把獨立的尺量，結果還是一樣：HAR Log-Range 的可靠性再確認

這篇文章要談一個研究設計上的盲點，以及我們怎麼用一個簡單的改動把它補起來。

問題出在哪把尺上

做波動率預測研究，最後一定要問：哪個模型比較準？

「準」怎麼定義？通常是拿預測值跟一個「真實波動率代理」比。問題是，「代理」不是真實值，它本身只是另一種估計。

在 K465 那批實驗裡，我們用 Parkinson 估計量（由當日高低點計算而來）做評估基準，比較 HAR Log-Range 跟 GJR-GARCH 的預測誤差。結果 HAR 贏了 10/10 個區間。

但 K468 的後續觀察提出一個問題：HAR Log-Range 本身就是用 log 高低點（log range）建出來的，Parkinson 估計量也是用高低點算出來的。 換句話說，我們用了一把跟模型同材料做出來的尺量模型 。這把尺天生對用了相同材料的模型更有利，這不是造假，只是一種測量上的循環偏差。

這類問題在統計學有個名字：tautology（套套邏輯）。評估標準跟被評估的對象共用了核心成分。

K469 怎麼做修正

修正方法很直接：換一把跟模型完全無關的尺。

我們改用 r² ——也就是隔日收盤報酬的平方（close-to-close log return squared），作為「真實波動率」的替代指標。r² 跟高低點資料完全無關，HAR Log-Range 裡沒有用到它，GJR-GARCH 裡也沒有。這把尺是獨立的。

當然，HAR 的預測值是在 Parkinson 量級上的，不能直接跟 r² 比較，就像攝氏度和華氏度不能直接相減。我們用樣本內（in-sample）的校準比率把 HAR 的預測值換算到 r² 量級：

校準比率 = r² 樣本均值 / Parkinson 估計量樣本均值

對 SPY，這個比率約為 1.45 （r² 大約是 Parkinson 的 1.45 倍）。
對 EWT（台灣 ETF），差距更大，約為 2.5 倍 ——r² 和 Parkinson 在這個市場反映的波動訊號本就有較大差距，兩者相關係數只有 0.55，低於 SPY 的 0.71。

比例校準後，我們跑了 5 個非重疊的樣本外（out-of-sample）區間：2015–2016、2017–2018、2019–2020、2021–2022、2023–2025，每段用 2000 天的樣本內資料估參數。評估指標是 QLIKE——這是波動率預測研究標準的損失函數，越負代表預測越準。

結果：排名沒有改變

用 r² 尺量，HAR 還是第一。

SPY（美國大盤）：HAR 5/5 區間全勝

區間	HAR QLIKE (r²)	GJR QLIKE (r²)	勝負
2015-2016（低波段）	-8.894	-8.620	HAR
2017-2018（Volmageddon）	-9.393	-9.100	HAR
2019-2020（COVID）	-8.455	-8.070	HAR
2021-2022（升息）	-8.300	-7.969	HAR
2023-2025（疫後）	-8.827	-8.569	HAR

EWT（台灣 ETF）：HAR 4/5 區間勝出

區間	HAR QLIKE (r²)	GJR QLIKE (r²)	勝負
2015-2016（低波段）	-7.587	-7.604	GJR
2017-2018（Volmageddon）	-8.285	-8.257	HAR
2019-2020（COVID）	-7.958	-7.841	HAR
2021-2022（升息）	-7.727	-7.604	HAR
2023-2025（疫後）	-7.880	-7.700	HAR

合計：K469 r² proxy 下 HAR 贏 8/10。K465 Parkinson proxy 下是 10/10。換尺之後掉了 2 勝（全在 EWT）。

HAR 的平均 QLIKE（r² 基準）：

SPY：-8.77 vs GJR 的 -8.47
EWT：-7.89 vs GJR 的 -7.80

差距縮小了，但方向沒有翻轉。

Diebold-Mariano 檢定說什麼

只看輸贏次數還不夠，還需要問：這個差距是統計噪音，還是可以驗證的顯著差異？

我們對每個區間跑了 Diebold-Mariano (DM) 檢定，這是比較兩個預測模型誤差的標準統計工具。

SPY 5 個區間：HAR vs GJR DM 全部顯著（p < 0.05）。

EWT 的情況稍微複雜：

2015-2016：HAR 輸，DM p = 0.75，不顯著（兩者沒差）
2017-2018：HAR 贏，但 DM p = 0.46，不顯著（差距小，勉強勝）
2019-2020 到 2023-2025：HAR 贏，DM 均顯著

EWT 2015-2016 那個「失敗」的區間，其實是兩者幾乎平手——DM 統計量 t = -0.32，信心區間完全包含零。這不是 GJR 明顯擊敗 HAR，只是在低波動環境下兩個模型誰都沒佔到便宜。

Proxy 替換測試說了什麼

把兩個評估結果並排：

資產	Parkinson proxy（K465）	r² proxy（K469）
SPY HAR vs GJR	5/5	5/5
EWT HAR vs GJR	5/5	4/5
合計	10/10	8/10
HAR 平均排名	1.0	SPY 1.0 / EWT 1.2

兩個 proxy 下 HAR 都排第一。從 10/10 降到 8/10 的 2 勝差，來自 EWT 2015-2016 那個不顯著的平手區間，在那個區間，r² 和 Parkinson 之間的量級差距（scale ratio = 2.32）遠大於 SPY（1.45），校準雜訊更大，模型之間的差距本身就已很小。

結論： K465 的高勝率有一部分確實來自 proxy 偏誤，但這個偏誤去掉後，HAR 的相對優勢仍然存在，沒有翻轉。 原始勝率稍微過高，但核心結論不是假象。