換把獨立的尺量,結果還是一樣:HAR Log-Range 的可靠性再確認
讀者互動
已追蹤瀏覽 0 次,登入會員可按讚與收藏。
換把獨立的尺量,結果還是一樣:HAR Log-Range 的可靠性再確認
這篇文章要談一個研究設計上的盲點,以及我們怎麼用一個簡單的改動把它補起來。
問題出在哪把尺上
做波動率預測研究,最後一定要問:哪個模型比較準?
「準」怎麼定義?通常是拿預測值跟一個「真實波動率代理」比。問題是,「代理」不是真實值,它本身只是另一種估計。
在 K465 那批實驗裡,我們用 Parkinson 估計量(由當日高低點計算而來)做評估基準,比較 HAR Log-Range 跟 GJR-GARCH 的預測誤差。結果 HAR 贏了 10/10 個區間。
但 K468 的後續觀察提出一個問題:HAR Log-Range 本身就是用 log 高低點(log range)建出來的,Parkinson 估計量也是用高低點算出來的。 換句話說,我們用了一把跟模型同材料做出來的尺量模型 。這把尺天生對用了相同材料的模型更有利,這不是造假,只是一種測量上的循環偏差。
這類問題在統計學有個名字:tautology(套套邏輯)。評估標準跟被評估的對象共用了核心成分。
K469 怎麼做修正
修正方法很直接:換一把跟模型完全無關的尺。
我們改用 r² ——也就是隔日收盤報酬的平方(close-to-close log return squared),作為「真實波動率」的替代指標。r² 跟高低點資料完全無關,HAR Log-Range 裡沒有用到它,GJR-GARCH 裡也沒有。這把尺是獨立的。
當然,HAR 的預測值是在 Parkinson 量級上的,不能直接跟 r² 比較,就像攝氏度和華氏度不能直接相減。我們用樣本內(in-sample)的校準比率把 HAR 的預測值換算到 r² 量級:
校準比率 = r² 樣本均值 / Parkinson 估計量樣本均值
對 SPY,這個比率約為 1.45 (r² 大約是 Parkinson 的 1.45 倍)。
對 EWT(台灣 ETF),差距更大,約為 2.5 倍 ——r² 和 Parkinson 在這個市場反映的波動訊號本就有較大差距,兩者相關係數只有 0.55,低於 SPY 的 0.71。
比例校準後,我們跑了 5 個非重疊的樣本外(out-of-sample)區間:2015–2016、2017–2018、2019–2020、2021–2022、2023–2025,每段用 2000 天的樣本內資料估參數。評估指標是 QLIKE——這是波動率預測研究標準的損失函數,越負代表預測越準。
結果:排名沒有改變
用 r² 尺量,HAR 還是第一。
SPY(美國大盤):HAR 5/5 區間全勝
| 區間 | HAR QLIKE (r²) | GJR QLIKE (r²) | 勝負 |
|---|---|---|---|
| 2015-2016(低波段) | -8.894 | -8.620 | HAR |
| 2017-2018(Volmageddon) | -9.393 | -9.100 | HAR |
| 2019-2020(COVID) | -8.455 | -8.070 | HAR |
| 2021-2022(升息) | -8.300 | -7.969 | HAR |
| 2023-2025(疫後) | -8.827 | -8.569 | HAR |
EWT(台灣 ETF):HAR 4/5 區間勝出
| 區間 | HAR QLIKE (r²) | GJR QLIKE (r²) | 勝負 |
|---|---|---|---|
| 2015-2016(低波段) | -7.587 | -7.604 | GJR |
| 2017-2018(Volmageddon) | -8.285 | -8.257 | HAR |
| 2019-2020(COVID) | -7.958 | -7.841 | HAR |
| 2021-2022(升息) | -7.727 | -7.604 | HAR |
| 2023-2025(疫後) | -7.880 | -7.700 | HAR |
合計:K469 r² proxy 下 HAR 贏 8/10。K465 Parkinson proxy 下是 10/10。換尺之後掉了 2 勝(全在 EWT)。
HAR 的平均 QLIKE(r² 基準):
- SPY:-8.77 vs GJR 的 -8.47
- EWT:-7.89 vs GJR 的 -7.80
差距縮小了,但方向沒有翻轉。
Diebold-Mariano 檢定說什麼
只看輸贏次數還不夠,還需要問:這個差距是統計噪音,還是可以驗證的顯著差異?
我們對每個區間跑了 Diebold-Mariano (DM) 檢定,這是比較兩個預測模型誤差的標準統計工具。
SPY 5 個區間:HAR vs GJR DM 全部顯著(p < 0.05)。
EWT 的情況稍微複雜:
- 2015-2016:HAR 輸,DM p = 0.75,不顯著(兩者沒差)
- 2017-2018:HAR 贏,但 DM p = 0.46,不顯著(差距小,勉強勝)
- 2019-2020 到 2023-2025:HAR 贏,DM 均顯著
EWT 2015-2016 那個「失敗」的區間,其實是兩者幾乎平手——DM 統計量 t = -0.32,信心區間完全包含零。這不是 GJR 明顯擊敗 HAR,只是在低波動環境下兩個模型誰都沒佔到便宜。
Proxy 替換測試說了什麼
把兩個評估結果並排:
| 資產 | Parkinson proxy(K465) | r² proxy(K469) |
|---|---|---|
| SPY HAR vs GJR | 5/5 | 5/5 |
| EWT HAR vs GJR | 5/5 | 4/5 |
| 合計 | 10/10 | 8/10 |
| HAR 平均排名 | 1.0 | SPY 1.0 / EWT 1.2 |
兩個 proxy 下 HAR 都排第一。從 10/10 降到 8/10 的 2 勝差,來自 EWT 2015-2016 那個不顯著的平手區間,在那個區間,r² 和 Parkinson 之間的量級差距(scale ratio = 2.32)遠大於 SPY(1.45),校準雜訊更大,模型之間的差距本身就已很小。
結論: K465 的高勝率有一部分確實來自 proxy 偏誤,但這個偏誤去掉後,HAR 的相對優勢仍然存在,沒有翻轉。 原始勝率稍微過高,但核心結論不是假象。
為什麼 HAR 用 range 資訊反而不是套套邏輯的問題所在
等一下——HAR Log-Range 用高低點建模,Parkinson 也用高低點,用 Parkinson 評估它當然有偏誤。但 r² 用的是收盤報酬,跟高低點無關,理論上這樣就公平了。
不過這裡有個值得注意的問題:HAR Log-Range 用 range 能抓到 intraday 波動的訊息,而 r² 只反映收盤到收盤的波動,比較「粗」。你可以說:換 r² 評估其實是對 HAR 略為不公平,你讓一個用精細資訊建模的方法,去被一把粗糙的尺量。
HAR 在這種條件下還是贏多輸少,說明它的訊號品質不只靠量測工具的「親屬優勢」,而是真的從高低點取到了其他模型用不到的資訊。
這正是 K469 想驗證的事。
這在實務上意味著什麼
對做策略的人,結論很簡單:HAR Log-Range 不是只在同材料比較下才好用的模型。換成獨立的 r² 標準,它在大多數時期仍維持第一。
對做研究的人,這個實驗的設計邏輯值得記住: 任何時候評估標準和模型輸入共用核心成分,都應該做一次獨立 proxy 測試,確認結論不是測量循環造成的 。K469 是一個具體例子,說明這類測試要如何執行,換 proxy、做量級校準、跑 DM 檢定,結果可以直接對比。
K465 的 10/10 勝率數字確實被稍微高估了,修正後是 8/10。結論沒有翻轉,但現在多了一層依據,這個排名在兩種不同測量框架下都成立。
資料來源 :yfinance(SPY、EWT),2005年2月至2026年3月,共5,319筆日資料。實驗編號 K469,含 Diebold-Mariano 統計檢定,校準比率取樣本內均值。完整程式與數據見 experiments/k469/。
相關文章
先讀正式關聯,若無則使用標籤與主題相似度補齊