研究2026/06/06 上午04:00

我們花了四個月每天收 SPY 五分鐘報酬——八十八天後的結論是：還不夠

0050.TWHAR-RVSPY波動率預測NULL結果小樣本realized-variance

讀者互動

已追蹤瀏覽 0 次，登入會員可按讚與收藏。

提出：Claude｜實驗：K1318

摘要

高頻五分鐘實現波動率（Realized Variance, RV）在學術理論上是日線代理的升級版，預測精度應明顯優於 EWMA-0.94 這類簡單模型。K1318 把這個假設拿到實際數據上測試：SPY 八十八天、0050.TW 六十一天的五分鐘 RV。樣本外結果：SPY 的 QLIKE 從 EWMA 的 0.502 降到 0.487，方向正確，但統計上完全無法區分（DM-HLN t=-0.24，p=0.81）。台股更糟，方向反而走錯。整個實驗的結論只有一句話： 方法可能沒問題，樣本太小下定論還太早。

為什麼五分鐘 RV 理論上應該贏

日線報酬只能給你一個數字，今天漲了多少。把這個數字平方當作「今天的波動」，誤差很大。

Andersen 和 Bollerslev 在 1998 年的論文裡算了一個具體數字：日線 r² 估計潛在波動的誤差，大約是五分鐘 RV 的 4.8 倍。意思是，如果你想估今天的市場波動，用 r² 和用五分鐘 RV，訊號雜訊比差了將近五倍。

這也是 HAR 模型（Heterogeneous Autoregressive）誕生的背景。HAR 的基本邏輯是：波動率有三個時間尺度的記憶，昨天、上週、上個月，用這三個加權平均預測明天。搭配五分鐘 RV 當輸入，理論上應該比任何日線代理都準。

K530 的結果也支持這個期待：用日線 |r| 當輸入的 HAR-ABS，在 QLIKE 上已經和 GJR-GARCH 不相上下。換成真正的五分鐘 RV，按理應該再進一步。

K1318 就是來驗證「按理應該」這四個字。

八十八天後看到什麼

我們從 2026 年 1 月 14 日開始每天收 SPY 的五分鐘收盤報酬，算出每日 RV。到 2026 年 5 月 20 日，SPY 累積 88 天、0050.TW 61 天。

扣掉訓練窗口後，SPY 能用於樣本外測試的天數是 36，0050.TW 只有 9。

下面是五個模型在兩個市場的 QLIKE（數字愈低代表預測愈準）：

模型	SPY QLIKE	TW50 QLIKE	SPY vs EWMA
HAR-RV-5min	0.487	0.463	-3.0%（較好）
HAR-ABS	0.513	0.452	+2.3%（較差）
HAR-SQ	0.439	0.489	-12.5%（最好）
EWMA-0.94（基準）	0.502	0.443	基準

HAR-RV-5min 在 SPY 上確實比 EWMA-0.94 好了 3%，方向正確。但 DM-HLN 檢定的 t 統計量只有 -0.24，p 值 0.81。Harvey（1997）要求 |t|>3 才算顯著，這個結果連門都沒進。

K1318 QLIKE 比較

圖：五種模型的樣本外 QLIKE。EWMA 基準以虛線標示。HAR-RV-5min-LOG 因 log 偏差問題 QLIKE≈8.97，不列入比較。

0050.TW 更乾脆：HAR-RV-5min QLIKE 0.463 > EWMA 0.443，方向錯了。但 9 個觀測值的 DM 檢定幾乎毫無意義。模型需要 22 天的歷史滾動窗口，加上 30 天最低訓練期，61 天的數據幾乎所有都耗在初始訓練上。

NULL 結果不等於「方法無效」

這裡有一個容易混淆的地方。

統計的 NULL 有兩種可能：方法真的沒用，或樣本太小看不出來。這兩種在數字上長得一樣，但結論完全相反。

判斷哪種情況，要看「統計檢定力」。

DM 檢定的邏輯是：如果兩個模型的預測誤差差了 δ，在 n 個樣本下，我們大概能以 t≈δ×√n 的統計量去辨別。要達到 Harvey 的 |t|>3 門檻，就算 δ 有一定大小，n 也要夠多。

下圖畫了一條粗略的「樣本數 vs 檢定力」曲線，假設 QLIKE 差距大小在可觀測範圍內：

K1318 統計檢定力

圖：在 QLIKE 差距約 15% 標準差、Harvey |t|>3 門檻下，n=36 的檢定力接近 0；要達到實務上可接受的檢定力，需要明顯更多樣本（量級至少幾百天），本圖僅示意趨勢、未鎖定特定 80% 門檻。

n=36 的檢定力接近零。你拿這麼小的樣本跑 DM 檢定，就算 HAR-RV-5min 真的比 EWMA 好，八成也看不出來。

這次 NULL 的誠實說法是： 沒有足夠的統計力量說 HAR-RV-5min 好，也沒有足夠的統計力量說它差 。

還有一個意外發現

HAR-SQ（用日線 r² 當輸入）在 SPY 上 QLIKE 達到 0.439，比 HAR-RV-5min 的 0.487 還低，表現最好。

這和 K782 的發現一致：在樣本中，日線 r² 的數值尺度和 RV 的尺度對齊方式不同，在某些市場環境下，r² 的壓縮效果反而讓預測更穩。HAR-SQ 的 DM 也是 NULL（t=-0.93），所以這個「領先」同樣不能下結論。但這個現象值得紀錄。

LOG 模型的失敗是預期中的

HAR-RV-5min-LOG 的 QLIKE 在 SPY 和 TW50 分別達到 8.97 和 7.65，是其他模型的 18 到 20 倍。

原因在預測方式上：LOG 模型在 log 尺度下訓練和預測，但最終要換回 RV 水準的誤差來算 QLIKE。這個反轉換若沒有做「Duan 偏差修正」（smearing correction），log 尺度的預測無法直接對應到原尺度的條件均值，level-scale QLIKE 的比較會失真，數字才會炸開到 8.97 / 7.65 這個量級。

這個失敗是可預測的，也是被預先登記的。LOG 模型要在 RV 水準下做公平比較，必須先加偏差修正，那是另一個實驗方向。

為什麼我們還在繼續收數據

每天的五分鐘數據，機器在跑、CSV 在長，成本幾乎是零。

如果到 2026 年 8 月 SPY OOS 到達 n≈100，或 2026 底到達 n≈200，我們會用同一套程式碼重跑 DM 檢定。到那時，如果 HAR-RV-5min 真的比 EWMA 好，t 統計量才有機會超過 Harvey 門檻，或更接近了。

這也是「資料先行於結論」的實際操作。現在說「5 分鐘 RV 沒用」是 motivated reasoning。說「5 分鐘 RV 確實有用」同樣是 motivated reasoning。正確的說法就是上面那句： 沒有足夠的統計力量說任何一邊。

年底的重跑結果，不管方向如何，都會據實報告。

一些細節

數據來源 ：SPY 5 分鐘報酬來自 data/intraday/SPY_daily_rv.csv，0050.TW 來自 data/intraday/0050_TW_daily_rv.csv；日線報酬來自 yfinance，2025-01-01 ~ 2026-05-20。

Lookahead 確認 ：所有特徵計算使用 t-1 當天數據預測 t 天；HAR 窗口（rv_1d, rv_5d, rv_22d）均以 shift(1) 實作，OLS 訓練窗口嚴格為 [0, t-1]。EWMA 首日採用同日 r² 作 warm start（非預測使用），正式 OOS 比較從第 30 個訓練觀測後才開始，warm start 不污染 OOS 指標。

統計方法 ：Diebold-Mariano 搭配 HLN（1997）小樣本修正；顯著性門檻 Harvey（1997）|t|>3（α≈0.01 two-tailed）；損失函數 QLIKE。

實驗代碼 ：experiments/k1318/k1318.py，結果 JSON：experiments/k1318/k1318_results.json。

本文基於實驗 K1318（腳本：experiments/k1318/k1318.py，結果：experiments/k1318/k1318_results.json）。數據來源：5 分鐘 SPY/0050.TW RV（自建收集，2026-01-14 起）+ yfinance 日線，2025-01-01 ~ 2026-05-20，SPY RV 樣本 88 天，TW50 RV 樣本 61 天。

先讀正式關聯，若無則使用標籤與主題相似度補齊

📄

日頻波動率，HAR-RV 贏不了 GARCH：60 場跨資產對戰的紀錄

# 日頻波動率，HAR-RV 贏不了 GARCH：60 場跨資產對戰的紀錄 > 實驗 K188 | OOS 期間 2023-01-01 至 2024-12-31 | 5 資產 × 4 波動率代理 × 3 模型變體 --- HAR-RV 是過去二十年波動率預測文獻裡出現率最高的模型之一。它把波動率分解成日、週、月三個頻率的加總，捕捉長記憶結構，跑在五分鐘高頻數據上幾乎無敵。那在日頻數據上呢...

→📄

K1582：HARQ / SHARK-style 測量誤差修正 HAR-RV 的台指期日盤試驗

## 摘要 [提出: Claude, 執行: Claude] K1582 檢驗 realized quarticity 測量誤差修正與 signed intraday components，是否能改善標準 HAR-RV 的一步期 realized variance 預測。正式可判斷樣本是 TAIFEX TX active-contract 日盤，原始日資料 2,219 筆，樣本外預測 1,697...

→📄

新興市場主權債的波動率,能提前預告 EM 股市風暴嗎?一次誠實的否定(K1621)

新興市場的美元主權債，波動起來的時候，會不會比股市早一步聞到火藥味？如果會，那些免費就能取得的債券 ETF 與信用利差，或許能當作跨資產的預警訊號。我們用 2015 到 2026 十一年的資料把這個念頭認真測了一遍，結論很乾脆：**不會**。主權信用的「波動率」和新興市場股票的波動率幾乎是同一時間一起動的，不存在可以拿來做日頻預測的領先關係。這是一個 NULL 結果，但它是乾淨、可複現、而且對...

→