研究2026/05/21 下午08:11

波動率模型多久該重新校準一次？從每週到每年的完整實測

SPYVIX波動率預測實務建議模型校準穩健性檢定

讀者互動

已追蹤瀏覽 0 次，登入會員可按讚與收藏。

分享到：LINE Facebook X / Twitter

波動率模型多久該重新校準一次？從每週到每年的完整實測

一個被忽略的實務問題

如果你曾經實際操作過任何一個波動率模型，無論是學術上的 GARCH 家族，或是業界用來定價選擇權、做風險管理的內部模型，你一定遇過這個問題： 模型參數該多久重新估計一次？

教科書通常給的答案是「定期重新校準」，但「定期」是多久？每週？每月？每季？每年？

這不只是學術潔癖。在真實的交易部位上，重新估計參數有兩個不便宜的成本：

計算成本 ：高頻重新估計大型模型，每年要燒掉一筆可觀的算力
參數抖動 ：估計越頻繁，參數越容易因為短期樣本擾動而上下跳，反而讓預測「忘記」長期結構

而如果你校準得太少，又怕模型「過時」，跟不上市場結構變化。

這篇文章把這個問題拉到實證的桌面上，用 SPY 從 2005 年到 2026 年共 21 年的真實資料，把五種重新校準頻率全部跑一輪，看看到底差多少。結果可能會讓你重新審視「精細微調」這件事的真正價值。

實驗設計：五種頻率，兩個模型，21 年資料

我們挑選兩個代表性的波動率模型來比較：

GJR-GARCH ：經典的不對稱 GARCH 模型，能捕捉「壞消息對波動率的衝擊大於好消息」的槓桿效應，是學術圈的標準參考模型
A4f（VIX² 倍增式 GJR） ：本研究線發展出來的雙成份模型，把波動率拆解成「長期成份 τ_t」（由 VIX 平方驅動）乘以「短期成份 g_t」（GJR-GARCH 動態），這是先前 K988 實驗確認在 SPY 上預測表現勝出的設定

兩個模型都採用 Student-t 自由度 8 的條件分布（先前的 K1021 已確認此設定最穩健）。

我們對每個模型分別測試 5 種重新校準頻率：

頻率	天數	樣本期內重估次數
每週	5 個交易日	668 次
每月	21 個交易日	159 次
每季	63 個交易日	53 次
半年	126 個交易日	27 次
每年	252 個交易日	14 次

樣本：SPY 日收盤資料 2005-01-01 至 2026-04-09，共 5,349 筆觀測值；樣本外（OOS）期間 2013-01-01 起算，3,337 個交易日；滾動估計視窗 2,000 天（約 8 年）。

評估指標 ：QLIKE（Patton 2011 提出的波動率損失函數，數值越「負」表示預測誤差越小）；模型比較使用嚴格統計檢驗門檻判斷是否真的有差。

資料來源 ：SPY 與 VIX 全部來自 yfinance；無 lookahead — τ_t 使用 VIX_{t-1}（前一日收盤），GJR/A4f 預測產生 h_{t|t-1}，所有外生變數確實落後一日進入模型。

QLIKE vs 重新校準頻率

主結果：A4f 對校準頻率幾乎無感

把所有結果攤開：

頻率	GJR QLIKE	A4f QLIKE	兩模型比較強度	是否達顯著水準	執行時間
每週（5d）	-8.5434	-8.6374	6.47	是	49.0 秒
每月（21d）	-8.5404	-8.6380	6.67	是	11.7 秒
每季（63d）	-8.5414	-8.6391	6.87	是	3.9 秒
半年（126d）	-8.5362	-8.6381	6.66	是	1.9 秒
每年（252d）	-8.5350	-8.6373	6.09	是	1.0 秒

幾個關鍵觀察：

1. A4f 的 QLIKE 在五種頻率之間的最大落差只有 0.021%。

從最佳的 -8.6391（每季）到最差的 -8.6373（每年），整個範圍只有萬分之 2 的差距。對任何實務應用來說，這個差異基本上就是雜訊，你重新校準 668 次（每週）跟只校準 14 次（每年），最終預測品質肉眼看不出差。

2. 每週校準 vs 每季校準差距僅 0.020%。

許多實務團隊習慣每週重估參數，認為這樣「最即時」。實證告訴我們：每週校準相較每季校準（次數多 12.6 倍、計算成本高 12.6 倍），所換來的預測精度提升幾乎為零。

3. A4f 在五種頻率全部都顯著優於 GJR （兩模型比較強度 6.09 至 6.87，全部通過嚴格統計檢驗門檻）。

這是個強訊號：A4f 的優勢不是「在某個校準頻率下的偶然」，它是個結構性的優勢，無論你怎麼設定重估節奏都會出現。

4. GJR 對校準頻率比 A4f 敏感，但仍非常微小。

GJR 在五種頻率間的 QLIKE 落差是 0.098%，大約是 A4f 的 5 倍。雖然依舊是極小的數字，但這個差異本身有研究價值（後面會解釋）。

兩模型比較強度 vs 校準頻率

為什麼差這麼少？背後有兩層機制

這個結果並不是巧合，背後有清楚的數理結構支撐：

機制一：GARCH 參數本來就「慢動作」

典型 GARCH 模型的持續性參數 (α + γ/2 + β) 大約落在 0.97 附近。這個數字的物理意義是「條件變異數的半衰期約 23 個交易日」，也就是說，今天的波動率衝擊要過大約一個月才會衰減一半。

當底層動態本身就是慢變化的，每隔 63 天用最近 2,000 天資料重新估計一次的參數，跟每隔 5 天重新估計一次的參數，差距會被「同一段歷史資料佔絕大多數」這件事壓得很小。

換句話說： 滾動視窗 2,000 天 + GARCH 慢動態，本質上就讓重估頻率的影響趨近於零 。這不是 A4f 特有的，而是整個 GARCH 家族都吃這個結構紅利。

機制二：A4f 的 τ 成份提供每日的外部資訊

這是 A4f 比 GJR 更穩健的關鍵：

GJR ：所有資訊都鎖在參數裡，參數一旦變舊，整個模型就「停在過去」
A4f ：把波動率拆成 σ²_t = τ_t × g_t 兩段。即使 g_t 的參數三個月才更新一次，τ_t = θ₀ + θ₁ × VIX²_{t-1} 這條公式 每天都用最新的 VIX 平方數值 重新計算

這代表什麼？ A4f 永遠有個「外部呼吸閥」 ——VIX 是市場當下對未來 30 天波動率的隱含期望，每個交易日都即時反映新資訊。即使 g_t 參數有點過時，τ_t 已經把市場最新的恐慌或平靜情緒打進去了。

這個機制解釋了為什麼 GJR 對校準頻率比較敏感（0.098% spread）而 A4f 幾乎完全免疫（0.021% spread）。GJR 沒有外部資訊閘道，所有更新都得靠重新估參數；A4f 已經有 VIX 在做「持續性的隱含校準」。

隱藏的好消息：每季校準甚至比每週「更好」

留意上面表格中的一個小細節：A4f 在五種頻率裡，最佳 QLIKE 出現在 每季校準 （-8.6391），不是頻率最高的每週校準（-8.6374）。差距雖然極微，但方向耐人尋味。

兩模型比較強度也呈現相同模式，每季校準的比較強度是 6.87，是五種頻率裡最高的，比每週校準的 6.47 還大。

這背後可能的解釋是「 過度重估反而引入雜訊 」：

每週重新估計時，每次新樣本只多了 5 天的觀測值，對 GARCH 似然函數的影響很小，但會帶進短期樣本的雜訊抖動
每季重新估計時，多了 63 天的新資料，訊號雜訊比較高，參數的「跳動」反而更穩定

這個結果與 Engle, Ghysels & Sohn (2013) 在 GARCH-MIDAS 框架下的觀察一致： 長期成份的緩慢調整往往比短期成份的劇烈跳動帶來更穩健的預測 。

執行時間 vs 校準頻率

對實務工作者的啟示

把上面的數字翻譯成可操作的建議：

建議 1：別再為了「最即時」而每週重估

如果你目前的流程是每週、甚至每天重新校準 GARCH 類模型，除非你有非常具體的理由（例如剛經歷結構斷裂、或正在跑超短期交易），否則 每季重估就夠了 。預測品質基本沒差，計算成本降到原來的 1/12。

建議 2：把省下來的算力做更有價值的事

K1024 顯示：每週執行需 49 秒，每季執行只需 3.9 秒。在大型投資組合或上千個資產的場景，這個差距會放大成「每年數萬筆計算 vs 數千筆計算」。

省下來的算力可以投入：

跑更多 robustness check（不同視窗、不同條件分布、不同特徵集）
做更廣的跨資產驗證（更多市場、更多區域）
嘗試更複雜但有理論支撐的 spec（例如加入更多外生變數、納入跳躍成份）

建議 3：選模型時優先看「資訊管道」設計

A4f 對校準頻率比 GJR 穩健的根本原因，是它有個「外部資訊持續注入」的結構（τ_t × g_t 雙成份）。在實務挑模型時，比起追逐最複雜的 spec， 設計一個能持續接收外部資訊的架構，往往帶來更可靠的長期表現 。這也是為什麼 GARCH-MIDAS、HAR-RV、以及各類混頻模型在學術界與實務界持續受到重視。

對學術寫作的啟示

任何投到 top journal 的波動率預測論文，審稿人幾乎一定會問：「為什麼選這個校準頻率？對結果敏感嗎？」

K1024 對這個提問給了一個 self-contained 的答案：

在五種校準頻率（每週、每月、每季、半年、每年）下，A4f 的 QLIKE 變動小於 0.02%，且 A4f 對 GJR 的優勢在所有頻率下皆達顯著水準（兩模型比較強度全部超過嚴格門檻）。

這個句子可以直接放進論文的 robustness section。它的價值不在於「漂亮」，而在於它 封死了一條常見的審稿質疑路徑 。研究誠實的精神就是：與其等審稿人質疑後手忙腳亂，不如自己先把所有可能的攻擊面測一遍。

局限與後續方向

這份實驗有幾個範圍限制需要明確說明：

單一資產 ：本實驗只跑 SPY。對其他資產（小型股、新興市場、加密貨幣）是否同樣穩健還需要 K1067 系列等跨市場實驗來驗證
單一視窗 ：滾動視窗固定 2,000 天。較短的視窗（例如 500 天）可能會讓重估頻率的影響顯著放大
未測試「真實時間」校準 ：本實驗用「每 N 個交易日」的固定節奏。實務上有時會觸發式校準（例如波動率突然飆升才重估），這類自適應策略未在此範圍內
單一外生變數 ：A4f 的 τ_t 只用 VIX。若改用更多外生變數（例如 RV、term structure），不同外生變數的更新頻率與重估頻率可能交互作用

這些都是有趣的後續方向。但對於目前的核心問題，「63 天的選擇是否合理」——K1024 給出明確的肯定回答。

一句話總結

對於 GARCH 家族波動率模型，每季重新校準一次（63 個交易日）就足夠 。再頻繁的重估換不來預測精度的實質提升，反而吃掉算力預算。如果模型架構有外部資訊持續注入機制（像 A4f 的 VIX-driven τ 成份），對校準頻率就更不敏感。

研究與實務上常見的「越頻繁越好」直覺，在這個問題上不成立。

資料來源

價格資料 ：SPY 日收盤價，yfinance，2005-01-01 至 2026-04-09，共 5,349 筆
外生變數 ：^VIX 日收盤值，yfinance，同期間
樣本外期間 ：2013-01-01 起算，n_oos = 3,337 個交易日
完整實驗紀錄 ：experiments/k1024/（含 README、Python 腳本、結果 JSON、三張視覺化圖）
參考文獻 ：
- Patton, A. J. (2011). Volatility forecast comparison using imperfect volatility proxies. Journal of Econometrics, 160(1), 246-256.
- HLZ (2016). Modified tests for forecast comparison.
- Engle, R. F., Ghysels, E., & Sohn, B. (2013). Stock market volatility and macroeconomic fundamentals. Review of Economics and Statistics, 95(3), 776-797.
- Conrad, C., & Loch, K. (2015). Anticipating long-term stock market volatility. Journal of Business & Economic Statistics, 33(3), 338-358.
延伸實驗 ：K988（A4f spec 確立）、K1021（Student-t df=8 選定）