波動率模型多久該重新校準一次?從每週到每年的完整實測
讀者互動
已追蹤瀏覽 0 次,登入會員可按讚與收藏。
波動率模型多久該重新校準一次?從每週到每年的完整實測
一個被忽略的實務問題
如果你曾經實際操作過任何一個波動率模型,無論是學術上的 GARCH 家族,或是業界用來定價選擇權、做風險管理的內部模型,你一定遇過這個問題: 模型參數該多久重新估計一次?
教科書通常給的答案是「定期重新校準」,但「定期」是多久?每週?每月?每季?每年?
這不只是學術潔癖。在真實的交易部位上,重新估計參數有兩個不便宜的成本:
- 計算成本 :高頻重新估計大型模型,每年要燒掉一筆可觀的算力
- 參數抖動 :估計越頻繁,參數越容易因為短期樣本擾動而上下跳,反而讓預測「忘記」長期結構
而如果你校準得太少,又怕模型「過時」,跟不上市場結構變化。
這篇文章把這個問題拉到實證的桌面上,用 SPY 從 2005 年到 2026 年共 21 年的真實資料,把五種重新校準頻率全部跑一輪,看看到底差多少。結果可能會讓你重新審視「精細微調」這件事的真正價值。
實驗設計:五種頻率,兩個模型,21 年資料
我們挑選兩個代表性的波動率模型來比較:
- GJR-GARCH :經典的不對稱 GARCH 模型,能捕捉「壞消息對波動率的衝擊大於好消息」的槓桿效應,是學術圈的標準參考模型
- A4f(VIX² 倍增式 GJR) :本研究線發展出來的雙成份模型,把波動率拆解成「長期成份 τ_t」(由 VIX 平方驅動)乘以「短期成份 g_t」(GJR-GARCH 動態),這是先前 K988 實驗確認在 SPY 上預測表現勝出的設定
兩個模型都採用 Student-t 自由度 8 的條件分布(先前的 K1021 已確認此設定最穩健)。
我們對每個模型分別測試 5 種重新校準頻率:
| 頻率 | 天數 | 樣本期內重估次數 |
|---|---|---|
| 每週 | 5 個交易日 | 668 次 |
| 每月 | 21 個交易日 | 159 次 |
| 每季 | 63 個交易日 | 53 次 |
| 半年 | 126 個交易日 | 27 次 |
| 每年 | 252 個交易日 | 14 次 |
樣本 :SPY 日收盤資料 2005-01-01 至 2026-04-09,共 5,349 筆觀測值;樣本外(OOS)期間 2013-01-01 起算,3,337 個交易日;滾動估計視窗 2,000 天(約 8 年)。
評估指標 :QLIKE(Patton 2011 提出的波動率損失函數,數值越「負」表示預測誤差越小);模型比較使用嚴格統計檢驗門檻判斷是否真的有差。
資料來源 :SPY 與 VIX 全部來自 yfinance;無 lookahead — τ_t 使用 VIX_{t-1}(前一日收盤),GJR/A4f 預測產生 h_{t|t-1},所有外生變數確實落後一日進入模型。

主結果:A4f 對校準頻率幾乎無感
把所有結果攤開:
| 頻率 | GJR QLIKE | A4f QLIKE | 兩模型比較強度 | 是否達顯著水準 | 執行時間 |
|---|---|---|---|---|---|
| 每週(5d) | -8.5434 | -8.6374 | 6.47 | 是 | 49.0 秒 |
| 每月(21d) | -8.5404 | -8.6380 | 6.67 | 是 | 11.7 秒 |
| 每季(63d) | -8.5414 | -8.6391 | 6.87 | 是 | 3.9 秒 |
| 半年(126d) | -8.5362 | -8.6381 | 6.66 | 是 | 1.9 秒 |
| 每年(252d) | -8.5350 | -8.6373 | 6.09 | 是 | 1.0 秒 |
幾個關鍵觀察:
1. A4f 的 QLIKE 在五種頻率之間的最大落差只有 0.021%。
從最佳的 -8.6391(每季)到最差的 -8.6373(每年),整個範圍只有萬分之 2 的差距。對任何實務應用來說,這個差異基本上就是雜訊,你重新校準 668 次(每週)跟只校準 14 次(每年),最終預測品質肉眼看不出差。
2. 每週校準 vs 每季校準差距僅 0.020%。
許多實務團隊習慣每週重估參數,認為這樣「最即時」。實證告訴我們:每週校準相較每季校準(次數多 12.6 倍、計算成本高 12.6 倍),所換來的預測精度提升幾乎為零。
3. A4f 在五種頻率全部都顯著優於 GJR (兩模型比較強度 6.09 至 6.87,全部通過嚴格統計檢驗門檻)。
這是個強訊號:A4f 的優勢不是「在某個校準頻率下的偶然」,它是個結構性的優勢,無論你怎麼設定重估節奏都會出現。
4. GJR 對校準頻率比 A4f 敏感,但仍非常微小。
GJR 在五種頻率間的 QLIKE 落差是 0.098%,大約是 A4f 的 5 倍。雖然依舊是極小的數字,但這個差異本身有研究價值(後面會解釋)。

為什麼差這麼少?背後有兩層機制
這個結果並不是巧合,背後有清楚的數理結構支撐:
機制一:GARCH 參數本來就「慢動作」
典型 GARCH 模型的持續性參數 (α + γ/2 + β) 大約落在 0.97 附近。這個數字的物理意義是「條件變異數的半衰期約 23 個交易日」,也就是說,今天的波動率衝擊要過大約一個月才會衰減一半。
當底層動態本身就是慢變化的,每隔 63 天用最近 2,000 天資料重新估計一次的參數,跟每隔 5 天重新估計一次的參數,差距會被「同一段歷史資料佔絕大多數」這件事壓得很小。
換句話說: 滾動視窗 2,000 天 + GARCH 慢動態,本質上就讓重估頻率的影響趨近於零 。這不是 A4f 特有的,而是整個 GARCH 家族都吃這個結構紅利。
機制二:A4f 的 τ 成份提供每日的外部資訊
這是 A4f 比 GJR 更穩健的關鍵:
- GJR :所有資訊都鎖在參數裡,參數一旦變舊,整個模型就「停在過去」
- A4f :把波動率拆成 σ²_t = τ_t × g_t 兩段。即使 g_t 的參數三個月才更新一次,τ_t = θ₀ + θ₁ × VIX²_{t-1} 這條公式 每天都用最新的 VIX 平方數值 重新計算
這代表什麼? A4f 永遠有個「外部呼吸閥」 ——VIX 是市場當下對未來 30 天波動率的隱含期望,每個交易日都即時反映新資訊。即使 g_t 參數有點過時,τ_t 已經把市場最新的恐慌或平靜情緒打進去了。
這個機制解釋了為什麼 GJR 對校準頻率比較敏感(0.098% spread)而 A4f 幾乎完全免疫(0.021% spread)。GJR 沒有外部資訊閘道,所有更新都得靠重新估參數;A4f 已經有 VIX 在做「持續性的隱含校準」。
隱藏的好消息:每季校準甚至比每週「更好」
留意上面表格中的一個小細節:A4f 在五種頻率裡,最佳 QLIKE 出現在 每季校準 (-8.6391),不是頻率最高的每週校準(-8.6374)。差距雖然極微,但方向耐人尋味。
兩模型比較強度也呈現相同模式,每季校準的比較強度是 6.87,是五種頻率裡最高的,比每週校準的 6.47 還大。
這背後可能的解釋是「 過度重估反而引入雜訊 」:
- 每週重新估計時,每次新樣本只多了 5 天的觀測值,對 GARCH 似然函數的影響很小,但會帶進短期樣本的雜訊抖動
- 每季重新估計時,多了 63 天的新資料,訊號雜訊比較高,參數的「跳動」反而更穩定
這個結果與 Engle, Ghysels & Sohn (2013) 在 GARCH-MIDAS 框架下的觀察一致: 長期成份的緩慢調整往往比短期成份的劇烈跳動帶來更穩健的預測 。

對實務工作者的啟示
把上面的數字翻譯成可操作的建議:
建議 1:別再為了「最即時」而每週重估
如果你目前的流程是每週、甚至每天重新校準 GARCH 類模型,除非你有非常具體的理由(例如剛經歷結構斷裂、或正在跑超短期交易),否則 每季重估就夠了 。預測品質基本沒差,計算成本降到原來的 1/12。
建議 2:把省下來的算力做更有價值的事
K1024 顯示:每週執行需 49 秒,每季執行只需 3.9 秒。在大型投資組合或上千個資產的場景,這個差距會放大成「每年數萬筆計算 vs 數千筆計算」。
省下來的算力可以投入:
- 跑更多 robustness check(不同視窗、不同條件分布、不同特徵集)
- 做更廣的跨資產驗證(更多市場、更多區域)
- 嘗試更複雜但有理論支撐的 spec(例如加入更多外生變數、納入跳躍成份)
建議 3:選模型時優先看「資訊管道」設計
A4f 對校準頻率比 GJR 穩健的根本原因,是它有個「外部資訊持續注入」的結構(τ_t × g_t 雙成份)。在實務挑模型時,比起追逐最複雜的 spec, 設計一個能持續接收外部資訊的架構,往往帶來更可靠的長期表現 。這也是為什麼 GARCH-MIDAS、HAR-RV、以及各類混頻模型在學術界與實務界持續受到重視。
對學術寫作的啟示
任何投到 top journal 的波動率預測論文,審稿人幾乎一定會問:「為什麼選這個校準頻率?對結果敏感嗎?」
K1024 對這個提問給了一個 self-contained 的答案:
在五種校準頻率(每週、每月、每季、半年、每年)下,A4f 的 QLIKE 變動小於 0.02%,且 A4f 對 GJR 的優勢在所有頻率下皆達顯著水準(兩模型比較強度全部超過嚴格門檻)。
這個句子可以直接放進論文的 robustness section。它的價值不在於「漂亮」,而在於它 封死了一條常見的審稿質疑路徑 。研究誠實的精神就是:與其等審稿人質疑後手忙腳亂,不如自己先把所有可能的攻擊面測一遍。
局限與後續方向
這份實驗有幾個範圍限制需要明確說明:
- 單一資產 :本實驗只跑 SPY。對其他資產(小型股、新興市場、加密貨幣)是否同樣穩健還需要 K1067 系列等跨市場實驗來驗證
- 單一視窗 :滾動視窗固定 2,000 天。較短的視窗(例如 500 天)可能會讓重估頻率的影響顯著放大
- 未測試「真實時間」校準 :本實驗用「每 N 個交易日」的固定節奏。實務上有時會觸發式校準(例如波動率突然飆升才重估),這類自適應策略未在此範圍內
- 單一外生變數 :A4f 的 τ_t 只用 VIX。若改用更多外生變數(例如 RV、term structure),不同外生變數的更新頻率與重估頻率可能交互作用
這些都是有趣的後續方向。但對於目前的核心問題,「63 天的選擇是否合理」——K1024 給出明確的肯定回答。
一句話總結
對於 GARCH 家族波動率模型,每季重新校準一次(63 個交易日)就足夠 。再頻繁的重估換不來預測精度的實質提升,反而吃掉算力預算。如果模型架構有外部資訊持續注入機制(像 A4f 的 VIX-driven τ 成份),對校準頻率就更不敏感。
研究與實務上常見的「越頻繁越好」直覺,在這個問題上不成立。
資料來源
- 價格資料 :SPY 日收盤價,yfinance,2005-01-01 至 2026-04-09,共 5,349 筆
- 外生變數 :^VIX 日收盤值,yfinance,同期間
- 樣本外期間 :2013-01-01 起算,n_oos = 3,337 個交易日
- 完整實驗紀錄 :
experiments/k1024/(含 README、Python 腳本、結果 JSON、三張視覺化圖) - 參考文獻 :
- Patton, A. J. (2011). Volatility forecast comparison using imperfect volatility proxies. Journal of Econometrics, 160(1), 246-256.
- HLZ (2016). Modified tests for forecast comparison.
- Engle, R. F., Ghysels, E., & Sohn, B. (2013). Stock market volatility and macroeconomic fundamentals. Review of Economics and Statistics, 95(3), 776-797.
- Conrad, C., & Loch, K. (2015). Anticipating long-term stock market volatility. Journal of Business & Economic Statistics, 33(3), 338-358.
- 延伸實驗 :K988(A4f spec 確立)、K1021(Student-t df=8 選定)
實驗 ID: K1024
相關文章
先讀正式關聯,若無則使用標籤與主題相似度補齊