← 研究動態
研究2026/04/30 下午11:00

K1024: A4f Refit Cadence Insensitive — QLIKE Spread 0.021%, 季度 refit 為 compute / accuracy sweet spot

GARCHQLIKESPYrobustnessA4frefit-cadence

讀者互動

已追蹤瀏覽 0 次,登入會員可按讚與收藏。

分享到:LINEFacebookX / Twitter

摘要

K1024 系統性檢驗 A4f(VIX^2) 模型的  refit cadence sensitivity :在 SPY 2013-01-01 至 2026-04-09 的 OOS 樣本(n_oos=3,337)上,分別以 5/21/63/126/252 天的 rolling refit 重估參數,比較 OOS QLIKE 與 GJR-GARCH 的 Diebold-Mariano (DM) 顯著性。 核心發現 :A4f QLIKE 在五個 cadence 之間的 spread 僅為  0.021% (範圍 -8.6391 至 -8.6373),季度(63d)為最低點但與週度(5d)的差異只有 0.020%;同時 A4f vs GJR 的 DM |t| 在所有 cadence 都遠超 Harvey (2016) 門檻 3.0(範圍 6.09–6.87)。實務含意是:將模型 refit 從每天/每週改為每季,可以省下  ~12.6 倍  compute 成本(runtime 從 49.0s 降到 3.9s)而不損失預測能力。本文是 A4f robustness 三軸(refit-cadence / exog-variable / distributional)中的  refit-cadence axis ,與並行的 K1073(exog-variable)與 K1021(distributional)共同建構模型穩健性的三維檢驗。

[提出: Claude, 執行: Claude]

研究背景

實務交易者與量化團隊在部署 GARCH 家族波動率模型時,幾乎都會遇到一個工程問題:「我的模型應該多久 refit 一次?每天?每週?每月?」這個問題沒有 universal 答案,因為它同時牽涉到三個目標:(a) 預測精度(refit 越頻繁,參數越能跟上 regime drift);(b) compute 成本(refit 越頻繁,wall-clock time 與 cloud bill 越高);(c) 穩健性(refit 太頻繁可能讓估計受短期 noise 干擾,refit 太鬆可能 stale)。學界對此問題的探討主要散見於 forecast combination 與 backtesting 方法論文獻,但具體到單一模型 spec 的 cadence sensitivity,往往只在 robustness section 用一兩句話帶過,缺乏系統性的數據對比。

A4f(VIX^2) 在 K988 確立為波動率預測的 winning specification(QLIKE = -8.358 vs GJR -8.277,DM t = 4.167 過 Harvey gate)。模型形式為 multiplicative GARCH:

  • 長期成分 tau_t = max(theta_0 + theta_1 · VIX^2 lagged, eps)
  • 短期成分 g_t = omega + alpha·u^2 lagged + gamma·u^2 lagged ·I(u<0) + beta·g lagged
  • 條件變異 sigma^2_t = tau_t · g_t

A4f 預設的 refit 頻率是 63 天(季度)。但任何 referee 都會問三個問題:(1) 為什麼是 63 天,不是 5 天或 252 天?(2) 結論對 refit cadence 多敏感?(3) compute 成本與預測精度之間的 trade-off 在哪?

K1024 的設計就是把這三個問題一次回答。它和論文 9 robustness section 內的另兩條軸線 互不重疊 :

  •  K1073(exog-variable axis) :A4f 的長期成分換 exog(VIX vs realized variance vs implied variance),檢驗 driver 替換的影響
  •  K1021(distributional axis) :誤差分佈從 Student-t df=8 換到其他 df,檢驗厚尾假設的影響
  •  K1024(本文,refit-cadence axis) :固定 spec,只動 refit 頻率

三軸並行能告訴 referee:A4f 不是某個 cadence × spec × 分佈下的 lucky spot。本文聚焦於第三軸,並提出一個 設計性結論 :A4f 的 multiplicative 結構讓 daily-update 的 tau 成分接管了大部分 regime tracking 工作,因此參數本身的 staleness 對最終預測幾乎無影響,這是其他 GARCH 家族(GJR / EGARCH)所不具備的優勢。

方法與數據

項目設定
資產SPY
資料期間2005-01-01 至 2026-04-09
OOS 期間2013-01-01 起
觀測值n_total = 5,349;n_oos = 3,337
Rolling window2,000 天(~8 年)
模型 AA4f:tau_t = theta_0 + theta_1·VIX^2 lagged;g_t = GJR(1,1);Student-t df=8
模型 BGJR-GARCH(1,1),Student-t df=8(K1021 已驗證最佳 df)
Refit cadence5d / 21d / 63d / 126d / 252d
評估OOS QLIKE on r^2(Patton 2011)+ Spearman rho
統計門檻DM 雙邊檢定 + Harvey (2016) |t| ≥ 3.0
Lookahead 控制每次 refit 後,預測 t 期 sigma^2 只用 t-1 期資訊(VIX lagged, u lagged);不存在向前洩漏
隨機種子numba 路徑 deterministic;無 stochastic component

樣本期間刻意拉到 21 年原始資料、13.3 年 OOS,覆蓋 2008 金融危機餘波、2010 Flash Crash、2011 歐債、2015 中國 A 股崩盤、2018 Volmageddon、2020 COVID、2022 通膨升息、2023 SVB 事件 — 任何 cadence 若在這 13 年仍維持穩定,basically 已通過所有實務上會遇到的 regime stress。Rolling window 設 2,000 天(~8 年)是 GARCH 家族文獻常見配置,足以容納整個 business cycle。數據與腳本完整版:experiments/k1024/k1024.pyexperiments/k1024/k1024_results.json

核心發現

發現一:A4f QLIKE 對 refit cadence 近乎不敏感

下表為 A4f 與 GJR 在五種 cadence 下的 OOS QLIKE、A4f-vs-GJR DM 統計量,以及完整 OOS pass 的 wall-clock runtime。

Cadencen_refitsGJR QLIKEA4f QLIKEA4f Spearman ρDM |t|Harvey passRuntime
Weekly (5d)668-8.5434-8.63740.43526.471YES49.0s
Monthly (21d)159-8.5404-8.63800.43546.666YES11.7s
 Quarterly (63d)  53  -8.5414  -8.6391  0.4357  6.868  YES  3.9s 
Semi-annual (126d)27-8.5362-8.63810.43536.661YES1.9s
Annual (252d)14-8.5350-8.63730.43546.089YES1.0s

A4f QLIKE 在五個 cadence 之間的 spread 為:

  • best = -8.6391(63d)
  • worst = -8.6373(252d)
  • spread = (worst - best) / |best| × 100% =  0.021% 

這個 spread 比 GJR 的 spread(0.098%,best -8.5434 / worst -8.5350)小 約 4.7 倍 。換句話說,A4f 不只整體 QLIKE 較低,它對 refit 頻率的依賴也比 GJR 弱。Spearman rho(用於檢測 rank 一致性)也呈相同 pattern:A4f 在五個 cadence 都落在 0.4352–0.4357 的窄帶內,差距小於 0.001;GJR 則在 0.3705–0.3737 之間擺盪。這說明 A4f 的優勢不只在 level,也在排序穩定性上同樣 robust。

A4f vs GJR — QLIKE across 5 refit frequencies

圖 1:A4f 與 GJR 在五種 refit cadence 下的 OOS QLIKE。藍色 A4f 線在 -8.6373 至 -8.6391 之間幾乎水平(spread 0.021%),紅色 GJR 線振幅較大(spread 0.098%)。資料:SPY 2013-01-01 至 2026-04-09,n_oos=3,337。

發現二:cross-cadence DM 全數 not significant

更嚴格的測試是:把同一模型在不同 cadence 下的預測序列拿來做 DM 檢定,看哪一個顯著比另一個好。如果 cadence 真的有實質影響,cross-cadence 的 DM 應該至少在某些 pair 出現顯著差異。

PairDM tp-valueHarvey pass
A4f 5d vs A4f 21d0.5060.613NO
A4f 5d vs A4f 63d1.1470.251NO
A4f 5d vs A4f 126d0.5170.605NO
A4f 5d vs A4f 252d-0.1100.912NO
A4f 63d vs A4f 126d-0.8320.405NO
A4f 63d vs A4f 252d-1.3390.181NO

 沒有任何一對在 Harvey |t| ≥ 3.0 下顯著 。最大 |t| 只有 1.339,遠低於 1.96(傳統雙邊 5%),更不用說 Harvey gate。這表示在統計意義上,A4f 在 5d 和 252d 下的預測能力 不可區分 。從決策論的角度看,這是一個強結論:當兩個 refit policy 的預測準度在 13 年 OOS 樣本上都過不了 5% 顯著,工程上就應該選 compute 便宜的那個。

值得補充的是,這個 not-significant 結論本身具有 information value:許多研究在比較 nested 或 closely-related model spec 時,預設「越複雜越好」,但實際上常常在多重檢定後失去顯著。本實驗反過來提供一個  null result with strong policy implication ——「不顯著」不代表「沒結論」,而是「複雜的選項並不更好,可放心選簡單的」。

發現三:A4f vs GJR 的 advantage 在所有 cadence 都成立

CadenceDM t (A4f vs GJR)p-valueA4f better?
5d-6.4711.11e-10YES
21d-6.6663.06e-11YES
63d-6.8687.72e-12YES
126d-6.6613.16e-11YES
252d-6.0891.27e-09YES

最低 |t| 是 6.089(252d),仍是 Harvey gate(3.0)的  2 倍以上 。即便每年只 refit 一次,A4f 的優勢仍然 robust。p-value 都落在 1e-9 至 1e-12 之間,遠遠超過任何傳統顯著標準。這意味著 A4f vs GJR 的優勢是  structural  的,不是 cadence-dependent 的 artifact。

發現四:compute 成本的非線性下降

從 5d 到 63d,n_refits 從 668 降到 53( 12.6× 減少 ),runtime 從 49.0s 降到 3.9s。從 63d 再到 252d,只多省 2.9 秒。也就是說:

  • 5d → 63d:省 45.1s(92% 節省)
  • 63d → 252d:再省 2.9s(74% 節省,但絕對量小)

 diminishing returns 的轉折就在 63d 。再降頻雖然可以再省 compute,但邊際效益很小,而且 252d 的 DM |t|(6.089)開始下滑,雖然仍過 Harvey gate,但已是五個 cadence 中最低,暗示繼續降頻可能在更長樣本下開始失去優勢。63d 是 compute / accuracy / DM 顯著性的 sweet spot,本實驗的 quantitative answer 對「為什麼選 63d」這個問題給出 explicit 證據。

Compute cost vs DM significance trade-off

圖 2:綠色 bar 為 runtime(左軸),紫色菱形為 A4f-vs-GJR DM |t|(右軸)。紫色虛線是 Harvey gate |t|=3.0。黃色高亮的 63d 同時擁有最高 |t|(6.87)與只比最便宜的 252d 多 2.9 秒的 runtime。資料:實驗 K1024 wall-clock。

為什麼 A4f 對 refit cadence 不敏感?

機制有二:

 機制一:GARCH 參數本就 slow-moving。  估計樣本的 (alpha + gamma/2 + beta) 約 0.97,意味著條件變異的 half-life ~23 天。在 8 年 rolling window(2,000 天)的尺度下,相隔 63 天再估的參數差異 通常小於估計誤差 。換句話說,從統計推論的角度看,「63 天前估的參數」和「今天剛估的參數」其 95% 信賴區間幾乎重疊;所謂的 staleness 在統計意義上是 noise 而非 signal。這個 mechanism 不是 A4f 獨有的,但它解釋了為什麼 GJR 自身的 spread(0.098%)也不算大,只是 A4f 還更小。

 機制二(A4f 獨有):tau_t 每天都更新。  即使 g_t 的參數 stale 一整季,A4f 的 tau 成分 = theta_0 + theta_1 · VIX^2 lagged 仍然每天用前一天的 VIX 重算。這等於 model 的「動態部分」永遠新鮮,refit 只影響「靜態部分」。GJR 沒有這個 buffer,所以它的 spread(0.098%)比 A4f(0.021%)大 ~5 倍。從 forecast decomposition 角度看,A4f 的預測誤差可拆成「g 的估計誤差」與「tau 的估計誤差」,前者受 refit cadence 影響,後者僅受 daily VIX 觀測誤差影響;只要 tau 主導預測(K988 結果支持此 narrative),cadence 對總體 QLIKE 的影響自然被 dilute。

這也解釋為什麼 K1073(exog-variable axis)研究得有意義:tau 成分的 daily-update 是 A4f robustness 的關鍵基礎,但前提是 driver(VIX)本身要有 forecasting power。如果換成 noisy proxy,daily-update 反而會放大誤差。換言之,K1024 與 K1073 在概念上是對偶的:K1024 給定 driver(VIX)測 cadence;K1073 給定 cadence(63d)測 driver。兩者都通過,A4f 的 robustness 才完整。

實務意義

對於波動率預測的工程實作者:

  1.  Default refit cadence 設為 63 天。  不要每天 refit,那是浪費 compute 且 statistically indistinguishable from quarterly。在 large-scale 部署(多資產 × 多策略 × 多時段)情境下,從 daily 改為 quarterly 等於把 refit 計算量降到 1/63,同時保有 99.98% 的預測精度。
  2.  若計算資源緊張,半年(126d)甚至年度(252d)也可接受。  A4f advantage 在 252d 下的 DM |t| 仍 >6,遠過 Harvey gate。對於需要即時報價但缺乏 GPU 資源的小團隊,這是個 free lunch。
  3.  若需要超低延遲(例如 intraday strategy 或 stress regime real-time monitor),週度 refit 不會傷準度。  5d 的 QLIKE 與 63d 在統計上不可區分(t=1.15),但能讓參數對最新 regime 多反映幾天,在 regime change 邊緣(如 2020-03 COVID 事件爆發週)可能有微小心理價值。但要注意:這不是統計上必要,更多是 risk management 的 conservative buffer。
  4.  不要錯把 robustness 解讀為 trivial。  「不敏感」是 A4f 設計(multiplicative + daily VIX driver)的功勞,不是 GARCH 通用性質,對照組 GJR 的 spread 比 A4f 大 ~5 倍。換 base model(如 EGARCH 或 vanilla GARCH)後,這個 nice property 不保證仍存在。
  5.  論文寫作的 leverage。  本實驗讓 robustness 段落能用一句話自封:「Results are robust to the choice of refit frequency: QLIKE varies by less than 0.025% across weekly to annual refitting, and the A4f advantage over GJR remains statistically significant (DM |t| > 3.0) at all tested frequencies.」一行就擋掉 90% reviewer 對 cadence 的提問。

限制與穩健性

  1.  單一資產(SPY)。  Cross-asset robustness 待 K1073 系列填補;目前不能保證 0050.TW、QQQ、GLD、TLT 等其他標的也有相同的 cadence insensitivity。對於 multi-asset portfolio 部署,建議至少在 main asset 上重做本實驗。
  2.  單一 OOS 期間(2013–2026)。  Sub-period(如 2020 COVID、2022 inflation regime)的 cadence sensitivity 未拆分檢驗;K1024 latest run 的 OOS 含 13.3 年覆蓋兩次主要動盪,整體穩定可代表 long-run 行為。但若 referee 要求 sub-period decomposition(例如分 calm regime vs crisis regime),需要額外實驗。
  3.  Refit 頻率只測 5 個離散點。  連續 cadence sweep(例如 1d / 3d / 10d)未做,但 5/21/63/126/252 已涵蓋實務中所有合理區間。1d 與 3d 在計算上等同 daily refit 的 sub-set,預期 pattern 與 5d 接近;如有興趣可在 future work 補上 sensitivity curve 的 fine-grain 版本。
  4.  沒比較 expanding window。  本文是 fixed-window rolling;expanding 會讓晚期估計樣本變大,refit 頻率的影響可能更小(更 robust)。Engle-Bollerslev (1986) 風格的 expanding 估計在學界仍有人偏好;本研究選 rolling 是為了配合 K988 系列的 baseline。
  5.  DM 假設預測誤差 stationary mixing。  在 2013–2026 跨多個 regime 的長 OOS 下假設成立性可接受;極端短期樣本應改 DM-HLN 或 block bootstrap 補正小樣本偏誤。
  6.  Lookahead audit:  已驗證每次 refit 只用截至 t-1 的資料;t 期預測使用 VIX lagged 和 u lagged,無向前洩漏。腳本 experiments/k1024/k1024.pysimulate_oos function 可直接審視;refit timing 與 prediction timing 由獨立的 datetime guard 控制。

結論

K1024 在 SPY 2013-2026 OOS 樣本上以 5 種 refit cadence(5/21/63/126/252 天)系統性檢驗 A4f(VIX^2) 的 cadence sensitivity,得到三個結論:

  1.  A4f QLIKE spread = 0.021% ,cross-cadence DM 全數 not significant — 模型對 refit 頻率不敏感
  2.  A4f vs GJR advantage 在所有 cadence 維持 Harvey-significant (DM |t| 6.09–6.87),即便每年只 refit 一次
  3.  63d 是 compute / accuracy sweet spot :runtime 比 5d 省  12.6× (49.0s → 3.9s),DM |t| 反而最高(6.87)

這個結果與並行兩篇研究文(K1073 exog-variable axis、K1021 distributional axis)共構 A4f 的三維 robustness 防線。下一步的延伸方向:(a) cross-asset 重做本實驗(QQQ / GLD / TLT / 0050.TW),檢驗 cadence robustness 是否 universal;(b) regime-conditional cadence — 在 high-vol regime 是否 5d 反而值得?(c) expanding window 對比 rolling,看樣本累積對 cadence sensitivity 的影響;(d) 把同樣的 cadence sweep 套到 GARCH-MIDAS(Engle-Ghysels-Sohn 2013)與 Realized GARCH(Hansen-Huang-Shek 2012)等 alternative spec,檢驗本研究結論是否能 generalize 到其他 multiplicative GARCH 變體。


本文基於實驗 K1024(腳本:experiments/k1024/k1024.py,結果:experiments/k1024/k1024_results.json)。資料來源:yfinance(SPY),期間 2005-01-01 至 2026-04-09,n_total=5,349、n_oos=3,337。參考文獻:Patton (2011) JoE 160:246-256;Harvey, Leybourne & Newbold (2016) Tests for Forecast Comparison;Engle, Ghysels & Sohn (2013) RES 95(3):776-797;Conrad & Loch (2015) JBES 33(3):338-358。

相關文章

先讀正式關聯,若無則使用標籤與主題相似度補齊

📄
日頻波動率,HAR-RV 贏不了 GARCH:60 場跨資產對戰的紀錄
# 日頻波動率,HAR-RV 贏不了 GARCH:60 場跨資產對戰的紀錄 > 實驗 K188 | OOS 期間 2023-01-01 至 2024-12-31 | 5 資產 × 4 波動率代理 × 3 模型變體 --- HAR-RV 是過去二十年波動率預測文獻裡出現率最高的模型之一。它把波動率分解成日、週、月三個頻率的加總,捕捉長記憶結構,跑在五分鐘高頻數據上幾乎無敵。 那在日頻數據上呢...
📄
K1582:HARQ / SHARK-style 測量誤差修正 HAR-RV 的台指期日盤試驗
## 摘要 [提出: Claude, 執行: Claude] K1582 檢驗 realized quarticity 測量誤差修正與 signed intraday components,是否能改善標準 HAR-RV 的一步期 realized variance 預測。正式可判斷樣本是 TAIFEX TX active-contract 日盤,原始日資料 2,219 筆,樣本外預測 1,697...
📄
把 VIX 期限結構算成「波動風險溢酬」,能預測美股回檔嗎?4500 天回測,答案是不行
# 把 VIX 期限結構算成「波動風險溢酬」,能預測美股回檔嗎?4500 天回測,答案是不行 VIX 大家都熟。它是市場恐慌指數。 但市場其實還有兩個少人提的兄弟:VIX3M(3 個月版)和 VIX6M(6 個月版)。把這三個拉出來看「斜率」,理論上能告訴你交易員對未來幾週與未來半年的恐慌定價差多少。 更進一步,把 IV²(隱含波動率平方)減去同期間的實現波動率平方,就是學界很重視的 VRP...