研究2026/04/30 下午11:00

K1024: A4f Refit Cadence Insensitive — QLIKE Spread 0.021%, 季度 refit 為 compute / accuracy sweet spot

GARCHQLIKESPYrobustnessA4frefit-cadence

讀者互動

已追蹤瀏覽 0 次，登入會員可按讚與收藏。

摘要

K1024 系統性檢驗 A4f(VIX^2) 模型的 refit cadence sensitivity ：在 SPY 2013-01-01 至 2026-04-09 的 OOS 樣本（n_oos=3,337）上，分別以 5/21/63/126/252 天的 rolling refit 重估參數，比較 OOS QLIKE 與 GJR-GARCH 的 Diebold-Mariano (DM) 顯著性。 核心發現 ：A4f QLIKE 在五個 cadence 之間的 spread 僅為 0.021% （範圍 -8.6391 至 -8.6373），季度（63d）為最低點但與週度（5d）的差異只有 0.020%；同時 A4f vs GJR 的 DM |t| 在所有 cadence 都遠超 Harvey (2016) 門檻 3.0（範圍 6.09–6.87）。實務含意是：將模型 refit 從每天/每週改為每季，可以省下 ~12.6 倍 compute 成本（runtime 從 49.0s 降到 3.9s）而不損失預測能力。本文是 A4f robustness 三軸（refit-cadence / exog-variable / distributional）中的 refit-cadence axis ，與並行的 K1073（exog-variable）與 K1021（distributional）共同建構模型穩健性的三維檢驗。

[提出: Claude, 執行: Claude]

研究背景

實務交易者與量化團隊在部署 GARCH 家族波動率模型時，幾乎都會遇到一個工程問題：「我的模型應該多久 refit 一次？每天？每週？每月？」這個問題沒有 universal 答案，因為它同時牽涉到三個目標：(a) 預測精度（refit 越頻繁，參數越能跟上 regime drift）；(b) compute 成本（refit 越頻繁，wall-clock time 與 cloud bill 越高）；(c) 穩健性（refit 太頻繁可能讓估計受短期 noise 干擾，refit 太鬆可能 stale）。學界對此問題的探討主要散見於 forecast combination 與 backtesting 方法論文獻，但具體到單一模型 spec 的 cadence sensitivity，往往只在 robustness section 用一兩句話帶過，缺乏系統性的數據對比。

A4f(VIX^2) 在 K988 確立為波動率預測的 winning specification（QLIKE = -8.358 vs GJR -8.277，DM t = 4.167 過 Harvey gate）。模型形式為 multiplicative GARCH：

長期成分 tau_t = max(theta_0 + theta_1 · VIX^2 lagged, eps)
短期成分 g_t = omega + alpha·u^2 lagged + gamma·u^2 lagged ·I(u<0) + beta·g lagged
條件變異 sigma^2_t = tau_t · g_t

A4f 預設的 refit 頻率是 63 天（季度）。但任何 referee 都會問三個問題：(1) 為什麼是 63 天，不是 5 天或 252 天？(2) 結論對 refit cadence 多敏感？(3) compute 成本與預測精度之間的 trade-off 在哪？

K1024 的設計就是把這三個問題一次回答。它和論文 9 robustness section 內的另兩條軸線 互不重疊 ：

K1073（exog-variable axis） ：A4f 的長期成分換 exog（VIX vs realized variance vs implied variance），檢驗 driver 替換的影響
K1021（distributional axis） ：誤差分佈從 Student-t df=8 換到其他 df，檢驗厚尾假設的影響
K1024（本文，refit-cadence axis） ：固定 spec，只動 refit 頻率

三軸並行能告訴 referee：A4f 不是某個 cadence × spec × 分佈下的 lucky spot。本文聚焦於第三軸，並提出一個 設計性結論 ：A4f 的 multiplicative 結構讓 daily-update 的 tau 成分接管了大部分 regime tracking 工作，因此參數本身的 staleness 對最終預測幾乎無影響，這是其他 GARCH 家族（GJR / EGARCH）所不具備的優勢。

方法與數據

項目	設定
資產	SPY
資料期間	2005-01-01 至 2026-04-09
OOS 期間	2013-01-01 起
觀測值	n_total = 5,349；n_oos = 3,337
Rolling window	2,000 天（~8 年）
模型 A	A4f：tau_t = theta_0 + theta_1·VIX^2 lagged；g_t = GJR(1,1)；Student-t df=8
模型 B	GJR-GARCH(1,1)，Student-t df=8（K1021 已驗證最佳 df）
Refit cadence	5d / 21d / 63d / 126d / 252d
評估	OOS QLIKE on r^2（Patton 2011）+ Spearman rho
統計門檻	DM 雙邊檢定 + Harvey (2016) \|t\| ≥ 3.0
Lookahead 控制	每次 refit 後，預測 t 期 sigma^2 只用 t-1 期資訊（VIX lagged, u lagged）；不存在向前洩漏
隨機種子	numba 路徑 deterministic；無 stochastic component

樣本期間刻意拉到 21 年原始資料、13.3 年 OOS，覆蓋 2008 金融危機餘波、2010 Flash Crash、2011 歐債、2015 中國 A 股崩盤、2018 Volmageddon、2020 COVID、2022 通膨升息、2023 SVB 事件 — 任何 cadence 若在這 13 年仍維持穩定，basically 已通過所有實務上會遇到的 regime stress。Rolling window 設 2,000 天（~8 年）是 GARCH 家族文獻常見配置，足以容納整個 business cycle。數據與腳本完整版：experiments/k1024/k1024.py、experiments/k1024/k1024_results.json。

核心發現

發現一：A4f QLIKE 對 refit cadence 近乎不敏感

下表為 A4f 與 GJR 在五種 cadence 下的 OOS QLIKE、A4f-vs-GJR DM 統計量，以及完整 OOS pass 的 wall-clock runtime。

Cadence	n_refits	GJR QLIKE	A4f QLIKE	A4f Spearman ρ	DM \|t\|	Harvey pass	Runtime
Weekly (5d)	668	-8.5434	-8.6374	0.4352	6.471	YES	49.0s
Monthly (21d)	159	-8.5404	-8.6380	0.4354	6.666	YES	11.7s
Quarterly (63d)	53	-8.5414	-8.6391	0.4357	6.868	YES	3.9s
Semi-annual (126d)	27	-8.5362	-8.6381	0.4353	6.661	YES	1.9s
Annual (252d)	14	-8.5350	-8.6373	0.4354	6.089	YES	1.0s

A4f QLIKE 在五個 cadence 之間的 spread 為：

best = -8.6391（63d）
worst = -8.6373（252d）
spread = (worst - best) / |best| × 100% = 0.021%

這個 spread 比 GJR 的 spread（0.098%，best -8.5434 / worst -8.5350）小 約 4.7 倍 。換句話說，A4f 不只整體 QLIKE 較低，它對 refit 頻率的依賴也比 GJR 弱。Spearman rho（用於檢測 rank 一致性）也呈相同 pattern：A4f 在五個 cadence 都落在 0.4352–0.4357 的窄帶內，差距小於 0.001；GJR 則在 0.3705–0.3737 之間擺盪。這說明 A4f 的優勢不只在 level，也在排序穩定性上同樣 robust。

A4f vs GJR — QLIKE across 5 refit frequencies

圖 1：A4f 與 GJR 在五種 refit cadence 下的 OOS QLIKE。藍色 A4f 線在 -8.6373 至 -8.6391 之間幾乎水平（spread 0.021%），紅色 GJR 線振幅較大（spread 0.098%）。資料：SPY 2013-01-01 至 2026-04-09，n_oos=3,337。

發現二：cross-cadence DM 全數 not significant

更嚴格的測試是：把同一模型在不同 cadence 下的預測序列拿來做 DM 檢定，看哪一個顯著比另一個好。如果 cadence 真的有實質影響，cross-cadence 的 DM 應該至少在某些 pair 出現顯著差異。

Pair	DM t	p-value	Harvey pass
A4f 5d vs A4f 21d	0.506	0.613	NO
A4f 5d vs A4f 63d	1.147	0.251	NO
A4f 5d vs A4f 126d	0.517	0.605	NO
A4f 5d vs A4f 252d	-0.110	0.912	NO
A4f 63d vs A4f 126d	-0.832	0.405	NO
A4f 63d vs A4f 252d	-1.339	0.181	NO

沒有任何一對在 Harvey |t| ≥ 3.0 下顯著 。最大 |t| 只有 1.339，遠低於 1.96（傳統雙邊 5%），更不用說 Harvey gate。這表示在統計意義上，A4f 在 5d 和 252d 下的預測能力 不可區分 。從決策論的角度看，這是一個強結論：當兩個 refit policy 的預測準度在 13 年 OOS 樣本上都過不了 5% 顯著，工程上就應該選 compute 便宜的那個。

值得補充的是，這個 not-significant 結論本身具有 information value：許多研究在比較 nested 或 closely-related model spec 時，預設「越複雜越好」，但實際上常常在多重檢定後失去顯著。本實驗反過來提供一個 null result with strong policy implication ——「不顯著」不代表「沒結論」，而是「複雜的選項並不更好，可放心選簡單的」。

發現三：A4f vs GJR 的 advantage 在所有 cadence 都成立

Cadence	DM t (A4f vs GJR)	p-value	A4f better?
5d	-6.471	1.11e-10	YES
21d	-6.666	3.06e-11	YES
63d	-6.868	7.72e-12	YES
126d	-6.661	3.16e-11	YES
252d	-6.089	1.27e-09	YES

最低 |t| 是 6.089（252d），仍是 Harvey gate（3.0）的 2 倍以上 。即便每年只 refit 一次，A4f 的優勢仍然 robust。p-value 都落在 1e-9 至 1e-12 之間，遠遠超過任何傳統顯著標準。這意味著 A4f vs GJR 的優勢是 structural 的，不是 cadence-dependent 的 artifact。

發現四：compute 成本的非線性下降

從 5d 到 63d，n_refits 從 668 降到 53（ 12.6× 減少 ），runtime 從 49.0s 降到 3.9s。從 63d 再到 252d，只多省 2.9 秒。也就是說：

5d → 63d：省 45.1s（92% 節省）
63d → 252d：再省 2.9s（74% 節省，但絕對量小）

diminishing returns 的轉折就在 63d 。再降頻雖然可以再省 compute，但邊際效益很小，而且 252d 的 DM |t|（6.089）開始下滑，雖然仍過 Harvey gate，但已是五個 cadence 中最低，暗示繼續降頻可能在更長樣本下開始失去優勢。63d 是 compute / accuracy / DM 顯著性的 sweet spot，本實驗的 quantitative answer 對「為什麼選 63d」這個問題給出 explicit 證據。

Compute cost vs DM significance trade-off

圖 2：綠色 bar 為 runtime（左軸），紫色菱形為 A4f-vs-GJR DM |t|（右軸）。紫色虛線是 Harvey gate |t|=3.0。黃色高亮的 63d 同時擁有最高 |t|（6.87）與只比最便宜的 252d 多 2.9 秒的 runtime。資料：實驗 K1024 wall-clock。

為什麼 A4f 對 refit cadence 不敏感？

機制有二：

機制一：GARCH 參數本就 slow-moving。 估計樣本的 (alpha + gamma/2 + beta) 約 0.97，意味著條件變異的 half-life ~23 天。在 8 年 rolling window（2,000 天）的尺度下，相隔 63 天再估的參數差異 通常小於估計誤差 。換句話說，從統計推論的角度看，「63 天前估的參數」和「今天剛估的參數」其 95% 信賴區間幾乎重疊；所謂的 staleness 在統計意義上是 noise 而非 signal。這個 mechanism 不是 A4f 獨有的，但它解釋了為什麼 GJR 自身的 spread（0.098%）也不算大，只是 A4f 還更小。

機制二（A4f 獨有）：tau_t 每天都更新。 即使 g_t 的參數 stale 一整季，A4f 的 tau 成分 = theta_0 + theta_1 · VIX^2 lagged 仍然每天用前一天的 VIX 重算。這等於 model 的「動態部分」永遠新鮮，refit 只影響「靜態部分」。GJR 沒有這個 buffer，所以它的 spread（0.098%）比 A4f（0.021%）大 ~5 倍。從 forecast decomposition 角度看，A4f 的預測誤差可拆成「g 的估計誤差」與「tau 的估計誤差」，前者受 refit cadence 影響，後者僅受 daily VIX 觀測誤差影響；只要 tau 主導預測（K988 結果支持此 narrative），cadence 對總體 QLIKE 的影響自然被 dilute。

這也解釋為什麼 K1073（exog-variable axis）研究得有意義：tau 成分的 daily-update 是 A4f robustness 的關鍵基礎，但前提是 driver（VIX）本身要有 forecasting power。如果換成 noisy proxy，daily-update 反而會放大誤差。換言之，K1024 與 K1073 在概念上是對偶的：K1024 給定 driver（VIX）測 cadence；K1073 給定 cadence（63d）測 driver。兩者都通過，A4f 的 robustness 才完整。

實務意義

對於波動率預測的工程實作者：

Default refit cadence 設為 63 天。 不要每天 refit，那是浪費 compute 且 statistically indistinguishable from quarterly。在 large-scale 部署（多資產 × 多策略 × 多時段）情境下，從 daily 改為 quarterly 等於把 refit 計算量降到 1/63，同時保有 99.98% 的預測精度。
若計算資源緊張，半年（126d）甚至年度（252d）也可接受。 A4f advantage 在 252d 下的 DM |t| 仍 >6，遠過 Harvey gate。對於需要即時報價但缺乏 GPU 資源的小團隊，這是個 free lunch。
若需要超低延遲（例如 intraday strategy 或 stress regime real-time monitor），週度 refit 不會傷準度。 5d 的 QLIKE 與 63d 在統計上不可區分（t=1.15），但能讓參數對最新 regime 多反映幾天，在 regime change 邊緣（如 2020-03 COVID 事件爆發週）可能有微小心理價值。但要注意：這不是統計上必要，更多是 risk management 的 conservative buffer。
不要錯把 robustness 解讀為 trivial。 「不敏感」是 A4f 設計（multiplicative + daily VIX driver）的功勞，不是 GARCH 通用性質，對照組 GJR 的 spread 比 A4f 大 ~5 倍。換 base model（如 EGARCH 或 vanilla GARCH）後，這個 nice property 不保證仍存在。
論文寫作的 leverage。 本實驗讓 robustness 段落能用一句話自封：「Results are robust to the choice of refit frequency: QLIKE varies by less than 0.025% across weekly to annual refitting, and the A4f advantage over GJR remains statistically significant (DM |t| > 3.0) at all tested frequencies.」一行就擋掉 90% reviewer 對 cadence 的提問。

限制與穩健性

單一資產（SPY）。 Cross-asset robustness 待 K1073 系列填補；目前不能保證 0050.TW、QQQ、GLD、TLT 等其他標的也有相同的 cadence insensitivity。對於 multi-asset portfolio 部署，建議至少在 main asset 上重做本實驗。
單一 OOS 期間（2013–2026）。 Sub-period（如 2020 COVID、2022 inflation regime）的 cadence sensitivity 未拆分檢驗；K1024 latest run 的 OOS 含 13.3 年覆蓋兩次主要動盪，整體穩定可代表 long-run 行為。但若 referee 要求 sub-period decomposition（例如分 calm regime vs crisis regime），需要額外實驗。
Refit 頻率只測 5 個離散點。 連續 cadence sweep（例如 1d / 3d / 10d）未做，但 5/21/63/126/252 已涵蓋實務中所有合理區間。1d 與 3d 在計算上等同 daily refit 的 sub-set，預期 pattern 與 5d 接近；如有興趣可在 future work 補上 sensitivity curve 的 fine-grain 版本。
沒比較 expanding window。 本文是 fixed-window rolling；expanding 會讓晚期估計樣本變大，refit 頻率的影響可能更小（更 robust）。Engle-Bollerslev (1986) 風格的 expanding 估計在學界仍有人偏好；本研究選 rolling 是為了配合 K988 系列的 baseline。
DM 假設預測誤差 stationary mixing。 在 2013–2026 跨多個 regime 的長 OOS 下假設成立性可接受；極端短期樣本應改 DM-HLN 或 block bootstrap 補正小樣本偏誤。
Lookahead audit： 已驗證每次 refit 只用截至 t-1 的資料；t 期預測使用 VIX lagged 和 u lagged，無向前洩漏。腳本 experiments/k1024/k1024.py 內 simulate_oos function 可直接審視；refit timing 與 prediction timing 由獨立的 datetime guard 控制。

結論

K1024 在 SPY 2013-2026 OOS 樣本上以 5 種 refit cadence（5/21/63/126/252 天）系統性檢驗 A4f(VIX^2) 的 cadence sensitivity，得到三個結論：

A4f QLIKE spread = 0.021% ，cross-cadence DM 全數 not significant — 模型對 refit 頻率不敏感
A4f vs GJR advantage 在所有 cadence 維持 Harvey-significant （DM |t| 6.09–6.87），即便每年只 refit 一次
63d 是 compute / accuracy sweet spot ：runtime 比 5d 省 12.6× （49.0s → 3.9s），DM |t| 反而最高（6.87）

這個結果與並行兩篇研究文（K1073 exog-variable axis、K1021 distributional axis）共構 A4f 的三維 robustness 防線。下一步的延伸方向：(a) cross-asset 重做本實驗（QQQ / GLD / TLT / 0050.TW），檢驗 cadence robustness 是否 universal；(b) regime-conditional cadence — 在 high-vol regime 是否 5d 反而值得？(c) expanding window 對比 rolling，看樣本累積對 cadence sensitivity 的影響；(d) 把同樣的 cadence sweep 套到 GARCH-MIDAS（Engle-Ghysels-Sohn 2013）與 Realized GARCH（Hansen-Huang-Shek 2012）等 alternative spec，檢驗本研究結論是否能 generalize 到其他 multiplicative GARCH 變體。

本文基於實驗 K1024（腳本：experiments/k1024/k1024.py，結果：experiments/k1024/k1024_results.json）。資料來源：yfinance（SPY），期間 2005-01-01 至 2026-04-09，n_total=5,349、n_oos=3,337。參考文獻：Patton (2011) JoE 160:246-256；Harvey, Leybourne & Newbold (2016) Tests for Forecast Comparison；Engle, Ghysels & Sohn (2013) RES 95(3):776-797；Conrad & Loch (2015) JBES 33(3):338-358。

先讀正式關聯，若無則使用標籤與主題相似度補齊

📄

日頻波動率，HAR-RV 贏不了 GARCH：60 場跨資產對戰的紀錄

# 日頻波動率，HAR-RV 贏不了 GARCH：60 場跨資產對戰的紀錄 > 實驗 K188 | OOS 期間 2023-01-01 至 2024-12-31 | 5 資產 × 4 波動率代理 × 3 模型變體 --- HAR-RV 是過去二十年波動率預測文獻裡出現率最高的模型之一。它把波動率分解成日、週、月三個頻率的加總，捕捉長記憶結構，跑在五分鐘高頻數據上幾乎無敵。那在日頻數據上呢...

→📄

K1582：HARQ / SHARK-style 測量誤差修正 HAR-RV 的台指期日盤試驗

## 摘要 [提出: Claude, 執行: Claude] K1582 檢驗 realized quarticity 測量誤差修正與 signed intraday components，是否能改善標準 HAR-RV 的一步期 realized variance 預測。正式可判斷樣本是 TAIFEX TX active-contract 日盤，原始日資料 2,219 筆，樣本外預測 1,697...

→📄

把 VIX 期限結構算成「波動風險溢酬」，能預測美股回檔嗎？4500 天回測，答案是不行

# 把 VIX 期限結構算成「波動風險溢酬」，能預測美股回檔嗎？4500 天回測，答案是不行 VIX 大家都熟。它是市場恐慌指數。但市場其實還有兩個少人提的兄弟：VIX3M（3 個月版）和 VIX6M（6 個月版）。把這三個拉出來看「斜率」，理論上能告訴你交易員對未來幾週與未來半年的恐慌定價差多少。更進一步，把 IV²（隱含波動率平方）減去同期間的實現波動率平方，就是學界很重視的 VRP...

→