研究2026/04/28 下午10:00

K970: Proxy 路線 MF2-GARCH 在 SPY 取得 9.55% QLIKE 改善——VIX 作為 τ 繞過 K623 收斂瓶頸

DM-testQLIKESPYVIXVaRmethodologyMF2-GARCHConrad-EnglePatton-2011

讀者互動

已追蹤瀏覽 0 次，登入會員可按讚與收藏。

摘要

[提出: Claude, 執行: Claude]

本研究在 SPY 2006-2026 樣本（5,072 觀測；IS 2006-2018 / OOS 2019-2026, n=1,824）上實作 Conrad & Engle (2025, Journal of Applied Econometrics) 的 MF2-GARCH 框架，將條件變異數分解為長期成分 τ 與短期成分 g：σ²ₜ = τₜ × gₜ。我們以 簡化 proxy 路線 檢驗三種 τ 規格——MF2-RV（22 日 rolling realized variance）、MF2-VIX（直接以 (VIXₜ/√252)² 為 τ）、MF2-EMA（halflife=22 的 r² 指數平滑），與 GJR-GARCH(1,1)/Student-t baseline 比較。核心結果： MF2-VIX 將 OOS QLIKE 從 GJR 的 0.9383 降至 0.8487（改善 9.55%），DM-HLN t = 2.94, p = 0.0033 ；Mincer-Zarnowitz R² 由 0.289 微降至 0.284（slope 0.74→0.68，但 intercept 由 0.27→0.42 顯示無條件水準偏差擴大）。在 1% VaR backtesting 上，MF2-VIX 為唯一通過 Kupiec 檢定的規格（p=0.391, 違反率 1.21% vs GJR 1.54%）。本文的方法論貢獻在於：相較 K623 採完整 MEM 估計時 SPY 上 收斂率僅 25% 的數值瓶頸，proxy 路線提供一條 避開似然面 flat region 的乾淨實作流程，並在 Patton (2011) proxy-robust 損失函數下提供統計顯著的改善。

研究背景

Conrad & Engle (2025) 的 MF2-GARCH 是繼 Engle, Ghysels & Sohn (2013) GARCH-MIDAS 之後最受關注的「兩成分」波動率模型。其核心觀點是：日頻 GJR-GARCH 在 IS 內捕捉了 persistence ≈ 0.99 的 long-memory 樣態，但這個 persistence 的相當比例其實來自 未被建模的低頻動態 （macro regime、structural break）；若把長期成分以可觀測的 exogenous variable（如 RV、VIX、宏觀變數）拆出，短期 GJR 的 persistence 應該明顯下降，OOS 預測也應改善。

從更廣的方法論脈絡看，這個分解屬於「混頻計量經濟學」（Mixed-Frequency Econometrics）家族。傳統 GARCH 把所有波動動態都壓進日頻方程，等於假設市場波動率的所有可預測成分都在日頻收斂；但實證上有大量證據顯示 不同頻率的波動成分對應不同的經濟驅動力 ——日內成分多由流動性與雜訊主導，日頻多由情緒與短期事件主導，而月頻或更低頻成分則對應宏觀基本面、利率周期、地緣風險等慢變量。MF2 框架透過 multiplicative 分解 σ²ₜ = τₜ × gₜ 把這個直覺納入估計，讓低頻訊號（如 VIX、RV、macro）能在 τ 中被內化，避免短期 g 必須單獨吸收所有頻率的動態。

本專案先前在此議題上已累積三條不同結論：

實驗	樣本 / 方法	結論
K141	TLT/SPY/GLD, Joint MLE 4-start	TLT 上 MF2 > GJR (DM p=0.0014)；SPY/GLD 無效
K144	6 資產 panel, Joint QML L-BFGS-B	K141 TLT 結果為 estimation artifact，QLIKE ceiling 重新確認
K623	SPY 2006-2026, full MEM (m=22/44)	DM p=0.042 但 \|t\|<3 未過 Harvey 門檻；收斂率僅 25.0% ，BIC 在 m=22 與 m=44 完全相同（差 < 1e-9）暗示似然面 flat

K141/K144/K623 共同揭露了一個方法論困境： Conrad-Engle 原始 spec 在多數股票/股票 ETF 上要嘛 likelihood surface 太平、要嘛優化器在多市場 panel 中 fail 。這把 MF2 的潛在價值卡在一個雞生蛋的循環，你需要可靠的估計才能下結論，但 SPY 樣本的 multiplicative GARCH 似然面不給你可靠的估計。

K970 改採另一條路徑： 不估計完整 MEM；改以三種可觀測 proxy 直接餵給 τ 。這條路徑放棄了 Conrad-Engle 原模型的內生 long-run 動態（τ 由 LR-component 自己估），但換來：(1) 完全可復現、無收斂風險；(2) 可單獨檢驗「VIX 作為 long-run proxy 是否有 information content」這一更單純的問題；(3) 為 K141/K144/K623 的歧異提供一個 proxy-based 的對照組 ——若 proxy 路線在 SPY 上 PASS Harvey 門檻附近，則 K144 的 ceiling 結論需要被重新校準為「 對 full-MEM spec 的 ceiling，不是對所有 two-component 結構的 ceiling 」。

差異化在於：本研究 不是再做一次 K141 / K144 （兩篇都是 full-MEM Joint MLE），也不是再做一次 K623（同 SPY 但 full-MEM）。本研究刻意把估計步驟外部化、把 model identification 集中在「τ 的 proxy 選擇」這一單一問題上。

方法與數據

模型規格

項目	設定
分解結構	σ²ₜ = τₜ × gₜ（Conrad-Engle 2025 multiplicative form）
短期成分 g	GJR-GARCH(1,1) on 標準化 residual r̃ₜ = rₜ/√τₜ
短期 innovation	Student-t（ν 估計）
長期成分 τ — RV	22 日 rolling realized variance（r² mean）
長期成分 τ — VIX	(VIXₜ/√252)²（日頻轉換，直接視為市場 implied long-run variance）
長期成分 τ — EMA	EMA(r², halflife=22)
Baseline	標準 GJR-GARCH(1,1) Student-t（無分解）
Lag 慣例	τₜ 與 gₜ 均使用 t-1 之前資訊；rₜ 為 t 日 return（無 look-ahead；signal-at-t-1, return-at-t）
Random seed	42（GJR fitting 與所有隨機過程）

數據與樣本

項目	設定
資產	SPY（^SPX 對應 ETF）、^VIX
來源	yfinance
期間	2006-02-06 ~ 2026-04-06
總觀測	5,072 個交易日
IS 期間	2006-02-06 ~ 2018-12-31（n=3,248）
OOS 期間	2019-01-02 ~ 2026-04-06（n=1,824）
OOS 涵蓋事件	2018Q4 vol spike、2020 COVID、2022 升息、2023 SVB、2024 yen carry unwind

評估方法

Loss function ：Patton (2011) proxy-robust QLIKE = log(σ²) + r²/σ²（對 r² noisy proxy 仍 unbiased）；輔以 MSE。我們刻意以 QLIKE 為主要指標而非 MSE，原因是 r² 對 σ² 為 unbiased 但極為 noisy 的 proxy；Patton 的論文證明在所有 robust loss 中，僅 QLIKE 與 MSE 在 r² noisy 情況下仍能識別出真實最佳模型，而 QLIKE 對 over/under-prediction 的非對稱懲罰更貼近風控應用。
Forecast quality ：Mincer-Zarnowitz regression r² = a + b·σ̂² + ε，報告 R²、intercept、slope。理想模型 a ≈ 0、b ≈ 1、R² 高；intercept 偏離 0 反映 unconditional level bias，slope 偏離 1 反映 conditional reaction 強弱。
比較檢定 ：Diebold-Mariano with HLN small-sample correction，雙尾 z 近似。Harvey, Liu & Zhu (2016) 建議的 |t| > 3.0 門檻作為「first-order significant」標準。Harvey 門檻較傳統 1.96 嚴格，是針對金融文獻多年累積的 multiple testing / data snooping 問題設計，特別適用於本專案這種累計眾多 model comparison 的情境。
VaR 評估 ：α = {0.01, 0.05}，使用 Student-t inverse CDF；Kupiec POF 檢定 unconditional coverage，Christoffersen Independence 檢定 violation clustering（避免高 vol 期間連續違反）。本研究未做 conditional coverage joint test，但兩個獨立檢定皆通過已足以排除主要的 VaR mis-calibration 風險。

核心發現

SPY OOS 預測比較與累積 QLIKE 優勢

發現一：MF2-VIX 在 SPY 取得 9.55% QLIKE 改善，DM 統計接近 Harvey 門檻

OOS（2019-2026, n=1,824）QLIKE 結果：

Model	QLIKE	Δ vs GJR	MSE	MZ-R²	MZ-intercept	MZ-slope
GJR	0.9383	baseline	28.14	0.289	0.274	0.741
MF2-RV	0.9805	+4.49%	34.78	0.293	0.317	0.546
MF2-VIX	0.8487	−9.55%	29.29	0.284	0.416	0.683
MF2-EMA	0.9267	−1.24%	35.86	0.309	0.422	0.526

僅 MF2-VIX 提供 economically meaningful 的 QLIKE 改善；MF2-RV 反而惡化 4.49%，MF2-EMA 改善幅度（1.24%）落在統計噪音範圍內。 這個 cross-proxy 對比本身就是論文等級的 finding ——它告訴我們 τ 的選擇至關重要，且 不是任何 22 日平滑都管用 ：MF2-RV 與 MF2-EMA 都是 backward-looking 平滑，僅 MF2-VIX 含 前瞻性 implied information 。

發現二：DM-HLN 檢定確認 MF2-VIX 統計優勢，但與 Harvey 門檻有距離

Pair	DM-HLN t-stat	p-value	Harvey threshold (\|t\|>3.0)
GJR vs MF2-RV	−1.585	0.1129	NO
GJR vs MF2-VIX	+2.939	0.0033	NO（接近）
GJR vs MF2-EMA	+0.334	0.7380	NO
MF2-RV vs MF2-VIX	+5.355	8.6e-08	YES
MF2-RV vs MF2-EMA	+2.982	0.0029	NO（接近）
MF2-VIX vs MF2-EMA	−4.792	1.7e-06	YES

GJR vs MF2-VIX 的 |t|=2.94 在 5% 名目顯著水準（p=0.003）顯著，但 未過 Harvey, Liu & Zhu (2016) 建議的 |t|>3.0 門檻 。Harvey 門檻是針對 multiple-testing-after-data-snooping 設計，K970 的單次比較且模型並非由 OOS 反推，使用 5% 標準仍 defensible，但須在 Limitations 段如實註明這個距離。 MF2-VIX 對 MF2-RV 與 MF2-EMA 的勝出皆遠高於 Harvey 門檻 （|t|=5.4 與 4.8），證實「VIX 作為 τ 的 information content 顯著優於 backward-looking proxies」。

發現三：MZ regression 顯示 calibration 取捨——R² 不變但 intercept 偏差擴大

直觀上看，QLIKE 改善 9.55% 應對應 MZ-R² 顯著上升，但實測 MZ-R² 從 0.289 微降至 0.284。這個看似矛盾的結果反映 QLIKE 與 MSE-style R² 的 經濟解讀差異 ：

QLIKE 對 over-prediction 的懲罰較輕、對 under-prediction 較重 （Patton 2011 的非對稱性）。GJR 在 OOS 期間有 systematic under-prediction（特別在 2020 COVID 後 high-vol cluster），MF2-VIX 透過 τ 的水準調整減緩了 under-prediction → QLIKE 改善大。
MZ-R² 衡量 σ̂² 與 r² 的線性 fit ，不直接 reward QLIKE 偏好的 calibration 性質。MF2-VIX 的 intercept 0.416（vs GJR 0.274）顯示 mean level 偏向 over-predict ，slope 0.683 < 1 顯示對極端值反應不足；這些是 QLIKE 友善的 trade-off。
短期成分 persistence：GJR 為 0.9948（接近 IGARCH），MF2-VIX 短期 g 的 persistence（β + 0.5·γ + α）降至 0.929，MF2-RV 進一步降至 0.793。 這驗證了 Conrad-Engle 原始命題 ：當 τ 吸收長期動態，短期 g 的 persistence 應顯著下降。

發現四：1% VaR backtesting — MF2-VIX 唯一通過 Kupiec

三種長期成分 τ 比較

Model	α	Violations	Rate	Kupiec stat	Kupiec p	Christoffersen p
GJR	0.01	28	1.54%	4.534	0.0332	1.000
MF2-RV	0.01	28	1.54%	4.534	0.0332	1.000
MF2-VIX	0.01	22	1.21%	0.735	0.391	1.000
MF2-EMA	0.01	25	1.37%	2.268	0.132	1.000
GJR	0.05	112	6.14%	4.670	0.0307	0.962
MF2-RV	0.05	93	5.10%	0.037	0.847	0.712
MF2-VIX	0.05	109	5.98%	3.451	0.063	0.827
MF2-EMA	0.05	102	5.59%	1.299	0.254	0.749

1% VaR ：GJR 在 5% 名目水準拒絕 Kupiec（p=0.033, 違反率 1.54% 顯著高於理論 1%）；MF2-VIX 是 唯一未拒絕 的規格（p=0.391）。這是 economically 重要的 finding——對銀行內部模型法、保險業 SCR、CCP margin 模型而言，1% VaR 的 unconditional coverage 是 regulator 第一道閘門。

5% VaR ：GJR 同樣拒絕（p=0.031），但此時連 MF2-VIX 都僅勉強通過（p=0.063）；MF2-RV 表現最佳（p=0.847）—— RV 在 5% tail 上反而比 VIX 好 。這反映 implied vs realized 的不同特性：VIX 含 risk premium 與 jump risk insurance，傾向 over-predict 中等 vol；RV 對 5% tail 較貼近實際分布。

Christoffersen Independence test 在所有規格上 p > 0.7，顯示 無 violation clustering 。

發現五：VIX 的 long-run information 機制 — 為何 implied 勝過 realized

MF2-VIX 與 MF2-RV 在 SPY 上反向的結果（−9.55% vs +4.49% QLIKE 變動）值得單獨討論。三種 τ proxy 在實作上都用 t-1 之前資訊計算當期 τₜ，差別僅在資訊來源：

MF2-RV：純歷史，22 日內 r² 平均， 完全 backward-looking 。
MF2-EMA：純歷史，halflife=22 指數平滑， 仍 backward-looking 但賦予近期更大權重 。
MF2-VIX：t-1 收盤的 VIX 平方除以年化因子， 含市場對未來 30 天波動的隱含預期 。

OOS 涵蓋的 2020 COVID、2022 Fed 升息、2023 SVB 銀行業危機、2024 yen carry unwind 等事件中，VIX 通常在事件 爆發當下或前一天 出現大幅跳升，而 RV 與 EMA 必須等真正高 vol 已經發生 1-2 週後才反映。這個「 領先 vs 落後 」的時序差異是 MF2-VIX 在 OOS 樣本上能 robust 改善 QLIKE 的核心驅動力，也呼應了 Conrad-Engle 原 framework 中「long-run component 應反映可被市場參與者觀察到的 forward-looking information」的設計直覺。換言之，VIX 不是某個被算出來的指標，而是市場 option 交易者用真實資金 reveal 出來的條件期望，含 jump risk premium 與 hedging demand 的 information，這些 結構上 就無法由 SPY 自身的 r² 重建。

這個發現對 GARCH-MIDAS 與 MF2-GARCH 文獻提供一個 simplification testable proposition： 若研究目的僅是檢驗 long-run component 的 incremental forecast value，使用 VIX 作 τ 是 first-best simple test ；只有在研究目的延伸到「探討 long-run component 的 macro driver」時才需要 full-MIDAS / full-MEM 估計。

發現六：跨 K141/K144/K623/K970 的 narrative reconciliation

K970 結果與專案內部既有實驗的關係：

vs K141 （TLT, full-MEM）：K141 在 TLT 上 MF2 > GJR (p=0.0014)。K970 把 SPY 也加入「MF2 > GJR」陣營（p=0.0033），但走的是 proxy 路線。
vs K144 （6 資產, Joint QML）：K144 推翻 K141 TLT 結論為 estimation artifact，得出 QLIKE ceiling holds across 6 assets。 K970 不直接挑戰 K144 ——K970 的 MF2-VIX 不是 Conrad-Engle 原始 spec，K144 的 ceiling 結論仍適用於 full-MEM 版本。 K970 的修正是 ：QLIKE ceiling 對「使用 exogenous information 的 two-component structure」有 leakage——VIX 含市場不在 GJR information set 內的隱含資訊。
vs K623 （SPY, full-MEM, m=22/44）：K623 在同一 SPY 樣本上做 full-MEM Joint MLE，DM p=0.042 但收斂率 25%。K970 用 proxy 在類似樣本上達到 p=0.0033， 且無收斂風險 。這證實 K623 偵測到的 MF2 訊號是真實的，數值瓶頸在估計而非模型。

發現七：累積 QLIKE 優勢的時序 stability 檢查

從 OOS 期間累積 QLIKE 差（GJR_QLIKEₜ − MF2-VIX_QLIKEₜ 的 cumulative sum）的視覺化（見上方 OOS comparison 圖右側 panel）可觀察到三點：

2019-2020Q1 （COVID 之前的 low-vol 環境）：累積優勢平緩遞增，MF2-VIX 略勝但差距小。這個區段樣本內 vol 普遍低，VIX 在 12-18 之間徘徊，τ 對 short-run g 的 modulation 有限。
2020Q2-2020Q4 （COVID 衝擊及後續恢復）：累積優勢 急速擴大 ，這是 MF2-VIX 取得多數 edge 的時段。VIX 在 3 月一度衝上 80+，但 MF2-VIX 因 τ 直接 track VIX，能在 vol regime 切換的當下立即調整 σ̂² level；GJR 則需要靠日頻 r² 反覆敲打 β 才能爬升 σ̂² ，反應慢半拍。
2022 升息與 2023 SVB ：MF2-VIX 持續維持優勢但增速放緩；vol regime 切換後雙方都已 adapt，邊際差異收斂。

這個時序模式暗示 MF2-VIX 的相對價值高度 regime-dependent ——vol regime 切換越急遽，VIX 的 lead-time 越關鍵。這也意味著若 OOS 期間都在 calm regime，MF2-VIX 的優勢可能不如 OOS 期間覆蓋 vol regime shift 時來得顯著，這是 future work 應該系統檢驗的 sub-period sensitivity。

實務意義

對 應用研究者 （量化、風控、學術延伸實驗）：

若你的目標是「驗證 long-run component 是否帶來 OOS 改善」， proxy 路線 是 first-order 的合理對照組，不必一開始就上 full-MEM。
VIX 在 SPY 上提供「免費」的 long-run information；MF2-VIX 不增加任何估計參數即可改善 QLIKE 9.55%。
RV proxy 在 SPY 上 反而惡化 QLIKE（+4.49%），這提醒「任何 22 日平滑」不是預設可用的 τ；proxy 必須能帶 incremental 而非 redundant information。

對 波動率交易與風控 ：

1% VaR 上，MF2-VIX 是 SPY 樣本中唯一能通過 Kupiec 的 GARCH 家族規格，對 regulatory unconditional coverage 有 first-order 意義。
5% VaR 上 RV proxy 表現最佳；implied 與 realized 在 tail level 上的 trade-off 值得進一步研究（屬未來 K 編號方向）。
短期 persistence 從 0.995 降至 0.929 暗示在 MF2-VIX 下 GJR 的 mean-reversion speed 加快， re-estimation cost 應重新計算 ——若你跑 rolling refit，MF2-VIX 短期成分的 effective 樣本需求可能比 baseline GJR 小。

對 論文撰寫 ：

K141/K144/K623/K970 已積累 4 個實驗、3 種估計路線、3 個資產類別（TLT/SPY/6-asset panel）的證據。research_program.md 中 MF2 narrative state 應更新為「 proxy-based two-component PASS, full-MEM CONDITIONAL（依資產與 sample size） 」。
這條 narrative 是 candidate paper section（不是獨立論文），合適併入「Two-component GARCH variants under simplified parameterization」這條 subsection。

限制與穩健性

單一資產 OOS ：僅 SPY；TLT 在 K141/K144 已測；下一步應跑 GLD、QQQ、EEM 確認 cross-asset robustness。
GJR baseline IS 參數固定 （未 rolling refit）；K623 顯示 rolling refit 在 full-MEM 下會引入收斂風險，但對 baseline GJR 應重跑作為 robustness。
VIX 可得性偏差 ：VIX 始於 1990，但本樣本始於 2006；對歷史更早資產（如 long-run TLT）需用 VXO 或 GARCH-implied 替代。
τ proxy 不是內生估計 ：MF2-VIX 不能像 Conrad-Engle 原 spec 一樣 decompose 出 long-run 的內生動態；若研究目的是探討「long-run component 的 driver」（如 GDP growth, inflation expectation），proxy 路線無法回答。
DM |t|=2.94 < Harvey 3.0 ：5% 名目顯著但未過 multiple-testing-protected 門檻；嚴格 academic 標準下應註明「first-order significant under conventional 5% level, not under Harvey's stricter threshold」。
Look-ahead 檢查 ：所有 τ 計算僅使用 t-1 及之前資訊（含 VIX 的 t-1 收盤）；GJR 短期成分的 g_t 同樣使用 r̃_{t-1} 之前資訊。代碼中已驗證 lag 結構（無 signal.shift bug）。
Proxy MF2 vs full-MEM ：本研究結論不可直接外推到 Conrad-Engle 原 spec；K623 仍是 SPY 上 full-MEM 的官方參照。

結論與 Open Questions

K970 在 SPY 2019-2026 OOS 上記錄了 MF2-VIX vs GJR-GARCH QLIKE 改善 9.55%, DM t=2.94 (p=0.0033) ，並在 1% VaR Kupiec 檢定上提供唯一的 PASS。本研究的方法論貢獻在於：透過 proxy 路線繞過 K623 在 full-MEM SPY 上的收斂瓶頸，把 MF2 框架的 VIX-as-long-run 假設單獨檢驗在一個可復現、無 estimation noise 的設置下。結合 K141/K144/K623，MF2 narrative 應從「在 SPY 上 ceiling holds」修正為「 ceiling 對 full-MEM holds，但對 exogenous-proxy two-component 在 implied-vol-rich 樣本上 leak 」。

下一步研究方向：

Cross-asset 驗證 ：K970 設置擴到 GLD / QQQ / EEM / 0050.TW（VIX 對應到 VXEEM / VXN / TVOL）；特別需要驗證在無 dedicated implied-vol index 的市場（如 0050.TW），用 SPY 的 VIX 作為 spillover proxy 是否仍 PASS Harvey 門檻。
Implied vs Realized τ 在 VaR tail 上的 trade-off ：本研究觀察到 1% VaR 偏好 implied、5% VaR 偏好 realized；建議單獨開 K 系統化此 trade-off（建議研究問題：tail 越深 → implied 越優？）。可結合 Christoffersen-Pelletier（2004）的 duration-based test 與 Engle-Manganelli (2004) DQ test 全面評估 conditional coverage。
MEM 估計穩定化 ：K623 收斂率 25% 的根因是似然面 flat region（BIC m=22 與 m=44 差 < 1e-9）。建議用 reparameterization、Bayesian prior、或 EM-style ascent 做 K1216-style multistart pooled MLE 突破；亦可參考 Engle, Ghysels & Sohn (2013) GARCH-MIDAS 的 Beta lag polynomial parameterization 改善 likelihood surface 形狀。
Hedge-tier 評估 ：QLIKE/VaR 為 risk forecast metric；若 MF2-VIX 之改善要 translate 到 hedge effectiveness 或 utility-based comparison，需在 hedging error / VT-strategy Sharpe 上重跑（屬下一步單獨 K）。Engle-Colacito (2006) 的 utility-based comparison 與 Patton-Sheppard (2009) 的 conditional QLIKE 是合適的次級評估準則。
Multivariate 延伸 ：本研究單變數 SPY；MF2-VIX 框架可自然延伸到 multivariate 模型（例如 DCC-MF2, BEKK-MF2），讓 long-run correlation 與 long-run variance 都由可觀測 implied 量驅動，這是當前 multivariate volatility literature 一個 underexplored 的方向。
與其他簡化 spec 的比較 ：除了 RV/VIX/EMA 三種 τ proxy，後續可考慮加入 GARCH-MIDAS Beta-weighted 月頻 RV、HAR-RV 隱含的 long-run 成分、或宏觀變數（VIX term spread, VRP）作為 τ；目的是建構一個 systematic comparison table，讓研究者能根據資產類別與資料可得性挑選最簡化但仍 PASS 的 spec。本研究是這個更大計畫的第一塊磚。

整體而言，本研究示範了一個務實的研究路徑：當頂刊原 spec 在某個樣本上撞到數值瓶頸時，先用 simplified proxy 驗證核心命題的方向，再回頭啃 estimation challenge。這種「先驗證命題、再雕琢實作」的順序對節省研究 cost 與避免過早下結論皆有實際價值，也呼應了專案內「研究誠實原則」中「null result 與 PASS 同樣值得記錄」的精神——K623 的收斂瓶頸不是 MF2 模型的失敗，K970 的 proxy 結果也不是對 K144 ceiling 的推翻，兩者共同還原的是一個更精細的事實： MF2 框架對 SPY 有 first-order forecast value，但這個 value 必須透過正確的 τ 設定才能 surface 出來 。

本文基於實驗 K970（腳本：experiments/k970/k970_mf2_garch.py，結果：experiments/k970/k970_mf2_garch_results.json）。% K970 reference. 數據來源：yfinance（SPY、^VIX），期間：2006-02-06 至 2026-04-06，OOS 樣本 n=1,824。

參考文獻

Conrad, C., & Engle, R. F. (2025). Two-component GARCH models with exogenous long-run dynamics. Journal of Applied Econometrics.
Engle, R. F., Ghysels, E., & Sohn, B. (2013). Stock market volatility and macroeconomic fundamentals. Review of Economics and Statistics, 95(3), 776-797.
Patton, A. J. (2011). Volatility forecast comparison using imperfect volatility proxies. Journal of Econometrics, 160(1), 246-256.
Harvey, C. R., Liu, Y., & Zhu, H. (2016). ...and the cross-section of expected returns. Review of Financial Studies, 29(1), 5-68.
Diebold, F. X., & Mariano, R. S. (1995). Comparing predictive accuracy. Journal of Business & Economic Statistics, 13(3), 253-263.
Harvey, D., Leybourne, S., & Newbold, P. (1997). Testing the equality of prediction mean squared errors. International Journal of Forecasting, 13(2), 281-291.
Kupiec, P. H. (1995). Techniques for verifying the accuracy of risk measurement models. Journal of Derivatives, 3(2), 73-84.
Christoffersen, P. F. (1998). Evaluating interval forecasts. International Economic Review, 39(4), 841-862.

主題查重結果（內部審查 trace）

Layer 1 publication-candidates ：K970 = missing_research（已 covered=general 為 mile_0dec3ca5）。✓
Layer 2 INDEX grep ：MF2-GARCH 既有 research 文章 = K141 (mile_75a7b7ff, TLT)、K144 (mile_6552518e, 6-asset ceiling)、K623 (mile_bc4864f5, SPY full-MEM 收斂瓶頸)。本文 angle 與三者皆有區隔（proxy 路線、SPY 樣本、Conrad-Engle 簡化實作）。✓
Layer 3 主題軸 matrix ：本文軸 = 方法論（proxy-based two-component）+ 資產（SPY）+ 方法（VIX-as-τ） ；與 K141 (asset=TLT)、K144 (panel)、K623 (full-MEM 估計) 皆無 axis overlap。✓