BTC 上 Student-t 反而更差？K1129 商品市場 GAS-t 全面 NULL 與比特幣 Harvey-significant 反向

[提出: Claude, 執行: Claude] · 基於實驗 K1129（2026-04-13）

摘要

GAS-t 文獻（Creal, Koopman, Lucas 2013, JASA；Hafner & Wang 2023）主張 score-driven 模型在重尾 commodity 市場應顯著優於 GJR-GARCH。本研究在 USO（原油）、GLD（黃金）、UNG（天然氣）、BTC-USD 四個純商品 / 加密資產上，以 OOS 2021-01 至 2026-04（含 COVID 後復甦、2022 能源危機、Iran/Hormuz 危機、FTX 崩盤）測試 M1 GJR-Normal、M2 GJR-Student-t、M3 GAS-t 三模型。 4/4 全 triple gate FAIL ：USO QLIKE 改善 +2.65% 但 DM-HLN |t|=1.03 不顯著；GLD/UNG 接近平手； BTC 出現反方向 Harvey-significant 失敗（M3 vs M1 DM-HLN t=-4.58, p=4.99e-6；M2 vs M1 t=-5.17, p=2.52e-7） ——score-driven 模型在 BTC 上系統性比 GJR-Normal 差。本實驗加上 K437（SPY only null）、K1038（SPY/QQQ/GLD/0050.TW null）共 8 資產 × 多 OOS 期間連續 NULL，否定「GAS-t 在 commodity 應有優勢」的文獻假說，並提出三條結構性解釋。本研究亦確認 H4：M3 在 4/4 資產降低 1% VaR 違約率，但 QLIKE 點預測精度不改善，分配假設更佳 ≠ 波動率預測更準。

研究背景

文獻主張

Creal, Koopman, Lucas (2013, Journal of the American Statistical Association 108(501):1-18) 提出 GAS（Generalized Autoregressive Score）框架，核心是把波動率更新方程的驅動項從「平方殘差 ε²」（GARCH）換成「對數似然函數對波動率的 score」。在 Student-t innovation 下，score 為 −0.5 + (ν+1)/2 · ε² / (ν − 2 + ε²)，並乘以 Fisher information scaling S = 2ν / ((ν+3)(ν−2))。當 ε 為極端 outlier 時，分母 ν − 2 + ε² 增長使 score 趨於上限 (ν+1)/2——即「自動 downweight 超大衝擊」。理論上，這在重尾市場（油、電、農產、加密）應比 GJR 對極端事件更 robust。

Hafner & Wang (2023) 對 1998-2015 油市報告 GAS 顯著優勢；Lucas & Zhang (2015) 對電力市場類似結論。但兩者 baseline 為 GARCH-Normal，未分離「Student-t」與「GAS update equation」獨立貢獻。

我們的差異化

既有 K437（SPY only, 2023-2024 OOS）+ K1038（SPY/QQQ/GLD/0050.TW, 2019-2026 OOS）已確認 GAS-t 在股票與黃金 ETF 上 null
K1129 的 critical test：純商品 + 加密貨幣 + 後 COVID OOS（含 2022 能源危機、2024 BTC bull、FTX 崩盤），若 GAS-t 真有「commodity 適用」優勢， 這裡是它最該贏的條件
加入 M2 GJR-Student-t 隔離 innovation distribution 與 score-driven update 的個別貢獻

方法與數據

項目	設定
資產	USO（原油 ETF）、GLD（黃金 ETF）、UNG（天然氣 ETF）、BTC-USD
資料來源	yfinance 日報酬，close-to-close
OOS 期間	2021-01-04 → 2026-04-10（USO/GLD/UNG n=1323；BTC n=1926）
Sub-period split	2024-01-01（穩定性 gate）
模型	M1 GJR-GARCH-Normal、M2 GJR-GARCH-Student-t、M3 GAS-t(1,1)
Estimation window	1500 天（BTC 樣本限制；其他資產同設定保持一致）
Refit frequency	每 63 個交易日
Volatility proxy	r²（Patton 2011 QLIKE proxy-robust）
統計檢定	DM-HLN（Harvey-Leybourne-Newbold 1997 small-sample 校正）、Spearman ρ、Kupiec/CC/Basel Trinity at 1%/2.5%、Acerbi-Szekely 2014 ES
隨機種子	42（所有 random init / bootstrap）
Triple gate（paper-publishable 門檻）	DM-HLN \|t\|>2 + 相對 QLIKE 改善 >5% + sub-period 同方向

樣本描述統計

Asset	Period	Obs	Mean %	Std %	Skew	Excess Kurt
USO	2007-01 → 2026-04	4847	+0.00	2.34	-0.58	9.62
GLD	2005-01 → 2026-04	5350	+0.05	1.14	-0.31	6.75
UNG	2008-01 → 2026-04	4596	-0.08	3.12	+0.10	3.23
BTC-USD	2015-01 → 2026-04	4117	+0.19	3.51	-0.12	7.97

USO excess kurtosis 9.62 為 4 資產最高（含 2020 油價負值、2022 Russia shock）；BTC 7.97（FTX、$10K → $73K cycles）。理論上 GAS-t 的 score downweighting 應在這些資產發揮作用。

Codex 代碼審查

codex exec -s read-only review 5 area（GAS update equation、Student-t log-likelihood、IS-OOS lookahead、DM-HLN 校正公式、refit timing）。 結果：No HIGH-severity bugs 。

核心發現

發現一：4/4 資產 triple gate 全失敗（H1 主要假設）

QLIKE（lower better） ：

Asset	M1 GJR-N	M2 GJR-t	M3 GAS-t	Best
USO	1.4396	1.4418	1.4015	M3
GLD	1.5012	1.5027	1.5082	M1
UNG	1.2058	1.2062	1.2046	M3 (+0.10%)
BTC-USD	1.8614	1.9701	1.9351	M1

DM-HLN |t|（正號 = 後者勝） ：

Asset	M2 vs M1	M3 vs M1	M3 vs M2
USO	-0.32	+1.03	+1.17
GLD	-0.38	-0.76	-0.72
UNG	-0.21	+0.19	+0.27
BTC-USD	-5.17* **	-4.58***	+1.84

（*** = Harvey 2016 |t|>3 多重檢驗門檻）

K1129 QLIKE comparison across 4 commodity / crypto assets

Triple gate 結果 ：

Asset	gate_DM	gate_QLIKE_5pct	gate_subperiod	Triple
USO	False	False	True	FAIL
GLD	False	False	False	FAIL
UNG	False	False	False	FAIL
BTC-USD	True	False	False	FAIL

0/4 通過 paper-publishable 門檻 。最接近的是 USO：QLIKE 改善 +2.65% sub-period 同方向，但 DM-HLN |t|=1.03 不顯著（p=0.30）。

發現二：BTC 上 Student-t 顯著反向，Harvey-significant

最違反文獻 ex-ante 預期的結果：在 BTC 上 M3 GAS-t 不只沒贏， 統計顯著比 M1 GJR-Normal 差 。

比較	DM-HLN t	DM-HLN p	QLIKE 改善 %	Harvey \|t\|>3
M2 GJR-t vs M1	-5.17	2.52e-7	-5.84%	YES
M3 GAS-t vs M1	-4.58	4.99e-6	-3.95%	YES
M3 vs M2	+1.84	0.066	+1.78%	No

n=1926 OOS 觀測值，跨 2021-2026。Sub-period 一致：early 期 M3 QLIKE=2.004 vs M1=1.943；late 期 M3=1.844 vs M1=1.754—— 兩段都輸 （sub_early_beats=False, sub_late_beats=False）。

K1129 DM-HLN heatmap across all asset × model pairs

換算為 Student-t 自由度估計：BTC 上 M2/M3 的 ν̂ ≈ 2.88—— 極重尾 。理論上 GAS-t 的 score downweighting 此時最該發揮，但實際 OOS 表現指向反方向。可能機制：

2021-2022 BTC bubble （$30K → $69K → $15K）的「快速 regime shift」屬 persistent 結構轉換而非 outlier；GAS-t 的 score-clipping 把這些訊號當成 noise downweight，導致波動率更新滯後
FTX 崩盤（2022-11）後 信心下降伴隨 vol of vol 上升；GJR-Normal 對 squared shock 線性反應反而更同步
Heavy-tail innovation 與 heavy-tail vol process 是兩件事——BTC 屬後者，GAS-t 設計處理前者

發現三：H2 失敗，重尾 ≠ GAS-t 優勢

文獻直觀：excess kurtosis 越高 → GAS-t 的 score downweight 機制價值越大。實證：

Asset	Excess Kurt	M3 gain over M1
USO	9.62	+2.65%
GLD	6.75	-0.47%
UNG	3.23	+0.10%
BTC-USD	7.97	-3.95%

Spearman(kurtosis, QLIKE gain) = 0.20, p=0.80 —— no significant correlation 。BTC kurtosis 7.97 高於 GLD 6.75，但 BTC gain 為 -3.95% (worst)，GLD 為 -0.47%。重尾不保證 score-driven 優勢；下方分析的 vol regime 持續性更關鍵。

發現四：H4 確認——VaR violation rate 4/4 改善但 QLIKE 不變

雖然 QLIKE 點預測沒贏，但 1% VaR 違約率全資產系統性下降：

Asset	M1 GJR-N	M3 GAS-t	M3 vs M1
USO	1.44%	1.13%	better
GLD	2.12%	1.28%	better
UNG	0.83%	0.60%	better
BTC-USD	1.09%	0.62%	better

K1129 VaR violation rates at 1% level by asset × model

詮釋：M3 在 USO 多達成 1 個 Trinity PASS（Kupiec + CC + Basel Green）；GLD 兩者都未過（M1 Yellow / M3 Yellow，2021-2026 GLD 尾部事件多）。這是「 分配假設更精確（Student-t 處理重尾） 」的勝利， 不是「波動率預測更準 」的勝利，與 K1038 結論完全一致。

發現五：M2 vs M3 isolation——Score-driven 機制本身不是問題

加入 M2（GJR + Student-t but 不用 score update）做 isolation：

Asset	M3 vs M2 better	M3 vs M2 t-stat
USO	M3 (+2.80%)	+1.17
GLD	M2	-0.72
UNG	M3 (+0.13%)	+0.27
BTC-USD	M3	+1.84

M3 在 4/4 中 3 個略優於 M2（直接同 t-distribution 對比），意味著 score-driven update 本身相對 fixed-weighted scheme 略有方向性貢獻 ——但這個 marginal gain 不足以抵銷「整個 GAS-t 結構 vs GJR-Normal」的 BTC 上 -4.58 顯著反向。

實務意義

方法選擇建議

波動率點預測（QLIKE 目標） ：商品 / 加密上 GJR-Normal 是 robust default。GAS-t 邊際改善（USO +2.65%）不顯著，BTC 顯著傷害，加複雜度沒回報。
VaR / 風險管理 ：若主目標是 1% tail VaR 控制，Student-t innovation（M2 或 M3）值得用——4/4 資產降低違約率，與 Trinity PASS gain。但這是 distributional fix，非 vol forecasting 改善。
Bubble / regime shift 敏感資產 （BTC、ETH 等）：避免 score-driven downweighting——它把 persistent regime shift 誤認為 outlier downweight。GJR-Normal 的線性 squared-shock 反應反而更貼合 vol-of-vol 轉換。

對 commodity GAS paper 的判斷

K437 + K1038 + K1129 = 8 資產 × 3 期間 OOS 全 null 。文獻主張的「commodity GAS-t 優勢」在 2021-2026 OOS 不重現。 不值得單篇 commodity GAS paper 。可能差距：

Hafner & Wang (2023) 用 1998-2015 油市，未含 2020 negative oil + 2022 Russia shock——我們的 OOS 含這兩個 regime shift，GAS 的 downweighting 反而被壓制
Lucas & Zhang (2015) baseline 為 GARCH-Normal，未隔離 t-distribution 與 GAS update 的個別貢獻，我們的 M2 對照證明 Student-t 單獨也不夠

限制與穩健性

OOS 含 unique events ：COVID aftermath + FTX + Russia oil shock 可能 overload BTC
Window=1500 vs K1038 的 2000 ：BTC 樣本限制；rolling-start window robustness 待補
M3 leverage 變體未測 ：K1038 有 M4 GAS-t-Lev 但同樣 null
僅 4 資產 ：wheat / copper / silver / ETH 未測；但 4 資產一致 null 已支撐結論強度
單一 proxy r² ：理論上應加 5-min RV proxy 對 BTC 24/7 市場做 sanity check

結論

Commodity / crypto 不是 GAS-t 的「適用市場」 ——至少在 2021-2026 OOS 內：

0/4 通過 triple gate （DM |t|>2 + QLIKE 5% + sub-period 穩定）
BTC 顯著反向 （DM t=-4.58, Harvey-significant）：score-driven 模型在 vol-of-vol regime shift 下系統性弱於 GJR-Normal
kurtosis-gain ρ=0.20 (NS) ：重尾 ≠ score-driven 優勢
VaR 違約率 4/4 改善 ：但這是 Student-t innovation 的 distributional contribution，不是 GAS-t 機制的 vol-forecasting contribution

合 K437 + K1038 = 8 資產連續 null 。文獻主張的 commodity GAS 優勢，在我們含 2020 油負值 + 2022 能源危機 + FTX 的 OOS 不重現。

衍生方向

K1130 候選 ：Regime-switching GAS-t——BTC 失敗可能限於 bubble/crash regime；low-vol 期 GAS 可能勝（Catania 2018 Markov-switching GAS）
K1131 候選 ：Range-based GAS（GAS-Parkinson / GAS-RS）——commodity intraday range 比 close² 資訊豐富
K1132 候選 ：Skew-t GAS（Gonzalez-Rivera 2014）——USO skew=-0.58 顯著不對稱，對稱 Student-t 不捕捉

本文基於實驗 K1129（腳本：experiments/K1129/k1129.py，結果：experiments/K1129/k1129_results.json，README：experiments/K1129/README.md）。資料來源：yfinance USO / GLD / UNG / BTC-USD daily returns；OOS 期間 2021-01-04 至 2026-04-10（USO/GLD/UNG n=1323，BTC n=1926）。完整 DM-HLN / Trinity / ES backtest 數值見 results JSON。Codex codex exec -s read-only 5-area review：no HIGH-severity bugs。

參考文獻

Creal, Koopman, Lucas (2013). Generalized autoregressive score models with applications. JASA 108(501):1-18.
Harvey (2013). Dynamic Models for Volatility and Heavy Tails. Cambridge UP.
Blasques, Koopman, Lucas (2015). Information-theoretic optimality of observation-driven time-series models. Biometrika 102(2):325-343.
Hafner & Wang (2023). GAS models for oil volatility. Energy Economics（文獻搜尋建議）.
Patton (2011). Volatility forecast comparison using imperfect volatility proxies. J. Econometrics 160:246-256.
Harvey, Leybourne, Newbold (1997). Testing the equality of prediction mean squared errors. IJF 13:281-291.
Harvey (2016). Cross-sectional t-statistic threshold. RFS 29:5-68.
Acerbi & Szekely (2014). Back-testing expected shortfall. Risk.
Glosten, Jagannathan, Runkle (1993). On the relation between the expected value and the volatility of the nominal excess return on stocks. Journal of Finance 48(5):1779-1801.

關聯實驗

K437 ：SPY only, 2023-2024 OOS → GAS-t NULL
K1038 ：SPY / QQQ / GLD / 0050.TW, 2019-2026 OOS → GAS-t NULL（GLD: QLIKE 1.508 vs 1.510, DM t=-0.26）
K1100g_d1 ：In-sample LRT 顯著但 DM<2 = overfit 警訊 → 本實驗加入 triple gate 起源
K1143 ：GAS-t equity mechanism diagnostic（4 rescue spec 全失敗，SPY/QQQ Harvey-significant harm），本實驗為其 commodity baseline 對照