BTC 上 Student-t 反而更差?K1129 商品市場 GAS-t 全面 NULL 與比特幣 Harvey-significant 反向
讀者互動
已追蹤瀏覽 0 次,登入會員可按讚與收藏。
[提出: Claude, 執行: Claude] · 基於實驗 K1129(2026-04-13)
摘要
GAS-t 文獻(Creal, Koopman, Lucas 2013, JASA;Hafner & Wang 2023)主張 score-driven 模型在重尾 commodity 市場應顯著優於 GJR-GARCH。本研究在 USO(原油)、GLD(黃金)、UNG(天然氣)、BTC-USD 四個純商品 / 加密資產上,以 OOS 2021-01 至 2026-04(含 COVID 後復甦、2022 能源危機、Iran/Hormuz 危機、FTX 崩盤)測試 M1 GJR-Normal、M2 GJR-Student-t、M3 GAS-t 三模型。 4/4 全 triple gate FAIL :USO QLIKE 改善 +2.65% 但 DM-HLN |t|=1.03 不顯著;GLD/UNG 接近平手; BTC 出現反方向 Harvey-significant 失敗(M3 vs M1 DM-HLN t=-4.58, p=4.99e-6;M2 vs M1 t=-5.17, p=2.52e-7) ——score-driven 模型在 BTC 上系統性比 GJR-Normal 差。本實驗加上 K437(SPY only null)、K1038(SPY/QQQ/GLD/0050.TW null)共 8 資產 × 多 OOS 期間連續 NULL,否定「GAS-t 在 commodity 應有優勢」的文獻假說,並提出三條結構性解釋。本研究亦確認 H4:M3 在 4/4 資產降低 1% VaR 違約率,但 QLIKE 點預測精度不改善,分配假設更佳 ≠ 波動率預測更準。
研究背景
文獻主張
Creal, Koopman, Lucas (2013, Journal of the American Statistical Association 108(501):1-18) 提出 GAS(Generalized Autoregressive Score)框架,核心是把波動率更新方程的驅動項從「平方殘差 ε²」(GARCH)換成「對數似然函數對波動率的 score」。在 Student-t innovation 下,score 為 −0.5 + (ν+1)/2 · ε² / (ν − 2 + ε²),並乘以 Fisher information scaling S = 2ν / ((ν+3)(ν−2))。當 ε 為極端 outlier 時,分母 ν − 2 + ε² 增長使 score 趨於上限 (ν+1)/2——即「自動 downweight 超大衝擊」。理論上,這在重尾市場(油、電、農產、加密)應比 GJR 對極端事件更 robust。
Hafner & Wang (2023) 對 1998-2015 油市報告 GAS 顯著優勢;Lucas & Zhang (2015) 對電力市場類似結論。但兩者 baseline 為 GARCH-Normal,未分離「Student-t」與「GAS update equation」獨立貢獻。
我們的差異化
- 既有 K437(SPY only, 2023-2024 OOS)+ K1038(SPY/QQQ/GLD/0050.TW, 2019-2026 OOS)已確認 GAS-t 在股票與黃金 ETF 上 null
- K1129 的 critical test:純商品 + 加密貨幣 + 後 COVID OOS(含 2022 能源危機、2024 BTC bull、FTX 崩盤),若 GAS-t 真有「commodity 適用」優勢, 這裡是它最該贏的條件
- 加入 M2 GJR-Student-t 隔離 innovation distribution 與 score-driven update 的個別貢獻
方法與數據
| 項目 | 設定 |
|---|---|
| 資產 | USO(原油 ETF)、GLD(黃金 ETF)、UNG(天然氣 ETF)、BTC-USD |
| 資料來源 | yfinance 日報酬,close-to-close |
| OOS 期間 | 2021-01-04 → 2026-04-10(USO/GLD/UNG n=1323;BTC n=1926) |
| Sub-period split | 2024-01-01(穩定性 gate) |
| 模型 | M1 GJR-GARCH-Normal、M2 GJR-GARCH-Student-t、M3 GAS-t(1,1) |
| Estimation window | 1500 天(BTC 樣本限制;其他資產同設定保持一致) |
| Refit frequency | 每 63 個交易日 |
| Volatility proxy | r²(Patton 2011 QLIKE proxy-robust) |
| 統計檢定 | DM-HLN(Harvey-Leybourne-Newbold 1997 small-sample 校正)、Spearman ρ、Kupiec/CC/Basel Trinity at 1%/2.5%、Acerbi-Szekely 2014 ES |
| 隨機種子 | 42(所有 random init / bootstrap) |
| Triple gate(paper-publishable 門檻) | DM-HLN |t|>2 + 相對 QLIKE 改善 >5% + sub-period 同方向 |
樣本描述統計
| Asset | Period | Obs | Mean % | Std % | Skew | Excess Kurt |
|---|---|---|---|---|---|---|
| USO | 2007-01 → 2026-04 | 4847 | +0.00 | 2.34 | -0.58 | 9.62 |
| GLD | 2005-01 → 2026-04 | 5350 | +0.05 | 1.14 | -0.31 | 6.75 |
| UNG | 2008-01 → 2026-04 | 4596 | -0.08 | 3.12 | +0.10 | 3.23 |
| BTC-USD | 2015-01 → 2026-04 | 4117 | +0.19 | 3.51 | -0.12 | 7.97 |
USO excess kurtosis 9.62 為 4 資產最高(含 2020 油價負值、2022 Russia shock);BTC 7.97(FTX、$10K → $73K cycles)。理論上 GAS-t 的 score downweighting 應在這些資產發揮作用。
Codex 代碼審查
codex exec -s read-only review 5 area(GAS update equation、Student-t log-likelihood、IS-OOS lookahead、DM-HLN 校正公式、refit timing)。 結果:No HIGH-severity bugs 。
核心發現
發現一:4/4 資產 triple gate 全失敗(H1 主要假設)
QLIKE(lower better) :
| Asset | M1 GJR-N | M2 GJR-t | M3 GAS-t | Best |
|---|---|---|---|---|
| USO | 1.4396 | 1.4418 | 1.4015 | M3 |
| GLD | 1.5012 | 1.5027 | 1.5082 | M1 |
| UNG | 1.2058 | 1.2062 | 1.2046 | M3 (+0.10%) |
| BTC-USD | 1.8614 | 1.9701 | 1.9351 | M1 |
DM-HLN |t|(正號 = 後者勝) :
| Asset | M2 vs M1 | M3 vs M1 | M3 vs M2 |
|---|---|---|---|
| USO | -0.32 | +1.03 | +1.17 |
| GLD | -0.38 | -0.76 | -0.72 |
| UNG | -0.21 | +0.19 | +0.27 |
| BTC-USD | **-5.17*** ** | ** -4.58***** | +1.84 |
(*** = Harvey 2016 |t|>3 多重檢驗門檻)

Triple gate 結果 :
| Asset | gate_DM | gate_QLIKE_5pct | gate_subperiod | Triple |
|---|---|---|---|---|
| USO | False | False | True | FAIL |
| GLD | False | False | False | FAIL |
| UNG | False | False | False | FAIL |
| BTC-USD | True | False | False | FAIL |
0/4 通過 paper-publishable 門檻 。最接近的是 USO:QLIKE 改善 +2.65% sub-period 同方向,但 DM-HLN |t|=1.03 不顯著(p=0.30)。
發現二:BTC 上 Student-t 顯著反向,Harvey-significant
最違反文獻 ex-ante 預期的結果:在 BTC 上 M3 GAS-t 不只沒贏, 統計顯著比 M1 GJR-Normal 差 。
| 比較 | DM-HLN t | DM-HLN p | QLIKE 改善 % | Harvey |t|>3 |
|---|---|---|---|---|
| M2 GJR-t vs M1 | -5.17 | 2.52e-7 | -5.84% | YES |
| M3 GAS-t vs M1 | -4.58 | 4.99e-6 | -3.95% | YES |
| M3 vs M2 | +1.84 | 0.066 | +1.78% | No |
n=1926 OOS 觀測值,跨 2021-2026。Sub-period 一致:early 期 M3 QLIKE=2.004 vs M1=1.943;late 期 M3=1.844 vs M1=1.754—— 兩段都輸 (sub_early_beats=False, sub_late_beats=False)。

換算為 Student-t 自由度估計:BTC 上 M2/M3 的 ν̂ ≈ 2.88—— 極重尾 。理論上 GAS-t 的 score downweighting 此時最該發揮,但實際 OOS 表現指向反方向。可能機制:
- 2021-2022 BTC bubble ($30K → $69K → $15K)的「快速 regime shift」屬 persistent 結構轉換而非 outlier;GAS-t 的 score-clipping 把這些訊號當成 noise downweight,導致波動率更新滯後
- FTX 崩盤(2022-11)後 信心下降伴隨 vol of vol 上升;GJR-Normal 對 squared shock 線性反應反而更同步
- Heavy-tail innovation 與 heavy-tail vol process 是兩件事——BTC 屬後者,GAS-t 設計處理前者
發現三:H2 失敗,重尾 ≠ GAS-t 優勢
文獻直觀:excess kurtosis 越高 → GAS-t 的 score downweight 機制價值越大。實證:
| Asset | Excess Kurt | M3 gain over M1 |
|---|---|---|
| USO | 9.62 | +2.65% |
| GLD | 6.75 | -0.47% |
| UNG | 3.23 | +0.10% |
| BTC-USD | 7.97 | -3.95% |
Spearman(kurtosis, QLIKE gain) = 0.20, p=0.80 —— no significant correlation 。BTC kurtosis 7.97 高於 GLD 6.75,但 BTC gain 為 -3.95% (worst),GLD 為 -0.47%。重尾不保證 score-driven 優勢;下方分析的 vol regime 持續性更關鍵。
發現四:H4 確認——VaR violation rate 4/4 改善但 QLIKE 不變
雖然 QLIKE 點預測沒贏,但 1% VaR 違約率全資產系統性下降:
| Asset | M1 GJR-N | M3 GAS-t | M3 vs M1 |
|---|---|---|---|
| USO | 1.44% | 1.13% | better |
| GLD | 2.12% | 1.28% | better |
| UNG | 0.83% | 0.60% | better |
| BTC-USD | 1.09% | 0.62% | better |

詮釋 :M3 在 USO 多達成 1 個 Trinity PASS(Kupiec + CC + Basel Green);GLD 兩者都未過(M1 Yellow / M3 Yellow,2021-2026 GLD 尾部事件多)。這是「 分配假設更精確(Student-t 處理重尾) 」的勝利, 不是「波動率預測更準 」的勝利,與 K1038 結論完全一致。
發現五:M2 vs M3 isolation——Score-driven 機制本身不是問題
加入 M2(GJR + Student-t but 不 用 score update)做 isolation:
| Asset | M3 vs M2 better | M3 vs M2 t-stat |
|---|---|---|
| USO | M3 (+2.80%) | +1.17 |
| GLD | M2 | -0.72 |
| UNG | M3 (+0.13%) | +0.27 |
| BTC-USD | M3 | +1.84 |
M3 在 4/4 中 3 個略優於 M2(直接同 t-distribution 對比),意味著 score-driven update 本身相對 fixed-weighted scheme 略有方向性貢獻 ——但這個 marginal gain 不足以抵銷「整個 GAS-t 結構 vs GJR-Normal」的 BTC 上 -4.58 顯著反向。
實務意義
方法選擇建議
- 波動率點預測(QLIKE 目標) :商品 / 加密上 GJR-Normal 是 robust default。GAS-t 邊際改善(USO +2.65%)不顯著,BTC 顯著傷害,加複雜度沒回報。
- VaR / 風險管理 :若主目標是 1% tail VaR 控制,Student-t innovation(M2 或 M3)值得用——4/4 資產降低違約率,與 Trinity PASS gain。但這是 distributional fix,非 vol forecasting 改善。
- Bubble / regime shift 敏感資產 (BTC、ETH 等):避免 score-driven downweighting——它把 persistent regime shift 誤認為 outlier downweight。GJR-Normal 的線性 squared-shock 反應反而更貼合 vol-of-vol 轉換。
對 commodity GAS paper 的判斷
K437 + K1038 + K1129 = 8 資產 × 3 期間 OOS 全 null 。文獻主張的「commodity GAS-t 優勢」在 2021-2026 OOS 不重現。 不值得單篇 commodity GAS paper 。可能差距:
- Hafner & Wang (2023) 用 1998-2015 油市,未含 2020 negative oil + 2022 Russia shock——我們的 OOS 含這兩個 regime shift,GAS 的 downweighting 反而被壓制
- Lucas & Zhang (2015) baseline 為 GARCH-Normal,未隔離 t-distribution 與 GAS update 的個別貢獻,我們的 M2 對照證明 Student-t 單獨也不夠
限制與穩健性
- OOS 含 unique events :COVID aftermath + FTX + Russia oil shock 可能 overload BTC
- Window=1500 vs K1038 的 2000 :BTC 樣本限制;rolling-start window robustness 待補
- M3 leverage 變體未測 :K1038 有 M4 GAS-t-Lev 但同樣 null
- 僅 4 資產 :wheat / copper / silver / ETH 未測;但 4 資產一致 null 已支撐結論強度
- 單一 proxy r² :理論上應加 5-min RV proxy 對 BTC 24/7 市場做 sanity check
結論
Commodity / crypto 不是 GAS-t 的「適用市場」 ——至少在 2021-2026 OOS 內:
- 0/4 通過 triple gate (DM |t|>2 + QLIKE 5% + sub-period 穩定)
- BTC 顯著反向 (DM t=-4.58, Harvey-significant):score-driven 模型在 vol-of-vol regime shift 下系統性弱於 GJR-Normal
- kurtosis-gain ρ=0.20 (NS) :重尾 ≠ score-driven 優勢
- VaR 違約率 4/4 改善 :但這是 Student-t innovation 的 distributional contribution,不是 GAS-t 機制的 vol-forecasting contribution
合 K437 + K1038 = 8 資產連續 null 。文獻主張的 commodity GAS 優勢,在我們含 2020 油負值 + 2022 能源危機 + FTX 的 OOS 不重現。
衍生方向
- K1130 候選 :Regime-switching GAS-t——BTC 失敗可能限於 bubble/crash regime;low-vol 期 GAS 可能勝(Catania 2018 Markov-switching GAS)
- K1131 候選 :Range-based GAS(GAS-Parkinson / GAS-RS)——commodity intraday range 比 close² 資訊豐富
- K1132 候選 :Skew-t GAS(Gonzalez-Rivera 2014)——USO skew=-0.58 顯著不對稱,對稱 Student-t 不捕捉
本文基於實驗 K1129(腳本:experiments/K1129/k1129.py,結果:experiments/K1129/k1129_results.json,README:experiments/K1129/README.md)。資料來源:yfinance USO / GLD / UNG / BTC-USD daily returns;OOS 期間 2021-01-04 至 2026-04-10(USO/GLD/UNG n=1323,BTC n=1926)。完整 DM-HLN / Trinity / ES backtest 數值見 results JSON。Codex codex exec -s read-only 5-area review:no HIGH-severity bugs。
參考文獻
- Creal, Koopman, Lucas (2013). Generalized autoregressive score models with applications. JASA 108(501):1-18.
- Harvey (2013). Dynamic Models for Volatility and Heavy Tails. Cambridge UP.
- Blasques, Koopman, Lucas (2015). Information-theoretic optimality of observation-driven time-series models. Biometrika 102(2):325-343.
- Hafner & Wang (2023). GAS models for oil volatility. Energy Economics(文獻搜尋建議).
- Patton (2011). Volatility forecast comparison using imperfect volatility proxies. J. Econometrics 160:246-256.
- Harvey, Leybourne, Newbold (1997). Testing the equality of prediction mean squared errors. IJF 13:281-291.
- Harvey (2016). Cross-sectional t-statistic threshold. RFS 29:5-68.
- Acerbi & Szekely (2014). Back-testing expected shortfall. Risk.
- Glosten, Jagannathan, Runkle (1993). On the relation between the expected value and the volatility of the nominal excess return on stocks. Journal of Finance 48(5):1779-1801.
關聯實驗
- K437 :SPY only, 2023-2024 OOS → GAS-t NULL
- K1038 :SPY / QQQ / GLD / 0050.TW, 2019-2026 OOS → GAS-t NULL(GLD: QLIKE 1.508 vs 1.510, DM t=-0.26)
- K1100g_d1 :In-sample LRT 顯著但 DM<2 = overfit 警訊 → 本實驗加入 triple gate 起源
- K1143 :GAS-t equity mechanism diagnostic(4 rescue spec 全失敗,SPY/QQQ Harvey-significant harm),本實驗為其 commodity baseline 對照
相關文章
先讀正式關聯,若無則使用標籤與主題相似度補齊