← 研究動態
研究2026/05/31 上午10:00

想用偏態 t 打敗波動率?商品市場給了個彆扭答案 — 波動預測沒救,但能救你的『最壞情境』

風險管理商品paper-4GASskew-t

讀者互動

已追蹤瀏覽 0 次,登入會員可按讚與收藏。

分享到:LINEFacebookX / Twitter

想用偏態 t 打敗波動率?商品市場給了個彆扭答案 — 波動預測沒救,但能救你的「最壞情境」

[提出: Claude,執行: Claude]

一句話結論

在油、天然氣、黃金、白銀四個商品 ETF 上,把波動率模型的誤差項從常態分布換成 Hansen (1994) 偏態 t 分布, 對「明天波動率有多大」的預測完全沒幫助 ;但對「最壞 1% 情境下會虧多少」這個 ES 估計, 四個商品全部從嚴重低估翻轉成校準正確 。偏態 t 是一把 tail 風控工具,不是波動預測工具。

為什麼挑這四檔商品

挑 USO(原油 ETF)、UNG(天然氣 ETF)、GLD(黃金 ETF)、SLV(白銀 ETF)這四檔,是因為三個一定要先講清楚的觀察。

第一,這幾檔的下跌偏度都很重。USO 的全樣本偏度是 -0.578、GLD 是 -0.310、SLV 是 -1.064,意思是負方向尾巴比正方向長很多。常態分布把兩邊尾巴設成對稱,模型自然會低估暴跌的機率。

第二,過去的實驗證據顯示,VIX 在大多數時候對股市波動已經是「夠用」的訊號。我們累積 24 次以上的測試(包含 SKEW 指數、VVIX、VIX 期限結構等),結論都指向 多加一個訊號很少能贏 VIX 本身 。Paper 4 系列就是在系統化檢驗:到底還有哪個方向、哪個 channel 可以從 VIX 充分性的縫隙鑽出來。

第三,K1129 已經告訴我們,把 GARCH 的常態誤差換成對稱 Student-t(容許厚尾但兩邊對稱)在這四個商品上 QLIKE 全部 NULL;K1138 與 K1143 又發現同一招在股市直接「有害」(SPY、QQQ 上的兩模型比較 t 統計量分別是 -3.27 與 -2.81,數字越負代表新模型越差)。所以這次的 K1135 是 last shot:商品天生負偏,如果連 Hansen 偏態 t 都救不起來,整個 GAS-skew 家族對波動預測就可以收。

兩件事分開看:vol forecast 和 tail risk

實驗的設計是把三個模型放在同樣的滾動視窗(1500 天訓練、每 63 天 refit、樣本外 2020-01 到 2026-04,每檔 1576 個交易日),用同一份報酬資料、同樣的 lag 對齊:

  •  M0 :GARCH(1,1) 配常態誤差(baseline)
  •  M1 :GARCH 配對稱 Student-t(K1129 的設定,當作對照)
  •  M2 :GARCH 配 Hansen (1994) 偏態 t,多估一個 skewness 參數 λ

然後在四個商品上、樣本外做三件事:

  1.  波動點預測 比較:QLIKE 損失函數加上兩模型比較顯著性檢定,看 M2 是否打敗 M0
  2.  VaR (Value-at-Risk) 三件套 :1% 和 5% 兩個水準,跑 Kupiec 違約率檢定、Christoffersen 條件覆蓋檢定、Engle-Manganelli DQ 檢定
  3.  ES (Expected Shortfall, 條件損失期望) :Acerbi-Szekely (2014) Z1 與 Z2 兩個獨立檢定

commodity_skew_vs_gauss

上圖是四個商品的實際報酬經驗密度與常態密度的對照。USO 與 SLV 的左尾明顯比常態厚很多,這正是偏態 t 該發揮的地方。GLD 也有一點。UNG(天然氣)兩邊厚度差不多,是這次的對照組。

結果一:波動率預測這條路真的走不通

先看 QLIKE 的結論(QLIKE 是一種對波動率 proxy 不敏感的損失函數,Patton 2011 提出)。M2 偏態 t 對 M0 的兩模型比較統計量分別是:

  • USO:-1.99(M0 反而勝)
  • UNG:+1.56(M2 略勝但未達顯著)
  • GLD:+0.74(接近平手)
  • SLV:-0.25(接近平手)

 通過率 0/4 。經過多重檢驗校正(Benjamini-Hochberg)後沒有任何一個商品的 QLIKE 改善是穩定的。USO 甚至顯著地比 GARCH 常態還差。

這結果跟 K1129 完全一致:在商品市場上,把分布從常態換到 Student-t 或 Hansen 偏態 t, 波動率本身的預測能力沒有 marginal value 。Paper 4 的 Channel 3(GAS family robustification)這條 vol forecasting 路線可以收。

結果二:ES 從全面失靈變成全面校準

但同一份模型、同一份資料,換看 1% ES 的校準狀況,故事就翻過來了。

商品GARCH-常態 ES Z1Z1 pHansen 偏態 t ES Z1Z1 p
USO+2.770.006+0.970.335
UNG+1.230.218+0.050.960
GLD+3.410.001+1.140.253
SLV+3.680.000+0.020.982

Z1 是 Acerbi-Szekely (2014) 的標準化檢定統計量,p 值小於 0.05 代表模型對 ES 的估計顯著偏差(這裡的「偏差」具體是低估真實尾部損失)。

GARCH-常態在 USO、GLD、SLV 三檔上的 p 都低於 0.01,等於系統性把暴跌風險估太小;GLD 甚至跌出統計強度最強的 達顯著水準(顯著性 0.001)。換成 Hansen 偏態 t 之後,四檔全部把 Z1 的 p 拉到 0.25 以上, 通過率 4/4 。

VaR 違約率也是平行的故事。GLD 在 1% VaR 上,GARCH-常態的實際違約率達到 2.16%(理論值 1%,超標 116%);換成偏態 t 立刻校到 1.08%,幾乎完美。SLV 從 1.90% 降到 1.33%,USO 從 1.52% 降到 1.14%。

var_es_backtest

上圖是 VaR Trinity 三件套 + ES Z1/Z2 的 p 值熱度圖,紅色越深代表越拒絕模型校準正確的虛無假設。可以看到 M2(最右一欄)整片變綠,特別是 ES 那兩列幾乎完全洗白。

為什麼會「分裂」成這個結果

兩個直觀解釋。

QLIKE 對波動率的「中央位置」敏感。常態與偏態 t 在中央區域的密度幾乎一樣,所以對「明天波動率多大」這種點預測,分布形狀並不影響。模型估的 σ² 一樣大,QLIKE 就一樣。

ES 反過來是專測尾部期望。偏態 t 的 λ 負值會讓左尾長出更厚的肉,特別是在自由度(ν)4-8 之間的情況下(這次商品估出來的 ν 都在這區間),左尾極端報酬的密度被明顯抬高,ES 估計值因此跟著被「往負方向加重」,剛好對齊資料的實際暴跌頻率。

這個分裂結果的實務意義:偏態 t 沒讓你看得更準明天會抖多少,但它讓你準備好了當「黑天鵝」真的來的時候,停損金額不會被低估。

對 Paper 4 整體故事的意義

K1135 補完了 Paper 4 VIX 充分性論述的一塊重要拼圖。

VIX 為什麼可以被宣稱是波動率的「充分統計量」?正當性不在於 VIX 與其他訊號正相關(那不夠),而在於 「測過 N 個替代 channel,每一個都 NULL」 才有信心 declare 充分。Paper 4 系列裡,已經測過:

  • 替代波動指數(SKEW、VVIX、VIX 期限結構)→ K129、K184、K210 等:NULL
  • 跨類別波動率離散度(投機 vs 防禦 ETF)→ K151:NULL
  • HAR + 替代 RV component → K1139 系列:VIX is enough aggregator
  • 對稱 Student-t GAS(商品)→ K1129:NULL
  • 對稱 Student-t GAS(股票)→ K1138、K1143:HARMFUL
  •  Hansen 偏態 t GAS(商品)→ K1135:vol-NULL(本篇) 
  • Hansen 偏態 t GAS(股票)→ K1143:HARMFUL

第七條就是 K1135 的貢獻:商品的負偏度是這套方法理論上「應該起作用」的最後可能性,但實證上對 QLIKE 還是 0/4 PASS。Paper 4 的 GAS family channel 走到這裡關門。

但 Paper 4 同時得到一個 bonus 副產品: Hansen 偏態 t 在商品 tail risk 校準上有實質用途 。它不會推翻 vol-NULL 的結論,卻漂亮地把波動預測與風險管理切開。Paper 4 Channel 3 的最終 narrative 因此改寫成:「GAS-skew-t 在商品上是 tail risk 工具,不負責 vol forecasting」。

散戶可以怎麼用

如果你只是用 GARCH 估個波動率拿來算倉位(例如 vol targeting),K1135 告訴你 不必為了商品 portfolio 升級到偏態 t  — 多估那個 λ 對波動本身不會更準,反而多一個參數要 refit。

但如果你在算商品部位的最壞 1% 情境停損, 常態 GARCH 會系統性把你需要準備的緩衝估太低 。原油與貴金屬尤其嚴重,黃金 1% VaR 違約率超標 116% 不是小事 — 那代表你以為一年才會破一次的停損,實際上會破兩次以上。偏態 t 把這個缺口補起來。

實務上你不必自己寫 Hansen 偏態 t。arch 套件支援 skew-t innovation;現成的商品 VaR 計算工具(rugarch 等)也都有。重點是知道「在商品上要用」,而不是黏在預設常態。

局限

第一,λ 是 static 估的。Gonzalez-Rivera et al. (2014) 已經提出 time-varying skew GAS,K1135 估出來 IS λ 大約只有 -0.05,明顯遠小於全樣本實際偏度(USO -0.58),表示 2010-2019 訓練期相對平靜,未完全 capture 2020 後的 COVID 油價崩盤、2022 能源危機、2024-25 貴金屬大波動。後續實驗會測 time-varying λ 是否進一步壓低 ES Z1。

第二,這次的 baseline 是 GARCH-常態。如果改用 GARCH-Student-t 做 baseline,ES 校準的差距會縮小(M1 對稱 Student-t 在多數商品上也 PASS ES),但 M2 偏態 t 在 USO 與 SLV 的 Z1 仍最接近零,仍是最乾淨的選擇。

第三,VaR Trinity 在 USO 與 SLV 1% 水準下還有 clustering 殘留(DQ 檢定 達顯著水準(顯著性低於 0.01)),意思是違約日仍有連續發生的傾向(例如 COVID 油價崩盤的連續幾天)。可能需要把 leverage 不對稱項(GJR)加進偏態 t-GAS,作為 K1147 候選後續實驗。

第四,只測四個商品 ETF。鉑、鈀、廣義商品指數 DBC、乙醇 ETF 都沒測,universality 待驗。

結論

K1135 給出商品市場上 GAS 家族的乾淨判斷:偏態 t 在波動率點預測上 0/4 通過,但在 1% ES 校準上 4/4 通過、1% VaR 違約率上 3/4 改善。Paper 4 VIX 充分性論述因此多了一個 channel 的 vol-NULL 確認,同時換到一個具體可用的副產品:商品部位的尾部風險工具。


本文基於實驗 K1135(腳本:experiments/k1135/k1135.py,結果:experiments/k1135/k1135_results.json)。資料來源:yfinance USO/UNG/GLD/SLV 2010-01-01 ~ 2026-04-10,樣本外期間 2020-01-02 ~ 2026-04-10,每檔 1576 個樣本外觀測值。所有滾動視窗、refit 頻率、seed=42 與 lag 對齊均依 K1129、K1143 既有 protocol。Hansen 偏態 t 密度經 scipy Student-t 在 λ=0 下交叉驗證(max |PDF diff| = 2.8e-17)。

相關文章

先讀正式關聯,若無則使用標籤與主題相似度補齊

📄
新興市場主權債的波動率,能提前預告 EM 股市風暴嗎?一次誠實的否定(K1621)
新興市場的美元主權債,波動起來的時候,會不會比股市早一步聞到火藥味?如果會,那些免費就能取得的債券 ETF 與信用利差,或許能當作跨資產的預警訊號。我們用 2015 到 2026 十一年的資料把這個念頭認真測了一遍,結論很乾脆:**不會**。主權信用的「波動率」和新興市場股票的波動率幾乎是同一時間一起動的,不存在可以拿來做日頻預測的領先關係。 這是一個 NULL 結果,但它是乾淨、可複現、而且對...
📄
K1605:區域銀行 M/B 折價與後續波動,橫斷面穩健、OOS 不過關
# K1605:區域銀行 M/B 折價與後續波動,橫斷面穩健、OOS 不過關 *[提出: publication-candidates, 執行: Codex]* ## 摘要 K1605 檢驗一個銀行風險問題:市場價格相對帳面淨值的折價,能不能提前指出區域銀行後續已實現波動率上升。樣本使用 yfinance 免費資料,包含 27 家仍上市美國區域銀行,以及 KRE、KBE 兩個銀行 ETF;主...
📄
K1582:HARQ / SHARK-style 測量誤差修正 HAR-RV 的台指期日盤試驗
## 摘要 [提出: Claude, 執行: Claude] K1582 檢驗 realized quarticity 測量誤差修正與 signed intraday components,是否能改善標準 HAR-RV 的一步期 realized variance 預測。正式可判斷樣本是 TAIFEX TX active-contract 日盤,原始日資料 2,219 筆,樣本外預測 1,697...