股票配黃金的人,到底該看哪個『恐慌指數』?SPY+GLD 配置的恐慌指數搭配實驗
讀者互動
已追蹤瀏覽 0 次,登入會員可按讚與收藏。
一、為什麼這篇文章對你重要?
如果你的長期投資組合裡同時持有美股(例如 SPY 這支追蹤 S&P 500 的 ETF)和黃金(例如 GLD),這個配置很常見、很經典,也很合理:股票負責長期增長,黃金負責在市場恐慌時提供避險。
但接下來這個問題,多數人從沒想過: 當你在估算這個股票+黃金組合明天可能會虧多少錢時,你用的是哪個「恐慌指數」?
最常見的答案是 VIX。VIX 是 CBOE(芝加哥選擇權交易所)公布的指數,反映股市選擇權對未來 30 天波動率的隱含預期,俗稱「美股恐慌指數」。它好懂、流動好、媒體天天講。但 VIX 真的能同時代表「股市的緊張」和「黃金的緊張」嗎?
CBOE 其實早就推出了專門的黃金版本: GVZ(Gold VIX) 。同樣的計算邏輯,但底層用的是黃金 ETF 選擇權,所以 GVZ 描述的是「黃金市場自己的緊張程度」,而不是「股市的緊張程度」。
這篇實驗 K1092 想要回答一個樸素但重要的問題:
在估算 50/50 SPY/GLD 投資組合的下檔風險時,「股票看 VIX、黃金看 GVZ」是否真的比「股票黃金都看 VIX」表現更好?
答案是: 真的更好,每一個衡量標準都更好;但好的幅度比想像中小 。讀完這篇,你會理解這個「為什麼好得有限」背後的結構性原因——這對你怎麼看待「風控模型升級」這件事,會有很實際的影響。
二、想像一下兩個風控小組
把它擬人化最容易理解。假設你是一家小型資產管理公司的老闆,手上一個 50/50 SPY+GLD 的客戶帳戶,每天必須估算「明天最差 1% 機率會虧多少錢」(這個數字叫 VaR,Value-at-Risk,即風險值)。
你開了兩個風控小組做平行測試:
A 組(對稱組) :股票部位看 VIX,黃金部位也看 VIX。理由是統一、簡單、反正市場恐慌的時候各種資產都會一起跳。
B 組(資產配對組) :股票部位看 VIX,黃金部位改看 GVZ。理由是「黃金有自己的市場節奏,應該用自己的恐慌指數來描述」。
兩組用的數學模型完全一樣(業內叫 DCC-A4f,是一種能把兩個資產的個別波動和它們之間的連動性同時建模的工具),參數數量也完全一樣, 唯一的差別就是黃金那邊餵給模型的隱含波動指數 ——A 組餵 VIX,B 組餵 GVZ。
接下來把這兩組關起來,用 2013 年 6 月到 2026 年 4 月、總共 3,234 個交易日 的歷史數據去比賽,每天都讓他們預測下一天的下檔風險,最後看誰預測得比較準、誰的失誤次數和監管要求最一致。
K1092 就是這場比賽的完整實驗紀錄。
三、比賽結果:每一項 B 組都贏,但贏得很「規矩」
實驗用了三種不同的衡量標準。為了方便閱讀,我們把它們翻譯成日常語言:
| 衡量標準 | 白話翻譯 |
|---|---|
| Mean QLIKE | 「整體變異數預測誤差」——預測的波動和實際發生的波動有多接近 |
| FZ Score(α=1%) | 「極端風險的綜合評分」——VaR 和 ES(極端虧損平均)一起評估,1% 是更嚴格的尾端 |
| FZ Score(α=2.5%) | 同上,2.5% 是次嚴格的尾端 |
| VaR Trinity | 「風險值三件式檢驗」——失誤次數、失誤是否聚集、極端虧損規模是否合理 |
下面這張表是這場比賽的核心結果(數據直接來自 experiments/k1092/k1092_results.json):
| 指標 | A 組(股黃金都用 VIX) | B 組(股 VIX、黃金 GVZ) | 誰贏 |
|---|---|---|---|
| Mean QLIKE | -9.0928 | -9.1160 | B 組(這個數值越負越好) |
| FZ Score α=1% | -5.4567 | -5.5303 | B 組(越負越好) |
| FZ Score α=2.5% | -5.5882 | -5.6168 | B 組(越負越好) |
| 1% VaR 失誤率 | 1.11% | 1.07% (理想 = 1.00%) | B 組更接近目標 |
| 2.5% VaR 失誤率 | 2.41% | 2.45% (理想 = 2.50%) | B 組更接近目標 |
B 組(資產配對組)在每一個指標上都嚴格優於 A 組 ,沒有一項打平、沒有一項輸。在統計學上,這叫「Pareto-dominant(柏拉圖優勢)」——意思是換一個版本之後沒有任何維度變差,所有維度都變好。
但接下來這點很關鍵,也是這篇文章的核心觀念:
雖然 B 組每一項都贏,贏的幅度卻沒有大到「跨越嚴格統計檢驗門檻」。
Mean QLIKE 的改善幅度是 0.255% ——數字看起來很小,但因為衡量的是 3,234 天的累積誤差,每天小幅進步累積起來其實是穩定可觀的。即便如此,把這個改善幅度拿去做嚴格的兩模型比較檢定,得到的「統計強度」剛好卡在傳統可接受標準與更嚴格的學術門檻之間。
四、為什麼贏,但贏得有限?三層稀釋效應
這個現象其實有清楚的結構性解釋。如果你曾經想過「為什麼一個聽起來很合理的優化,實測結果卻沒有那麼戲劇性」,這段請仔細看。
稀釋一:黃金只佔組合一半
50/50 配置下,黃金本身的波動性對整個組合的變異數, 直接權重只有 25% (因為變異數要平方:0.5² = 0.25)。所以即便你把黃金那邊的預測精度大幅提升,這個提升對整個組合的影響會先被砍掉一大塊。
稀釋二:股票那邊的影響本來就比較大
歷史上 SPY 的年化波動約 18-20%,GLD 約 17%。換算到變異數層級,SPY 的「貢獻量」明顯比 GLD 大。所以即使在組合內,黃金的預測進步也比較難改變整體結果的方向。
稀釋三:兩個資產的連動性會「平滑掉」差異
DCC 模型在估算兩個資產的動態相關性時,會自動吸收一部分各自波動的預測誤差。換句話說,當你只改善其中一邊(這裡是黃金),相關性那條方程式會把改善「攤平」一些,使得對組合層級的影響進一步縮小。
三層稀釋疊加,把原本在「只看黃金」時非常清楚的優勢,壓到組合層級就成了「方向一致、幅度有限」。這不是 GVZ 沒用,而是 50/50 這個權重設定本來就不是讓 GVZ 發揮最大效用的場景。
順帶一提,先前的單資產實驗(K1085)發現: 只考慮黃金本身的波動預測時,GVZ 比 VIX 強得很明顯 ——強到任何嚴格學術門檻都能穩穩跨過。問題只出在「裝進組合之後被稀釋了」。
五、那這對你的投資組合到底有什麼用?
觀念一:選對指標比選對模型更重要
這是這篇實驗最深層的訊息。三組模型用同樣的數學架構、同樣的參數數量, 唯一的差別只是「黃金部位餵 VIX 還是餵 GVZ」 ——換句話說,餵給模型的「資訊原料」對不對,比模型本身複不複雜更重要。
如果你在使用任何投資組合風險管理工具,下次注意一下:它估算黃金、原油、債券的風險時,用的是哪一個隱含波動指數?很多坊間工具偷懶,全部用 VIX 一支打天下。這不會「錯到爆炸」,但確實會留下系統性的進步空間。
觀念二:不必要求「驚人改善」才當作有用
K1092 的結果在嚴格學術門檻下被歸類為「方向一致、達顯著水準但幅度不到頂級門檻」。這不代表這個改善「沒用」——它意味著:
- 不要因為這個改善去完全推翻原本的風控架構
- 但也不要因為它「不夠驚人」就忽略它
- 在多個獨立資產配對上累積這類「方向一致的小改善」,整體效果會比單一一次大幅改善更穩健
這是嚴肅機構做風險管理時的一個重要心態: 追求一致性,不追求戲劇性 。
觀念三:權重會放大或縮小這個效果
如果你的組合不是 50/50 而是更偏黃金(例如 30/70 SPY/GLD),那麼把黃金的隱含波動指數改用 GVZ,理論上會帶來更大的進步——因為三層稀釋的第一層會減弱(黃金權重變大)。反過來,如果是偏股票的 80/20 組合,黃金那邊改不改 GVZ 影響就會更小。
實務上的建議: 權重越偏向哪個資產,那個資產的「自己的恐慌指數」就越值得用 。
觀念四:失誤次數比預測值本身更實用
K1092 的另一個發現是:在 2.5% 的 VaR 層級,B 組(資產配對)的失誤率是 2.45%,最接近理想值 2.50%;而且失誤的分布也最不聚集(失誤聚集在一段時間內,是模型常見的問題,意味著風控在最危險的時候反而最不可靠)。
對一般投資者來說,重點不是「我預測得多精確」,而是「我預測的失誤次數,跟我自己宣稱的風險上限是不是接近」。如果你說「我能承受 1 個月最差 5% 虧損」,那麼一年大概應該出現 1-2 次接近這個數字的虧損;少於這個次數代表你過度謹慎、報酬被壓縮,多於這個次數代表你低估了風險。K1092 的 B 組在這個維度上是三者中最準的。
六、實驗的小字部分:哪些事我們做了確認
這部分留給認真的讀者。研究誠實原則要求我們把以下幾件事講清楚:
- 沒有偷看未來 :所有用來預測明天波動的恐慌指數,都嚴格使用「昨天收盤」的數值(程式碼裡寫成
t-1),絕對不會出現「拿明天的 VIX 來預測明天的風險」這種偷看未來的錯誤。 - 隨機種子固定 :所有模型估計用的初始參數隨機搜尋,都使用固定 seed=42,重跑會得到完全一樣的結果。
- 滾動視窗訓練 :模型每隔 63 個交易日(約一季)重新用過去 1,250 天(約 5 年)的資料校準一次,確保比賽是「當下能用到的資訊」對應「當下要預測的未來」。
- GVZ 資料完整性 :CBOE GVZ 從 2008 年 6 月 3 日開始公布。實驗的 OOS 比賽期從 2013 年 6 月開始,確保每個訓練視窗都有至少 5 年的真實 GVZ 資料,沒有用 VIX 假裝替補。
- 誠實的失誤點 :在最嚴格的 1% VaR 層級,所有三組模型在「失誤是否獨立」這項檢定上表現都偏弱(失誤略有聚集現象)。這是基於 Cornish-Fisher 方法的 VaR 計算的常見限制,不是 B 組獨有的問題。失誤的次數和規模都還在合理範圍內,但「失誤聚集」這個維度仍有改進空間。
七、結論:給三類讀者的一句話建議
給長期持有 SPY+GLD 的個人投資者 :你大概不會自己跑 DCC-A4f 模型,但下次看到任何投資組合的風險報告,記得問一句:「黃金那邊用的是 VIX 還是 GVZ?」如果答案是 VIX,那這份報告對黃金部位的緊張程度是用「股市的標尺」量出來的,會有系統性的小偏差。
給有在做量化風控的研究者或從業者 :K1092 確認 SPY-VIX + GLD-GVZ 的搭配比 SPY-VIX + GLD-VIX 在每一項指標都更好,但組合層級的改善幅度會因為三層稀釋效應比單資產層級小。建議當作 best-practice default,而不是「邊際選項」。權重越偏離 50/50、越往單資產靠近,這個改善就越值得認真看待。
給對研究方法本身感興趣的讀者 :這是一個典型的「方向一致、幅度有限」案例。它的價值不是單獨論文等級的「驚天大發現」,而是體現了一個重要的研究心態——當你想驗證一個直覺合理的優化是否真的有用時,要願意接受「真的有用、但沒有想像中那麼大」這種誠實的答案,而不是強行宣稱「我發現了革命性的進步」。
資料來源
- 實驗編號 :K1092(Asset-Matched DCC-A4f Portfolio VaR)
- 實驗腳本 :
experiments/k1092/k1092.py - 完整結果 JSON :
experiments/k1092/k1092_results.json - 資料源 :yfinance 公開歷史資料(SPY、GLD、^VIX、^GVZ 日收盤)
- 全期資料 :2005-01-04 至 2026-04-12,共 5,350 個交易日
- OOS 比賽期間 :2013-06-01 至 2026-04-12,共 3,234 個交易日(GVZ 自 2008-06-03 才有真實資料,此設計確保所有訓練視窗皆使用真實 GVZ)
- 滾動視窗 :1,250 個交易日,每 63 日重估一次
- 隨機種子 :42(固定)
- 相關前期實驗 :K1041(DCC-A4f 對稱版本基準)、K1085(GLD 黃金單資產 GVZ 對 VIX 比較)、K1088(USO 原油 OVX 對 VIX 比較)、K1091(資產配對隱含波動指數的跨類別 meta 驗證)、K1036(CF-Rolling VaR 方法基準)
學術參考
- Engle (2002). Dynamic Conditional Correlation. Journal of Business & Economic Statistics 20(3).
- Engle, Ghysels & Sohn (2013). Stock Market Volatility and Macroeconomic Fundamentals. Review of Economics and Statistics 95(3): 776-797(A4f 模型原典)。
- Patton (2011). Volatility forecast comparison using imperfect proxies. Journal of Econometrics 160(1)(QLIKE 損失函數)。
- Fissler & Ziegel (2016). Higher order elicitability and Osband's principle. Annals of Statistics 44(4): 1680-1707(FZ 聯合 VaR-ES 評分)。
- Kupiec (1995); Christoffersen (1998); Acerbi & Szekely (2014)(VaR Trinity 三件式檢驗的方法基礎)。
實驗圖表
https://qxhfgdfzazwpkdgesavm.supabase.co/storage/v1/object/public/article-images/k1092_dm_comparison.png:三模型比較的統計強度視覺化https://qxhfgdfzazwpkdgesavm.supabase.co/storage/v1/object/public/article-images/k1092_var_trinity.png:三模型 VaR Trinity 三件式檢驗結果https://qxhfgdfzazwpkdgesavm.supabase.co/storage/v1/object/public/article-images/k1092_fz_score.png:FZ 聯合風險評分比較https://qxhfgdfzazwpkdgesavm.supabase.co/storage/v1/object/public/article-images/k1092_correlation_ts.png:DCC 動態相關性時序(COVID、烏俄危機標示)https://qxhfgdfzazwpkdgesavm.supabase.co/storage/v1/object/public/article-images/k1092_portfolio_series.png:50/50 組合報酬與 1% VaR/ES 疊圖
詳情
- experiment_refs
- K1092
相關文章
先讀正式關聯,若無則使用標籤與主題相似度補齊