小型股波動率也吃 VIX 嗎?把美股大中小三檔 ETF 一起放上同一張尺
讀者互動
已追蹤瀏覽 0 次,登入會員可按讚與收藏。
小型股波動率也吃 VIX 嗎?把美股大中小三檔 ETF 一起放上同一張尺
一句話結論
把同一個「VIX 加上 GARCH」的波動率模型套到 SPY(大型股)、QQQ(科技股)、IWM(小型股)三檔美股 ETF 上, 結論很一致:模型對三者都比純 GARCH 的基準有可衡量的改善 ;但效果強度從大型股一路衰減到小型股,而且小型股的模型參數在極端時候會「跳一下」,這是讀者拿這套方法去做風控時,必須知道的一個附帶條件。
換句話說: 「VIX 對大型股最靈、對小型股還是有用、但對非美股(例如台股 0050)就會失效。」
為什麼研究 IWM?這個故事缺哪一塊?
過去幾個月在這個系列研究裡,我們陸續做了幾件事:
- SPY (大型股代表,K1075):用一個叫做 A4f 的 GARCH-MIDAS 變體模型,加上 VIX 平方作為長期波動率的解釋變數,得到非常清楚的改善訊號。
- QQQ (Nasdaq-100,科技股代表,K1078):同一套方法,效果次之但仍明顯。
- 0050.TW (台灣 50 ETF,K1077):套用 VIX 作為驅動因子完全沒效果,模型反而比基準稍差,也合理,畢竟 VIX 本來就是 S&P 500 的隱含波動率指數,跟台股的對應度有限。
這串研究中間明顯缺了一塊—— 美股小型股 。直觀上小型股有幾個與大型股不同的特徵:
- 特異風險(idiosyncratic risk)較高 :個股事件對指數的擾動較大,相對「乾淨」的市場 beta 訊號就被稀釋。
- 流動性較差 :尤其在尾端(極端日子)的成交量薄。
- 年化波動率約 22% ,比 SPY 的 16% 高出一截。
- 本身有專屬隱含波動率指數 RVX(Russell 2000 VIX) ,理論上比 VIX 更貼近自身。
如果模型在 IWM 上仍然有效,我們可以說「美股大中小三檔 ETF 都吃這套」;如果失效,那這套方法就只能宣稱對大型股、科技股有用。 這個實驗(K1080)就是在補這一塊 。
怎麼做?方法論一句話版
把 IWM 從 2000 年 5 月(IPO 日)到 2026 年 4 月的全部日報酬資料拿來,依時間切成三段不重疊的「樣本外測試窗」(2007 起、2013 起、2019 起),每隔 63 個交易日(約一季)用過去 2000 天的資料重新校準一次模型,然後用校準後的參數對下一季每天做「下一日波動率預測」。
兩個比較對象:
- 基準 :標準 GJR-GARCH(1,1),只用 IWM 自己的歷史報酬。
- A4f :在 GJR 之外,把 VIX² 的前一日數值(
VIX²_{t-1}, 前一日 很重要,這保證模型只用「真的能在當下用到的資訊」,沒有偷看未來)作為長期波動率的解釋變數。
評估指標用 QLIKE (Patton 2011 提出的標準波動率損失函數,對波動率預測偏誤特別敏感),並用 嚴格統計檢驗門檻 (要求 統計強度 通過 統計強度>3 的 Harvey, Liu, and Zhu (2016) 嚴格門檻)來判定差異是否具備統計意義。
資料來源說明 :IWM 報酬與 VIX 收盤價皆取自 yfinance;隨機種子固定為 42;訊號使用 t-1 期 VIX²(程式碼明示
vol_lag偏移),無前視(look-ahead)汙染。
結果一:整體上 A4f 確實改善了 IWM 的波動率預測
主要的數字一次看完(樣本外 2007–2026,n = 4848 個交易日):
| 模型 | QLIKE(越負越好) |
|---|---|
| GJR 基準 | −7.6967 |
| A4f(加 VIX² 長期項) | −7.7259 |
| 改善幅度 | −0.38% |
兩模型比較的 統計強度為 +4.80 ,遠高於 統計強度>3 的嚴格門檻;以重抽樣方法產生的 95% 信賴區間也不包含 0,意即 這個改善在統計上是穩固的,不是巧合 。
把細部窗格拆開看,三個樣本外窗都顯示 A4f 比 GJR 稍好(差值都是負的,越負代表改善越多):
| 樣本外窗 | 期間 | 樣本數 | QLIKE 改善 | 統計強度 |
|---|---|---|---|---|
| 早期危機段 | 2007–2012 | 1510 | −0.15% | +1.18(未達門檻) |
| 中期復甦段 | 2013–2018 | 1510 | −0.56% | +5.01( 達顯著水準 ) |
| 後期含 COVID | 2019–2026 | 1828 | −0.40% | +2.56(接近但未達) |
可以看到: 整體 PASS 主要靠 2013–2018 那段乾淨的多頭環境 。Early Crisis 與 Late COVID 段方向是對的(都改善),但統計強度都沒過嚴格門檻。
這也是研究誠實該強調的地方:「整體 PASS」並不等於「每個子期間都 PASS」。讀者拿這套方法去回測一段特定環境(例如只用 2008 GFC 那兩年),改善幅度會比上面整體數字小很多。

結果二:危機期間 A4f 沒有崩掉,但也沒有特別出色
很多人會關心:當 VIX 飆到 40、60 以上的時候,這個基於 VIX 的模型會不會反而失靈?
把全段 OOS 樣本依 VIX 收盤價分桶看 QLIKE 改善幅度:
| VIX 區間 | 樣本數 | QLIKE 改善 |
|---|---|---|
| 低(VIX 0–15) | 1545 | −0.32% |
| 正常(15–25) | 2421 | −0.30% |
| 偏高(25–40) | 703 | −0.55% |
| 極端(40–60) | 141 | −2.34% |
| 危機(60+) | 38 | −0.68% |
訊息是: VIX 越高,改善幅度的方向不變,甚至在 40–60 區間改善幅度最大 (達 2.3%)。這表示模型沒有在尾端崩掉,這也是這套方法可以拿來做下行風險管理的一個必要條件。
不過要注意,樣本數越往尾端越少(VIX 60+ 只有 38 個交易日),統計強度也跟著下降, 該區間的改善只是「方向對」、不能誇成「強烈證據」 。
把幾個歷史危機個別拉出來看:
| 危機 | 期間 | 樣本數 | QLIKE 改善 | 統計強度 |
|---|---|---|---|---|
| 全球金融海嘯 | 2008–2009 | 505 | −0.34% | +2.24 |
| 歐債危機 | 2011–2012 | 274 | −0.24% | +1.25 |
| COVID 崩盤 | 2020 H1 | 104 | −1.57% | +0.93 |
| 2022 年熊市 | 2022 全年 | 251 | −0.26% | +1.19 |
四場危機方向都對(A4f 比 GJR 好),但統計強度全部低於嚴格門檻,這是 樣本量不足造成的天然限制 ,不是模型本身的問題。COVID 的 104 個交易日太短,要在這個樣本量上得到統計上強的差異本來就難。

結果三:四檔 ETF 一起看,效果有梯度
這個實驗最重要的「故事性結論」其實是把它放回原本的研究脈絡。把已經跑過的 SPY / QQQ / 0050.TW 加上現在的 IWM 並排:
| 資產 | 規模屬性 | 全 OOS 統計強度 | 改善幅度 | 是否達顯著水準 |
|---|---|---|---|---|
| SPY(K1075) | 美股大型 | +7.92 | −0.89% | 是 |
| QQQ(K1078) | 美股科技 | +5.99 | −0.59% | 是 |
| IWM(K1080) | 美股小型 | +4.80 | −0.38% | 是 |
| 0050.TW(K1077) | 台灣 ETF | −0.49 | +0.33% | 否 |
統計強度從大到小:SPY > QQQ > IWM > 0050.TW,呈單調遞減。 這個排序非常符合直覺:
- SPY 改善最大 :VIX 本來就是 S&P 500 的隱含波動率指數,「同源」訊號最強。
- QQQ 次之 :科技股集中度高,個股事件影響大,VIX 訊號被特異風險稀釋一點。
- IWM 第三 :小型股的特異風險與流動性問題更顯著,VIX 訊號進一步衰減。
- 0050.TW 失效 :跨市場(VIX 屬美股、0050 屬台股),驅動因子和被預測對象不同源,模型失去著力點。
也就是說,VIX 這個訊號的「適用半徑」是有形狀的: 離 VIX 自己的母體越近,效果越強 。這給未來研究一個明確指引:要把同類方法推到台股,需要找到台股自身的隱含波動率指標(例如 VIX-Taiwan 或自編 IV 指數),而不是硬套美股 VIX。
結果四:用 RVX 取代 VIX 對 IWM 沒有差別
研究還順帶測了一個常被問到的問題:既然 IWM 自己有專屬的 RVX(Russell 2000 VIX),是不是用 RVX 比用 VIX 更好?
在共同可得的 2007–2021 樣本上比較:
| 模型 | QLIKE |
|---|---|
| A4f-VIX | −8.0612 |
| A4f-RVX | −8.0614 |
| 差距 | −0.002%(基本上是 0) |
兩者的比較統計強度只有 0.04,意義是 用 VIX 和用 RVX 對 IWM 的波動率預測完全沒有可區辨的差別 。
這個結論呼應了之前在 QQQ 上做的 VXN vs VIX 比較(K1079),美股的隱含波動率家族(VIX / VXN / RVX)在預測短期實際波動率時是 高度可替換的 。如果論文或文章要描述這套方法, 一句「用 VIX 即可」 就夠了,不需要為每個資產去找專屬 IV 指數。
注意事項:小型股的「θ₁ 跳一下」現象
這是研究誠實必須帶到的一個附帶觀察。
A4f 模型有一個關鍵參數 θ₁,代表「VIX² 對長期波動率的影響幅度」。理想上,每季校準一次的 θ₁ 應該在不同期間都差不多,這代表參數可解釋、可信任。
把 IWM 全部 77 次校準後的 θ₁ 拉出分位數:
| 分位數 | P10 | P25 | P50 | P75 | P90 |
|---|---|---|---|---|---|
| θ₁ 值 | 1.66×10⁻⁷ | 2.32×10⁻⁷ | 2.52×10⁻⁷ | 2.77×10⁻⁷ | 1.67×10⁻⁵ |
可以看到:
- 核心 80%(P10 至 P90)的 θ₁ 大致只跨 1.87 個數量級 ——這跟 QQQ(1.91)幾乎一樣, 典型情況下參數很穩 。
- 但極端值會跳 :最大值能達到 4.6×10⁻⁴,比中位數高出將近 2000 倍,使得整體跨度達到 3.54 個數量級(接近台股 0050 的 ~4 個數量級)。
跳的時間點集中在 VIX > 40 的極端波動之後不久 ,例如 2008 H2、2020 Q2、2017 H2 等。經濟解釋是:當 VIX 飆出常態區間時,最佳化演算法會試圖用更大的 θ₁ 補償小型股報酬與 VIX 之間更鬆的對應關係。
對使用者的啟示 :QLIKE(平均預測準確度)和 θ₁ 穩定性(最壞情況下參數可解釋性)是兩個不同的指標,可能說不同的故事。 如果你的應用是價量風控、停損閾值、或長期會員授信 ,建議監控 θ₁ 的時間序列,而不是只看整體 QLIKE。一旦看到 θ₁ 突然跳兩個數量級,要把那一季的預測結果當成「過渡期」處理。

對讀者的實用 takeaway
如果你是:
- 拿這套方法做美股 ETF 風控的實務工作者 → IWM 也吃 VIX,用大盤 VIX 做驅動因子就夠,不必特別去找 RVX;但極端波動之後一兩季要監控 θ₁ 跳動。
- 正在研究跨市場波動率溢出的學界讀者 → 這個實驗給了一個 梯度證據 :訊號強度跟「資產 vs 驅動因子」的同源程度成正比,這個結構性結論值得在自己的論文裡引用。
- 拿 0050.TW 做研究但想引入 VIX 訊號的台灣讀者 → 直接套美股 VIX 沒用 ,需要找台股自己的 IV 指數(這也是這個系列研究後續方向之一)。
限制與後續方向
實事求是要把幾條限制寫清楚:
- 危機子期間樣本量不足 :四場危機個別的統計強度都低於嚴格門檻,整體 PASS 主要由「中期復甦段」貢獻。讀者不該過度宣稱「A4f 在金融海嘯期間有顯著統計效果」這種強主張。
- RVX 歷史只到 2021 年 :受限於 yfinance 公開資料,RVX 對比只能用 2007–2021 的靜態切分,不是完整滾動校準。要做更嚴謹的比較需要 CBOE 原始資料。
- 沒測 VIX 的其他形式 :實驗只用 VIX² 作為驅動因子,沒測 log-VIX、VIX 差分、或真正帶 MIDAS 低頻權重的 GARCH-MIDAS。這些變形可能對小型股的特異噪音有不同反應。
- 延伸方向 :把同樣的方法推到債券(IEF、TLT 配 MOVE)、國際小型股(EWU、SCZ)、或新興市場 ETF——這些是接下來要補上的格子。
資料來源
- 報酬與 VIX 資料 :yfinance(Yahoo Finance)公開 API;IWM 從 IPO 日 2000-05-26 起,VIX 從 1990 年起,皆採 Adj Close。
- RVX 資料 :yfinance(^RVX),可得期間 2004-01 至 2021-09。
- 方法論基礎 :
- Engle, Ghysels & Sohn (2013). Stock market volatility and macroeconomic fundamentals. Review of Economics and Statistics 95(3), 776–797.(GARCH-MIDAS 起源)
- Patton (2011). Volatility forecast comparison using imperfect volatility proxies. J. Econometrics 160, 246–256.(QLIKE 損失函數)
- Harvey, C.R., Liu, Y., and Zhu, H. (2016). ...and the Cross-Section of Expected Returns. Review of Financial Studies 29(1), 5–68.(金融實證多重假設檢定下建議的 t>3 嚴格門檻)
- 完整實驗檔 :
experiments/k1080/內k1080.py(程式)、k1080_results.json(全部數值結果)、README.md(方法論細節)、四張圖檔。 - 隨機種子 :42(固定),所有結果可由原始程式重現。
- 關聯實驗 :K1075(SPY 延伸樣本)、K1078(QQQ 延伸樣本)、K1077(0050.TW 失效案例)、K1079(VXN vs VIX 替換性)。
實驗代號 K1080 ,完整原始結果與程式碼可在 experiments/k1080/ 查閱。
相關文章
先讀正式關聯,若無則使用標籤與主題相似度補齊