研究2026/05/09 上午11:00

小型股波動率也吃 VIX 嗎？把美股大中小三檔 ETF 一起放上同一張尺

VIX波動率預測風險管理ETF小型股

讀者互動

已追蹤瀏覽 0 次，登入會員可按讚與收藏。

小型股波動率也吃 VIX 嗎？把美股大中小三檔 ETF 一起放上同一張尺

一句話結論

把同一個「VIX 加上 GARCH」的波動率模型套到 SPY（大型股）、QQQ（科技股）、IWM（小型股）三檔美股 ETF 上， 結論很一致：模型對三者都比純 GARCH 的基準有可衡量的改善 ；但效果強度從大型股一路衰減到小型股，而且小型股的模型參數在極端時候會「跳一下」，這是讀者拿這套方法去做風控時，必須知道的一個附帶條件。

換句話說： 「VIX 對大型股最靈、對小型股還是有用、但對非美股（例如台股 0050）就會失效。」

為什麼研究 IWM？這個故事缺哪一塊？

過去幾個月在這個系列研究裡，我們陸續做了幾件事：

SPY （大型股代表，K1075）：用一個叫做 A4f 的 GARCH-MIDAS 變體模型，加上 VIX 平方作為長期波動率的解釋變數，得到非常清楚的改善訊號。
QQQ （Nasdaq-100，科技股代表，K1078）：同一套方法，效果次之但仍明顯。
0050.TW （台灣 50 ETF，K1077）：套用 VIX 作為驅動因子完全沒效果，模型反而比基準稍差，也合理，畢竟 VIX 本來就是 S&P 500 的隱含波動率指數，跟台股的對應度有限。

這串研究中間明顯缺了一塊—— 美股小型股 。直觀上小型股有幾個與大型股不同的特徵：

特異風險（idiosyncratic risk）較高 ：個股事件對指數的擾動較大，相對「乾淨」的市場 beta 訊號就被稀釋。
流動性較差 ：尤其在尾端（極端日子）的成交量薄。
年化波動率約 22% ，比 SPY 的 16% 高出一截。
本身有專屬隱含波動率指數 RVX（Russell 2000 VIX） ，理論上比 VIX 更貼近自身。

如果模型在 IWM 上仍然有效，我們可以說「美股大中小三檔 ETF 都吃這套」；如果失效，那這套方法就只能宣稱對大型股、科技股有用。 這個實驗（K1080）就是在補這一塊 。

怎麼做？方法論一句話版

把 IWM 從 2000 年 5 月（IPO 日）到 2026 年 4 月的全部日報酬資料拿來，依時間切成三段不重疊的「樣本外測試窗」（2007 起、2013 起、2019 起），每隔 63 個交易日（約一季）用過去 2000 天的資料重新校準一次模型，然後用校準後的參數對下一季每天做「下一日波動率預測」。

兩個比較對象：

基準：標準 GJR-GARCH(1,1)，只用 IWM 自己的歷史報酬。
A4f ：在 GJR 之外，把 VIX² 的前一日數值（VIX²_{t-1}， 前一日 很重要，這保證模型只用「真的能在當下用到的資訊」，沒有偷看未來）作為長期波動率的解釋變數。

評估指標用 QLIKE （Patton 2011 提出的標準波動率損失函數，對波動率預測偏誤特別敏感），並用 嚴格統計檢驗門檻 （要求 統計強度 通過統計強度>3 的 Harvey, Liu, and Zhu (2016) 嚴格門檻）來判定差異是否具備統計意義。

資料來源說明 ：IWM 報酬與 VIX 收盤價皆取自 yfinance；隨機種子固定為 42；訊號使用 t-1 期 VIX²（程式碼明示 vol_lag 偏移），無前視（look-ahead）汙染。

結果一：整體上 A4f 確實改善了 IWM 的波動率預測

主要的數字一次看完（樣本外 2007–2026，n = 4848 個交易日）：

模型	QLIKE（越負越好）
GJR 基準	−7.6967
A4f（加 VIX² 長期項）	−7.7259
改善幅度	−0.38%

兩模型比較的 統計強度為 +4.80 ，遠高於統計強度>3 的嚴格門檻；以重抽樣方法產生的 95% 信賴區間也不包含 0，意即 這個改善在統計上是穩固的，不是巧合 。

把細部窗格拆開看，三個樣本外窗都顯示 A4f 比 GJR 稍好（差值都是負的，越負代表改善越多）：

樣本外窗	期間	樣本數	QLIKE 改善	統計強度
早期危機段	2007–2012	1510	−0.15%	+1.18（未達門檻）
中期復甦段	2013–2018	1510	−0.56%	+5.01（達顯著水準）
後期含 COVID	2019–2026	1828	−0.40%	+2.56（接近但未達）

可以看到： 整體 PASS 主要靠 2013–2018 那段乾淨的多頭環境 。Early Crisis 與 Late COVID 段方向是對的（都改善），但統計強度都沒過嚴格門檻。

這也是研究誠實該強調的地方：「整體 PASS」並不等於「每個子期間都 PASS」。讀者拿這套方法去回測一段特定環境（例如只用 2008 GFC 那兩年），改善幅度會比上面整體數字小很多。

四檔資產 A4f 改善幅度比較

結果二：危機期間 A4f 沒有崩掉，但也沒有特別出色

很多人會關心：當 VIX 飆到 40、60 以上的時候，這個基於 VIX 的模型會不會反而失靈？

把全段 OOS 樣本依 VIX 收盤價分桶看 QLIKE 改善幅度：

VIX 區間	樣本數	QLIKE 改善
低（VIX 0–15）	1545	−0.32%
正常（15–25）	2421	−0.30%
偏高（25–40）	703	−0.55%
極端（40–60）	141	−2.34%
危機（60+）	38	−0.68%

訊息是： VIX 越高，改善幅度的方向不變，甚至在 40–60 區間改善幅度最大 （達 2.3%）。這表示模型沒有在尾端崩掉，這也是這套方法可以拿來做下行風險管理的一個必要條件。

不過要注意，樣本數越往尾端越少（VIX 60+ 只有 38 個交易日），統計強度也跟著下降， 該區間的改善只是「方向對」、不能誇成「強烈證據」 。

把幾個歷史危機個別拉出來看：

危機	期間	樣本數	QLIKE 改善	統計強度
全球金融海嘯	2008–2009	505	−0.34%	+2.24
歐債危機	2011–2012	274	−0.24%	+1.25
COVID 崩盤	2020 H1	104	−1.57%	+0.93
2022 年熊市	2022 全年	251	−0.26%	+1.19

四場危機方向都對（A4f 比 GJR 好），但統計強度全部低於嚴格門檻，這是 樣本量不足造成的天然限制 ，不是模型本身的問題。COVID 的 104 個交易日太短，要在這個樣本量上得到統計上強的差異本來就難。

危機期間表現比較

結果三：四檔 ETF 一起看，效果有梯度

這個實驗最重要的「故事性結論」其實是把它放回原本的研究脈絡。把已經跑過的 SPY / QQQ / 0050.TW 加上現在的 IWM 並排：

資產	規模屬性	全 OOS 統計強度	改善幅度	是否達顯著水準
SPY（K1075）	美股大型	+7.92	−0.89%	是
QQQ（K1078）	美股科技	+5.99	−0.59%	是
IWM（K1080）	美股小型	+4.80	−0.38%	是
0050.TW（K1077）	台灣 ETF	−0.49	+0.33%	否

統計強度從大到小：SPY > QQQ > IWM > 0050.TW，呈單調遞減。 這個排序非常符合直覺：

SPY 改善最大 ：VIX 本來就是 S&P 500 的隱含波動率指數，「同源」訊號最強。
QQQ 次之 ：科技股集中度高，個股事件影響大，VIX 訊號被特異風險稀釋一點。
IWM 第三 ：小型股的特異風險與流動性問題更顯著，VIX 訊號進一步衰減。
0050.TW 失效 ：跨市場（VIX 屬美股、0050 屬台股），驅動因子和被預測對象不同源，模型失去著力點。

也就是說，VIX 這個訊號的「適用半徑」是有形狀的： 離 VIX 自己的母體越近，效果越強 。這給未來研究一個明確指引：要把同類方法推到台股，需要找到台股自身的隱含波動率指標（例如 VIX-Taiwan 或自編 IV 指數），而不是硬套美股 VIX。

結果四：用 RVX 取代 VIX 對 IWM 沒有差別

研究還順帶測了一個常被問到的問題：既然 IWM 自己有專屬的 RVX（Russell 2000 VIX），是不是用 RVX 比用 VIX 更好？

在共同可得的 2007–2021 樣本上比較：

模型	QLIKE
A4f-VIX	−8.0612
A4f-RVX	−8.0614
差距	−0.002%（基本上是 0）

兩者的比較統計強度只有 0.04，意義是 用 VIX 和用 RVX 對 IWM 的波動率預測完全沒有可區辨的差別 。

這個結論呼應了之前在 QQQ 上做的 VXN vs VIX 比較（K1079），美股的隱含波動率家族（VIX / VXN / RVX）在預測短期實際波動率時是 高度可替換的 。如果論文或文章要描述這套方法， 一句「用 VIX 即可」 就夠了，不需要為每個資產去找專屬 IV 指數。

注意事項：小型股的「θ₁ 跳一下」現象

這是研究誠實必須帶到的一個附帶觀察。

A4f 模型有一個關鍵參數 θ₁，代表「VIX² 對長期波動率的影響幅度」。理想上，每季校準一次的 θ₁ 應該在不同期間都差不多，這代表參數可解釋、可信任。

把 IWM 全部 77 次校準後的 θ₁ 拉出分位數：

分位數	P10	P25	P50	P75	P90
θ₁ 值	1.66×10⁻⁷	2.32×10⁻⁷	2.52×10⁻⁷	2.77×10⁻⁷	1.67×10⁻⁵

可以看到：

核心 80%（P10 至 P90）的 θ₁ 大致只跨 1.87 個數量級 ——這跟 QQQ（1.91）幾乎一樣， 典型情況下參數很穩 。
但極端值會跳 ：最大值能達到 4.6×10⁻⁴，比中位數高出將近 2000 倍，使得整體跨度達到 3.54 個數量級（接近台股 0050 的 ~4 個數量級）。

跳的時間點集中在 VIX > 40 的極端波動之後不久 ，例如 2008 H2、2020 Q2、2017 H2 等。經濟解釋是：當 VIX 飆出常態區間時，最佳化演算法會試圖用更大的 θ₁ 補償小型股報酬與 VIX 之間更鬆的對應關係。

對使用者的啟示 ：QLIKE（平均預測準確度）和 θ₁ 穩定性（最壞情況下參數可解釋性）是兩個不同的指標，可能說不同的故事。 如果你的應用是價量風控、停損閾值、或長期會員授信 ，建議監控 θ₁ 的時間序列，而不是只看整體 QLIKE。一旦看到 θ₁ 突然跳兩個數量級，要把那一季的預測結果當成「過渡期」處理。

θ₁ 跨期演化

對讀者的實用 takeaway

如果你是：

拿這套方法做美股 ETF 風控的實務工作者 → IWM 也吃 VIX，用大盤 VIX 做驅動因子就夠，不必特別去找 RVX；但極端波動之後一兩季要監控 θ₁ 跳動。
正在研究跨市場波動率溢出的學界讀者 → 這個實驗給了一個 梯度證據 ：訊號強度跟「資產 vs 驅動因子」的同源程度成正比，這個結構性結論值得在自己的論文裡引用。
拿 0050.TW 做研究但想引入 VIX 訊號的台灣讀者 → 直接套美股 VIX 沒用 ，需要找台股自己的 IV 指數（這也是這個系列研究後續方向之一）。

限制與後續方向

實事求是要把幾條限制寫清楚：

危機子期間樣本量不足 ：四場危機個別的統計強度都低於嚴格門檻，整體 PASS 主要由「中期復甦段」貢獻。讀者不該過度宣稱「A4f 在金融海嘯期間有顯著統計效果」這種強主張。
RVX 歷史只到 2021 年 ：受限於 yfinance 公開資料，RVX 對比只能用 2007–2021 的靜態切分，不是完整滾動校準。要做更嚴謹的比較需要 CBOE 原始資料。
沒測 VIX 的其他形式 ：實驗只用 VIX² 作為驅動因子，沒測 log-VIX、VIX 差分、或真正帶 MIDAS 低頻權重的 GARCH-MIDAS。這些變形可能對小型股的特異噪音有不同反應。
延伸方向 ：把同樣的方法推到債券（IEF、TLT 配 MOVE）、國際小型股（EWU、SCZ）、或新興市場 ETF——這些是接下來要補上的格子。

資料來源

報酬與 VIX 資料 ：yfinance（Yahoo Finance）公開 API；IWM 從 IPO 日 2000-05-26 起，VIX 從 1990 年起，皆採 Adj Close。
RVX 資料 ：yfinance（^RVX），可得期間 2004-01 至 2021-09。
方法論基礎 ：
- Engle, Ghysels & Sohn (2013). Stock market volatility and macroeconomic fundamentals. Review of Economics and Statistics 95(3), 776–797.（GARCH-MIDAS 起源）
- Patton (2011). Volatility forecast comparison using imperfect volatility proxies. J. Econometrics 160, 246–256.（QLIKE 損失函數）
- Harvey, C.R., Liu, Y., and Zhu, H. (2016). ...and the Cross-Section of Expected Returns. Review of Financial Studies 29(1), 5–68.（金融實證多重假設檢定下建議的 t>3 嚴格門檻）
完整實驗檔 ：experiments/k1080/ 內 k1080.py（程式）、k1080_results.json（全部數值結果）、README.md（方法論細節）、四張圖檔。
隨機種子 ：42（固定），所有結果可由原始程式重現。
關聯實驗 ：K1075（SPY 延伸樣本）、K1078（QQQ 延伸樣本）、K1077（0050.TW 失效案例）、K1079（VXN vs VIX 替換性）。