← 研究動態
研究2026/03/26 下午04:03

K433 vs K461: 同一方法,不同市場——SSVS 揭示美股與台股的本質差異

0050.TWSPYlead-lag台股SSVS陳婉淑Bayesian

讀者互動

已追蹤瀏覽 0 次,登入會員可按讚與收藏。

分享到:LINEFacebookX / Twitter

[提出: 用戶(台股+陳婉淑方法), 執行: Claude]

K433 vs K461:同一方法,不同市場——SSVS 揭示美股與台股的本質差異

 實驗類型 :實證分析(真實數據)| 數據來源 :yfinance(SPY、0050.TW、^VIX、TWD=X)| 方法 :Bayesian SSVS(So, Chen, Liu 2006, JRSS-C


背景:一個方法,兩個市場

波動率預測最核心的問題之一是: 外生變數究竟有沒有用? 

問「有沒有用」的難度遠超表面。若逐一測試每個候選變數,會遭遇多重比較問題;若全部放入模型,估計精度又大幅下降。更本質的問題是:當我們手上有 19 個候選預測變數、對應 2^19 = 524,288 種可能的變數組合時,該如何系統性地從中找出最優子集?

1980 年代以來,Bayesian 學派發展出一套優雅的解法—— 隨機搜尋變數選擇(Stochastic Search Variable Selection,SSVS) 。So、Chen 與 Liu 於 2006 年在 Applied Statistics(JRSS-C)將此方法引入 GARCH 框架,台灣學者陳婉淑(Chen Wan-Shu)的後續研究則將 SSVS 應用於台股波動率分析。

本研究用同一套方法論,分別對  SPY(美股)  和  0050.TW(台股)  進行 SSVS 實驗(實驗編號 K433 與 K461),結果呈現出令人驚異的對比,不只是答案不同,而是兩個市場的 資訊結構 截然不同。


SSVS 方法論快覽

SSVS 的核心想法是:對每個候選變數 $x_k$,引入一個潛在 binary 指示變數 $\gamma_k \in {0, 1}$,決定該變數「是否被納入模型」。

\phi_k \mid $\gamma_k$ \sim \begin{cases} N(0, c^2 $\tau_k^2$) & \text{if } $\gamma_k$ = 1 \text{(寬先驗,允許非零)} \ N(0, $\tau_k^2$) & \text{if } $\gamma_k$ = 0 \text{(窄先驗,強制趨零)} \end{cases}

透過 MCMC(Metropolis-within-Gibbs 採樣),演算法在每次迭代時對所有 $2^p$ 個子集空間進行機率加權搜索。最終的「後驗納入機率(Posterior Inclusion Probability,PIP)」衡量每個變數在整個 MCMC 樣本中被選中的頻率——PIP > 0.5 意味著在超過一半的後驗樣本中,貝葉斯模型認為該變數應被納入。

 K433(SPY)設定 :19 個候選變數(VIX level × 2 lags、VIX change × 2 lags、成交量驚奇 × 2 lags、5 日動能 × 2 lags、TLT 報酬 × 2 lags、GLD 報酬 × 2 lags、HYG 報酬 × 2 lags、AR(1-3));訓練期 2388 天,測試期 598 天;MCMC 20,000 次疊代(burn-in 5,000)。

 K461(0050.TW)設定 :17 個候選變數(SPY 報酬 × 2 lags、VIX level × 2 lags、VIX change × 2 lags、SPY 動能 × 2 lags、成交量驚奇 × 2 lags、台幣匯率變化 × 2 lags、SPY 隔夜報酬 × 2 lags、AR(1-3));訓練期 3,429 天,測試期 775 天;MCMC 30,000 次疊代(burn-in 5,000)。


K433:SPY 的結果,空模型後驗機率最高

K433 的 MCMC 結果清晰而直接。

候選變數PIP
AR(1) 0.243 (最高外生 PIP)
VIX_chg(L2)0.242
VIX level(L1/L2)0.089 / 0.089
TLT、GLD、HYG0.120–0.173
其餘所有變數< 0.20

 後驗機率最高的模型是空模型(零個外生變數),後驗機率 4.92% 。排名第二是只含 AR(1) 的模型(1.64%),排名第三是只含 VIX_chg(L2) 的模型(1.56%)。GARCH persistence = 0.9676,顯示 SPY 的波動率幾乎完全由自身的慣性決定。

KItchen Sink(全放入)模型的樣本外 QLIKE 僅改善 0.12%(DM 統計量 0.258,p=0.796,完全不顯著)。SSVS 中間機率模型則與 Baseline GARCH 的 QLIKE 完全相同(因選中的變數組合為空集合)。

 結論:在 2^19 = 524,288 種子集空間中,貝葉斯搜索確認沒有任何外生變數組合能改善 SPY 波動率預測。這是迄今最強的 null result——不是逐一測試,而是同時搜尋所有可能組合。 


K461:0050.TW 的結果——SPY_ret_L1 PIP=1.000

台股的結果與美股形成鮮明對比。

候選變數PIP
 SPY_ret_L1  1.000 
AR(1)0.999
AR(2)0.979
VIX_change_L20.881
VIX_level_L20.801
SPY overnight_L10.800
VIX_level_L10.760
SPY_mom5_L10.937
SPY_ret_L20.672

 SPY_ret_L1 的 PIP 達到 1.000 ——在整個 25,000 個後驗樣本中,幾乎從未被排除。OLS 係數 $\beta$ = 0.348,t = 10.81,高度顯著。這確認了美股前一日報酬是台股報酬最強的外生預測因子,對應的正是廣為人知的「美股隔夜效應」。

高 PIP 集中的變數群(PIP > 0.7):AR(1)、AR(2)、SPY return(兩期)、VIX level(兩期)、SPY momentum、SPY overnight。這表明貝葉斯模型認為台股的均值方程應包含多個美股相關變數。


但問題來了:QLIKE 為什麼不改善?

SSVS 選出了豐富的外生變數,邏輯上預測效果應該更好。然而樣本外 QLIKE 的結果:

模型QLIKE相對 Empty 改善
Empty(空模型)1.52840.00%
 AR-only  1.5258  +0.17% 
SSVS Median1.5552 -1.75% (更差!)
SPY-only1.5562-1.82%(更差!)
Top-Freq1.5554-1.77%(更差!)

DM 檢定:所有 SSVS 模型 vs Empty,winner 均為 Empty(SSVS Median p=0.105,SPY-only p=0.067,均不顯著,但方向是 Empty 更好)。

 SSVS 選出來的變數真實存在,但對波動率預測沒有幫助。  這個「矛盾」如何解釋?


核心機制:Mean ≠ Variance

答案在 GARCH 模型的結構中。

標準 ARX-GARCH 的均值方程是: r_t = $\mu$ + \sum_k \phi_k x_{k,t-1} + $\epsilon_t$, \quad $\epsilon_t$ = $\sigma_t$ z_t

方差方程是: $\sigma_t^2$ = $\omega$ + $\alpha$ $\epsilon_{t$-1}^2 + $\beta$ $\sigma_{t$-1}^2

SSVS 選出的是均值方程的變數($\phi_k$),而 GARCH 預測的核心是 方差方程 ($\sigma_t^2$)。SPY_ret_L1 對 0050.TW 的 return 具有強大的線性預測力(t=10.81),但這個資訊傳遞到 conditional variance 的路徑是間接的,只有當 SPY_ret 改變了 $\epsilon_t$ 的分布特性,才會影響 $\sigma_{t+1}^2$。

0050.TW 的 GARCH persistence = 0.942,表示波動率幾乎完全由自身歷史決定。在這種高持續性的情況下,均值方程的外生信息對方差的增量貢獻極為有限。

這揭示了一個更深層的方法論問題: SSVS 作為均值方程的變數選擇工具,在高 persistence 的 GARCH 框架下,對波動率預測的改善空間天花板極低。  要真正利用 US→Taiwan 的信息流,需要直接將外生變數引入方差方程(如 GARCH-X 規格),或採用可以捕捉均值-方差聯動的模型。


兩個市場的對比總結

K433(SPY)K461(0050.TW)
最高 PIP 外生變數AR(1) = 0.243SPY_ret_L1 = 1.000
後驗最優模型空模型(p=4.9%)17 個變數全選(median model)
SSVS 選擇意涵外生變數冗餘美股信號真實
樣本外 QLIKE 改善0%(空模型等同基準)-1.75%(SSVS 反而更差!)
GARCH persistence0.9680.942
解讀SPY 是全球市場的中心,自身即充分統計量台股受美股強烈驅動,但驅動的是 return,不是 vol

方法論意涵:「選到」不等於「預測到」

本實驗最重要的貢獻,是釐清了一個常見的概念混淆: 變數選擇(Variable Selection)和預測改善(Forecast Improvement)是兩個不同的問題。 

SSVS 在 0050.TW 上成功識別出 SPY_ret 是均值方程的關鍵變數,這個結果是真實的、robust 的。但「解釋 return」和「預測波動率」走的是不同的通道。GARCH 的方差方程有自己的自驅動邏輯,外生的均值信息只有在特定條件下才會溢出到方差。

對台股波動率預測的後續方向因此更加明確:

  1.  GARCH-X :直接將 VIX、SPY realized vol 等帶入方差方程
  2.  realized volatility 模型(HAR-X) :用日內數據直接測量 rv,再以美股 rv 為外生因子
  3.  聯合 mean-variance 模型 :允許 SPY_ret 同時影響均值和方差

So, Chen, Liu(2006)的 SSVS 方法是嚴謹的工具,應用到台股也得到了正確的答案,只是這個答案告訴我們的,是均值方程的信息結構,而不是波動率預測的可改善空間。


局限性

  1. SSVS 採用兩階段(先估 GARCH,再用殘差做均值方程選擇),可能遺漏均值-方差的交互效應
  2. 台股 OOS 期 T=775 天(2023-2026),涵蓋後疫情市場結構,可能不代表更長期行為
  3. SPY 實驗候選變數包含 HYG/GLD/TLT,台股實驗則以美股相關變數為主,候選集不完全對稱
  4. K433 的 MCMC 存在 NaN DM 統計量(SSVS 與基準完全相同),顯示選中集合為空集,非估計誤差

實驗腳本experiments/k433_ssvs_garch.py(SPY)、experiments/k461_ssvs_taiwan.py(0050.TW)
結果存檔experiments/k433_ssvs_garch_results.jsonexperiments/k461_ssvs_taiwan_results.json
方法來源:So, M.K.P., Chen, C.W.S., Liu, F. (2006). Best subset selection of autoregressive models with exogenous variables and generalized autoregressive conditional heteroscedasticity errors. Applied Statistics (JRSS-C), 55(2), 201–224.

相關文章

先讀正式關聯,若無則使用標籤與主題相似度補齊