← 研究動態
研究2026/05/08 下午11:00

把美國 VIX 套到日本股市行得通嗎?N225 與 EWJ 的雙重答案

VIX跨市場風險管理日股模型驗證

讀者互動

已追蹤瀏覽 0 次,登入會員可按讚與收藏。

分享到:LINEFacebookX / Twitter

把美國 VIX 套到日本股市行得通嗎?N225 與 EWJ 的雙重答案

一句話結論

我們把過去在 SPY 與歐洲股指都奏效的「A4f-VIX」波動率模型搬到日本股市測試,結果在嚴格統計檢驗下 並未複製成功 :日經指數(N225)幾乎沒有改善,在美國掛牌的日本 ETF(EWJ)只看到邊際效果,兩個跨市場 specifications 都沒過 嚴格統計 多重檢定門檻、機制不明。但有一個意外觀察—— 即使預測精度沒顯著進步,加入 VIX 後 VaR 風險邊界的覆蓋率明顯改善 ,這對風險控管者反而是個值得參考的訊號。

 [2026-05-09 Errata 摘要]  本文於 2026-05-08 發佈後,經 Codex 24h-rule audit 找出 lag 結構描述與識別敘事的錯誤,於 2026-05-09 校正:(1) EWJ vix_lag=0 是 config,但 forecast 端仍使用 fear[t-1];(2) N225 經 shift(1) + ffill + t-1 chain,遇美日假日會用更舊的 VIX;(3) N225 vs EWJ 樣本起訖日不同(n_oos 1771 vs 1827),不構成乾淨自然實驗,原「歸因於 VIX 訊號新鮮度」結論已弱化;(4) DM 統計強度補回正負號;(5) 期間改為實際對齊樣本起訖;(6) 高 VIX regime 改寫為「方向一致但 DM 未過 嚴格統計 門檻」;(7) ES backtest 改寫為「未拒絕」而非「沒有極端高估」;(8) 高 VIX 樣本數區分 N225=145 / EWJ=149。詳細 diff 紀錄於 errata.update_history

為什麼要做這個實驗(K1032)

過去半年我們驗證過一個叫做 A4f 的「乘法型 GARCH-X」模型,它把波動率拆成「短期 GARCH 殘餘」乘上「長期外生因子」,外生因子用美國 VIX 平方來代表市場恐慌。在以下市場它都通過嚴格統計門檻:

市場A4f-VIX 統計強度是否達顯著水準
SPY(美股大盤)+4.48
STOXX50E(歐股指數)-3.64
FEZ(歐股 ETF)-3.45

那日本呢?日本是一個非常有趣的測試場:

  •  美日領先落後關係明顯 :美股先收,日股隔天才開盤反應
  •  沒有官方日經 VIX (VNKY 不在 yfinance 上)
  •  槓桿效應比美股弱 :壞消息對日股波動的拉抬不像美股那麼強
  •  交易時段不重疊 :09:00–15:00 JST,美國盤已經結束 12 小時以上

我們同時測兩個資產來分離「時差」與「市場本質」效應的可能性:

  •  ^N225 :日經指數現貨,東京時段交易,VIX series 先 shift(1) 再 reindex 至日股 calendar 並 ffill,forecast 端再取 fear[t-1]。實際使用值在週末或美日假日時會比「前一天 US close」更舊。
  •  EWJ :美國掛牌的日本 ETF,config 裡 vix_lag=0(VIX 與資產同一個 US 交易日),   A4f forecast 端依然用 fear[t-1] 預測 t 期回報,並沒有「同步」到 t 期 VIX。

由於兩者 forecast 端 lag 結構不完全是「lag=0 vs lag=1」的乾淨對比,我們最多只能說「N225 lag chain 平均上比 EWJ 更舊」,但不是教科書級的自然實驗。

三個模型在比什麼

  •  GJR-t :純 GARCH 基準(不加任何外生變數),抓波動率聚集 + 槓桿效應
  •  A4f-VIX-t :在 GJR 上乘一層由 VIX 平方驅動的「長期波動水位」
  •  A4f-RV20-t :把外生變數換成資產自己的 20 日已實現波動率(local fear proxy,因為日本 VIX 取不到)

樣本(實際對齊後):N225 為 2005-02-02 至 2026-04-09(n_oos = 1771),EWJ 為 2005-02-01 至 2026-04-09(n_oos = 1827)。OOS 從 2019 開始,滾動視窗 2000 天,每 63 天重估一次,學生 t 自由度固定 8,隨機種子 42。所有訊號都用 t-1 資料預測 t 期回報,沒有未來偷看。 注意兩個資產樣本起點不同 (差一天起算 + 行事曆對齊差異),因此跨資產比較不是同樣本對照。

結果一:N225 — A4f-VIX 完全沒效果

QLIKE 比較圖

模型QLIKE比 GJR 改善比較檢定達顯著水準?
GJR-t(基準)1.5223
A4f-VIX-t1.5267 -0.29%(變差) DM = +0.34
A4f-RV20-t1.5192+0.21%DM = -0.88

QLIKE 數值越小越好。N225 的結論很乾脆: 美國 VIX 加進來不但沒幫助,反而讓 QLIKE 略為惡化 。換成資產自己的 RV20 也只是名義上微幅改善,沒有任何統計強度可以支撐這是真效應。

從 lag chain 結構看,N225 forecast 用的 fear[t-1] 是經過「美股交易日 shift(1) → reindex 到日股交易日(ffill 補假日) → 再取 t-1」三段對齊得到的值。這意味著週末或美日假日相鄰時,模型實際讀到的 VIX 可能是 2-3 個交易日前的。再加上日股開盤前已透過期貨等管道部分消化美股訊息,等正式開盤後再丟一個更舊的 VIX 進模型,邊際資訊已被稀釋。

結果二:EWJ — 邊際改善,但仍未通過嚴格檢定

模型QLIKE比 GJR 改善比較檢定達顯著水準?
GJR-t(基準)1.4501
A4f-VIX-t1.4184 +2.18% DM = -2.3366否(邊際)
A4f-RV20-t1.4510-0.06%DM = +0.69

EWJ 因為在美股盤交易,config 上 vix_lag=0(VIX 與 EWJ 同一 US 交易日), A4f-VIX 顯示 2.2% 的 QLIKE 改善與 DM = -2.3366 ——比 N225 強很多,但仍未通過我們設定的嚴格 嚴格統計 多重檢定門檻(一般至少要 統計強度 ≥ 3.0)。負號代表 A4f-VIX 的 QLIKE 平均誤差小於 GJR,方向是有利的。

為什麼 N225 與 EWJ 對 VIX 的反應差這麼多?

N225(DM = +0.34)與 EWJ(DM = -2.34)對美國 VIX 的反應有明顯差距,但 兩個模型都沒通過 嚴格統計 門檻 ,且樣本不完全相同(n_oos 1771 vs 1827、起訖日差一天 + 行事曆對齊差異),這不構成教科書意義的乾淨自然實驗。可能的混雜解釋包括:

  •  Lag chain 老化 :N225 forecast 端 VIX 經過 shift(1) + ffill + t-1 三段對齊,遇假日更舊
  •  市場結構差異 :EWJ 是美股盤 ETF,受 US flow 與美股盤情緒直接影響;N225 是日本盤現貨,過夜後已部分消化美股訊息
  •  追蹤誤差 :EWJ vs N225 並非完全等價(ETF 追蹤誤差、個股權重)
  •  樣本起點差異 :n_oos 差 56 天,可能涵蓋不同 regime 比例

機制不明, 目前的結論是「兩個跨市場 specifications 都未能複製成功」 ,不能直接歸因於 VIX 訊號新鮮度單一因素。

結果三:意外發現——VaR 風險邊界明顯改善

雖然 QLIKE 沒過顯著水準,但風險管理常用的 VaR(Value-at-Risk)測試卻給出完全不同的故事。

VaR/ES 評分卡 N225

 N225: 

風險測試GJR 基準A4f-VIXA4f-RV20
VaR 2.5% 不通過 (違反率 3.56%)通過(2.77%)通過(3.16%)
VaR 1% 不通過 (違反率 1.52%)通過(1.41%)通過(1.47%)
ES 2.5%未拒絕未拒絕未拒絕
ES 1%未拒絕未拒絕未拒絕

VaR/ES 評分卡 EWJ

 EWJ: 

風險測試GJR 基準A4f-VIXA4f-RV20
VaR 2.5% 不通過 (違反率 3.72%)通過(2.90%) 不通過 (3.72%)
VaR 1% 不通過 (違反率 1.64%)通過(1.37%) 不通過 (1.64%)
ES 2.5%未拒絕未拒絕未拒絕
ES 1%未拒絕未拒絕未拒絕

GJR 基準在兩個資產的 VaR 測試上都是 0/4 通過,也就是它 長期低估了極端虧損的頻率 。A4f-VIX 在兩個資產都是 4/4 通過。這是這次實驗最有實務價值的觀察: 即使「平均預測精度」沒有統計顯著進步,極端風險邊界的校準明顯變好 。

對風險控管者而言,這個訊號的意義不亞於 QLIKE 改善,因為 VaR 真正會被用來決定保證金、限額與停損點,而不是用來打分數。

結果四:高 VIX 區間 QLIKE 較好,但 DM 仍未過 嚴格統計 門檻

VIX 區間樣本數(N225 / EWJ)N225 GJRN225 A4f-VIXN225 DMEWJ GJREWJ A4f-VIXEWJ DM
低(<20)1077 / --1.5611.558-0.221.3401.324--
中(20–30)549 / --1.4891.523+1.121.6581.626--
高(>30) 145 / 149 1.360 1.306  -1.04 1.471 1.326  -1.52 

A4f-VIX 在「高 VIX 區間」(>30,市場恐慌期)對兩個資產的 QLIKE 都顯示出最大的改善幅度,方向也一致;這與我們在歐洲市場(K1030)的觀察方向相同。 但是 :N225 高 VIX DM = -1.04,EWJ 高 VIX DM = -1.52, 兩者都沒有通過 嚴格統計 多重檢定門檻 (統計強度 ≥ 3.0)。也就是「高 VIX 區間 A4f-VIX QLIKE 較好」是描述性觀察, 不能做機制性結論 ——sample 太小(N225=145, EWJ=149),統計強度被稀釋。

跨市場 A4f 成績單

把 K988(SPY)、K1030(歐洲)、K1032(日本)合在一起看:

市場A4f-VIX 比較強度 (DM)達顯著水準?VaR 改善?
SPY(K988)+4.48
STOXX50E(K1030)-3.64
FEZ(K1030)-3.45
EWJ(K1032)-2.34否(邊際)
 N225(K1032)  +0.34    部分 

排序上 A4f-VIX 對「美股盤交易或美股強連動」的市場較有效。但因 N225 vs EWJ 不是同樣本對照、且兩個跨市場 specifications 都沒過 嚴格統計 門檻, 機制(同步 vs 失鮮、市場結構、追蹤誤差)混雜不明 ,需要日本本土 implied vol 才能更乾淨切分。

給散戶與投資組合經理的實務建議

 1. 不要直接複製其他市場的「冠軍模型」到日股 

如果你做的是 N225 期貨或日股 ETF,把美國市場跑出來的 A4f-VIX 配置直接搬過來,模型會看起來「沒壞」(QLIKE 數字接近基準),但它其實沒提供額外資訊。多花的計算成本與外生資料維護成本沒有實質回報。

 2. 想用 VIX 抓日股風險,EWJ 在訊號層面比 N225 期貨乾淨些 

EWJ 在美股盤交易,VIX lag chain 較短;N225 則必須面對 16 小時時差 + shift+ffill 對齊衍生的訊號失鮮問題。但要強調:兩者 A4f-VIX 都沒過 嚴格統計 門檻,這個差距本身的統計強度是不夠的。

 3. VaR 邊界的改善值得單獨利用 

即使 QLIKE 沒贏,A4f-VIX 在 VaR 校準上 4/4 通過 vs GJR 0/4 通過,這個差距夠大,足以改變風險預算配置決策。如果你目前用單純 GJR 算保證金或 stop-loss 距離, 很可能在尾部低估風險 。把 VIX 加進尾部風險模型(即使不改 mean forecast),對投組保護是值得的。

 4. 高 VIX 環境(>30)QLIKE 方向有利,但統計強度不足 

把 A4f-VIX 當「平時備而不用、極端期才上工」的補強工具,是合理的工程取捨;但要記得樣本只有 145–149 天,DM 在兩個資產都沒過 嚴格統計 門檻,不能宣稱機制已驗證。

 5. 別用「自己的歷史波動率」取代恐慌指數 

我們把 VIX 換成資產自己的 RV20(20 日已實現波動率),結果在兩個資產都接近 0 改善。Implied vol 反映的是「市場對未來的擔心」,realized vol 反映的是「過去發生的震盪」,兩者不是替代關係。日本沒有可用的官方 VIX,這是日股波動率建模一個結構性缺口。

限制與說明

  •  日本 VIX 取不到 :只測了美國 VIX 與 RV20 兩種代理,沒有日本本土 implied vol
  •  行事曆對齊 :日本假日對齊用 shift(1) + reindex + ffill,遇美日假日時實際使用值會比「前一天 US close」更舊
  •  EWJ vs N225 不是同樣本對照 :n_oos 1771 vs 1827,起訖日差一天 + 行事曆對齊差異
  •  COVID-19 期間 :高 VIX 樣本可能被 2020 春季放大
  •  EWJ 與 N225 不完全等價 :ETF 有追蹤誤差,個股權重差異
  •  風險邊界改善的解讀 :A4f-VIX 在 VaR 校準上的改善源自 conditional vol 水位平均拉高 + 對 VIX² 反應;ES backtest 在四個 (asset × level) cell 都未拒絕,但這只代表沒被該檢定否決, 不能正向宣稱「沒有極端高估」 

資料來源

  • yfinance: ^N225(日經指數)、EWJ(iShares MSCI Japan ETF)、^VIX
  • 樣本期(實際對齊):N225 2005-02-02 至 2026-04-09 / EWJ 2005-02-01 至 2026-04-09
  • 樣本外起點:2019-01-01
  • 程式碼與完整結果:experiments/k1032/

參考實驗

  •  K988 / K1000 :A4f 在 SPY 的原始驗證(達顯著水準,比較強度 +4.48)
  •  K1030 :A4f 在歐股 STOXX50E / FEZ 的擴展(兩者都達顯著水準)
  •  K994 :跨資產 A4f 健全性測試(QQQ 通過,其他在美國 VIX 下不顯著)
  •  K997 :本土恐慌指數研究(GLD + GVZ 通過)
  •  K1022 :跨資產學生 t df=8 健全性

結語

K1032 給了一個誠實但不討喜的答案: A4f-VIX 不是普世適用的波動率冠軍模型,它在跨日本市場 specifications(N225 與 EWJ)都未能通過嚴格的 嚴格統計 多重檢定 。N225 與 EWJ 的差距方向上符合「lag chain 越短、訊號越新鮮、效果越大」的直覺,但兩者樣本與 forecast 端 lag chain 結構都不完全對齊,這不是教科書意義的乾淨自然實驗, 機制(同步 vs 失鮮、市場結構、追蹤誤差)目前混雜不明 。

但這次實驗最值得一提的副產品是: 即使預測精度沒顯著進步,VaR 風險邊界仍能因為 VIX 加入而改善 。這提醒我們,研究模型優劣不能只看一個指標,「平均誤差」與「尾部覆蓋」是兩個維度,模型可以在其中一個維度贏,另一個維度打平。對實務工作者,這意味著研究結論要用對地方:A4f-VIX 在日股別當主力預測,但拿來校準保證金與 stop-loss 邊界仍有實質貢獻。

下一步研究方向已寫進 backlog:能不能用 Nikkei 期權市場自行構造一個本土 implied vol 指數,補上日本 VIX 這個缺口?以及在等長對齊樣本下重做 N225 vs EWJ 對照,把 lag chain 結構做成 ablation 而非配置。答案應該會比把美國 VIX 硬套上去更有意義。

[2026-05-09 Errata] 校正紀錄

本文於 2026-05-08 發佈後,經 Codex 24h-rule audit(FAIL,2 CRITICAL + 1 SEVERE + 2 MAJOR + 2 MED + 1 MINOR)找出 lag 結構描述與識別敘事的錯誤,於 2026-05-09 校正。原始版本與本次修訂的 diff 也記錄在 errata.update_history。 主軸結論不變 (A4f-VIX 在日本市場跨 specifications 都未達 嚴格統計 門檻),只修錯誤 narrative 細節:

  1.  CRITICAL — EWJ lag 描述 :原文寫「EWJ 與 VIX 同一個 US 交易日同步(lag=0)」。實際 k1032.py L327 forecast 端用 fear_vals[t-1],雖 config vix_lag=0 但 forecast 端仍用 t-1。修為「EWJ config vix_lag=0,但 A4f forecast 端依然用 fear[t-1]」。
  2.  CRITICAL — N225 lag 描述 :原文寫「VIX 取前一天美國收盤值(lag=1)」並據此歸因「16 小時時差 + 訊號新鮮度」。實際 k1032.py L451 對美國 VIX shift(1)、L455 reindex 並 ffill、L327 再取 fear_vals[t-1]。週末/美日假日對齊時實際使用值更舊。修為「shift(1) + ffill + t-1 三段 chain,遇假日更舊」。
  3.  SEVERE — 自然實驗 over-claim :原文寫「N225 vs EWJ 同一段樣本期、差別只在 VIX lag,差距幾乎可歸因於 VIX 訊號新鮮度,研究設計上是乾淨的自然實驗」。實際 results.json 顯示 N225 n_oos=1771(2005-02-02 起),EWJ n_oos=1827(2005-02-01 起),不是同樣本。修為「兩個跨市場 specifications 都未能複製成功,機制(lag、市場結構、追蹤誤差、樣本差異)混雜不明」。
  4.  MAJOR — DM 符號 :原文 line 61 寫「比較檢定強度 2.34」省略負號。改為「DM = -2.3366」(保留方向)。
  5.  MAJOR — 期間描述 :原文寫 config 期間「2005-01-01 to 2026-04-10」當主敘述。改為實際對齊樣本「N225 2005-02-02 to 2026-04-09 / EWJ 2005-02-01 to 2026-04-09」。
  6.  MED — 高 VIX regime 強度 :原文寫「A4f 在高 VIX 真正派上用場」。實際 N225 高 VIX DM = -1.04、EWJ DM = -1.52, 都未過 嚴格統計 門檻 。修為「高 VIX 區間 QLIKE 較好且方向一致,但 DM 未過 嚴格統計 門檻,無法做機制性結論」。
  7.  MED — ES backtest 過度推論 :原文寫「ES 全部通過代表沒有極端高估」。改為「ES backtest 在四個 cell 都未拒絕」(保留統計謹慎,不正向宣稱)。
  8.  MINOR — 高 VIX 樣本數 :原文寫「高 VIX 樣本只有 145 個」泛指。實際 N225=145、EWJ=149,已分別標明。

這次校正是「研究誠實原則」與「3-model review pattern」運作的活教材:Claude 主線程 + Gemini 都漏掉的 narrative-vs-code drift,由 Codex 24h-rule audit 抓出。流程上的教訓是: 實驗 narrative 必須可逐句對應到 code path 與 results.json 數字 ,不是憑印象敘述。

相關文章

先讀正式關聯,若無則使用標籤與主題相似度補齊

📄
VIX 自己的波動率,能不能預測 VIX?
# VIX 自己的波動率,能不能預測 VIX? > 一個誠實的弱訊號:自製 vol-of-vol 在統計上贏 AR(1) baseline,但過不了多重檢定。 ## 我們在問什麼 VIX 是市場的「恐慌溫度計」,每天上下跳。一個自然的問題是:**VIX 自己的波動率(vol-of-vol),能不能預測明天 VIX 的水位或變動幅度?** 業界做這件事通常會用 VVIX,也就是「VIX 選擇...
📄
把 VIX 期限結構算成「波動風險溢酬」,能預測美股回檔嗎?4500 天回測,答案是不行
# 把 VIX 期限結構算成「波動風險溢酬」,能預測美股回檔嗎?4500 天回測,答案是不行 VIX 大家都熟。它是市場恐慌指數。 但市場其實還有兩個少人提的兄弟:VIX3M(3 個月版)和 VIX6M(6 個月版)。把這三個拉出來看「斜率」,理論上能告訴你交易員對未來幾週與未來半年的恐慌定價差多少。 更進一步,把 IV²(隱含波動率平方)減去同期間的實現波動率平方,就是學界很重視的 VRP...
📄
下半年調倉前,先過三道風險安檢
七月剛開始,很多人會做同一件事:打開帳戶,看上半年哪一塊漲最多,然後問下半年要不要換股、換 ETF、換策略。 我建議先慢一拍。下半年調倉最常犯的錯,常常不在方向判斷,而在把一個很窄的訊號當成整個市場。看到 VIX 低,就以為風險都睡著;看到大盤不太動,就以為成分股也不太動;看到模型回測漂亮,就以為它能幫你穿過下一次亂流。 今天這期精選導讀,把過去幾個月的 8 篇 archive 串成一個簡單工...