研究2026/05/08 下午11:00

把美國 VIX 套到日本股市行得通嗎？N225 與 EWJ 的雙重答案

VIX跨市場風險管理日股模型驗證

讀者互動

已追蹤瀏覽 0 次，登入會員可按讚與收藏。

把美國 VIX 套到日本股市行得通嗎？N225 與 EWJ 的雙重答案

一句話結論

我們把過去在 SPY 與歐洲股指都奏效的「A4f-VIX」波動率模型搬到日本股市測試，結果在嚴格統計檢驗下 並未複製成功 ：日經指數（N225）幾乎沒有改善，在美國掛牌的日本 ETF（EWJ）只看到邊際效果，兩個跨市場 specifications 都沒過嚴格統計多重檢定門檻、機制不明。但有一個意外觀察—— 即使預測精度沒顯著進步，加入 VIX 後 VaR 風險邊界的覆蓋率明顯改善 ，這對風險控管者反而是個值得參考的訊號。

[2026-05-09 Errata 摘要] 本文於 2026-05-08 發佈後，經 Codex 24h-rule audit 找出 lag 結構描述與識別敘事的錯誤，於 2026-05-09 校正：(1) EWJ vix_lag=0 是 config，但 forecast 端仍使用 fear[t-1]；(2) N225 經 shift(1) + ffill + t-1 chain，遇美日假日會用更舊的 VIX；(3) N225 vs EWJ 樣本起訖日不同（n_oos 1771 vs 1827），不構成乾淨自然實驗，原「歸因於 VIX 訊號新鮮度」結論已弱化；(4) DM 統計強度補回正負號；(5) 期間改為實際對齊樣本起訖；(6) 高 VIX regime 改寫為「方向一致但 DM 未過嚴格統計門檻」；(7) ES backtest 改寫為「未拒絕」而非「沒有極端高估」；(8) 高 VIX 樣本數區分 N225=145 / EWJ=149。詳細 diff 紀錄於 errata.update_history。

為什麼要做這個實驗（K1032）

過去半年我們驗證過一個叫做 A4f 的「乘法型 GARCH-X」模型，它把波動率拆成「短期 GARCH 殘餘」乘上「長期外生因子」，外生因子用美國 VIX 平方來代表市場恐慌。在以下市場它都通過嚴格統計門檻：

市場	A4f-VIX 統計強度	是否達顯著水準
SPY（美股大盤）	+4.48	是
STOXX50E（歐股指數）	-3.64	是
FEZ（歐股 ETF）	-3.45	是

那日本呢？日本是一個非常有趣的測試場：

美日領先落後關係明顯 ：美股先收，日股隔天才開盤反應
沒有官方日經 VIX （VNKY 不在 yfinance 上）
槓桿效應比美股弱 ：壞消息對日股波動的拉抬不像美股那麼強
交易時段不重疊 ：09:00–15:00 JST，美國盤已經結束 12 小時以上

我們同時測兩個資產來分離「時差」與「市場本質」效應的可能性：

^N225 ：日經指數現貨，東京時段交易，VIX series 先 shift(1) 再 reindex 至日股 calendar 並 ffill，forecast 端再取 fear[t-1]。實際使用值在週末或美日假日時會比「前一天 US close」更舊。
EWJ ：美國掛牌的日本 ETF，config 裡 vix_lag=0（VIX 與資產同一個 US 交易日），但 A4f forecast 端依然用 fear[t-1] 預測 t 期回報，並沒有「同步」到 t 期 VIX。

由於兩者 forecast 端 lag 結構不完全是「lag=0 vs lag=1」的乾淨對比，我們最多只能說「N225 lag chain 平均上比 EWJ 更舊」，但不是教科書級的自然實驗。

三個模型在比什麼

GJR-t ：純 GARCH 基準（不加任何外生變數），抓波動率聚集 + 槓桿效應
A4f-VIX-t ：在 GJR 上乘一層由 VIX 平方驅動的「長期波動水位」
A4f-RV20-t ：把外生變數換成資產自己的 20 日已實現波動率（local fear proxy，因為日本 VIX 取不到）

樣本（實際對齊後）：N225 為 2005-02-02 至 2026-04-09（n_oos = 1771），EWJ 為 2005-02-01 至 2026-04-09（n_oos = 1827）。OOS 從 2019 開始，滾動視窗 2000 天，每 63 天重估一次，學生 t 自由度固定 8，隨機種子 42。所有訊號都用 t-1 資料預測 t 期回報，沒有未來偷看。 注意兩個資產樣本起點不同 （差一天起算 + 行事曆對齊差異），因此跨資產比較不是同樣本對照。

結果一：N225 — A4f-VIX 完全沒效果

QLIKE 比較圖

模型	QLIKE	比 GJR 改善	比較檢定	達顯著水準？
GJR-t（基準）	1.5223	—	—	—
A4f-VIX-t	1.5267	-0.29%（變差）	DM = +0.34	否
A4f-RV20-t	1.5192	+0.21%	DM = -0.88	否

QLIKE 數值越小越好。N225 的結論很乾脆： 美國 VIX 加進來不但沒幫助，反而讓 QLIKE 略為惡化 。換成資產自己的 RV20 也只是名義上微幅改善，沒有任何統計強度可以支撐這是真效應。

從 lag chain 結構看，N225 forecast 用的 fear[t-1] 是經過「美股交易日 shift(1) → reindex 到日股交易日（ffill 補假日） → 再取 t-1」三段對齊得到的值。這意味著週末或美日假日相鄰時，模型實際讀到的 VIX 可能是 2-3 個交易日前的。再加上日股開盤前已透過期貨等管道部分消化美股訊息，等正式開盤後再丟一個更舊的 VIX 進模型，邊際資訊已被稀釋。

結果二：EWJ — 邊際改善，但仍未通過嚴格檢定

模型	QLIKE	比 GJR 改善	比較檢定	達顯著水準？
GJR-t（基準）	1.4501	—	—	—
A4f-VIX-t	1.4184	+2.18%	DM = -2.3366	否（邊際）
A4f-RV20-t	1.4510	-0.06%	DM = +0.69	否

EWJ 因為在美股盤交易，config 上 vix_lag=0（VIX 與 EWJ 同一 US 交易日）， A4f-VIX 顯示 2.2% 的 QLIKE 改善與 DM = -2.3366 ——比 N225 強很多，但仍未通過我們設定的嚴格嚴格統計多重檢定門檻（一般至少要統計強度 ≥ 3.0）。負號代表 A4f-VIX 的 QLIKE 平均誤差小於 GJR，方向是有利的。

為什麼 N225 與 EWJ 對 VIX 的反應差這麼多？

N225（DM = +0.34）與 EWJ（DM = -2.34）對美國 VIX 的反應有明顯差距，但 兩個模型都沒通過嚴格統計門檻 ，且樣本不完全相同（n_oos 1771 vs 1827、起訖日差一天 + 行事曆對齊差異），這不構成教科書意義的乾淨自然實驗。可能的混雜解釋包括：

Lag chain 老化 ：N225 forecast 端 VIX 經過 shift(1) + ffill + t-1 三段對齊，遇假日更舊
市場結構差異 ：EWJ 是美股盤 ETF，受 US flow 與美股盤情緒直接影響；N225 是日本盤現貨，過夜後已部分消化美股訊息
追蹤誤差 ：EWJ vs N225 並非完全等價（ETF 追蹤誤差、個股權重）
樣本起點差異 ：n_oos 差 56 天，可能涵蓋不同 regime 比例

機制不明， 目前的結論是「兩個跨市場 specifications 都未能複製成功」 ，不能直接歸因於 VIX 訊號新鮮度單一因素。

結果三：意外發現——VaR 風險邊界明顯改善

雖然 QLIKE 沒過顯著水準，但風險管理常用的 VaR（Value-at-Risk）測試卻給出完全不同的故事。

VaR/ES 評分卡 N225

N225：

風險測試	GJR 基準	A4f-VIX	A4f-RV20
VaR 2.5%	不通過（違反率 3.56%）	通過（2.77%）	通過（3.16%）
VaR 1%	不通過（違反率 1.52%）	通過（1.41%）	通過（1.47%）
ES 2.5%	未拒絕	未拒絕	未拒絕
ES 1%	未拒絕	未拒絕	未拒絕

VaR/ES 評分卡 EWJ

EWJ：

風險測試	GJR 基準	A4f-VIX	A4f-RV20
VaR 2.5%	不通過（違反率 3.72%）	通過（2.90%）	不通過（3.72%）
VaR 1%	不通過（違反率 1.64%）	通過（1.37%）	不通過（1.64%）
ES 2.5%	未拒絕	未拒絕	未拒絕
ES 1%	未拒絕	未拒絕	未拒絕

GJR 基準在兩個資產的 VaR 測試上都是 0/4 通過，也就是它 長期低估了極端虧損的頻率 。A4f-VIX 在兩個資產都是 4/4 通過。這是這次實驗最有實務價值的觀察： 即使「平均預測精度」沒有統計顯著進步，極端風險邊界的校準明顯變好 。

對風險控管者而言，這個訊號的意義不亞於 QLIKE 改善，因為 VaR 真正會被用來決定保證金、限額與停損點，而不是用來打分數。

結果四：高 VIX 區間 QLIKE 較好，但 DM 仍未過嚴格統計門檻

VIX 區間	樣本數（N225 / EWJ）	N225 GJR	N225 A4f-VIX	N225 DM	EWJ GJR	EWJ A4f-VIX	EWJ DM
低（<20）	1077 / --	1.561	1.558	-0.22	1.340	1.324	--
中（20–30）	549 / --	1.489	1.523	+1.12	1.658	1.626	--
高（>30）	145 / 149	1.360	1.306	-1.04	1.471	1.326	-1.52

A4f-VIX 在「高 VIX 區間」（>30，市場恐慌期）對兩個資產的 QLIKE 都顯示出最大的改善幅度，方向也一致；這與我們在歐洲市場（K1030）的觀察方向相同。但是：N225 高 VIX DM = -1.04，EWJ 高 VIX DM = -1.52， 兩者都沒有通過嚴格統計多重檢定門檻 （統計強度 ≥ 3.0）。也就是「高 VIX 區間 A4f-VIX QLIKE 較好」是描述性觀察， 不能做機制性結論 ——sample 太小（N225=145, EWJ=149），統計強度被稀釋。

跨市場 A4f 成績單

把 K988（SPY）、K1030（歐洲）、K1032（日本）合在一起看：

市場	A4f-VIX 比較強度 (DM)	達顯著水準？	VaR 改善？
SPY（K988）	+4.48	是	是
STOXX50E（K1030）	-3.64	是	是
FEZ（K1030）	-3.45	是	是
EWJ（K1032）	-2.34	否（邊際）	是
N225（K1032）	+0.34	否	部分

排序上 A4f-VIX 對「美股盤交易或美股強連動」的市場較有效。但因 N225 vs EWJ 不是同樣本對照、且兩個跨市場 specifications 都沒過嚴格統計門檻， 機制（同步 vs 失鮮、市場結構、追蹤誤差）混雜不明 ，需要日本本土 implied vol 才能更乾淨切分。

給散戶與投資組合經理的實務建議

1. 不要直接複製其他市場的「冠軍模型」到日股

如果你做的是 N225 期貨或日股 ETF，把美國市場跑出來的 A4f-VIX 配置直接搬過來，模型會看起來「沒壞」（QLIKE 數字接近基準），但它其實沒提供額外資訊。多花的計算成本與外生資料維護成本沒有實質回報。

2. 想用 VIX 抓日股風險，EWJ 在訊號層面比 N225 期貨乾淨些

EWJ 在美股盤交易，VIX lag chain 較短；N225 則必須面對 16 小時時差 + shift+ffill 對齊衍生的訊號失鮮問題。但要強調：兩者 A4f-VIX 都沒過嚴格統計門檻，這個差距本身的統計強度是不夠的。

3. VaR 邊界的改善值得單獨利用

即使 QLIKE 沒贏，A4f-VIX 在 VaR 校準上 4/4 通過 vs GJR 0/4 通過，這個差距夠大，足以改變風險預算配置決策。如果你目前用單純 GJR 算保證金或 stop-loss 距離， 很可能在尾部低估風險 。把 VIX 加進尾部風險模型（即使不改 mean forecast），對投組保護是值得的。

4. 高 VIX 環境（>30）QLIKE 方向有利，但統計強度不足

把 A4f-VIX 當「平時備而不用、極端期才上工」的補強工具，是合理的工程取捨；但要記得樣本只有 145–149 天，DM 在兩個資產都沒過嚴格統計門檻，不能宣稱機制已驗證。

5. 別用「自己的歷史波動率」取代恐慌指數

我們把 VIX 換成資產自己的 RV20（20 日已實現波動率），結果在兩個資產都接近 0 改善。Implied vol 反映的是「市場對未來的擔心」，realized vol 反映的是「過去發生的震盪」，兩者不是替代關係。日本沒有可用的官方 VIX，這是日股波動率建模一個結構性缺口。

限制與說明

日本 VIX 取不到 ：只測了美國 VIX 與 RV20 兩種代理，沒有日本本土 implied vol
行事曆對齊 ：日本假日對齊用 shift(1) + reindex + ffill，遇美日假日時實際使用值會比「前一天 US close」更舊
EWJ vs N225 不是同樣本對照 ：n_oos 1771 vs 1827，起訖日差一天 + 行事曆對齊差異
COVID-19 期間 ：高 VIX 樣本可能被 2020 春季放大
EWJ 與 N225 不完全等價 ：ETF 有追蹤誤差，個股權重差異
風險邊界改善的解讀 ：A4f-VIX 在 VaR 校準上的改善源自 conditional vol 水位平均拉高 + 對 VIX² 反應；ES backtest 在四個 (asset × level) cell 都未拒絕，但這只代表沒被該檢定否決， 不能正向宣稱「沒有極端高估」

資料來源

yfinance: ^N225（日經指數）、EWJ（iShares MSCI Japan ETF）、^VIX
樣本期（實際對齊）：N225 2005-02-02 至 2026-04-09 / EWJ 2005-02-01 至 2026-04-09
樣本外起點：2019-01-01
程式碼與完整結果：experiments/k1032/

參考實驗

K988 / K1000 ：A4f 在 SPY 的原始驗證（達顯著水準，比較強度 +4.48）
K1030 ：A4f 在歐股 STOXX50E / FEZ 的擴展（兩者都達顯著水準）
K994 ：跨資產 A4f 健全性測試（QQQ 通過，其他在美國 VIX 下不顯著）
K997 ：本土恐慌指數研究（GLD + GVZ 通過）
K1022 ：跨資產學生 t df=8 健全性

結語

K1032 給了一個誠實但不討喜的答案： A4f-VIX 不是普世適用的波動率冠軍模型，它在跨日本市場 specifications（N225 與 EWJ）都未能通過嚴格的嚴格統計多重檢定 。N225 與 EWJ 的差距方向上符合「lag chain 越短、訊號越新鮮、效果越大」的直覺，但兩者樣本與 forecast 端 lag chain 結構都不完全對齊，這不是教科書意義的乾淨自然實驗， 機制（同步 vs 失鮮、市場結構、追蹤誤差）目前混雜不明 。

但這次實驗最值得一提的副產品是： 即使預測精度沒顯著進步，VaR 風險邊界仍能因為 VIX 加入而改善 。這提醒我們，研究模型優劣不能只看一個指標，「平均誤差」與「尾部覆蓋」是兩個維度，模型可以在其中一個維度贏，另一個維度打平。對實務工作者，這意味著研究結論要用對地方：A4f-VIX 在日股別當主力預測，但拿來校準保證金與 stop-loss 邊界仍有實質貢獻。

下一步研究方向已寫進 backlog：能不能用 Nikkei 期權市場自行構造一個本土 implied vol 指數，補上日本 VIX 這個缺口？以及在等長對齊樣本下重做 N225 vs EWJ 對照，把 lag chain 結構做成 ablation 而非配置。答案應該會比把美國 VIX 硬套上去更有意義。

[2026-05-09 Errata] 校正紀錄

本文於 2026-05-08 發佈後，經 Codex 24h-rule audit（FAIL，2 CRITICAL + 1 SEVERE + 2 MAJOR + 2 MED + 1 MINOR）找出 lag 結構描述與識別敘事的錯誤，於 2026-05-09 校正。原始版本與本次修訂的 diff 也記錄在 errata.update_history。 主軸結論不變 （A4f-VIX 在日本市場跨 specifications 都未達嚴格統計門檻），只修錯誤 narrative 細節：

CRITICAL — EWJ lag 描述 ：原文寫「EWJ 與 VIX 同一個 US 交易日同步（lag=0）」。實際 k1032.py L327 forecast 端用 fear_vals[t-1]，雖 config vix_lag=0 但 forecast 端仍用 t-1。修為「EWJ config vix_lag=0，但 A4f forecast 端依然用 fear[t-1]」。
CRITICAL — N225 lag 描述 ：原文寫「VIX 取前一天美國收盤值（lag=1）」並據此歸因「16 小時時差 + 訊號新鮮度」。實際 k1032.py L451 對美國 VIX shift(1)、L455 reindex 並 ffill、L327 再取 fear_vals[t-1]。週末/美日假日對齊時實際使用值更舊。修為「shift(1) + ffill + t-1 三段 chain，遇假日更舊」。
SEVERE — 自然實驗 over-claim ：原文寫「N225 vs EWJ 同一段樣本期、差別只在 VIX lag，差距幾乎可歸因於 VIX 訊號新鮮度，研究設計上是乾淨的自然實驗」。實際 results.json 顯示 N225 n_oos=1771（2005-02-02 起），EWJ n_oos=1827（2005-02-01 起），不是同樣本。修為「兩個跨市場 specifications 都未能複製成功，機制（lag、市場結構、追蹤誤差、樣本差異）混雜不明」。
MAJOR — DM 符號 ：原文 line 61 寫「比較檢定強度 2.34」省略負號。改為「DM = -2.3366」（保留方向）。
MAJOR — 期間描述 ：原文寫 config 期間「2005-01-01 to 2026-04-10」當主敘述。改為實際對齊樣本「N225 2005-02-02 to 2026-04-09 / EWJ 2005-02-01 to 2026-04-09」。
MED — 高 VIX regime 強度 ：原文寫「A4f 在高 VIX 真正派上用場」。實際 N225 高 VIX DM = -1.04、EWJ DM = -1.52， 都未過嚴格統計門檻 。修為「高 VIX 區間 QLIKE 較好且方向一致，但 DM 未過嚴格統計門檻，無法做機制性結論」。
MED — ES backtest 過度推論 ：原文寫「ES 全部通過代表沒有極端高估」。改為「ES backtest 在四個 cell 都未拒絕」（保留統計謹慎，不正向宣稱）。
MINOR — 高 VIX 樣本數 ：原文寫「高 VIX 樣本只有 145 個」泛指。實際 N225=145、EWJ=149，已分別標明。

這次校正是「研究誠實原則」與「3-model review pattern」運作的活教材：Claude 主線程 + Gemini 都漏掉的 narrative-vs-code drift，由 Codex 24h-rule audit 抓出。流程上的教訓是： 實驗 narrative 必須可逐句對應到 code path 與 results.json 數字 ，不是憑印象敘述。

先讀正式關聯，若無則使用標籤與主題相似度補齊

📄

VIX 自己的波動率，能不能預測 VIX？

# VIX 自己的波動率，能不能預測 VIX？ > 一個誠實的弱訊號：自製 vol-of-vol 在統計上贏 AR(1) baseline，但過不了多重檢定。 ## 我們在問什麼 VIX 是市場的「恐慌溫度計」，每天上下跳。一個自然的問題是：**VIX 自己的波動率（vol-of-vol），能不能預測明天 VIX 的水位或變動幅度？** 業界做這件事通常會用 VVIX，也就是「VIX 選擇...

→📄

把 VIX 期限結構算成「波動風險溢酬」，能預測美股回檔嗎？4500 天回測，答案是不行

# 把 VIX 期限結構算成「波動風險溢酬」，能預測美股回檔嗎？4500 天回測，答案是不行 VIX 大家都熟。它是市場恐慌指數。但市場其實還有兩個少人提的兄弟：VIX3M（3 個月版）和 VIX6M（6 個月版）。把這三個拉出來看「斜率」，理論上能告訴你交易員對未來幾週與未來半年的恐慌定價差多少。更進一步，把 IV²（隱含波動率平方）減去同期間的實現波動率平方，就是學界很重視的 VRP...

→📄

下半年調倉前，先過三道風險安檢

七月剛開始，很多人會做同一件事：打開帳戶，看上半年哪一塊漲最多，然後問下半年要不要換股、換 ETF、換策略。我建議先慢一拍。下半年調倉最常犯的錯，常常不在方向判斷，而在把一個很窄的訊號當成整個市場。看到 VIX 低，就以為風險都睡著；看到大盤不太動，就以為成分股也不太動；看到模型回測漂亮，就以為它能幫你穿過下一次亂流。今天這期精選導讀，把過去幾個月的 8 篇 archive 串成一個簡單工...

→