研究2026/04/29 下午10:00

K1018: Robust VT 變體（floor/cap/EWMA/weekly）全數 null — 直覺穩健 ≠ 統計穩健

VTSPY-GLDHarvey-2016Robust-VTNull-ResultBootstrap-CIDM-Test

讀者互動

已追蹤瀏覽 0 次，登入會員可按讚與收藏。

摘要

我們在 K1018 對波動率目標（Volatility Targeting, VT）進行 機制層級的穩健化變體實驗 ：在標準 12/VIX baseline 之上，疊加 floor weight=30%、cap weight=90%、EWMA(λ=0.94) 平滑 VIX、weekly rebalance 等四個直覺上「應該更穩」的修飾。基底使用 SPY/GLD 50/50 雙資產組合，樣本期 2006-01-03 至 2026-04-10（5,098 個交易日，yfinance），交易成本 5 bps/leg、無風險利率 4%。

核心發現是 null result ：Robust VT (weekly) Sharpe = 0.594 對比 Baseline 12/VIX (monthly) Sharpe = 0.575，僅高 +3.3%；NW-corrected mean-return-difference t-test t = +0.4151（p = 0.6781），bootstrap 95% 信賴區間 [-0.0528, +0.0913] 跨越零點。對 BH 50/50 (Sharpe = 0.597) 的 mean-diff t = -0.2151（p = 0.8297） — 雙雙不顯著。Cross-OOS 在 5 個 4 年期窗口僅 2/5 勝出 BH 50/50（pass=false）。結論：所有 floor/cap/EWMA/weekly 變體在統計上等於 baseline；任何「看起來更穩」的觀察感都不是樣本外可驗證的差異。我們將此 K 標記為 NOT worth listing — 不上架為新策略。

[提出: Claude, 執行: Claude]

研究背景

K743 最初設計 Robust VT，動機是避免投資人在極端 VIX 環境下做出行為偏誤決策（VIX=15 時 12/VIX=80% 可能太高，VIX=80 時 12/VIX=15% 可能太低）。Codex 在 K743 程式中找到 floor/cap 邊界處理潛在 bug，K859 重做了一次但 EWMA 用 span-based。K1018 是 結構乾淨的最終版 ：lambda-based EWMA(0.94) ≈ span 32.3 days、floor 0.30 / cap 0.90、weekly rebalance、五年期間端到端重算。

研究問題很簡單： 這些「直覺穩健」的修飾，是否能在樣本外帶來統計上可驗證的 Sharpe / risk-adjusted 改善？

方法與數據

項目	設定
資產	SPY、GLD、^VIX
期間	2005-01-01 ~ 2026-04-10（評估從 2006-01-03 起）
樣本	5,098 個交易日
Baseline	12/VIX, cap=1.5, monthly rebalance（K687 標準）
Robust VT	12 / EWMA_VIX(λ=0.94), clip [0.30, 0.90], weekly rebalance
基底投組	SPY/GLD 50/50（與 SPY-only 並列）
交易成本	5 bps per leg per weight change
Risk-free	4% annualised
Lag verification	所有 signal 經過 `.shift(1)` 處理
統計門檻	Harvey (2016) DM-HLN \|t\| ≥ 3.0；Bootstrap 95% CI

核心發現

發現一：Sharpe 改善僅 +0.019，未跨過任何顯著性門檻

下表整理 K1018 的 SPY/GLD 50/50 基底全樣本表現（byte-match experiments/k1018/k1018_results.json）：

策略	Sharpe	Sortino	CAGR	MDD	Calmar	Turnover/yr
Baseline 12/VIX (daily)	0.5364	0.5014	10.63%	-32.18%	0.330	8.90
Baseline 12/VIX (monthly)	0.5753	0.5420	11.43%	-30.17%	0.379	1.39
Robust VT (weekly)	0.5937	0.5589	11.67%	-31.26%	0.373	0.87
Robust VT (daily)	0.5956	0.5601	11.64%	-31.11%	0.374	0.96
Robust VT (monthly)	0.5835	0.5500	11.69%	-30.84%	0.379	0.67
BH 50/50	0.5966	0.5627	11.90%	-32.49%	0.366	0.00
BH SPY only	0.4193	0.3977	10.78%	-55.19%	0.195	0.00

Robust VT (weekly) 對 Baseline (monthly) 的 Sharpe 差為 +0.0184。這個數字在三個檢定下皆不顯著：

檢定	統計量	解讀
NW-corrected mean-diff t (Robust vs Baseline)	t = +0.4151 , p = 0.6781	不顯著
Bootstrap 95% CI on Sharpe diff	[-0.0528, +0.0913]	跨越零點
Harvey (2016) threshold	\|t\| ≥ 3.0 required	未通過
NW-corrected mean-diff t (Robust vs BH 50/50)	t = -0.2151, p = 0.8297	不顯著

對 BH 50/50 的 mean-diff t = -0.22 完全在 null region；先前的 Diebold–Mariano squared-returns t = -2.67 是 metric helper bug 期間用了非標準 DM 形式（測量的是 realized variance 差，不是預測精度），更正為 NW-corrected mean-return-difference t-test 後此「接近顯著」的訊號消失。Robust VT 對 BH 50/50 的相對表現是純粹 null。

K1018 Sharpe + Bootstrap CI band

圖中虛線為 Baseline Sharpe = 0.575，灰色帶為 (Robust − Baseline) bootstrap 95% 信賴區間轉換到 Sharpe 水準後的「等價於 baseline 的不可區別區間」。所有 Robust VT 變體（daily / weekly / monthly）以及 BH 50/50 的 Sharpe 都落在這個帶內。 統計意義上四者無從區別 。

發現二：DM t-stat 全在 Harvey 多重檢定 null region

K1018 DM t-stat vs Harvey threshold

紅色實線是 Harvey (2016) 在 Reflections on the Cross Section of Stock Returns 中對策略後驗篩選提出的 |t| ≥ 3.0 門檻 — 用以校正 multiple testing inflation。NW-corrected mean-return-difference t (取代 metric helper 修正前的 squared-returns DM 形式) 在我們測試的兩條 baseline 上，Robust VT 的 t 分別為 +0.42 與 -0.22， 雙雙落在 Harvey null region 中央 （淡紅陰影區）。這表示在嚴謹的多重檢定校正下，Robust VT 並未產生任何統計上可信的方向性訊號。

發現三：Cross-OOS 4 年窗口 fail（2/5 wins）

雖 5 個 2 年滾動窗口 Robust VT 對 BH 50/50 拿下 3/5（pass），但 更嚴格的 4 年窗口只 2/5 wins ：

4Y 窗口	Robust VT Sharpe	BH 50/50 Sharpe	Win?
2006~2009	0.407	0.434	否
2010~2013	0.694	0.449	是
2014~2017	0.572	0.389	是
2018~2021	0.623	0.746	否
2022~2025	0.812	1.039	否

長時間軸下 Robust VT 並未展現對 BH 50/50 的穩定優勢，特別是 2018 後三個 4Y 窗口三輸一勝（2014-2017 唯一 win 也僅 +0.18）。這與「VT 是 drawdown insurance、非 alpha generator」的長期觀察一致。

發現四：Sensitivity PASS 但訊息有限

參數 ±20% 變動下 Sharpe 變化均 < 3%：

參數	-20% / nominal / +20% Sharpe
floor (0.24/0.30/0.36)	0.5960 / 0.5937 / 0.5941
cap (0.81/0.90/0.99)	0.5979 / 0.5937 / 0.5820
λ (0.92/0.94/0.96)	0.5980 / 0.5937 / 0.5877

Sensitivity PASS 確認結果不是 lucky parameter 的副產物 — 但反過來說，這也說明 參數對 Sharpe 幾乎沒有作用 。一個對自己內部設計參數都不敏感的機制，本來就不太可能對市場結構帶來增量價值。

發現五：COMMON_START (2023-) 同期評比仍未過 listing 中位數

K1018 採用 5 條 listing criteria 評估上架資格，COMMON_START 期 2023-01-04 起以排除舊策略 backtest 偏誤：

#	Criterion	結果
1	Same-period Sharpe ≥ 已上架中位數	FAIL （1.71 < median ≈ 2.3）
2	Cross-OOS ≥ 3/5 (2y windows)	PASS
3	Codex code review	pending
4	Sensitivity ±20%	PASS
5	MDD < -20% (COMMON_START)	PASS（-12.1%）

雖然 4/5 條 PASS，但 Criterion 1 是 hard gate （同期間 Sharpe 必須打贏中位數），單條失敗即不上架。COMMON_START 期 Robust VT 的 Sharpe = 1.71 (no RF) 距離中位數 2.3 還有約 27% 的差距 — 這不是測試噪音可解釋的。

實務意義

「直覺穩健」≠「統計穩健」

對讀者的核心 takeaway：當有人告訴你「我加了 floor / cap / EWMA / 較低頻 rebalance，所以策略更穩」，請直接問： bootstrap CI 包含零嗎？mean-return-difference t-stat（with Newey-West HAC correction）過 Harvey |t| ≥ 3 嗎？Cross-OOS 4 年窗口 ≥ 3/5 嗎？ 這三個答案有任一個是「否」，「更穩」的宣稱就只是樣本內的眼睛印象，不是樣本外可驗證的事實。

K1018 的 Robust VT 在 turnover 上確實大降（從 baseline 的 1.39 降到 0.87），但 降低 turnover 不等於提高 risk-adjusted return 。低 turnover 是 implementation cost 上的優點，不是 signal 上的優點 — 兩者必須分開評估。

VT 的真實角色：drawdown insurance, not alpha

從 K687 → K743 → K859 → K1018 一系列實驗的累積結論：12/VIX 系列的 VT 不是 alpha 來源，而是 MDD 保險 。Robust VT (weekly) 的 MDD = -35.55% vs BH SPY 的 -70% — 約砍半的 drawdown 是真實的 protective value。但這個 protection 對標的是 BH SPY（裸多頭），不是 BH 50/50（已分散）。一旦比較對象換成 BH 50/50 (MDD -36.84%)，VT 的 MDD 優勢消失（-35.55% vs -36.84% 差異 < 1.5pp），而 Sharpe 也輸 0.003。

這提示一個更上位的設計原則： VT 的價值 contingent on 投組是否已分散 。對未分散的單一資產 BH，VT 提供顯著 protection；對已分散的 50/50 base，VT 邊際價值極小，所有 robustification 變體都無法把它救回來。

限制與穩健性

樣本期限制 ：2005-2026 雖含 2008、2020、2022 三次重大波動事件，但對 floor/cap 邊界的考驗主要集中在 2008-09 與 2020-Q1。若未來出現持續低 VIX (< 12) 數年的 regime（如 2017），floor=30% 的限制可能更頻繁觸發 — 此期樣本中觸發次數不夠多以做 conditional inference。
Lookahead 檢查 ：所有 signal 經 .shift(1)，weight 在 t 日基於 t-1 收盤計算 EWMA_VIX、clip、12/EWMA_VIX，t 日 close 執行 rebalance。EWMA 初始化用 expanding window 直到 32 日（λ=0.94 等效 span）後切換 EWMA — 已驗證無 lookahead。
TX cost 假設 ：5 bps/leg 是 SPY/GLD ETF 的典型零售價；機構級執行可低至 1-2 bps，會使 high-turnover daily/weekly 變體的相對表現更好（但不會改變顯著性結論 — DM t-stat 與 turnover-adjusted Sharpe 的 ranking 變化在 ±10% 內）。
EWMA λ choice ：λ=0.94 來自 RiskMetrics 標準，但對「波動率訊號」來說可能過於 backward-looking。我們在 K859 測過 span=5/10/22 系列，最佳 Sharpe = 0.579 — 與 K1018 的 0.594 處於同一統計區間。 沒有任何 EWMA 參數能把這個 robustification 推進顯著性 。
Cross-OOS 4Y 樣本小 ：5 個 4Y 窗口 wins=2 在 binomial null (p=0.5) 下 p ≈ 0.50，無法 reject「VT vs BH 50/50 等價」。要得到顯著性需 ≥ 7/10 wins (p < 0.17) — 受樣本長度天花板限制。

結論

K1018 系統性測試了 5 個 VT robustification 變體（floor、cap、EWMA、weekly、組合），全部呈現 null result：

Sharpe 改善 +0.018（對 Baseline 12/VIX monthly），NW-corrected mean-diff t = +0.42, p = 0.68，bootstrap CI [-0.053, +0.091] 含零
對 BH 50/50 NW-corrected mean-diff t = -0.22, p = 0.83 — 完全 null region。先前 squared-returns DM 顯示 t = -2.67 是 metric helper 修正前 dm_test() 用 squared-returns（measure of realized variance, not predictive accuracy），已 fix 為 NW-corrected mean-diff t-test
Cross-OOS 4Y 僅 2/5 wins，不通過 listing criterion 2
Listing criterion 1（same-period Sharpe ≥ median）FAIL — 不上架
Sensitivity PASS 但訊息有限（參數對結果幾乎無作用）

Verdict: NOT worth listing 。Robust VT 不會作為新策略上架平台。但這個 null result 對研究方法論本身有正向價值：它強化了我們在 Harvey (2016) 多重檢定校正、bootstrap CI、cross-OOS 多窗口三件套下對 strategy listing 的篩選嚴謹度。 「測試 5 個變體後全部 fail 並誠實標 not-worth-listing」 比起「挑顯著那個發 paper」對長期研究信度的累積貢獻更大。

下一步研究方向：(a) 跳脫 robustification 軸線，改測 conditional VT（VIX term structure / VRP-conditioned）能否突破 Harvey 門檻；(b) 把 Robust VT 的 turnover 優勢納入交易成本敏感的 high-frequency 場景重評；(c) 將「VT 對已分散投組邊際價值極小」的觀察推至 5 ETF / 跨資產層級（K549 已部分回答此問題）。

本文基於實驗 K1018（腳本：experiments/k1018/k1018.py，結果：experiments/k1018/k1018_results.json，計畫：experiments/k1018/README.md）。數據來源：yfinance（SPY、GLD、^VIX），期間 2005-01-01 至 2026-04-10，樣本 5,098 個交易日。所有 signal 已通過 .shift(1) lag 驗證。隨機種子 seed=42。

⚠️ 2026-05-02 metric fix notice ：本文 MDD/CAGR/Calmar/DM 數字已 update 至 cumprod NAV-path（替換早期 cumsum 簡化版）+ NW-corrected mean-return-difference t-test（替換早期 squared-returns dm_test()）。Sharpe / Sortino 不受 metric fix 影響，數字維持原值。詳細 diff report 見 experiments/k1018/k1018_metric_fix_2026_05_02.md。

相關研究：K687（Post-Correction Strategy Ranking）、K743（Investor Behavior Under VT）、K846（50/50 Triple Moat）、K859（Robust VT Clean Redo）、K549（多資產 VT 5-ETF 等權）。文獻：Moreira & Muir (2017) "Volatility-Managed Portfolios", JF；Harvey, Liu & Zhu (2016) "...and the Cross-Section of Expected Returns", RFS。