← 研究動態
研究2026/04/29 下午10:00

K1018: Robust VT 變體(floor/cap/EWMA/weekly)全數 null — 直覺穩健 ≠ 統計穩健

VTSPY-GLDHarvey-2016Robust-VTNull-ResultBootstrap-CIDM-Test

讀者互動

已追蹤瀏覽 0 次,登入會員可按讚與收藏。

分享到:LINEFacebookX / Twitter

摘要

我們在 K1018 對波動率目標(Volatility Targeting, VT)進行 機制層級的穩健化變體實驗 :在標準 12/VIX baseline 之上,疊加 floor weight=30%、cap weight=90%、EWMA(λ=0.94) 平滑 VIX、weekly rebalance 等四個直覺上「應該更穩」的修飾。基底使用 SPY/GLD 50/50 雙資產組合,樣本期 2006-01-03 至 2026-04-10(5,098 個交易日,yfinance),交易成本 5 bps/leg、無風險利率 4%。

 核心發現是 null result :Robust VT (weekly) Sharpe = 0.594 對比 Baseline 12/VIX (monthly) Sharpe = 0.575,僅高 +3.3%;NW-corrected mean-return-difference t-test t = +0.4151(p = 0.6781),bootstrap 95% 信賴區間 [-0.0528, +0.0913] 跨越零點。對 BH 50/50 (Sharpe = 0.597) 的 mean-diff t = -0.2151(p = 0.8297) — 雙雙不顯著。Cross-OOS 在 5 個 4 年期窗口僅 2/5 勝出 BH 50/50(pass=false)。結論:所有 floor/cap/EWMA/weekly 變體在統計上 等於 baseline;任何「看起來更穩」的觀察感都不是樣本外可驗證的差異。我們將此 K 標記為  NOT worth listing  — 不上架為新策略。

[提出: Claude, 執行: Claude]

研究背景

K743 最初設計 Robust VT,動機是避免投資人在極端 VIX 環境下做出行為偏誤決策(VIX=15 時 12/VIX=80% 可能太高,VIX=80 時 12/VIX=15% 可能太低)。Codex 在 K743 程式中找到 floor/cap 邊界處理潛在 bug,K859 重做了一次但 EWMA 用 span-based。K1018 是 結構乾淨的最終版 :lambda-based EWMA(0.94) ≈ span 32.3 days、floor 0.30 / cap 0.90、weekly rebalance、五年期間端到端重算。

研究問題很簡單: 這些「直覺穩健」的修飾,是否能在樣本外帶來統計上可驗證的 Sharpe / risk-adjusted 改善? 

方法與數據

項目設定
資產SPY、GLD、^VIX
期間2005-01-01 ~ 2026-04-10(評估從 2006-01-03 起)
樣本5,098 個交易日
Baseline12/VIX, cap=1.5, monthly rebalance(K687 標準)
Robust VT12 / EWMA_VIX(λ=0.94), clip [0.30, 0.90], weekly rebalance
基底投組SPY/GLD 50/50(與 SPY-only 並列)
交易成本5 bps per leg per weight change
Risk-free4% annualised
Lag verification所有 signal 經過 .shift(1) 處理
統計門檻Harvey (2016) DM-HLN |t| ≥ 3.0;Bootstrap 95% CI

核心發現

發現一:Sharpe 改善僅 +0.019,未跨過任何顯著性門檻

下表整理 K1018 的 SPY/GLD 50/50 基底全樣本表現(byte-match experiments/k1018/k1018_results.json):

策略SharpeSortinoCAGRMDDCalmarTurnover/yr
Baseline 12/VIX (daily)0.53640.501410.63%-32.18%0.3308.90
Baseline 12/VIX (monthly)0.57530.542011.43%-30.17%0.3791.39
 Robust VT (weekly)  0.5937  0.5589  11.67%  -31.26%  0.373  0.87 
Robust VT (daily)0.59560.560111.64%-31.11%0.3740.96
Robust VT (monthly)0.58350.550011.69%-30.84%0.3790.67
BH 50/500.59660.562711.90%-32.49%0.3660.00
BH SPY only0.41930.397710.78%-55.19%0.1950.00

Robust VT (weekly) 對 Baseline (monthly) 的 Sharpe 差為 +0.0184。這個數字在三個檢定下皆不顯著:

檢定統計量解讀
NW-corrected mean-diff t (Robust vs Baseline)t =  +0.4151 , p =  0.6781 不顯著
Bootstrap 95% CI on Sharpe diff [-0.0528, +0.0913]  跨越零點 
Harvey (2016) threshold|t| ≥ 3.0 required 未通過 
NW-corrected mean-diff t (Robust vs BH 50/50)t = -0.2151, p = 0.8297不顯著

對 BH 50/50 的 mean-diff t = -0.22 完全在 null region;先前的 Diebold–Mariano squared-returns t = -2.67 是 metric helper bug 期間用了非標準 DM 形式(測量的是 realized variance 差,不是預測精度),更正為 NW-corrected mean-return-difference t-test 後此「接近顯著」的訊號消失。Robust VT 對 BH 50/50 的相對表現是純粹 null。

K1018 Sharpe + Bootstrap CI band

圖中虛線為 Baseline Sharpe = 0.575,灰色帶為 (Robust − Baseline) bootstrap 95% 信賴區間轉換到 Sharpe 水準後的「等價於 baseline 的不可區別區間」。所有 Robust VT 變體(daily / weekly / monthly)以及 BH 50/50 的 Sharpe 都落在這個帶內。 統計意義上四者無從區別 。

發現二:DM t-stat 全在 Harvey 多重檢定 null region

K1018 DM t-stat vs Harvey threshold

紅色實線是 Harvey (2016) 在 Reflections on the Cross Section of Stock Returns 中對策略後驗篩選提出的 |t| ≥ 3.0 門檻 — 用以校正 multiple testing inflation。NW-corrected mean-return-difference t (取代 metric helper 修正前的 squared-returns DM 形式) 在我們測試的兩條 baseline 上,Robust VT 的 t 分別為 +0.42 與 -0.22, 雙雙落在 Harvey null region 中央 (淡紅陰影區)。這表示在嚴謹的多重檢定校正下,Robust VT 並未產生任何統計上可信的方向性訊號。

發現三:Cross-OOS 4 年窗口 fail(2/5 wins)

雖 5 個 2 年滾動窗口 Robust VT 對 BH 50/50 拿下 3/5(pass),但 更嚴格的 4 年窗口只 2/5 wins :

4Y 窗口Robust VT SharpeBH 50/50 SharpeWin?
2006~20090.4070.434
2010~20130.6940.449
2014~20170.5720.389
2018~20210.6230.746
2022~20250.8121.039

長時間軸下 Robust VT 並未展現對 BH 50/50 的穩定優勢,特別是 2018 後三個 4Y 窗口三輸一勝(2014-2017 唯一 win 也僅 +0.18)。這與「VT 是 drawdown insurance、非 alpha generator」的長期觀察一致。

發現四:Sensitivity PASS 但訊息有限

參數 ±20% 變動下 Sharpe 變化均 < 3%:

參數-20% / nominal / +20% Sharpe
floor (0.24/0.30/0.36)0.5960 / 0.5937 / 0.5941
cap (0.81/0.90/0.99)0.5979 / 0.5937 / 0.5820
λ (0.92/0.94/0.96)0.5980 / 0.5937 / 0.5877

Sensitivity PASS 確認結果不是 lucky parameter 的副產物 — 但反過來說,這也說明 參數對 Sharpe 幾乎沒有作用 。一個對自己內部設計參數都不敏感的機制,本來就不太可能對市場結構帶來增量價值。

發現五:COMMON_START (2023-) 同期評比仍未過 listing 中位數

K1018 採用 5 條 listing criteria 評估上架資格,COMMON_START 期 2023-01-04 起以排除舊策略 backtest 偏誤:

#Criterion結果
1Same-period Sharpe ≥ 已上架中位數 FAIL (1.71 < median ≈ 2.3)
2Cross-OOS ≥ 3/5 (2y windows)PASS
3Codex code reviewpending
4Sensitivity ±20%PASS
5MDD < -20% (COMMON_START)PASS(-12.1%)

雖然 4/5 條 PASS,但  Criterion 1 是 hard gate (同期間 Sharpe 必須打贏中位數),單條失敗即不上架。COMMON_START 期 Robust VT 的 Sharpe = 1.71 (no RF) 距離中位數 2.3 還有約 27% 的差距 — 這不是測試噪音可解釋的。

實務意義

「直覺穩健」≠「統計穩健」

對讀者的核心 takeaway:當有人告訴你「我加了 floor / cap / EWMA / 較低頻 rebalance,所以策略更穩」,請直接問: bootstrap CI 包含零嗎?mean-return-difference t-stat(with Newey-West HAC correction)過 Harvey |t| ≥ 3 嗎?Cross-OOS 4 年窗口 ≥ 3/5 嗎?  這三個答案有任一個是「否」,「更穩」的宣稱就只是樣本內的眼睛印象,不是樣本外可驗證的事實。

K1018 的 Robust VT 在 turnover 上確實大降(從 baseline 的 1.39 降到 0.87),但 降低 turnover 不等於提高 risk-adjusted return 。低 turnover 是 implementation cost 上的優點,不是 signal 上的優點 — 兩者必須分開評估。

VT 的真實角色:drawdown insurance, not alpha

從 K687 → K743 → K859 → K1018 一系列實驗的累積結論:12/VIX 系列的 VT  不是 alpha 來源,而是 MDD 保險 。Robust VT (weekly) 的 MDD = -35.55% vs BH SPY 的 -70% — 約砍半的 drawdown 是真實的 protective value。但這個 protection 對標的是 BH SPY(裸多頭),不是 BH 50/50(已分散)。一旦比較對象換成 BH 50/50 (MDD -36.84%),VT 的 MDD 優勢消失(-35.55% vs -36.84% 差異 < 1.5pp),而 Sharpe 也輸 0.003。

這提示一個更上位的設計原則: VT 的價值 contingent on 投組是否已分散 。對未分散的單一資產 BH,VT 提供顯著 protection;對已分散的 50/50 base,VT 邊際價值極小,所有 robustification 變體都無法把它救回來。

限制與穩健性

  1.  樣本期限制 :2005-2026 雖含 2008、2020、2022 三次重大波動事件,但對 floor/cap 邊界的考驗主要集中在 2008-09 與 2020-Q1。若未來出現持續低 VIX (< 12) 數年的 regime(如 2017),floor=30% 的限制可能更頻繁觸發 — 此期樣本中觸發次數不夠多以做 conditional inference。

  2.  Lookahead 檢查 :所有 signal 經 .shift(1),weight 在 t 日基於 t-1 收盤計算 EWMA_VIX、clip、12/EWMA_VIX,t 日 close 執行 rebalance。EWMA 初始化用 expanding window 直到 32 日(λ=0.94 等效 span)後切換 EWMA — 已驗證無 lookahead。

  3.  TX cost 假設 :5 bps/leg 是 SPY/GLD ETF 的典型零售價;機構級執行可低至 1-2 bps,會使 high-turnover daily/weekly 變體的相對表現更好(但  會改變顯著性結論 — DM t-stat 與 turnover-adjusted Sharpe 的 ranking 變化在 ±10% 內)。

  4.  EWMA λ choice :λ=0.94 來自 RiskMetrics 標準,但對「波動率訊號」來說可能過於 backward-looking。我們在 K859 測過 span=5/10/22 系列,最佳 Sharpe = 0.579 — 與 K1018 的 0.594 處於同一統計區間。 沒有任何 EWMA 參數能把這個 robustification 推進顯著性 。

  5.  Cross-OOS 4Y 樣本小 :5 個 4Y 窗口 wins=2 在 binomial null (p=0.5) 下 p ≈ 0.50,無法 reject「VT vs BH 50/50 等價」。要得到顯著性需 ≥ 7/10 wins (p < 0.17) — 受樣本長度天花板限制。

結論

K1018 系統性測試了 5 個 VT robustification 變體(floor、cap、EWMA、weekly、組合),全部呈現 null result:

  1. Sharpe 改善 +0.018(對 Baseline 12/VIX monthly),NW-corrected mean-diff t = +0.42, p = 0.68,bootstrap CI [-0.053, +0.091] 含零
  2. 對 BH 50/50 NW-corrected mean-diff t = -0.22, p = 0.83 — 完全 null region。先前 squared-returns DM 顯示 t = -2.67 是 metric helper 修正前 dm_test() 用 squared-returns(measure of realized variance, not predictive accuracy),已 fix 為 NW-corrected mean-diff t-test
  3. Cross-OOS 4Y 僅 2/5 wins,不通過 listing criterion 2
  4. Listing criterion 1(same-period Sharpe ≥ median)FAIL — 不上架
  5. Sensitivity PASS 但訊息有限(參數對結果幾乎無作用)

 Verdict: NOT worth listing 。Robust VT 不會作為新策略上架平台。但這個 null result 對研究方法論本身有正向價值:它強化了我們在 Harvey (2016) 多重檢定校正、bootstrap CI、cross-OOS 多窗口三件套下對 strategy listing 的篩選嚴謹度。 「測試 5 個變體後全部 fail 並誠實標 not-worth-listing」 比起「挑顯著那個發 paper」對長期研究信度的累積貢獻更大。

下一步研究方向:(a) 跳脫 robustification 軸線,改測 conditional VT(VIX term structure / VRP-conditioned)能否突破 Harvey 門檻;(b) 把 Robust VT 的 turnover 優勢納入交易成本敏感的 high-frequency 場景重評;(c) 將「VT 對已分散投組邊際價值極小」的觀察推至 5 ETF / 跨資產層級(K549 已部分回答此問題)。


本文基於實驗 K1018(腳本:experiments/k1018/k1018.py,結果:experiments/k1018/k1018_results.json,計畫:experiments/k1018/README.md)。數據來源:yfinance(SPY、GLD、^VIX),期間 2005-01-01 至 2026-04-10,樣本 5,098 個交易日。所有 signal 已通過 .shift(1) lag 驗證。隨機種子 seed=42。

⚠️  2026-05-02 metric fix notice :本文 MDD/CAGR/Calmar/DM 數字已 update 至 cumprod NAV-path(替換早期 cumsum 簡化版)+ NW-corrected mean-return-difference t-test(替換早期 squared-returns dm_test())。Sharpe / Sortino 不受 metric fix 影響,數字維持原值。詳細 diff report 見 experiments/k1018/k1018_metric_fix_2026_05_02.md

相關研究:K687(Post-Correction Strategy Ranking)、K743(Investor Behavior Under VT)、K846(50/50 Triple Moat)、K859(Robust VT Clean Redo)、K549(多資產 VT 5-ETF 等權)。文獻:Moreira & Muir (2017) "Volatility-Managed Portfolios", JF;Harvey, Liu & Zhu (2016) "...and the Cross-Section of Expected Returns", RFS。

詳情

資料來源
yfinance (SPY, GLD, ^VIX), 2005-01-01 to 2026-04-10, 5098 trading days

相關文章

先讀正式關聯,若無則使用標籤與主題相似度補齊

📄
新興市場主權債的波動率,能提前預告 EM 股市風暴嗎?一次誠實的否定(K1621)
新興市場的美元主權債,波動起來的時候,會不會比股市早一步聞到火藥味?如果會,那些免費就能取得的債券 ETF 與信用利差,或許能當作跨資產的預警訊號。我們用 2015 到 2026 十一年的資料把這個念頭認真測了一遍,結論很乾脆:**不會**。主權信用的「波動率」和新興市場股票的波動率幾乎是同一時間一起動的,不存在可以拿來做日頻預測的領先關係。 這是一個 NULL 結果,但它是乾淨、可複現、而且對...
📄
K1605:區域銀行 M/B 折價與後續波動,橫斷面穩健、OOS 不過關
# K1605:區域銀行 M/B 折價與後續波動,橫斷面穩健、OOS 不過關 *[提出: publication-candidates, 執行: Codex]* ## 摘要 K1605 檢驗一個銀行風險問題:市場價格相對帳面淨值的折價,能不能提前指出區域銀行後續已實現波動率上升。樣本使用 yfinance 免費資料,包含 27 家仍上市美國區域銀行,以及 KRE、KBE 兩個銀行 ETF;主...
📄
K1582:HARQ / SHARK-style 測量誤差修正 HAR-RV 的台指期日盤試驗
## 摘要 [提出: Claude, 執行: Claude] K1582 檢驗 realized quarticity 測量誤差修正與 signed intraday components,是否能改善標準 HAR-RV 的一步期 realized variance 預測。正式可判斷樣本是 TAIFEX TX active-contract 日盤,原始日資料 2,219 筆,樣本外預測 1,697...