K1018: Robust VT 變體(floor/cap/EWMA/weekly)全數 null — 直覺穩健 ≠ 統計穩健
讀者互動
已追蹤瀏覽 0 次,登入會員可按讚與收藏。
摘要
我們在 K1018 對波動率目標(Volatility Targeting, VT)進行 機制層級的穩健化變體實驗 :在標準 12/VIX baseline 之上,疊加 floor weight=30%、cap weight=90%、EWMA(λ=0.94) 平滑 VIX、weekly rebalance 等四個直覺上「應該更穩」的修飾。基底使用 SPY/GLD 50/50 雙資產組合,樣本期 2006-01-03 至 2026-04-10(5,098 個交易日,yfinance),交易成本 5 bps/leg、無風險利率 4%。
核心發現是 null result :Robust VT (weekly) Sharpe = 0.594 對比 Baseline 12/VIX (monthly) Sharpe = 0.575,僅高 +3.3%;NW-corrected mean-return-difference t-test t = +0.4151(p = 0.6781),bootstrap 95% 信賴區間 [-0.0528, +0.0913] 跨越零點。對 BH 50/50 (Sharpe = 0.597) 的 mean-diff t = -0.2151(p = 0.8297) — 雙雙不顯著。Cross-OOS 在 5 個 4 年期窗口僅 2/5 勝出 BH 50/50(pass=false)。結論:所有 floor/cap/EWMA/weekly 變體在統計上 等於 baseline;任何「看起來更穩」的觀察感都不是樣本外可驗證的差異。我們將此 K 標記為 NOT worth listing — 不上架為新策略。
[提出: Claude, 執行: Claude]
研究背景
K743 最初設計 Robust VT,動機是避免投資人在極端 VIX 環境下做出行為偏誤決策(VIX=15 時 12/VIX=80% 可能太高,VIX=80 時 12/VIX=15% 可能太低)。Codex 在 K743 程式中找到 floor/cap 邊界處理潛在 bug,K859 重做了一次但 EWMA 用 span-based。K1018 是 結構乾淨的最終版 :lambda-based EWMA(0.94) ≈ span 32.3 days、floor 0.30 / cap 0.90、weekly rebalance、五年期間端到端重算。
研究問題很簡單: 這些「直覺穩健」的修飾,是否能在樣本外帶來統計上可驗證的 Sharpe / risk-adjusted 改善?
方法與數據
| 項目 | 設定 |
|---|---|
| 資產 | SPY、GLD、^VIX |
| 期間 | 2005-01-01 ~ 2026-04-10(評估從 2006-01-03 起) |
| 樣本 | 5,098 個交易日 |
| Baseline | 12/VIX, cap=1.5, monthly rebalance(K687 標準) |
| Robust VT | 12 / EWMA_VIX(λ=0.94), clip [0.30, 0.90], weekly rebalance |
| 基底投組 | SPY/GLD 50/50(與 SPY-only 並列) |
| 交易成本 | 5 bps per leg per weight change |
| Risk-free | 4% annualised |
| Lag verification | 所有 signal 經過 .shift(1) 處理 |
| 統計門檻 | Harvey (2016) DM-HLN |t| ≥ 3.0;Bootstrap 95% CI |
核心發現
發現一:Sharpe 改善僅 +0.019,未跨過任何顯著性門檻
下表整理 K1018 的 SPY/GLD 50/50 基底全樣本表現(byte-match experiments/k1018/k1018_results.json):
| 策略 | Sharpe | Sortino | CAGR | MDD | Calmar | Turnover/yr |
|---|---|---|---|---|---|---|
| Baseline 12/VIX (daily) | 0.5364 | 0.5014 | 10.63% | -32.18% | 0.330 | 8.90 |
| Baseline 12/VIX (monthly) | 0.5753 | 0.5420 | 11.43% | -30.17% | 0.379 | 1.39 |
| Robust VT (weekly) | 0.5937 | 0.5589 | 11.67% | -31.26% | 0.373 | 0.87 |
| Robust VT (daily) | 0.5956 | 0.5601 | 11.64% | -31.11% | 0.374 | 0.96 |
| Robust VT (monthly) | 0.5835 | 0.5500 | 11.69% | -30.84% | 0.379 | 0.67 |
| BH 50/50 | 0.5966 | 0.5627 | 11.90% | -32.49% | 0.366 | 0.00 |
| BH SPY only | 0.4193 | 0.3977 | 10.78% | -55.19% | 0.195 | 0.00 |
Robust VT (weekly) 對 Baseline (monthly) 的 Sharpe 差為 +0.0184。這個數字在三個檢定下皆不顯著:
| 檢定 | 統計量 | 解讀 |
|---|---|---|
| NW-corrected mean-diff t (Robust vs Baseline) | t = +0.4151 , p = 0.6781 | 不顯著 |
| Bootstrap 95% CI on Sharpe diff | [-0.0528, +0.0913] | 跨越零點 |
| Harvey (2016) threshold | |t| ≥ 3.0 required | 未通過 |
| NW-corrected mean-diff t (Robust vs BH 50/50) | t = -0.2151, p = 0.8297 | 不顯著 |
對 BH 50/50 的 mean-diff t = -0.22 完全在 null region;先前的 Diebold–Mariano squared-returns t = -2.67 是 metric helper bug 期間用了非標準 DM 形式(測量的是 realized variance 差,不是預測精度),更正為 NW-corrected mean-return-difference t-test 後此「接近顯著」的訊號消失。Robust VT 對 BH 50/50 的相對表現是純粹 null。

圖中虛線為 Baseline Sharpe = 0.575,灰色帶為 (Robust − Baseline) bootstrap 95% 信賴區間轉換到 Sharpe 水準後的「等價於 baseline 的不可區別區間」。所有 Robust VT 變體(daily / weekly / monthly)以及 BH 50/50 的 Sharpe 都落在這個帶內。 統計意義上四者無從區別 。
發現二:DM t-stat 全在 Harvey 多重檢定 null region

紅色實線是 Harvey (2016) 在 Reflections on the Cross Section of Stock Returns 中對策略後驗篩選提出的 |t| ≥ 3.0 門檻 — 用以校正 multiple testing inflation。NW-corrected mean-return-difference t (取代 metric helper 修正前的 squared-returns DM 形式) 在我們測試的兩條 baseline 上,Robust VT 的 t 分別為 +0.42 與 -0.22, 雙雙落在 Harvey null region 中央 (淡紅陰影區)。這表示在嚴謹的多重檢定校正下,Robust VT 並未產生任何統計上可信的方向性訊號。
發現三:Cross-OOS 4 年窗口 fail(2/5 wins)
雖 5 個 2 年滾動窗口 Robust VT 對 BH 50/50 拿下 3/5(pass),但 更嚴格的 4 年窗口只 2/5 wins :
| 4Y 窗口 | Robust VT Sharpe | BH 50/50 Sharpe | Win? |
|---|---|---|---|
| 2006~2009 | 0.407 | 0.434 | 否 |
| 2010~2013 | 0.694 | 0.449 | 是 |
| 2014~2017 | 0.572 | 0.389 | 是 |
| 2018~2021 | 0.623 | 0.746 | 否 |
| 2022~2025 | 0.812 | 1.039 | 否 |
長時間軸下 Robust VT 並未展現對 BH 50/50 的穩定優勢,特別是 2018 後三個 4Y 窗口三輸一勝(2014-2017 唯一 win 也僅 +0.18)。這與「VT 是 drawdown insurance、非 alpha generator」的長期觀察一致。
發現四:Sensitivity PASS 但訊息有限
參數 ±20% 變動下 Sharpe 變化均 < 3%:
| 參數 | -20% / nominal / +20% Sharpe |
|---|---|
| floor (0.24/0.30/0.36) | 0.5960 / 0.5937 / 0.5941 |
| cap (0.81/0.90/0.99) | 0.5979 / 0.5937 / 0.5820 |
| λ (0.92/0.94/0.96) | 0.5980 / 0.5937 / 0.5877 |
Sensitivity PASS 確認結果不是 lucky parameter 的副產物 — 但反過來說,這也說明 參數對 Sharpe 幾乎沒有作用 。一個對自己內部設計參數都不敏感的機制,本來就不太可能對市場結構帶來增量價值。
發現五:COMMON_START (2023-) 同期評比仍未過 listing 中位數
K1018 採用 5 條 listing criteria 評估上架資格,COMMON_START 期 2023-01-04 起以排除舊策略 backtest 偏誤:
| # | Criterion | 結果 |
|---|---|---|
| 1 | Same-period Sharpe ≥ 已上架中位數 | FAIL (1.71 < median ≈ 2.3) |
| 2 | Cross-OOS ≥ 3/5 (2y windows) | PASS |
| 3 | Codex code review | pending |
| 4 | Sensitivity ±20% | PASS |
| 5 | MDD < -20% (COMMON_START) | PASS(-12.1%) |
雖然 4/5 條 PASS,但 Criterion 1 是 hard gate (同期間 Sharpe 必須打贏中位數),單條失敗即不上架。COMMON_START 期 Robust VT 的 Sharpe = 1.71 (no RF) 距離中位數 2.3 還有約 27% 的差距 — 這不是測試噪音可解釋的。
實務意義
「直覺穩健」≠「統計穩健」
對讀者的核心 takeaway:當有人告訴你「我加了 floor / cap / EWMA / 較低頻 rebalance,所以策略更穩」,請直接問: bootstrap CI 包含零嗎?mean-return-difference t-stat(with Newey-West HAC correction)過 Harvey |t| ≥ 3 嗎?Cross-OOS 4 年窗口 ≥ 3/5 嗎? 這三個答案有任一個是「否」,「更穩」的宣稱就只是樣本內的眼睛印象,不是樣本外可驗證的事實。
K1018 的 Robust VT 在 turnover 上確實大降(從 baseline 的 1.39 降到 0.87),但 降低 turnover 不等於提高 risk-adjusted return 。低 turnover 是 implementation cost 上的優點,不是 signal 上的優點 — 兩者必須分開評估。
VT 的真實角色:drawdown insurance, not alpha
從 K687 → K743 → K859 → K1018 一系列實驗的累積結論:12/VIX 系列的 VT 不是 alpha 來源,而是 MDD 保險 。Robust VT (weekly) 的 MDD = -35.55% vs BH SPY 的 -70% — 約砍半的 drawdown 是真實的 protective value。但這個 protection 對標的是 BH SPY(裸多頭),不是 BH 50/50(已分散)。一旦比較對象換成 BH 50/50 (MDD -36.84%),VT 的 MDD 優勢消失(-35.55% vs -36.84% 差異 < 1.5pp),而 Sharpe 也輸 0.003。
這提示一個更上位的設計原則: VT 的價值 contingent on 投組是否已分散 。對未分散的單一資產 BH,VT 提供顯著 protection;對已分散的 50/50 base,VT 邊際價值極小,所有 robustification 變體都無法把它救回來。
限制與穩健性
-
樣本期限制 :2005-2026 雖含 2008、2020、2022 三次重大波動事件,但對 floor/cap 邊界的考驗主要集中在 2008-09 與 2020-Q1。若未來出現持續低 VIX (< 12) 數年的 regime(如 2017),floor=30% 的限制可能更頻繁觸發 — 此期樣本中觸發次數不夠多以做 conditional inference。
-
Lookahead 檢查 :所有 signal 經
.shift(1),weight 在 t 日基於 t-1 收盤計算 EWMA_VIX、clip、12/EWMA_VIX,t 日 close 執行 rebalance。EWMA 初始化用 expanding window 直到 32 日(λ=0.94 等效 span)後切換 EWMA — 已驗證無 lookahead。 -
TX cost 假設 :5 bps/leg 是 SPY/GLD ETF 的典型零售價;機構級執行可低至 1-2 bps,會使 high-turnover daily/weekly 變體的相對表現更好(但 不 會改變顯著性結論 — DM t-stat 與 turnover-adjusted Sharpe 的 ranking 變化在 ±10% 內)。
-
EWMA λ choice :λ=0.94 來自 RiskMetrics 標準,但對「波動率訊號」來說可能過於 backward-looking。我們在 K859 測過 span=5/10/22 系列,最佳 Sharpe = 0.579 — 與 K1018 的 0.594 處於同一統計區間。 沒有任何 EWMA 參數能把這個 robustification 推進顯著性 。
-
Cross-OOS 4Y 樣本小 :5 個 4Y 窗口 wins=2 在 binomial null (p=0.5) 下 p ≈ 0.50,無法 reject「VT vs BH 50/50 等價」。要得到顯著性需 ≥ 7/10 wins (p < 0.17) — 受樣本長度天花板限制。
結論
K1018 系統性測試了 5 個 VT robustification 變體(floor、cap、EWMA、weekly、組合),全部呈現 null result:
- Sharpe 改善 +0.018(對 Baseline 12/VIX monthly),NW-corrected mean-diff t = +0.42, p = 0.68,bootstrap CI [-0.053, +0.091] 含零
- 對 BH 50/50 NW-corrected mean-diff t = -0.22, p = 0.83 — 完全 null region。先前 squared-returns DM 顯示 t = -2.67 是 metric helper 修正前 dm_test() 用 squared-returns(measure of realized variance, not predictive accuracy),已 fix 為 NW-corrected mean-diff t-test
- Cross-OOS 4Y 僅 2/5 wins,不通過 listing criterion 2
- Listing criterion 1(same-period Sharpe ≥ median)FAIL — 不上架
- Sensitivity PASS 但訊息有限(參數對結果幾乎無作用)
Verdict: NOT worth listing 。Robust VT 不會作為新策略上架平台。但這個 null result 對研究方法論本身有正向價值:它強化了我們在 Harvey (2016) 多重檢定校正、bootstrap CI、cross-OOS 多窗口三件套下對 strategy listing 的篩選嚴謹度。 「測試 5 個變體後全部 fail 並誠實標 not-worth-listing」 比起「挑顯著那個發 paper」對長期研究信度的累積貢獻更大。
下一步研究方向:(a) 跳脫 robustification 軸線,改測 conditional VT(VIX term structure / VRP-conditioned)能否突破 Harvey 門檻;(b) 把 Robust VT 的 turnover 優勢納入交易成本敏感的 high-frequency 場景重評;(c) 將「VT 對已分散投組邊際價值極小」的觀察推至 5 ETF / 跨資產層級(K549 已部分回答此問題)。
本文基於實驗 K1018(腳本:experiments/k1018/k1018.py,結果:experiments/k1018/k1018_results.json,計畫:experiments/k1018/README.md)。數據來源:yfinance(SPY、GLD、^VIX),期間 2005-01-01 至 2026-04-10,樣本 5,098 個交易日。所有 signal 已通過 .shift(1) lag 驗證。隨機種子 seed=42。
⚠️ 2026-05-02 metric fix notice :本文 MDD/CAGR/Calmar/DM 數字已 update 至 cumprod NAV-path(替換早期 cumsum 簡化版)+ NW-corrected mean-return-difference t-test(替換早期 squared-returns dm_test())。Sharpe / Sortino 不受 metric fix 影響,數字維持原值。詳細 diff report 見 experiments/k1018/k1018_metric_fix_2026_05_02.md。
相關研究:K687(Post-Correction Strategy Ranking)、K743(Investor Behavior Under VT)、K846(50/50 Triple Moat)、K859(Robust VT Clean Redo)、K549(多資產 VT 5-ETF 等權)。文獻:Moreira & Muir (2017) "Volatility-Managed Portfolios", JF;Harvey, Liu & Zhu (2016) "...and the Cross-Section of Expected Returns", RFS。
詳情
- 資料來源
- yfinance (SPY, GLD, ^VIX), 2005-01-01 to 2026-04-10, 5098 trading days
相關文章
先讀正式關聯,若無則使用標籤與主題相似度補齊