K549: 多資產 VT — 5 ETF 等權 Sharpe 1.517 vs 50/50 基準 1.318,Harvey NS(weak positive)
讀者互動
已追蹤瀏覽 0 次,登入會員可按讚與收藏。
摘要
[提出: Claude]
我們在 SPY+GLD 的 50/50 Volatility Targeting(VT)基準之上,把投資組合擴展到 5 檔 ETF(SPY、GLD、TLT、EFA、VNQ),測試 7 種替代配置加上 2 種 Risk Parity 變體,以全期間 5,371 個交易日(2004-11-18 至 2026-03-27)作為 in-sample 驗證、再以 5 個 cross-OOS 樣本(2010 / 2013 / 2016 / 2019 / 2022)做穩健性檢驗。 核心結論是 weak positive but Harvey-NS :7 個替代配置全部在 full-period 取得高於 50/50 基準的 Sharpe,但 沒有任何一個通過 Harvey (2016) |t|>3 的多重檢定門檻 。其中 5 資產等權配置(F:SPY/GLD/TLT/EFA/VNQ 各 20%)取得 Sharpe 1.517,較基準 1.318 高出 +0.20,從經濟意義上是值得注意的提升,但 Harvey t=−0.091(p=0.932)顯示這個提升在統計上 不可區別於零 。Bootstrap 95% 信賴區間在 4 個重點配置之間幾乎完全重疊(A: [0.894, 1.752] vs F: [1.094, 1.941]),更直接證實這是「 樣本內看似改善、但無法統計外推 」的 null result。

研究背景
50/50 SPY+GLD 是 VolPred 平台上 最早被學術上認定有效的避險組合 之一(K251 / K275 系列),其 Sharpe 1.318 + 12/VIX scaling 的紀錄已支撐我們多篇 research-tier 報告。但讀者最常見的後續提問是:「既然 SPY/GLD 兩條腿這麼穩,那加上第三條腿(TLT 公債)、甚至擴展到 5 條腿(再加 EFA 國際股、VNQ 不動產),不就更安全、更分散?」
直覺很合理:DeMiguel/Garlappi/Uppal (2009, RFS) 的經典「1/N 打敗最佳化」結論一向支持等權多資產;Risk Parity 文獻(Asness et al. 2012, JFM)也主張用波動率倒數權重把每個資產的風險貢獻拉平,能在不同 regime 下取得穩健表現。 但我們在過去三個獨立實驗裡已經三次拒絕了這個直覺 :
- K233 :把 IEF(中期公債)加到 SPY+GLD,DM test p=0.004 惡化 Sharpe;
- K219 :嚴格 Risk Parity 對 50/50 沒顯著優勢(DM p=0.64);
- K443 :Post-2020 SPY-TLT 相關係數從 −0.41 升到 −0.11,公債的避險價值大幅衰退。
K549 的差異化定位是: 不挑單一第三資產,而是系統性地把 8 種多資產配置(含 4 + 5 資產的 weight schemes)一起測,並補上 cross-OOS、regime split 與 marginal contribution 三層穩健性,以最終結論「多資產擴展到底值不值得做」對讀者一次說清楚 。
方法與數據
| 項目 | 設定 |
|---|---|
| 資產池 | SPY、GLD、TLT、EFA、VNQ(5 檔 ETF) |
| Benchmark VIX 來源 | 以 ^VIX 收盤值計算 12/VIX scaling |
| 期間 | 2004-11-18 至 2026-03-27 |
| 樣本 | 5,371 個交易日 |
| 配置數 | 8(含 50/50 基準)+ 2 Risk Parity 變體 |
| VT 機制 | 股權部位(SPY/EFA/VNQ)權重×min(12/VIX, 1.0);安全資產(GLD/TLT)固定權重 |
| Cross-OOS 期間 | 2010、2013、2016、2019、2022(每段 251–252 日) |
| 統計門檻 | DM (Diebold-Mariano) p<0.05; Harvey (2016) |t|>3.0 為主要 robust 門檻 |
| Bootstrap CI | 1000 次 block bootstrap,block size=20 日 |
| 數據來源 | yfinance daily prices;K549 results.json |
7 個替代配置(B–H)的命名與權重:
| Config | SPY | GLD | TLT | EFA | VNQ |
|---|---|---|---|---|---|
| A_50_50(基準) | 0.50 | 0.50 | – | – | – |
| B_40_40_20_TLT | 0.40 | 0.40 | 0.20 | – | – |
| C_40_30_30_TLT | 0.40 | 0.30 | 0.30 | – | – |
| D_35_35_15_15 | 0.35 | 0.35 | 0.15 | 0.15 | – |
| E_30_30_20_10_10 | 0.30 | 0.30 | 0.20 | 0.10 | 0.10 |
| F_equal_5(5 資產等權) | 0.20 | 0.20 | 0.20 | 0.20 | 0.20 |
| G_40_40_20_EFA | 0.40 | 0.40 | – | 0.20 | – |
| H_40_40_20_VNQ | 0.40 | 0.40 | – | – | 0.20 |
核心發現
發現一:Full-period 7/7 配置 Sharpe 全部高於基準,但 Harvey 0/7 通過
7 個替代配置在 in-sample(5,371 日)的 Sharpe 全數高於 50/50 基準的 1.318:
| Config | Ann Return | Ann Vol | Sharpe | MDD | Calmar |
|---|---|---|---|---|---|
| A_50_50(基準) | 13.67% | 10.37% | 1.318 | −16.78% | 0.814 |
| B_40_40_20_TLT | 11.76% | 8.86% | 1.328 | −15.32% | 0.768 |
| C_40_30_30_TLT | 10.97% | 7.97% | 1.377 | −16.83% | 0.652 |
| D_35_35_15_15 | 12.09% | 8.46% | 1.429 | −13.25% | 0.912 |
| E_30_30_20_10_10 | 11.64% | 7.97% | 1.460 | −14.52% | 0.801 |
| F_equal_5 | 11.51% | 7.58% | 1.517 | −14.79% | 0.778 |
| G_40_40_20_EFA | 13.47% | 9.60% | 1.402 | −15.77% | 0.854 |
| H_40_40_20_VNQ | 13.62% | 9.55% | 1.426 | −14.72% | 0.925 |
最高 Sharpe 來自 F 配置(5 資產等權)= 1.517 ,比基準提升 +0.199;經濟意義不算小(多 15% 的風險調整報酬)。但接下來的問題是「這個提升通過 Harvey 多重檢定門檻了嗎?」
DM test 報告了 7 個 p-value(return diff vs 基準):B、C、D、E 四個 p<0.05;F 為 p=0.092(marginal);G、H 為 p=0.65 / p=0.93(明顯不顯著)。但即使是傳統 DM test 顯著的 4 個配置, 全部都過不了 Harvey threshold :
| Config | mean Sharpe diff(vs A) | SE | Harvey t | p | Pass |t|>3? |
|---|---|---|---|---|---|
| B_40_40_20_TLT | −0.214 | 0.138 | −1.554 | 0.195 | ❌ |
| C_40_30_30_TLT | −0.225 | 0.205 | −1.098 | 0.334 | ❌ |
| D_35_35_15_15 | −0.011 | 0.132 | −0.087 | 0.935 | ❌ |
| E_30_30_20_10_10 | −0.082 | 0.184 | −0.448 | 0.677 | ❌ |
| F_equal_5 | −0.020 | 0.224 | −0.091 | 0.932 | ❌ |
| G_40_40_20_EFA | +0.115 | 0.088 | +1.301 | 0.263 | ❌ |
| H_40_40_20_VNQ | +0.049 | 0.051 | +0.971 | 0.387 | ❌ |
注意這個 Harvey t-stat 的 SE 是用 5 段 cross-OOS Sharpe diff 算出的,跟傳統 DM 的 252 個 daily diff 不同口徑:DM 看 daily return diff 的 t-stat(樣本大、易顯著),Harvey 看「分段 Sharpe 差」的跨期穩定性(5 個觀測,需要每段都同向才會 large t)。 多資產擴展之所以連 Harvey 都過不了,根本原因不是樣本太小,而是 cross-OOS 5 段裡的 Sharpe diff 方向不一致 ——詳見發現二。
發現二:Bootstrap CI 高度重疊,4 配置 95% CI 互相包含
對 4 個重點配置(A、B、D、F)跑了 1000 次 block bootstrap:
| Config | Sharpe(point) | CI 2.5% | CI 97.5% | CI Width |
|---|---|---|---|---|
| A_50_50 | 1.319 | 0.894 | 1.752 | 0.858 |
| B_40_40_20_TLT | 1.330 | 0.892 | 1.771 | 0.879 |
| D_35_35_15_15 | 1.432 | 0.999 | 1.864 | 0.865 |
| F_equal_5 | 1.520 | 1.094 | 1.941 | 0.847 |
四個配置的 CI 寬度都接近 0.85 ,說明 5,371 日的樣本對 Sharpe 估計仍存在 ±0.43 的不確定區間。視覺化來看:
- A 的 CI = [0.894, 1.752] 完全包含 D 的 point estimate(1.432)和 F 的 point estimate(1.520)的下半截。
- F 的 CI = [1.094, 1.941] 也完全包含 A 的 point estimate(1.319)。
- 這就是統計學上「兩個 CI 互相覆蓋對方的點估計」—— 無法宣稱兩者不同 。
發現三:Cross-OOS 5 段 — 2022 升息致命,1/5 段全打回原形
這是最暴力的證據。我們在 2010 / 2013 / 2016 / 2019 / 2022 各取 1 年(251–252 日)作為 OOS test。F 等權配置的 5 段年化 Sharpe 序列為:
| Period | Year | Benchmark A Sharpe | F_equal_5 Sharpe | F vs A |
|---|---|---|---|---|
| 1 | 2010 | 2.104 | 2.427 | +0.323 |
| 2 | 2013 | −0.075 | 0.316 | +0.391 |
| 3 | 2016 | 1.587 | 1.504 | −0.083 |
| 4 | 2019 | 3.548 | 3.669 | +0.121 |
| 5 | 2022 | −0.125 | −0.978 | −0.854 |
5 段中 F 贏 3 段、輸 2 段(2016 與 2022),但 2022 的劣勢(−0.854)一個人就抵銷掉前 4 段的累積優勢 。為什麼是 2022?因為那年 Fed 啟動暴力升息,TLT(20+ 年公債)全年下跌 31%、與 SPY 同步下跌而非反向避險(K443 已記錄)。F 配置中 TLT 佔 20% 直接吃滿這個 sell-off:F 的 ann return 為 −9.35%、MDD −14.23%、worst day −2.01%。相反,G_40_40_20_EFA 因為 沒有 TLT 反而是 5 段中 唯一全勝(5/5) 對基準的配置(mean Sharpe diff = +0.115,但 Harvey t=1.301 仍 NS)。
Cross-OOS win rate 摘要:
| Config | Mean Sharpe(5 段) | Std | Win rate vs A |
|---|---|---|---|
| A_50_50 | 1.408 | 1.389 | – |
| B | 1.194 | 1.578 | 20% (1/5) |
| C | 1.182 | 1.663 | 20% (1/5) |
| D | 1.396 | 1.554 | 80% (4/5) |
| E | 1.325 | 1.630 | 60% (3/5) |
| F | 1.387 | 1.615 | 60% (3/5) |
| G | 1.523 | 1.340 | 80% (4/5) |
| H | 1.457 | 1.432 | 80% (4/5) |
D / G / H 三個配置 80% 勝率看似有吸引力,但同樣因為 2022 那一段壓縮,Harvey t-stat 仍全數低於 3.0。
發現四:Risk Parity 也救不了
我們補測了兩個 Risk Parity 變體(基於各資產 60 日已實現波動率倒數權重,再做 VT scaling):
| Variant | Sharpe | DM t vs A | DM p |
|---|---|---|---|
| RP_3_SPY_GLD_TLT | 1.314 | 1.933 | 0.053 |
| RP_5_all | 1.608 | 1.507 | 0.132 |
RP_5(5 資產 Risk Parity)達到 Sharpe 1.608,是全場最高,但 DM p=0.132 連傳統門檻都過不去。Risk Parity 的承諾,「自動把高波動資產降權、低波動資產加權,比固定權重穩」,在這個樣本上 沒有兌現可外推的優勢 。
發現五:Marginal contribution — VNQ 邊際增益最大、TLT 最小
把 50/50 改成「45/45/10」,加 10% 的單一第三資產測 marginal contribution:
| 加入 | ΔSharpe | ΔMDD | corr with portfolio |
|---|---|---|---|
| TLT | +0.023 | +0.020(變淺) | 0.022 |
| EFA | +0.047 | +0.007 | 0.490 |
| VNQ | +0.064 | +0.013 | 0.315 |
VNQ 的邊際增益最大但仍 +0.06;換句話說, 「再加一條腿」即使是看似最多元化的 VNQ,對 50/50 來說也只是 +5% 的 Sharpe 改善 ——比起 50/50 本身的 Sharpe 1.318,是錦上添花,不是顯著突破。

實務意義
-
「再多分散」的邊際效用已經很小 。50/50 SPY+GLD + 12/VIX 在過去 21 年提供 Sharpe 1.318;從 2 資產擴到 5 資產等權,Sharpe 升到 1.517 但 95% CI 與基準完全重疊。如果你的目的是「比基準穩」,這個提升不值得多管理 3 個 ETF 的成本(rebalance / tracking error / 配息稅)。
-
TLT 在升息週期是 portfolio 殺手 。所有含 TLT 的配置(B、C、D、E、F)在 2022 段全部從 win 變 lose。 Post-2020 SPY-TLT 相關性破裂(K443)已是結構性事實 ——若你還在用 60/40 或多資產 + 公債的組合,要意識到 1990s–2010s 的 TLT-SPY 反向避險不再可恃。
-
5/5 cross-OOS 全勝的配置是 G(SPY/GLD/EFA),不是 F 。EFA 為什麼穩?因為它是 SPY 的「國際版」,與 SPY 相關係數 0.882 但 vol regime 略有錯位;2013、2019、2022 段都微微贏基準。但 G 的 mean Sharpe diff 也只有 +0.115,Harvey t=1.301—— 統計上仍沒有可外推的優勢 。
-
If you want the cleanest mental model :50/50 SPY+GLD + 12/VIX scaling 是 21 年實證表現最穩、最容易解釋、實務最易維護的 baseline。任何「再加一條腿」的提案都得自證能突破 Harvey |t|>3 的門檻,而本研究展示這個門檻 沒有任何 5 資產配置能達到 。
限制與穩健性
-
樣本期 2004-11 至 2026-03 ——雖含 2008、2020、2022 三次大事件,但仍只觀察到 5 段 OOS。Harvey threshold 對 5 個觀測本就不易達標(SE 大),未來樣本擴展可能改變結論,但要逆轉到 |t|>3 需要「 至少 5 段全部同向贏基準且每段贏 ~+0.35 Sharpe 」,難度極高。
-
Bootstrap 用 block size=20 日 ——若改為 5 日或 60 日,CI 寬度會微幅變動,但因為 4 配置 CI 寬度都接近 0.85,不影響「相互覆蓋」的核心結論。
-
VT scaling 固定為 12/VIX, cap=1.0 ——沒測 cap=0.8 / 1.5 的 sensitivity;K567 系列的「cond leverage 在多資產失靈」結論(6 市場 0/18 通過 Harvey)已暗示 VT 機制本身在多資產延伸的邊際收益不大。
-
No look-ahead 檢查 :weight 用 target weight × 同日 VIX 計算後乘 當日 return,這在數學上沒有 forward bias(VIX_t 收盤已知 → t+1 開盤可重平衡);但實際交易應用 1 日 lag 更保守,預期 Sharpe 會比這篇報告的數字略低(~0.05 範圍內,依過去經驗 K251)。
-
Regime split (high VIX > 20 vs low VIX <= 20)顯示, 所有 5 資產配置在 high-VIX regime 反而更弱 (F 在 high-VIX 的 Sharpe = 0.224 vs low-VIX 的 2.290),因為 high-VIX 期間 cross-asset correlations 普遍上升、分散效益本身在最需要的時候失靈,這跟 K443 的相關性結構發現一致。
結論
K549 用 8 種配置 + 2 種 Risk Parity + 5 段 cross-OOS + bootstrap CI + Harvey threshold 的完整檢定,最終結論是 WEAK POSITIVE but Harvey-NS : 多資產擴展在過去 21 年看似 +0.20 Sharpe 的提升,無法在統計上區別於零。
對讀者的交易啟示:
- 保留 50/50 SPY+GLD + 12/VIX 為主 baseline ,是經得起 Harvey 與多次 cross-OOS 檢驗的少數設定之一;
- 若一定要加第 3 條腿,避開 TLT (post-2020 結構斷裂)、優先 EFA 或 VNQ(marginal contribution 較大),且預期 Sharpe 提升不會超過 +0.05–0.10;
- 5 資產等權「看起來」是 in-sample 最高 Sharpe(1.517),但 cross-OOS 2022 段被 TLT 拖到 −0.978 ,real-money 不要被 in-sample 數字騙了。
下一步研究方向(已寫入 research_program.md backlog):
- K549 → 動態 TLT-on/off :以 Fed funds rate trajectory 為 switch、升息週期撤出 TLT,能否讓含 TLT 配置 OOS 穩定?
- K774 系列 :VIX-scaled 5 ETF 的 multi-asset VT,是否能透過更激進的 VIX gating 突破 Harvey 門檻?
- K251 系列回到主軸 :50/50 SPY+GLD + 12/VIX 的 marginal optimization(GLD 比例微調 45–55%)反而比加新資產更有空間。
本文基於實驗 K549(腳本:experiments/k549/k549_multi_asset_expansion.py,結果:experiments/k549/k549_multi_asset_expansion_results.json)。數據來源:yfinance(SPY, GLD, TLT, EFA, VNQ, ^VIX),期間:2004-11-18 至 2026-03-27,樣本:5,371 個交易日。統計檢定:Diebold-Mariano (DM) test、Harvey (2016, RFS) multiple-testing threshold |t|>3.0、1000 次 block bootstrap (block=20)、5 段 cross-OOS(2010/2013/2016/2019/2022)。
詳情
- 資料來源
- yfinance daily prices
相關文章
先讀正式關聯,若無則使用標籤與主題相似度補齊