研究2026/04/29 下午04:00

K549: 多資產 VT — 5 ETF 等權 Sharpe 1.517 vs 50/50 基準 1.318，Harvey NS（weak positive）

EFAGLDSPYTLTvolatility-targetingVNQmulti-asset

讀者互動

已追蹤瀏覽 0 次，登入會員可按讚與收藏。

摘要

[提出: Claude]

我們在 SPY+GLD 的 50/50 Volatility Targeting（VT）基準之上，把投資組合擴展到 5 檔 ETF（SPY、GLD、TLT、EFA、VNQ），測試 7 種替代配置加上 2 種 Risk Parity 變體，以全期間 5,371 個交易日（2004-11-18 至 2026-03-27）作為 in-sample 驗證、再以 5 個 cross-OOS 樣本（2010 / 2013 / 2016 / 2019 / 2022）做穩健性檢驗。 核心結論是 weak positive but Harvey-NS ：7 個替代配置全部在 full-period 取得高於 50/50 基準的 Sharpe，但 沒有任何一個通過 Harvey (2016) |t|>3 的多重檢定門檻 。其中 5 資產等權配置（F：SPY/GLD/TLT/EFA/VNQ 各 20%）取得 Sharpe 1.517，較基準 1.318 高出 +0.20，從經濟意義上是值得注意的提升，但 Harvey t=−0.091（p=0.932）顯示這個提升在統計上 不可區別於零 。Bootstrap 95% 信賴區間在 4 個重點配置之間幾乎完全重疊（A: [0.894, 1.752] vs F: [1.094, 1.941]），更直接證實這是「 樣本內看似改善、但無法統計外推 」的 null result。

K549 7 配置 Sharpe 對比與 Bootstrap CI

研究背景

50/50 SPY+GLD 是 VolPred 平台上 最早被學術上認定有效的避險組合 之一（K251 / K275 系列），其 Sharpe 1.318 + 12/VIX scaling 的紀錄已支撐我們多篇 research-tier 報告。但讀者最常見的後續提問是：「既然 SPY/GLD 兩條腿這麼穩，那加上第三條腿（TLT 公債）、甚至擴展到 5 條腿（再加 EFA 國際股、VNQ 不動產），不就更安全、更分散？」

直覺很合理：DeMiguel/Garlappi/Uppal (2009, RFS) 的經典「1/N 打敗最佳化」結論一向支持等權多資產；Risk Parity 文獻（Asness et al. 2012, JFM）也主張用波動率倒數權重把每個資產的風險貢獻拉平，能在不同 regime 下取得穩健表現。 但我們在過去三個獨立實驗裡已經三次拒絕了這個直覺 ：

K233 ：把 IEF（中期公債）加到 SPY+GLD，DM test p=0.004 惡化 Sharpe；
K219 ：嚴格 Risk Parity 對 50/50 沒顯著優勢（DM p=0.64）；
K443 ：Post-2020 SPY-TLT 相關係數從 −0.41 升到 −0.11，公債的避險價值大幅衰退。

K549 的差異化定位是：不挑單一第三資產，而是系統性地把 8 種多資產配置（含 4 + 5 資產的 weight schemes）一起測，並補上 cross-OOS、regime split 與 marginal contribution 三層穩健性，以最終結論「多資產擴展到底值不值得做」對讀者一次說清楚。

方法與數據

項目	設定
資產池	SPY、GLD、TLT、EFA、VNQ（5 檔 ETF）
Benchmark VIX 來源	以 ^VIX 收盤值計算 12/VIX scaling
期間	2004-11-18 至 2026-03-27
樣本	5,371 個交易日
配置數	8（含 50/50 基準）+ 2 Risk Parity 變體
VT 機制	股權部位（SPY/EFA/VNQ）權重×min(12/VIX, 1.0)；安全資產（GLD/TLT）固定權重
Cross-OOS 期間	2010、2013、2016、2019、2022（每段 251–252 日）
統計門檻	DM (Diebold-Mariano) p<0.05； Harvey (2016) \|t\|>3.0 為主要 robust 門檻
Bootstrap CI	1000 次 block bootstrap，block size=20 日
數據來源	yfinance daily prices；K549 results.json

7 個替代配置（B–H）的命名與權重：

Config	SPY	GLD	TLT	EFA	VNQ
A_50_50（基準）	0.50	0.50	–	–	–
B_40_40_20_TLT	0.40	0.40	0.20	–	–
C_40_30_30_TLT	0.40	0.30	0.30	–	–
D_35_35_15_15	0.35	0.35	0.15	0.15	–
E_30_30_20_10_10	0.30	0.30	0.20	0.10	0.10
F_equal_5（5 資產等權）	0.20	0.20	0.20	0.20	0.20
G_40_40_20_EFA	0.40	0.40	–	0.20	–
H_40_40_20_VNQ	0.40	0.40	–	–	0.20

核心發現

發現一：Full-period 7/7 配置 Sharpe 全部高於基準，但 Harvey 0/7 通過

7 個替代配置在 in-sample（5,371 日）的 Sharpe 全數高於 50/50 基準的 1.318：

Config	Ann Return	Ann Vol	Sharpe	MDD	Calmar
A_50_50（基準）	13.67%	10.37%	1.318	−16.78%	0.814
B_40_40_20_TLT	11.76%	8.86%	1.328	−15.32%	0.768
C_40_30_30_TLT	10.97%	7.97%	1.377	−16.83%	0.652
D_35_35_15_15	12.09%	8.46%	1.429	−13.25%	0.912
E_30_30_20_10_10	11.64%	7.97%	1.460	−14.52%	0.801
F_equal_5	11.51%	7.58%	1.517	−14.79%	0.778
G_40_40_20_EFA	13.47%	9.60%	1.402	−15.77%	0.854
H_40_40_20_VNQ	13.62%	9.55%	1.426	−14.72%	0.925

最高 Sharpe 來自 F 配置（5 資產等權）= 1.517 ，比基準提升 +0.199；經濟意義不算小（多 15% 的風險調整報酬）。但接下來的問題是「這個提升通過 Harvey 多重檢定門檻了嗎？」

DM test 報告了 7 個 p-value（return diff vs 基準）：B、C、D、E 四個 p<0.05；F 為 p=0.092（marginal）；G、H 為 p=0.65 / p=0.93（明顯不顯著）。但即使是傳統 DM test 顯著的 4 個配置， 全部都過不了 Harvey threshold ：

Config	mean Sharpe diff（vs A）	SE	Harvey t	p	Pass \|t\|>3?
B_40_40_20_TLT	−0.214	0.138	−1.554	0.195	❌
C_40_30_30_TLT	−0.225	0.205	−1.098	0.334	❌
D_35_35_15_15	−0.011	0.132	−0.087	0.935	❌
E_30_30_20_10_10	−0.082	0.184	−0.448	0.677	❌
F_equal_5	−0.020	0.224	−0.091	0.932	❌
G_40_40_20_EFA	+0.115	0.088	+1.301	0.263	❌
H_40_40_20_VNQ	+0.049	0.051	+0.971	0.387	❌

注意這個 Harvey t-stat 的 SE 是用 5 段 cross-OOS Sharpe diff 算出的，跟傳統 DM 的 252 個 daily diff 不同口徑：DM 看 daily return diff 的 t-stat（樣本大、易顯著），Harvey 看「分段 Sharpe 差」的跨期穩定性（5 個觀測，需要每段都同向才會 large t）。 多資產擴展之所以連 Harvey 都過不了，根本原因不是樣本太小，而是 cross-OOS 5 段裡的 Sharpe diff 方向不一致 ——詳見發現二。

發現二：Bootstrap CI 高度重疊，4 配置 95% CI 互相包含

對 4 個重點配置（A、B、D、F）跑了 1000 次 block bootstrap：

Config	Sharpe（point）	CI 2.5%	CI 97.5%	CI Width
A_50_50	1.319	0.894	1.752	0.858
B_40_40_20_TLT	1.330	0.892	1.771	0.879
D_35_35_15_15	1.432	0.999	1.864	0.865
F_equal_5	1.520	1.094	1.941	0.847

四個配置的 CI 寬度都接近 0.85 ，說明 5,371 日的樣本對 Sharpe 估計仍存在 ±0.43 的不確定區間。視覺化來看：

A 的 CI = [0.894, 1.752] 完全包含 D 的 point estimate（1.432）和 F 的 point estimate（1.520）的下半截。
F 的 CI = [1.094, 1.941] 也完全包含 A 的 point estimate（1.319）。
這就是統計學上「兩個 CI 互相覆蓋對方的點估計」—— 無法宣稱兩者不同 。

發現三：Cross-OOS 5 段 — 2022 升息致命，1/5 段全打回原形

這是最暴力的證據。我們在 2010 / 2013 / 2016 / 2019 / 2022 各取 1 年（251–252 日）作為 OOS test。F 等權配置的 5 段年化 Sharpe 序列為：

Period	Year	Benchmark A Sharpe	F_equal_5 Sharpe	F vs A
1	2010	2.104	2.427	+0.323
2	2013	−0.075	0.316	+0.391
3	2016	1.587	1.504	−0.083
4	2019	3.548	3.669	+0.121
5	2022	−0.125	−0.978	−0.854

5 段中 F 贏 3 段、輸 2 段（2016 與 2022），但 2022 的劣勢（−0.854）一個人就抵銷掉前 4 段的累積優勢 。為什麼是 2022？因為那年 Fed 啟動暴力升息，TLT（20+ 年公債）全年下跌 31%、與 SPY 同步下跌而非反向避險（K443 已記錄）。F 配置中 TLT 佔 20% 直接吃滿這個 sell-off：F 的 ann return 為 −9.35%、MDD −14.23%、worst day −2.01%。相反，G_40_40_20_EFA 因為 沒有 TLT 反而是 5 段中 唯一全勝（5/5） 對基準的配置（mean Sharpe diff = +0.115，但 Harvey t=1.301 仍 NS）。

Cross-OOS win rate 摘要：

Config	Mean Sharpe（5 段）	Std	Win rate vs A
A_50_50	1.408	1.389	–
B	1.194	1.578	20% (1/5)
C	1.182	1.663	20% (1/5)
D	1.396	1.554	80% (4/5)
E	1.325	1.630	60% (3/5)
F	1.387	1.615	60% (3/5)
G	1.523	1.340	80% (4/5)
H	1.457	1.432	80% (4/5)

D / G / H 三個配置 80% 勝率看似有吸引力，但同樣因為 2022 那一段壓縮，Harvey t-stat 仍全數低於 3.0。

發現四：Risk Parity 也救不了

我們補測了兩個 Risk Parity 變體（基於各資產 60 日已實現波動率倒數權重，再做 VT scaling）：

Variant	Sharpe	DM t vs A	DM p
RP_3_SPY_GLD_TLT	1.314	1.933	0.053
RP_5_all	1.608	1.507	0.132

RP_5（5 資產 Risk Parity）達到 Sharpe 1.608，是全場最高，但 DM p=0.132 連傳統門檻都過不去。Risk Parity 的承諾，「自動把高波動資產降權、低波動資產加權，比固定權重穩」，在這個樣本上 沒有兌現可外推的優勢 。

發現五：Marginal contribution — VNQ 邊際增益最大、TLT 最小

把 50/50 改成「45/45/10」，加 10% 的單一第三資產測 marginal contribution：

加入	ΔSharpe	ΔMDD	corr with portfolio
TLT	+0.023	+0.020（變淺）	0.022
EFA	+0.047	+0.007	0.490
VNQ	+0.064	+0.013	0.315

VNQ 的邊際增益最大但仍 +0.06；換句話說， 「再加一條腿」即使是看似最多元化的 VNQ，對 50/50 來說也只是 +5% 的 Sharpe 改善 ——比起 50/50 本身的 Sharpe 1.318，是錦上添花，不是顯著突破。

K549 Top-3 配置累積績效對比

實務意義

「再多分散」的邊際效用已經很小 。50/50 SPY+GLD + 12/VIX 在過去 21 年提供 Sharpe 1.318；從 2 資產擴到 5 資產等權，Sharpe 升到 1.517 但 95% CI 與基準完全重疊。如果你的目的是「比基準穩」，這個提升不值得多管理 3 個 ETF 的成本（rebalance / tracking error / 配息稅）。
TLT 在升息週期是 portfolio 殺手 。所有含 TLT 的配置（B、C、D、E、F）在 2022 段全部從 win 變 lose。 Post-2020 SPY-TLT 相關性破裂（K443）已是結構性事實 ——若你還在用 60/40 或多資產 + 公債的組合，要意識到 1990s–2010s 的 TLT-SPY 反向避險不再可恃。
5/5 cross-OOS 全勝的配置是 G（SPY/GLD/EFA），不是 F 。EFA 為什麼穩？因為它是 SPY 的「國際版」，與 SPY 相關係數 0.882 但 vol regime 略有錯位；2013、2019、2022 段都微微贏基準。但 G 的 mean Sharpe diff 也只有 +0.115，Harvey t=1.301—— 統計上仍沒有可外推的優勢 。
If you want the cleanest mental model ：50/50 SPY+GLD + 12/VIX scaling 是 21 年實證表現最穩、最容易解釋、實務最易維護的 baseline。任何「再加一條腿」的提案都得自證能突破 Harvey |t|>3 的門檻，而本研究展示這個門檻 沒有任何 5 資產配置能達到 。

限制與穩健性

樣本期 2004-11 至 2026-03 ——雖含 2008、2020、2022 三次大事件，但仍只觀察到 5 段 OOS。Harvey threshold 對 5 個觀測本就不易達標（SE 大），未來樣本擴展可能改變結論，但要逆轉到 |t|>3 需要「 至少 5 段全部同向贏基準且每段贏 ~+0.35 Sharpe 」，難度極高。
Bootstrap 用 block size=20 日 ——若改為 5 日或 60 日，CI 寬度會微幅變動，但因為 4 配置 CI 寬度都接近 0.85，不影響「相互覆蓋」的核心結論。
VT scaling 固定為 12/VIX, cap=1.0 ——沒測 cap=0.8 / 1.5 的 sensitivity；K567 系列的「cond leverage 在多資產失靈」結論（6 市場 0/18 通過 Harvey）已暗示 VT 機制本身在多資產延伸的邊際收益不大。
No look-ahead 檢查 ：weight 用 target weight × 同日 VIX 計算後乘當日 return，這在數學上沒有 forward bias（VIX_t 收盤已知 → t+1 開盤可重平衡）；但實際交易應用 1 日 lag 更保守，預期 Sharpe 會比這篇報告的數字略低（~0.05 範圍內，依過去經驗 K251）。
Regime split （high VIX > 20 vs low VIX <= 20）顯示， 所有 5 資產配置在 high-VIX regime 反而更弱 （F 在 high-VIX 的 Sharpe = 0.224 vs low-VIX 的 2.290），因為 high-VIX 期間 cross-asset correlations 普遍上升、分散效益本身在最需要的時候失靈，這跟 K443 的相關性結構發現一致。

結論

K549 用 8 種配置 + 2 種 Risk Parity + 5 段 cross-OOS + bootstrap CI + Harvey threshold 的完整檢定，最終結論是 WEAK POSITIVE but Harvey-NS ： 多資產擴展在過去 21 年看似 +0.20 Sharpe 的提升，無法在統計上區別於零。

對讀者的交易啟示：

保留 50/50 SPY+GLD + 12/VIX 為主 baseline ，是經得起 Harvey 與多次 cross-OOS 檢驗的少數設定之一；
若一定要加第 3 條腿，避開 TLT （post-2020 結構斷裂）、優先 EFA 或 VNQ（marginal contribution 較大），且預期 Sharpe 提升不會超過 +0.05–0.10；
5 資產等權「看起來」是 in-sample 最高 Sharpe（1.517），但 cross-OOS 2022 段被 TLT 拖到 −0.978 ，real-money 不要被 in-sample 數字騙了。

下一步研究方向（已寫入 research_program.md backlog）：

K549 → 動態 TLT-on/off ：以 Fed funds rate trajectory 為 switch、升息週期撤出 TLT，能否讓含 TLT 配置 OOS 穩定？
K774 系列 ：VIX-scaled 5 ETF 的 multi-asset VT，是否能透過更激進的 VIX gating 突破 Harvey 門檻？
K251 系列回到主軸 ：50/50 SPY+GLD + 12/VIX 的 marginal optimization（GLD 比例微調 45–55%）反而比加新資產更有空間。

本文基於實驗 K549（腳本：experiments/k549/k549_multi_asset_expansion.py，結果：experiments/k549/k549_multi_asset_expansion_results.json）。數據來源：yfinance（SPY, GLD, TLT, EFA, VNQ, ^VIX），期間：2004-11-18 至 2026-03-27，樣本：5,371 個交易日。統計檢定：Diebold-Mariano (DM) test、Harvey (2016, RFS) multiple-testing threshold |t|>3.0、1000 次 block bootstrap (block=20)、5 段 cross-OOS（2010/2013/2016/2019/2022）。