研究2026/05/25 上午09:07

黃金永遠該配 50%？四套動態策略全 null

黃金配置資產配置動態策略回測OOS驗證統計檢定風險預算

讀者互動

已追蹤瀏覽 0 次，登入會員可按讚與收藏。

黃金永遠該配 50%？四套動態策略全 null

故事的起點：50/50 之外，還能更好嗎？

在我們先前的研究系列裡， SPY/GLD 50/50 + 12/VIX 槓桿覆寫 這套組合已經被反覆驗證為強健的長期配置基底（K2、K64、K252、K275 等多個實驗都指向同一結論；K301 也提出過 Claim 3 的進一步穩健性宣稱）。但 50/50 這個比例本身有一個顯而易見的疑問：黃金真的應該永遠維持 50%嗎？

直覺上似乎有很多可以動手腳的空間。黃金有牛熊週期、與股票的相關性會隨體制變動、實質利率與通膨會影響黃金的避險功能、波動率也會隨時間變化。如果我們能根據市場「狀態」動態調整 SPY 與 GLD 的權重，理應能得到比僵硬的 50/50 更好的成績，這幾乎是動態配置文獻的共同假設。

K557 就是要正面測試這個假設。我們設計了 四套截然不同的動態策略 ，跨越 21 年的資料、5 段獨立 OOS 期間、兩模型比較顯著檢定、bootstrap 信賴區間與交易成本敏感度分析全部都跑過。結論是讀者大概已經猜到的方向： 沒有任何一套動態策略能顯著擊敗 50/50 基準 。

這篇文章要把為什麼會這樣、以及這個 null result 對配置實務的啟示講清楚。

四套動態策略 vs 50/50 + 12/VIX

我們先把參賽者列出來。基準是大家熟悉的 Static 50/50 SPY/GLD 加上 12/VIX 槓桿覆寫 ——一個不擇時、不挑體制、只靠 VIX 自動調整總曝險的簡單規則。

四套對手如下：

Gold Trend (MA200) ：當 GLD 收盤價站上 200 日均線時加碼黃金，跌破時減碼。經典趨勢追蹤邏輯。
Gold Momentum (12m) ：以 GLD 過去 12 個月報酬正負作為進出黃金的訊號。Asness 等人在多資產動量文獻裡反覆驗證過的形式。
Counter-cyclical ：與 Gold Trend 相反邏輯，黃金弱勢時加碼，強勢時減碼。逆勢投資的代表。
Risk Budget (inv-vol) ：依 SPY 與 GLD 各自的近期波動率反向加權，讓兩邊風險貢獻相等。風險平價（risk parity）的精簡版。

另外我們還加入一套 Real Gold Trend (GLD/TIP) 作為 robustness 補強，用 GLD/TIP 比率（剔除通膨後的「實質黃金」訊號）取代名目價格趨勢。

重要的訊號時序設定 ：所有動態策略都嚴格用 t-1 期的體制訊號決定 t 期的權重 。也就是今天的趨勢狀態、動量方向、波動率估計，全部都只能用昨天收盤前的資訊算出來，明天才能據此交易。這個 lag 是動態策略誠實回測的鐵律，沒做就會有 lookahead，數字會虛高。我們的腳本對每一套策略都明確 shift 了訊號，不會用「未來看現在」作弊。

全樣本：六匹馬幾乎跑在同一條線上

先看 2005-11-18 到 2026-03-26、整整 5118 個交易日的全樣本表現。

策略	年化報酬	年化波動	Sharpe	最大回撤	DM t vs 50/50	DM p
Static 50/50	11.49%	8.63%	1.331	-17.7%	—	—
Gold Trend (MA200)	11.60%	8.67%	1.339	-15.8%	0.33	0.74
Gold Momentum (12m)	10.55%	8.78%	1.201	-20.6%	-0.08	0.94
Counter-cyclical	11.60%	8.67%	1.339	-15.8%	0.33	0.74
Risk Budget (inv-vol)	11.54%	8.09%	1.427	-17.8%	0.14	0.89
Real Gold Trend (GLD/TIP)	11.62%	8.75%	1.327	-14.5%	0.37	0.71

幾個立即可見的事實：

Sharpe 差距小到肉眼可見 ：四套動態策略的 Sharpe 落在 1.20-1.43 之間，50/50 是 1.33，誰都沒贏太多。
DM 檢定 p 值全部 ≥ 0.71 ：兩模型比較顯著配對檢定衡量平均報酬差異的統計顯著性。達顯著水準（顯著性 0.71）意思是「即便兩個策略真的一樣，也有 71% 機率出現至少這麼大的差距」，換言之， 完全看不出顯著差異 。
Risk Budget Sharpe 看起來最高（1.43） ，但統計強度只有 0.14，這個微弱優勢完全在抽樣誤差範圍內。
Counter-cyclical 與 Gold Trend 的數字一字不差 ：因為兩套策略的訊號邏輯互為相反，但在我們的 binary 體制定義下，它們在大多數時點上其實切換到同一個權重狀態，導致回測軌跡幾乎重疊。這本身就是個有趣的觀察，如果連「順勢」與「逆勢」兩個邏輯相反的策略都跑出一樣的結果，代表訊號本身根本沒提供太多 actionable 資訊。

Cross-OOS：5 段獨立期間，沒有任何策略一致勝出

全樣本沒差異還不夠，我們還做了 5 段獨立 OOS 驗證 ：GFC 復甦（2008-2010）、黃金高峰熊市（2011-2013）、黃金熊市底部（2014-2016）、黃金復甦（2017-2019）、COVID 與通膨（2020-2022）。每段都是 3 年，涵蓋黃金生命週期的所有階段。

每套策略對 50/50 的 Sharpe 差異：

策略	平均 Sharpe 差	5 段中勝場	統計強度	p 值	嚴格統計通過
Gold Trend (MA200)	+0.011	3/5	0.17	0.87	否
Gold Momentum (12m)	-0.027	2/5	-0.08	0.94	否
Counter-cyclical	+0.011	3/5	0.17	0.87	否
Risk Budget (inv-vol)	+0.077	3/5	1.30	0.26	否
Real Gold Trend (GLD/TIP)	-0.004	2/5	-0.04	0.97	否

沒有一套策略通過嚴格統計 (2016) 主張的 t > 3.0 嚴格門檻 。Risk Budget 在這裡表現最相對突出（5 段全是正差距比例最高、平均差 +0.077），但統計強度 1.30、達顯著水準（顯著性 0.26），仍距離常規顯著（達顯著水準（顯著性低於 0.05））有一段距離，更別說嚴格統計對 multiple-testing 修正後要求的 t>3.0。

更重要的是看 個別 OOS 期間的差異波動 。Gold Momentum 是個極端例子：在 OOS1（GFC + 復甦）的 Sharpe 差距高達 +0.93，但 OOS3（黃金熊市底部）卻是 -0.72、OOS4（黃金復甦）是 -0.76。也就是說，這套策略在不同體制下的勝負訊號完全相反，它 並不是「平均贏一點」，而是「有時大贏有時大輸」 。對配置者而言，後者反而更危險，因為你永遠不知道下一段時間會落在哪一邊。

Bootstrap 信賴區間：0 永遠在裡面

Cross-OOS 的「總平均統計強度」可能被某一段極端值帶偏，所以我們再跑了 10,000 次 block bootstrap，產生每套動態策略對 50/50 的 Sharpe 差異信賴區間：

策略	平均 Sharpe 差	95% CI 下界	95% CI 上界	0 在 CI 內？
Gold Trend (MA200)	+0.074	-0.359	+0.514	是
Gold Momentum (12m)	-0.014	-0.459	+0.432	是
Counter-cyclical	+0.074	-0.362	+0.507	是
Risk Budget (inv-vol)	+0.032	-0.408	+0.470	是
Real Gold Trend (GLD/TIP)	+0.081	-0.354	+0.509	是

每一條 95% 信賴區間都把 0 含在裡面，且區間寬度普遍超過 ±0.4。換句話說，bootstrap 重抽樣 10,000 次後，我們 沒有 95% 把握說任何一套動態策略真的優於或劣於 50/50 ——差距可能是真的有一點優勢，也可能完全是運氣，資料沒辦法分辨。

體制分析：黃金牛市/熊市分開看也救不回來

也許動態策略只在黃金某種特定體制下有效？我們把樣本切成 GLD 牛市（站上 200 日均線、約 13.94 年）與熊市（跌破 200 日均線、約 6.37 年）兩段：

Gold Bull （黃金牛市）：50/50 Sharpe 1.474，動態策略落在 1.32-1.55 區間，差距微小。 Gold Bear （黃金熊市）：50/50 Sharpe 1.033，Risk Budget 是唯一明顯較高的（1.181），其他動態策略 0.93-0.97 反而輸給 50/50。

這說明動態策略並沒有「在某一個體制裡發光」的故事可以講。

交易成本：每多動一次都是扣分

回測還沒考慮的事情是：動態策略每一次切換權重都要付交易成本。50/50 不再平衡的話 turnover 是 0，動態策略則普遍每天 turnover 0.45%-0.62%。

策略	0bps	5bps	10bps	20bps	50bps
Static 50/50	1.33	1.33	1.33	1.33	1.33
Gold Trend / Counter-cyclical	1.33	1.32	1.30	1.26	1.15
Risk Budget (inv-vol)	1.42	1.41	1.39	1.37	1.28

Risk Budget 在 50bps 成本下 Sharpe 從 1.42 掉到 1.28， 而 50/50 始終是 1.33 不動 。在 ETF 實務中，散戶交易 SPY/GLD 來回成本約 5-10bps，機構更低；但若考慮稅、bid-ask spread、滑點與資金管理摩擦，10-20bps 是合理的保守估計。在這個範圍內，動態策略相對 50/50 的「改善」進一步被磨平。

為什麼動態策略全 null？三個可能解釋

第一，50/50 本身已經偏離很多人想像的「靜態僵硬」 。它每天的權重的確是 50/50，但因為價格波動，它在 SPY 表現好時會自然把比重抬高（暫時類似順勢），熊市時 GLD 上漲又會自然把黃金比重抬高（暫時類似避險加碼）。再平衡頻率（這裡是月再平衡）介入時又會自然「賣掉漲多的、買進跌深的」（內建逆勢）。許多動態策略想做的事，50/50 在沒有任何訊號的情況下已經自動部分完成。

第二，黃金本身的訊號雜訊比偏低 。黃金價格驅動因子複雜，實質利率、美元、通膨預期、避險需求、央行買盤，任何單一指標（200 日均線、12 個月動量、GLD/TIP 比率）都只能捕捉其中一部分。Cross-OOS 的高方差（個別期間 Sharpe 差異從 -0.76 到 +0.93）正是訊號低訊噪比的特徵。

第三，與已有研究一致 。Baur 與 McDermott (2010, JBF) 與 Reboredo (2013, RIBAF) 等文獻早已指出黃金的避險與安全資產角色具有強烈的時變性，但時變的方向經常難以事前預測。我們先前的 K507（動態 SPY/GLD 相關性配置）與 K204（GLD 動量 VT）也都得到類似的微弱或不顯著結果。

對讀者的實務啟示

如果你是個人投資者，K557 給你的訊息很直接： 不要為了「動態調整」而動態調整 。在這個資產對（SPY/GLD）、這套基準（加上 12/VIX 槓桿）下，動態策略要在 21 年資料、5 段獨立 OOS、加上 bootstrap 與交易成本驗證後仍然壓倒 50/50，門檻極高。我們測的四套常見邏輯沒有一套通過。

當然，這不代表「所有動態配置都沒用」，我們只測了 SPY/GLD 這個對、只用了 4 種訊號、benchmark 是強健的 50/50 + 12/VIX。如果換成股債或多資產組合、用更精細的條件變數（如實質利率、CPI 突發、央行政策）、或允許槓桿擇時，結論可能不同。但 對於只想配置 SPY 與 GLD 的讀者，「黃金永遠 50%」目前仍是最難被推翻的選擇 。

Null result 看起來不性感，但它對配置決策的價值跟 positive result 是對等的，它告訴你哪裡不必再花力氣，可以把研究預算投到別處。

資料來源

K557 ：本實驗完整回測腳本與結果在 experiments/k557/，分析期間 2005-11-18 至 2026-03-26 共 5118 個交易日；OOS 切分 2008-2010 / 2011-2013 / 2014-2016 / 2017-2019 / 2020-2022 五段。
價格資料 ：SPY、GLD、TIP、^VIX 來自 yfinance（GLD 自 2004-11-18 上市起可得，限制了更早期樣本）。
相關 K ：K2、K64、K252、K275（50/50 SPY/GLD + 12/VIX 基準系列）；K301 Claim 3（基準穩健性宣稱）；K507（動態 SPY/GLD 相關性配置）；K204（GLD 動量 VT）。
方法論文獻 ：Baur & McDermott (2010, JBF) 黃金避險角色；Reboredo (2013, RIBAF) 黃金與油價避險；Diebold & Mariano (1995) 配對預測檢定；嚴格統計 (2016) multiple-testing 顯著性門檻。

限制與未來方向

K557 的限制如預期：GLD 上市時間限制了 pre-2005 樣本；TIP 作為通膨代理並不完美；交易成本是估計值；體制分類採二元（MA200 上下）方式，真實體制更為連續模糊；12/VIX 槓桿覆寫本身有體制依賴性，本研究未拆解其貢獻。後續可探索方向包括：條件變數從技術指標換為基本面（實質利率、TIPS 利差、ETF 流向）、提高體制粒度（HMM 或閾值模型）、或測試其他資產對（SPY/TLT、QQQ/GLD、跨國股債）。