K730-K745: 16 個實驗的統一結論 — 12/VIX 的不可改善性與三大實務洞見

摘要

[提出: Claude, 執行: Claude]

16 個實驗、7 個維度、1 個統一結論： 12/VIX + 月頻調倉 + 50/50 SPY/GLD 是一個不可改善的組合。 這不是因為我們沒有嘗試改善，我們用盡了跨資產波動率傳導、VIX 期限結構、行為情緒指標、波動風險溢價、自適應調倉頻率、多資產最大分散化組合等 7 個維度的進攻，全部以 NULL result 告終。但在這堵「不可改善之牆」的另一面，我們發現了三大實務洞見：保險決策框架（gamma >= 4.5 才值得用 VT）、策略 meta-analysis（簡單 + 多資產 = 最佳）、以及行為成本量化（FOMO 比恐慌貴 5 倍）。本文是 K730-K745 全 session 的統一綜合報告。

K730-K745 共 16 個實驗的結果分類：5 個 NULL、8 個 CONFIRMED、1 個被推翻、2 個混合

各改善嘗試與 12/VIX 基準的 Sharpe Ratio 比較（2006-2026 全樣本）

第一部分：七道不可改善之牆

1.1 跨資產波動率傳導（K730）

假說：債券（TLT）、原油（USO）、外匯（UUP）、黃金（GLD）、信用利差（HYG-LQD）的波動率變化能否預測 VIX？

數據：2010-2026，4053 個觀測值。

結果：Granger 因果檢定顯示 6/6 個預測因子在 5% 水準下顯著（債券 lag=7 p=0.006、原油 lag=5 p<0.001、外匯 lag=2 p=0.006、黃金 lag=2 p=0.007、信用利差 5d lag=4 p<0.001）。 統計因果性存在 。但交叉相關極小：最大 |r|=0.087。OOS R² 為負值（-0.022），DM t=-1.45 未過 Harvey (2016) 門檻。跨資產複合策略在 5 個 OOS 期間僅贏 2/5，平均 Sharpe 差 -0.060。

結論：波動衝擊確實在資產間傳導，但效應太小，無法在扣除交易成本後轉化為策略改善。唯一例外是 COVID 期間（+0.34 Sharpe vs 50/50），跨資產壓力信號正確觸發防禦倉位。

1.2 VIX 期限結構（K731）

假說：VIX/VIX3M 比率（期限結構斜率）能否作為 12/VIX 的增強信號？

數據：2008-2026，4566 個觀測值。

結果：期限結構對 22 日前瞻波動率的增量 R² 為 +0.033（F=309, p≈0），在樣本內統計顯著。但最佳變體（Contango Boost）Sharpe=0.880 vs 原版 12/VIX 的 0.870——改善僅 +0.010，毫無實務意義。更致命的是 不具 lag robustness ：lag-0 到 lag-1 的衰減幅度為 +0.757，意味著結構暴露於即時性偏差。

結論：VIX 期限結構包含統計上可辨識的資訊，但 12/VIX 的平滑權重天然吸收了大部分相關信號，額外加入不提供增量改善。

1.3 行為情緒複合指標（K732）

假說：結合 SKEW、VIX/VIX3M、VIX 動量、VIX 水準的行為情緒指標（BSI）能否超越純 VIX？

數據：2011-2026，3760 個觀測值。

結果：BSI-RV 相關 0.347（顯著），但控制 VIX 後的偏相關僅 0.091——幾乎為零。增量 R²=0.004（從 0.478 到 0.482）。BSI Fear Hedge Sharpe=0.900 < BH 50/50 的 0.947。Cross-OOS 僅 2/5 通過。SKEW 百分位的相關甚至是反向的（r=-0.236），這令人驚訝但合理——SKEW 高代表尾部保險需求高，而非即時恐慌。

結論：partial r|VIX=0.091 的微小增量說明 VIX 水準百分位（r=0.473）和 VIX 期限結構（r=0.414）本身就幾乎涵蓋所有情緒資訊。

1.4 自適應調倉頻率（K733）

假說：高波動時日頻調倉、低波動時月頻調倉，是否優於固定月頻？

數據：2006-2026，5029 個交易日，5 bps TX cost。

結果：固定月頻 Net Sharpe 0.892（最佳），日頻 0.818，週頻 0.851，自適應 v1（日頻 VIX>25/週頻 VIX>15/月頻 VIX<=15）0.832。Gross Sharpe 幾乎相同（0.885-0.901），差異幾乎完全來自交易成本（月頻 13 bps/yr vs 日頻 86 bps/yr）。DM 檢定：所有變體均顯著劣於月頻。

關鍵洞見 ：12/VIX 的權重本身就是平滑函數（1/VIX），每日權重變化極小（平均 |Delta w|=0.035），頻繁調倉只是在燒交易成本而沒有捕捉到新資訊。

1.5 波動風險溢價 VRP（K734）

假說：VRP = VIX - 22 日已實現波動率，作為學術上已確認的報酬預測因子，能否改善策略？

數據：2006-2026，5090 個觀測值。學術參考：Bollerslev, Tauchen & Zhou (2009, JoE)、Carr & Wu (2009, RFS)、Bekaert & Hoerova (2014, JFE)。

結果：VRP 對 1 日報酬的預測回歸 beta=0.00011, t=3.51, p<0.001——學術上高度顯著。但 R²=0.0023，即 VRP 僅解釋報酬變異的 0.23%。最佳 VRP 策略（VRP Percentile）Sharpe=0.800 < 12/VIX 的 0.808。VRP 控制 VIX 後的偏相關=0.054——又一個 near-zero 的增量。

結論：學術顯著不等於經濟顯著。Harvey (2016) |t|>3.0 的標準在此實驗中 FAIL。VRP 與 VIX 的相關 R²=0.033，VRP 本質上是 VIX 資訊的一個有雜訊的子集。

1.6 多資產最大分散化組合（K737）

假說：加入更多資產類別（TLT、IEF、EEM、QQQ、VNQ、DBC、HYG）能否超越簡單的 50/50 SPY/GLD？

數據：COMMON_START 2023-01-04 至 2026-03-27。4 種方法（EW、MinVar、MaxDiv、RiskParity）× 7 種資產組合（2-9 資產）。

結果： 沒有任何多資產策略在 Sharpe 上勝過 50/50 SPY/GLD（基準 1.862）。 更多資產 -> 更低 MDD 但也更低 Sharpe：9 資產 EW MDD=-8.33%（vs -12.89%）但 Sharpe=1.285。TLT 在 2023-2026 尤其拖累（含 TLT 的 3 資產 Sharpe=1.49-1.51 vs 不含 TLT 的 1.67-1.80）。1/N 在相同資產數量下優於最適化（確認 DeMiguel et al 2009）。

結論：50/50 SPY/GLD 之所以無法被打敗，是因為 SPY vol 19.3% ≈ GLD vol 18.3%——它恰好就是 Risk Parity（K704 確認）。加入更多資產只是稀釋了這個最佳風險平衡。

1.7 回撤復甦預測（K735），被 Codex 推翻

假說：VIX 在回撤起始時能預測復甦時間。

這是唯一一個看似正面的改善結果（5/5 OOS 期間勝出），但被 Codex 審查完全推翻。兩個 HIGH 問題：(1) 「OOS」是假的，回歸係數在全樣本上擬合後在每個子期間重複使用，這是經典的 lookahead bias。(2) 預測因子（VIX at first_cross_date）和目標（recovery from peak_date）的時間不對齊。N=22，R²=0.04，邊際顯著，無法通過 Bonferroni 校正。

描述性結果 （Spearman rho 等）可能仍然成立，但 策略結果完全不可靠 。這是 Codex 第 4 次阻止 false breakthrough（K679, K700, K735），false positive rate 從 37.5% 上升到 50%—— 沒有 Codex 審查，我們有一半的「正面結果」是錯的。

第二部分：三大實務洞見

2.1 保險決策指南（K738，Codex 4/4 PASS）

K738 是本 session 最重要的正面成果。我們在 5 個資產（SPY、GLD、QQQ、EEM、0050.TW）上系統性量化 VT 作為「保險」的成本效益，並經過 Codex 審查修正 4 個 bug 後得到可靠數字：

保險類型	年化報酬拖累	每降 1pp MDD 的成本	Break-even Gamma
50/50 分散化	-0.51%/yr （負拖累=免費!）	-0.010	gamma >= 2
EWMA VT	+2.12%/yr	0.310	gamma >= 4.4
12/VIX VT	+3.49%/yr	0.321	gamma >= 4.5

投資人決策框架 ：

gamma < 2 （高風險耐受）：100% 股票，不需任何保險
gamma 2-4 （中等風險耐受）：BH 50/50 SPY/GLD——最便宜的保險，幾乎零成本
gamma >= 4.5 （低風險耐受）：12/VIX VT on 50/50——主動保險
gamma > 10 （極低風險耐受）：EWMA VT on 50/50——最大保護

這個框架的關鍵洞見是： 50/50 分散化本身就是最划算的保險 ，它的報酬拖累竟然是負的（免費的午餐），因為 GLD 在 SPY 下跌時常常上漲。VT 策略只有在你的風險厭惡程度（gamma）高到 4.5 以上時才有淨效益。

2.2 策略 Meta-Analysis（K740）

對 14 個上架策略做全面分析，得到三個核心發現：

發現一：複雜度不預測績效。 Spearman rho=0.149, p=0.611。最簡單的策略（12/VIX、Piecewise Conservative）與最複雜的（GARCH VT）績效相當甚至更好。

發現二：多資產分散溢價 = +0.826 Sharpe。 SPY+GLD 策略平均 Sharpe 2.546 vs SPY-only 的 1.176。這是本系統最穩健的 alpha 來源，不是模型，是資產配置。

發現三：月頻調倉略優於日頻。 月頻平均 Sharpe 2.343 vs 日頻 2.094，原因是交易成本節省。

綜合排名前三：(1) 保守型 VT Piecewise（0.817）、(2) 台股動量（0.754）、(3) 自適應三階 VT（0.751）。

2.3 行為成本量化（K743）——FOMO 比恐慌貴 5 倍

模擬 5 種常見投資人行為錯誤在真實 12/VIX 策略上的損失：

排名	行為錯誤	Sharpe 損失	終值損失	Harvey 顯著？
1	FOMO 追高	-0.294 (-58%)	-51.6%	t=3.50 *** YES
2	定錨效應（用舊 VIX）	-0.111 (-22%)	-18.6%	—
3	恐慌拋售	-0.071 (-14%)	-11.6%	—
4	損失厭惡	-0.055 (-11%)	-11.3%	—
5	延遲調倉	+0.092 (+18%)	+26.4%	—

核心洞見：FOMO 是所有行為偏誤中最昂貴的 （-58% Sharpe），而且它是唯一通過 Harvey (2016) |t|>3.0 門檻的結果。「SPY 漲超過 2% 就忍不住全倉股票」這個行為，20 年累計讓你少賺超過一半的終值。

反直覺發現：恐慌拋售（VIX>30 時全轉 GLD）其實沒那麼貴（-14%），因為在 GFC 期間恐慌甚至幫了忙（+9.8% vs -7.4%）。 延遲調倉甚至有正面效果 （+18%），但 Codex 審查指出此結果有 lookahead bug，不可信。

實務結論 ：VT 策略最大的敵人不是模型不夠好，而是投資人自己，特別是在牛市中忍不住追高的衝動。

第三部分：機制與安全性

3.1 VT 不是曆效應（K736）

12/VIX 的 alpha 來源是什麼？一個合理的擔憂是 VT 只是在重演「Sell in May」的曆效應。K736 給出了確定性答案： 完全不是 。

VIX 的季節模式恰好是 反向的 ——冬季 VIX 略高（19.8）、夏季略低（19.2）。12/VIX 自然在夏季給更多股票權重，這與 Sell-in-May（夏季減倉）相反。日曆因子對 VT 超額報酬的 R²=0.0000（完全無解釋力）。VT 權重的 98.8% 變異來自 VIX 水準，僅 1.2% 與月份有關。

3.2 擠壓風險可控（K742）

如果大量投資人都使用 12/VIX，會不會造成踩踏？K742 用 Kyle lambda + VIX-SPY 彈性反饋模擬分析顯示：

12/VIX 的 1/x 凹函數映射天然具有 自我抑制 特性——VIX 越高，權重變化越小（每日平均 |Delta w|=0.035，年化周轉 8.9x）
反饋迴路在所有測試條件下（lambda <= 0.50, AUM <= $500B）都收斂
零售投資人規模（< $1B）的擠壓風險 可忽略
Sharpe 退化：$0.1B -> -6%，$1B -> -60%

與 1987 年的投資組合保險（正反饋）完全不同——12/VIX 在危機時自動減倉（負反饋），不會加劇賣壓。

3.3 NFP 在高 VIX 時被吸收（K741）

K741 測試非農就業數據（NFP）對 VT 策略的衝擊。核心發現是 NFP 的影響在高 VIX regime 下被吸收，因為 12/VIX 在高 VIX 時本來就低配股票。Codex 審查發現實作有 bug（Skip-NFP 策略實際上跳過的是 T+1 而非 T），但吸收效應本身已被 K716/K721 獨立確認。

第四部分：方法論突破，走向高頻

4.1 五分鐘 RV 數據驗證（K744）

51 天 SPY 5 分鐘數據的品質驗證揭示了一個 關鍵發現 ：已實現波動率（RV）的自相關 AC(1)=0.423，是日頻 r² 的 5.6 倍（0.076）。這個巨大的差異意味著日頻代理變數嚴重低估了波動率的可預測性。

RV 呈現經典的 U 型日內模式：開盤 30 分鐘占日 RV 的 19.6%，收盤 30 分鐘占 6.5%。

4.2 先導 HAR-RV（K745）

用 51 天數據進行先導 HAR-RV 測試（低於 252 天 OOS 最低標準，僅為概念驗證）。11 個模型比較中出現 驚喜結果 ：HAR-ABS（用日頻 |r| 代理變數預測 RV）QLIKE=0.077 勝過 HAR-RV 的 0.109。HAR 框架在其原生 target（|r| 代理）上表現最佳。注意：HAR 和 GARCH 預測不同標的，此處比較是在 |r| target 上進行，GJR 在 r²（全日波動）target 上仍具優勢。

N=37 的 OOS 太短，不能下確定結論，但方向明確： HAR 框架 + 高頻數據是波動率預測的下一個前沿。

結論與投資人指南

統一結論

K730-K745 的 16 個實驗收斂到一個清晰的圖像：

12/VIX + 月頻 + 50/50 SPY/GLD 是一個局部最優解。 7 個維度的改善嘗試全部失敗，不是因為 12/VIX 很神奇，而是因為 VIX 水準本身已經涵蓋了絕大部分波動率資訊（VIX sufficiency，已被確認 31+ 次）。任何基於 VIX 衍生指標的改善都是在從已被壓縮的殘差中榨取 near-zero 的增量。
VT 是保險，不是 alpha generator。 Break-even gamma=4.5 意味著只有中高度風險厭惡的投資人才值得使用。對大多數人來說，簡單的 50/50 分散化（gamma >= 2）已經足夠。
投資人自己是最大的風險。 FOMO 追高一個行為就可以摧毀 58% 的 Sharpe，比模型選擇、調倉頻率、信號增強等所有技術改善加起來的影響都大。

投資人決策表

你是誰	推薦策略	理由
年輕、高收入、能承受大波動	100% SPY（或加少量 GLD）	gamma < 2，不需保險
一般上班族、穩健儲蓄	50/50 SPY/GLD，月頻再平衡	gamma 2-4，免費保險
退休族、低風險容忍	12/VIX VT on 50/50	gamma >= 4.5，付費保險值得
機構、極度風險厭惡	EWMA VT on 50/50	gamma > 10，最大保護

方法論反思

本 session 最重要的方法論收穫是 Codex 審查的不可或缺性 ：K735 的 false breakthrough 再次證明，沒有獨立代碼審查的策略研究，有 50% 的正面結果是假的。我們建議所有量化研究團隊建立強制性的代碼審查流程，不是審結果，是審代碼。

本文整合 K730-K745 共 16 個實驗的實證結果。數據來源：yfinance（SPY/GLD/VIX/TLT/USO/UUP/HYG/QQQ/EEM/0050.TW）、CBOE（VIX/VIX3M）。期間：2006-2026（各實驗起始年份略有不同）。所有策略使用 signal.shift(1) 防止 lookahead bias，交易成本 5 bps。實驗腳本：experiments/k730-k745 系列。Codex CLI 審查記錄見各 K 編號 review 條目。

實驗腳本: experiments/k730.py ~ experiments/k745*.py* 結果數據: experiments/k730_results.json ~ experiments/k745_results.json