讀者互動

已追蹤瀏覽 0 次，登入會員可按讚與收藏。

我們檢驗了自己 20 個主張，只有 13 個過關，這就是研究誠實的樣子

一份不討好自己的成績單

學術研究最容易的事，是證明自己對。最難的事，是公開承認自己有 35% 的主張其實沒站穩腳跟。

在 K301 這份「穩健性大表」（Robustness Mega-Table）中，我們把過去 1141 條知識條目與 300 多場實驗中累積出來的 20 個核心研究主張 ，全部攤開放在同一張表上，每一條都用同樣的標準逐一檢驗：跨期間穩定性（Cross-Period Stability）、嚴格統計 (2016) t 統計門檻、自我修正紀錄（Self-Corrections）、信心等級（Confidence）。檢驗結果：

Confirmed（確認） ：13 個（65%）
Provisional（暫定，仍有條件性疑慮） ：7 個（35%）
Refuted（被推翻） ：0 個
High confidence ：12 個； Medium ：7 個； Low ：1 個
平均跨期穩定性 ：3.2 / 4.0
存在自我修正紀錄的主張 ：12 個（60%）

換句話說，在我們最自豪的 20 個發現裡，有 7 個在最嚴格的審視下出現裂縫。我們選擇把這 7 個寫進報告、寫進文章、寫進論文，而不是悄悄蓋過去。這不是壞消息，這是研究誠實原則（Research Honesty Principle）的體現。

過關的 13 個主張：哪些事情我們真的可以說清楚

先看通過的部分。13 個 Confirmed 主張中，有些是我們研究生態系的「壓艙石」：

Claim 1：VIX 對「股票波動率目標策略（VT）」是充分統計量 。這是整個研究計劃裡最強的發現——26+ 個獨立檢驗，沒有一次成功反駁。VIX VT Sharpe 統計強度 3.13 通過嚴格統計門檻，4/4 跨期間皆穩定。但有個細微之處我們也寫清楚：VIX 對「策略決策」充分，但對「點預測」不充分（K129），分清楚這兩件事很重要。

Claim 2：日資料上 GARCH(1,1) 存在 QLIKE 天花板 。K405 在 5/5 資產上確認，Ljung-Box 達顯著水準（顯著性高於 0.30）；K188 整理了 12 篇 null result 全失敗。GJR vs GARCH 家族內 DM 統計強度 6.27，但任何外部模型對 GJR 的 DM t 都不超過 3.0。這與 Hansen & Lunde (2005) 的經典結論一致。

Claim 3：50/50 SPY/GLD 是兩資產配置的最佳解 。K2、K64、K252 加起來是 12+ 次獨立驗證，沒有任何優化、第三資產、或動態策略能在交易成本後打敗它。33/33/33 vs 50/50 的 DM 統計強度 -2.885（50/50 顯著勝出）。

Claim 4：VT 降低最大回落（MaxDD），但不提升 Sharpe 。MDD 改善重抽樣比較顯著性 0.0004，Sharpe 改善統計強度 1.01（不顯著）。K1117 顯示 253/253 個起始日 MDD 全部勝出，100% 命中。VT 是「保險」，不是「報酬增強器」，這個定位寫得越清楚，誤用越少。

Claim 11：25+ 個動態策略沒有一個能打敗 50/50 SPY/GLD 。K252 跑了 25 個策略，最佳的扣除交易成本後 Sharpe 只有 0.505 vs 50/50 的 0.814。動態策略 37–41x/yr 的換手率是殺手。

Claim 9：BTC 需要自己的波動率指標，VIX 對 BTC 沒用 。K1058 的 DM 統計強度 14.79（VIX 對 BTC 顯著更差），BTC 對 SPY 有 8 個結構性差異，這個結論硬到沒爭議。

其他過關的還有 Claim 5（12/VIX 參數不敏感）、Claim 8（VT 保費 1–4%/yr）、Claim 15（SPY-GLD 相關性不穩但不可利用）、Claim 16（HAR = GARCH 在日資料）、Claim 17（VT 對所有崩盤類型有效）、Claim 20（再平衡日無關）、以及 Claim 19（TSMOM 通過嚴格統計但無法擊敗 50/50+VT）。

不過關的 7 個：我們承認自己沒站穩的地方

接下來是這篇文章真正想講的部分。以下 7 個 Provisional 主張，每一個我們都寫了「為什麼信心不到 High」、「自我修正了什麼」、以及「在什麼條件下會失效」。

Claim 6：每月再平衡是最佳頻率（PROVISIONAL，2/4 穩定） 。K112、K157 顯示月度勝出，但 K328（w=2000）反轉了結論：日度反而更好。 這個結論依賴 GARCH 估計窗口 ——w=504 月度勝、w=2000 日度勝。我們沒辦法說「月度永遠是最佳」，只能說「對 12/VIX 實作而言月度是安全建議」。

Claim 7：GLD 是「自癒型」避險（PROVISIONAL，3/4 穩定） 。K1111、K1113 顯示 5 次 >10% 回落全數修復，但 K269 揭露： 升息危機（2022）GLD 跟著股票一起跌 ，相關性飆到 +0.44，GLD 跌 -11% vs SPY -18%。GLD 在停滯性通膨情境下會失靈，「自癒」要花 1-2 年（2022 案例花了 303 天）。我們不能把 GLD 包裝成完美避險。

Claim 10：槓桿效應（負報酬-波動率相關性）正在加強（PROVISIONAL，3/4 穩定） 。K378 顯示放大倍率 2005–2026 趨勢顯著（達顯著水準（顯著性 0.021）），但 K392 揭露細節： 個股的槓桿效應其實在弱化（-65%） ，只是分散化的「相關性放大」（1.04x → 1.42x）讓 ETF 層級的 gamma 維持住。這是真實但需要重新表述的發現。

Claim 12：VT 消除退休破產風險（PROVISIONAL，3/4 穩定） 。K1134 的 10,000 條 30 年 bootstrap 路徑顯示：50/50+VT 破產率 0.0% vs SPY 3.8%。但我們也誠實標註： 末期財富代價嚴重（-58%） 。而且這個結論經歷了重大自我修正——K36 原本說 VT 傷害退休（用的是 SPY-only VT），K222 才反轉為「50/50+VT 是正確實作」。K854 又補一刀： 累積期的定期定額投資者用 VT 反而虧錢 （DCA+VT 末期財富 -55.9%）。

Claim 13：定期定額（DCA）投資者該用緩和版 VT 或不用 VT（PROVISIONAL，3/4 穩定） 。K854、K59 的證據連貫：12/VIX 對累積期太兇（末期 -40%），24/VIX 比較合理（末期 -10%）。機制清楚——DCA 在低點買得多，VT 在低點降曝險，兩者天生對沖。這是 K36 → K222 → K854 一連串自我修正的最終版本。

Claim 14：VT 是「防恐慌」的（PROVISIONAL，3/4 穩定） 。K1131 報的最差月份 -4.70%，但 K1064 報 -12.0%。差異在實作： -4.70% 是 50/50+VT，-12.0% 是 SPY-only VT 。標籤本身沒錯，但要綁定具體實作。

Claim 18：VIX 在高波動率區（VIX > 25）的充分性減弱（PROVISIONAL，1/4 穩定，LOW confidence） 。這是整張表上最弱的主張。K1053 顯示高 VIX 區 SKEW vol DM 統計強度 3.72 通過嚴格統計，但 0/6 個特徵在 3+/5 個子期間皆通過，統計上真實，實務上不可靠。我們沒有把它包裝成「重大發現」，而是直接標註「low confidence」。

為什麼這份成績單反而是好消息

讀者可能會想：35% 不過關，這聽起來不是失敗嗎？

恰恰相反。一份每條主張都「100% confirmed」的研究報告，通常意味著兩件事之一：(a) 樣本太小、(b) 檢定不夠嚴。我們在 20 個主張裡找出 7 個破口，並且 12 個（60%）有自我修正紀錄，其中包括 K36 → K222 → K854 → K59 這樣橫跨四個 K 編號、長達數月的自我糾正鏈條，我們公開地把每一次「我們之前說錯了」都寫進結論。

這也是為什麼這個研究計劃的論文目標放在 top-tier finance journals（JBF、JFE、RFS）：審稿人不會買單一個 zero-refute 的研究故事，但會欣賞一個願意把自己 7 個 provisional claims 標清楚、把跨期穩定性數字（4/4、3/4、2/4、1/4）放在每條主張下面的研究團隊。

對讀者的具體意義

如果你是讀我們文章做配置的散戶，這張表的實務啟示是：

50/50 SPY/GLD + 12/VIX 月度再平衡 ：這條路徑上的所有主張（Claim 1, 3, 4, 5, 8, 11）都是 Confirmed + High confidence。可以放心用。
如果你還在累積期（DCA） ：請看 Claim 13——12/VIX 對你太兇，建議改 24/VIX 或暫不用 VT。這是 我們改過口徑後的版本 ，不是初版。
如果遇到升息危機（像 2022 那種） ：請看 Claim 7——GLD 不會即時保護你，自癒要 1-2 年。預期管理請設好。
如果是 BTC ：請看 Claim 9——VIX 對你沒用，請用 BTC 自己的波動率指標。

最後想對讀者說：研究價值不在於你宣稱了多少，而在於你取消了多少。這 7 個 provisional claims，是我們對這個平台、對學術社群、對自己最重要的承諾，當證據不夠強，我們會講清楚證據不夠強。

圖表

20 個主張的結果分佈：13 confirmed / 7 provisional / 0 refuted

跨期間穩定性分佈：avg 3.2/4

主張可信度分級：High 12 / Medium 7 / Low 1

我們檢驗了自己 20 個主張，只有 13 個過關——這就是研究誠實的樣子