我們檢驗了自己 20 個主張,只有 13 個過關——這就是研究誠實的樣子
讀者互動
已追蹤瀏覽 0 次,登入會員可按讚與收藏。
我們檢驗了自己 20 個主張,只有 13 個過關,這就是研究誠實的樣子
一份不討好自己的成績單
學術研究最容易的事,是證明自己對。最難的事,是公開承認自己有 35% 的主張其實沒站穩腳跟。
在 K301 這份「穩健性大表」(Robustness Mega-Table)中,我們把過去 1141 條知識條目與 300 多場實驗中累積出來的 20 個核心研究主張 ,全部攤開放在同一張表上,每一條都用同樣的標準逐一檢驗:跨期間穩定性(Cross-Period Stability)、嚴格統計 (2016) t 統計門檻、自我修正紀錄(Self-Corrections)、信心等級(Confidence)。檢驗結果:
- Confirmed(確認) :13 個(65%)
- Provisional(暫定,仍有條件性疑慮) :7 個(35%)
- Refuted(被推翻) :0 個
- High confidence :12 個; Medium :7 個; Low :1 個
- 平均跨期穩定性 :3.2 / 4.0
- 存在自我修正紀錄的主張 :12 個(60%)
換句話說,在我們最自豪的 20 個發現裡,有 7 個在最嚴格的審視下出現裂縫。我們選擇把這 7 個寫進報告、寫進文章、寫進論文,而不是悄悄蓋過去。這不是壞消息,這是研究誠實原則(Research Honesty Principle)的體現。
過關的 13 個主張:哪些事情我們真的可以說清楚
先看通過的部分。13 個 Confirmed 主張中,有些是我們研究生態系的「壓艙石」:
Claim 1:VIX 對「股票波動率目標策略(VT)」是充分統計量 。這是整個研究計劃裡最強的發現——26+ 個獨立檢驗,沒有一次成功反駁。VIX VT Sharpe 統計強度 3.13 通過 嚴格統計 門檻,4/4 跨期間皆穩定。但有個細微之處我們也寫清楚:VIX 對「策略決策」充分,但對「點預測」不充分(K129),分清楚這兩件事很重要。
Claim 2:日資料上 GARCH(1,1) 存在 QLIKE 天花板 。K405 在 5/5 資產上確認,Ljung-Box 達顯著水準(顯著性高於 0.30);K188 整理了 12 篇 null result 全失敗。GJR vs GARCH 家族內 DM 統計強度 6.27,但任何外部模型對 GJR 的 DM t 都不超過 3.0。這與 Hansen & Lunde (2005) 的經典結論一致。
Claim 3:50/50 SPY/GLD 是兩資產配置的最佳解 。K2、K64、K252 加起來是 12+ 次獨立驗證,沒有任何優化、第三資產、或動態策略能在交易成本後打敗它。33/33/33 vs 50/50 的 DM 統計強度 -2.885(50/50 顯著勝出)。
Claim 4:VT 降低最大回落(MaxDD),但不提升 Sharpe 。MDD 改善 重抽樣比較顯著性 0.0004,Sharpe 改善 統計強度 1.01(不顯著)。K1117 顯示 253/253 個起始日 MDD 全部勝出,100% 命中。VT 是「保險」,不是「報酬增強器」,這個定位寫得越清楚,誤用越少。
Claim 11:25+ 個動態策略沒有一個能打敗 50/50 SPY/GLD 。K252 跑了 25 個策略,最佳的扣除交易成本後 Sharpe 只有 0.505 vs 50/50 的 0.814。動態策略 37–41x/yr 的換手率是殺手。
Claim 9:BTC 需要自己的波動率指標,VIX 對 BTC 沒用 。K1058 的 DM 統計強度 14.79(VIX 對 BTC 顯著 更差 ),BTC 對 SPY 有 8 個結構性差異,這個結論硬到沒爭議。
其他過關的還有 Claim 5(12/VIX 參數不敏感)、Claim 8(VT 保費 1–4%/yr)、Claim 15(SPY-GLD 相關性不穩但不可利用)、Claim 16(HAR = GARCH 在日資料)、Claim 17(VT 對所有崩盤類型有效)、Claim 20(再平衡日無關)、以及 Claim 19(TSMOM 通過 嚴格統計 但無法擊敗 50/50+VT)。
不過關的 7 個:我們承認自己沒站穩的地方
接下來是這篇文章真正想講的部分。以下 7 個 Provisional 主張,每一個我們都寫了「為什麼信心不到 High」、「自我修正了什麼」、以及「在什麼條件下會失效」。
Claim 6:每月再平衡是最佳頻率(PROVISIONAL,2/4 穩定) 。K112、K157 顯示月度勝出,但 K328(w=2000)反轉了結論:日度反而更好。 這個結論依賴 GARCH 估計窗口 ——w=504 月度勝、w=2000 日度勝。我們沒辦法說「月度永遠是最佳」,只能說「對 12/VIX 實作而言月度是安全建議」。
Claim 7:GLD 是「自癒型」避險(PROVISIONAL,3/4 穩定) 。K1111、K1113 顯示 5 次 >10% 回落全數修復,但 K269 揭露: 升息危機(2022)GLD 跟著股票一起跌 ,相關性飆到 +0.44,GLD 跌 -11% vs SPY -18%。GLD 在停滯性通膨情境下會失靈,「自癒」要花 1-2 年(2022 案例花了 303 天)。我們不能把 GLD 包裝成完美避險。
Claim 10:槓桿效應(負報酬-波動率相關性)正在加強(PROVISIONAL,3/4 穩定) 。K378 顯示放大倍率 2005–2026 趨勢顯著(達顯著水準(顯著性 0.021)),但 K392 揭露細節: 個股的槓桿效應其實在弱化(-65%) ,只是分散化的「相關性放大」(1.04x → 1.42x)讓 ETF 層級的 gamma 維持住。這是真實但需要重新表述的發現。
Claim 12:VT 消除退休破產風險(PROVISIONAL,3/4 穩定) 。K1134 的 10,000 條 30 年 bootstrap 路徑顯示:50/50+VT 破產率 0.0% vs SPY 3.8%。但我們也誠實標註: 末期財富代價嚴重(-58%) 。而且這個結論經歷了重大自我修正——K36 原本說 VT 傷害退休(用的是 SPY-only VT),K222 才反轉為「50/50+VT 是正確實作」。K854 又補一刀: 累積期的定期定額投資者用 VT 反而虧錢 (DCA+VT 末期財富 -55.9%)。
Claim 13:定期定額(DCA)投資者該用緩和版 VT 或不用 VT(PROVISIONAL,3/4 穩定) 。K854、K59 的證據連貫:12/VIX 對累積期太兇(末期 -40%),24/VIX 比較合理(末期 -10%)。機制清楚——DCA 在低點買得多,VT 在低點降曝險,兩者天生對沖。這是 K36 → K222 → K854 一連串自我修正的最終版本。
Claim 14:VT 是「防恐慌」的(PROVISIONAL,3/4 穩定) 。K1131 報的最差月份 -4.70%,但 K1064 報 -12.0%。差異在實作: -4.70% 是 50/50+VT,-12.0% 是 SPY-only VT 。標籤本身沒錯,但要綁定具體實作。
Claim 18:VIX 在高波動率區(VIX > 25)的充分性減弱(PROVISIONAL,1/4 穩定,LOW confidence) 。這是整張表上 最弱 的主張。K1053 顯示高 VIX 區 SKEW vol DM 統計強度 3.72 通過 嚴格統計,但 0/6 個特徵在 3+/5 個子期間皆通過,統計上真實,實務上不可靠。我們沒有把它包裝成「重大發現」,而是直接標註「low confidence」。
為什麼這份成績單反而是好消息
讀者可能會想:35% 不過關,這聽起來不是失敗嗎?
恰恰相反。一份每條主張都「100% confirmed」的研究報告,通常意味著兩件事之一:(a) 樣本太小、(b) 檢定不夠嚴。我們在 20 個主張裡找出 7 個破口,並且 12 個(60%)有自我修正紀錄,其中包括 K36 → K222 → K854 → K59 這樣橫跨四個 K 編號、長達數月的自我糾正鏈條,我們公開地把每一次「我們之前說錯了」都寫進結論。
這也是為什麼這個研究計劃的論文目標放在 top-tier finance journals(JBF、JFE、RFS):審稿人不會買單一個 zero-refute 的研究故事,但會欣賞一個願意把自己 7 個 provisional claims 標清楚、把跨期穩定性數字(4/4、3/4、2/4、1/4)放在每條主張下面的研究團隊。
對讀者的具體意義
如果你是讀我們文章做配置的散戶,這張表的實務啟示是:
- 50/50 SPY/GLD + 12/VIX 月度再平衡 :這條路徑上的所有主張(Claim 1, 3, 4, 5, 8, 11)都是 Confirmed + High confidence。可以放心用。
- 如果你還在累積期(DCA) :請看 Claim 13——12/VIX 對你太兇,建議改 24/VIX 或暫不用 VT。這是 我們改過口徑後的版本 ,不是初版。
- 如果遇到升息危機(像 2022 那種) :請看 Claim 7——GLD 不會即時保護你,自癒要 1-2 年。預期管理請設好。
- 如果是 BTC :請看 Claim 9——VIX 對你沒用,請用 BTC 自己的波動率指標。
最後想對讀者說:研究價值不在於你宣稱了多少,而在於你 取消 了多少。這 7 個 provisional claims,是我們對這個平台、對學術社群、對自己最重要的承諾,當證據不夠強,我們會講清楚證據不夠強。
圖表



相關文章
先讀正式關聯,若無則使用標籤與主題相似度補齊