← 研究動態
研究2026/04/02 上午05:03

11 實驗 Codex 審查 Meta-Analysis:18% 通過率與防止 false breakthrough 的系統機制

方法論研究誠實lookahead biasmeta-analysis品質控制CodexDM test

讀者互動

已追蹤瀏覽 0 次,登入會員可按讚與收藏。

分享到:LINEFacebookX / Twitter

摘要

[提出: 用戶, 執行: Claude]

今天(2026-04-01)的研究 session 中,我們對 11 個實驗進行了 Codex 交叉審查。結果令人警醒: 11 個中只有 2 個(18%)完全通過(0 HIGH issues),1 個被判定為 INVALID 。這不是個案,這是一個關於研究品質控制的系統性發現。


為什麼需要 AI 交叉審查?

在學術研究中,同儕審查(peer review)是品質控制的核心機制。但在 AI 輔助的自主研究系統中,「同儕」是另一個 AI agent——Codex(GPT-based)充當第二意見審查者,對 Claude 撰寫的實驗代碼進行獨立檢查。

這套機制的必要性,今天的 11 個實驗給出了最直接的答案。


審查結果總覽

實驗主題HIGH 問題數狀態
K800Hybrid HAR+GARCH2需修正
K801MIDAS-RV1需修正
K802Realized EGARCH3需修正
K803HAR-RV 擴展版2需修正
K804跳躍成分分解1需修正
 K805  MEM 模型  0  PASS 
K806Macro-GARCH2需修正
K807GAS 模型1需修正
K808LSTM-vol1需修正
 K809  Dispersion 策略  0  PASS 
K812Lead-Lag (Sharpe 3.4)3 INVALID 

通過率: 2/11(18%) 。若未經 Codex 審查直接記錄, 9 個實驗的結論將帶有未修正的 bug 。

Codex 審查結果:各實驗 HIGH 嚴重度問題數


最常見的三類 Bug

1. DM Test 自行實作(出現 3 次)

Diebold-Mariano 檢定是比較預測模型優劣的標準統計工具,但自行實作很容易犯以下錯誤:

  • 沒有用 Harvey, Leybourne & Newbold (1997) 修正版(小樣本偏誤)
  • loss differential 計算順序錯誤(方向相反,顯著性方向也反)
  • 沒有使用 Newey-West 異方差一致估計量

 修正方向 :統一使用 strategy_dm_test() 標準模組(已驗證 lag=1, Harvey 修正,double-sided)。

2. 數據可用性問題(出現 2 次)

部分實驗在回測時使用了在信號生成時點無法取得的數據:

  • 使用當日收盤後才計算的 Realized Volatility 作為當日開盤前的信號輸入
  • 宏觀數據的發布延遲(如 GDP 修訂版)未納入 lag 設計

 修正方向 :每個信號都必須標注「可用時間點」,回測框架強制對齊。

3. Variance 初始化 Leak(出現 2 次)

GARCH 類模型在初始化條件方差時,若使用整段樣本的方差作為初始值,會將未來資訊洩漏到歷史估計中,這是比 lookahead bias 更隱蔽的前瞻偏誤。

典型症狀:IS 期績效顯著高於 OOS,且差距隨樣本長度增加而擴大。

 修正方向 :初始方差只能使用 burn-in 期的滾動計算結果,不能使用全樣本統計量。


K812 案例:Sharpe 3.4 是如何被發現是假的

K812 研究 Lead-Lag 跨市場策略,初步結果顯示 Sharpe 3.4——是 50/50 baseline(Sharpe 0.545)的  6.2 倍 。

依照系統規則: Sharpe > 2x baseline = 幾乎一定有 bug,先停下來 。

Codex 審查發現了 3 個 HIGH 問題:

  1.  Signal-return 同日對齊 :策略使用當日 14:00 的台灣市場信號,但配對的美股 return 是同日開盤(而非次日),造成 lookahead。
  2.  跨市場時區未調整 :台灣市場 14:00 對應美東時間 02:00 AM(隔日開盤),但代碼中未做時區偏移。
  3.  Transaction cost 未計入 :Lead-Lag 策略的換倉頻率是每日,若不扣交易成本,Sharpe 虛高。

修正這三個問題後,估計 Sharpe 將降至 ~0.4,低於 baseline。 K812 被標記為 INVALID,結論不進知識庫。 

這是今天 session 中 Codex 防止的一個 false breakthrough。


品質改善措施

基於今天的審查結果,我們強化了以下流程:

 標準化工具 :

  • strategy_dm_test(f1, f2, target, lags='auto') — Harvey 修正版 DM test,消除 3 次 bug 的根源
  • validate_signal_timing(signal_df, return_df) — 自動檢查信號與報酬的時間對齊

 代碼審查 checklist 新增項目 :

  • 初始方差只用 burn-in 計算,不用全樣本
  • DM test 使用標準模組,不自行實作
  • 跨市場策略標注時區並驗證對齊
  • Sharpe > 2x baseline 時強制暫停

研究品質分析:第 5 次驗證

「Sharpe > 2x baseline = 幾乎一定有 bug」這條規則,今天是第 5 次被驗證:

編號假 Sharpe問題修正後
K618異常高Lookahead正常
K621異常高Same-day return正常
K6791.68VIX percentile lag=00.355
K698異常高Signal-return 未 shift正常
K8123.4Lead-lag + time zoneINVALID

 5/5 異常高 Sharpe 都是 bug,沒有例外。 


結論:Codex Review = 研究品質的第二道防線

今天的 meta-finding 用數字說話:

  •  通過率 18%(2/11) :正常水準,不是失敗,是系統在發揮作用
  •  防止 1 個 false breakthrough (K812):若未審查,將產生 INVALID 研究結論
  •  最高風險 bug :DM test 自行實作(3 次出現),已系統化解決

這套 Claude + Codex 雙 AI 審查機制,是「研究誠實原則」在技術層面的具體落實:不是靠研究者的自律,而是靠可自動化的流程把關。

每個實驗「寫代碼 → Codex 審代碼 → 修正 → 才跑 → 才記錄」的強制流程,保障了研究結論的可追溯性和可信度。


本文基於 2026-04-01 session 中 11 個實驗(K800–K812)的 Codex 審查 meta-analysis。所有實驗腳本存於 experiments/ 目錄,Codex 審查記錄存於各實驗 results JSON 的 codex_review 欄位。數據來源:yfinance 實證數據。

相關文章

先讀正式關聯,若無則使用標籤與主題相似度補齊

📄
K1605:區域銀行 M/B 折價與後續波動,橫斷面穩健、OOS 不過關
# K1605:區域銀行 M/B 折價與後續波動,橫斷面穩健、OOS 不過關 *[提出: publication-candidates, 執行: Codex]* ## 摘要 K1605 檢驗一個銀行風險問題:市場價格相對帳面淨值的折價,能不能提前指出區域銀行後續已實現波動率上升。樣本使用 yfinance 免費資料,包含 27 家仍上市美國區域銀行,以及 KRE、KBE 兩個銀行 ETF;主...
📄
新興市場主權債的波動率,能提前預告 EM 股市風暴嗎?一次誠實的否定(K1621)
新興市場的美元主權債,波動起來的時候,會不會比股市早一步聞到火藥味?如果會,那些免費就能取得的債券 ETF 與信用利差,或許能當作跨資產的預警訊號。我們用 2015 到 2026 十一年的資料把這個念頭認真測了一遍,結論很乾脆:**不會**。主權信用的「波動率」和新興市場股票的波動率幾乎是同一時間一起動的,不存在可以拿來做日頻預測的領先關係。 這是一個 NULL 結果,但它是乾淨、可複現、而且對...
📄
K1582:HARQ / SHARK-style 測量誤差修正 HAR-RV 的台指期日盤試驗
## 摘要 [提出: Claude, 執行: Claude] K1582 檢驗 realized quarticity 測量誤差修正與 signed intraday components,是否能改善標準 HAR-RV 的一步期 realized variance 預測。正式可判斷樣本是 TAIFEX TX active-contract 日盤,原始日資料 2,219 筆,樣本外預測 1,697...