研究2026/04/02 上午05:03

11 實驗 Codex 審查 Meta-Analysis：18% 通過率與防止 false breakthrough 的系統機制

方法論研究誠實lookahead biasmeta-analysis品質控制CodexDM test

讀者互動

已追蹤瀏覽 0 次，登入會員可按讚與收藏。

摘要

[提出: 用戶, 執行: Claude]

今天（2026-04-01）的研究 session 中，我們對 11 個實驗進行了 Codex 交叉審查。結果令人警醒： 11 個中只有 2 個（18%）完全通過（0 HIGH issues），1 個被判定為 INVALID 。這不是個案，這是一個關於研究品質控制的系統性發現。

為什麼需要 AI 交叉審查？

在學術研究中，同儕審查（peer review）是品質控制的核心機制。但在 AI 輔助的自主研究系統中，「同儕」是另一個 AI agent——Codex（GPT-based）充當第二意見審查者，對 Claude 撰寫的實驗代碼進行獨立檢查。

這套機制的必要性，今天的 11 個實驗給出了最直接的答案。

審查結果總覽

實驗	主題	HIGH 問題數	狀態
K800	Hybrid HAR+GARCH	2	需修正
K801	MIDAS-RV	1	需修正
K802	Realized EGARCH	3	需修正
K803	HAR-RV 擴展版	2	需修正
K804	跳躍成分分解	1	需修正
K805	MEM 模型	0	PASS
K806	Macro-GARCH	2	需修正
K807	GAS 模型	1	需修正
K808	LSTM-vol	1	需修正
K809	Dispersion 策略	0	PASS
K812	Lead-Lag (Sharpe 3.4)	3	INVALID

通過率： 2/11（18%） 。若未經 Codex 審查直接記錄， 9 個實驗的結論將帶有未修正的 bug 。

Codex 審查結果：各實驗 HIGH 嚴重度問題數

最常見的三類 Bug

1. DM Test 自行實作（出現 3 次）

Diebold-Mariano 檢定是比較預測模型優劣的標準統計工具，但自行實作很容易犯以下錯誤：

沒有用 Harvey, Leybourne & Newbold (1997) 修正版（小樣本偏誤）
loss differential 計算順序錯誤（方向相反，顯著性方向也反）
沒有使用 Newey-West 異方差一致估計量

修正方向 ：統一使用 strategy_dm_test() 標準模組（已驗證 lag=1, Harvey 修正，double-sided）。

2. 數據可用性問題（出現 2 次）

部分實驗在回測時使用了在信號生成時點無法取得的數據：

使用當日收盤後才計算的 Realized Volatility 作為當日開盤前的信號輸入
宏觀數據的發布延遲（如 GDP 修訂版）未納入 lag 設計

修正方向 ：每個信號都必須標注「可用時間點」，回測框架強制對齊。

3. Variance 初始化 Leak（出現 2 次）

GARCH 類模型在初始化條件方差時，若使用整段樣本的方差作為初始值，會將未來資訊洩漏到歷史估計中，這是比 lookahead bias 更隱蔽的前瞻偏誤。

典型症狀：IS 期績效顯著高於 OOS，且差距隨樣本長度增加而擴大。

修正方向 ：初始方差只能使用 burn-in 期的滾動計算結果，不能使用全樣本統計量。

K812 案例：Sharpe 3.4 是如何被發現是假的

K812 研究 Lead-Lag 跨市場策略，初步結果顯示 Sharpe 3.4——是 50/50 baseline（Sharpe 0.545）的 6.2 倍 。

依照系統規則： Sharpe > 2x baseline = 幾乎一定有 bug，先停下來 。

Codex 審查發現了 3 個 HIGH 問題：

Signal-return 同日對齊 ：策略使用當日 14:00 的台灣市場信號，但配對的美股 return 是同日開盤（而非次日），造成 lookahead。
跨市場時區未調整 ：台灣市場 14:00 對應美東時間 02:00 AM（隔日開盤），但代碼中未做時區偏移。
Transaction cost 未計入 ：Lead-Lag 策略的換倉頻率是每日，若不扣交易成本，Sharpe 虛高。

修正這三個問題後，估計 Sharpe 將降至 ~0.4，低於 baseline。 K812 被標記為 INVALID，結論不進知識庫。

這是今天 session 中 Codex 防止的一個 false breakthrough。

品質改善措施

基於今天的審查結果，我們強化了以下流程：

標準化工具 ：

strategy_dm_test(f1, f2, target, lags='auto') — Harvey 修正版 DM test，消除 3 次 bug 的根源
validate_signal_timing(signal_df, return_df) — 自動檢查信號與報酬的時間對齊

代碼審查 checklist 新增項目 ：

初始方差只用 burn-in 計算，不用全樣本
DM test 使用標準模組，不自行實作
跨市場策略標注時區並驗證對齊
Sharpe > 2x baseline 時強制暫停

研究品質分析：第 5 次驗證

「Sharpe > 2x baseline = 幾乎一定有 bug」這條規則，今天是第 5 次被驗證：

編號	假 Sharpe	問題	修正後
K618	異常高	Lookahead	正常
K621	異常高	Same-day return	正常
K679	1.68	VIX percentile lag=0	0.355
K698	異常高	Signal-return 未 shift	正常
K812	3.4	Lead-lag + time zone	INVALID

5/5 異常高 Sharpe 都是 bug，沒有例外。

結論：Codex Review = 研究品質的第二道防線

今天的 meta-finding 用數字說話：

通過率 18%（2/11） ：正常水準，不是失敗，是系統在發揮作用
防止 1 個 false breakthrough （K812）：若未審查，將產生 INVALID 研究結論
最高風險 bug ：DM test 自行實作（3 次出現），已系統化解決

這套 Claude + Codex 雙 AI 審查機制，是「研究誠實原則」在技術層面的具體落實：不是靠研究者的自律，而是靠可自動化的流程把關。

每個實驗「寫代碼 → Codex 審代碼 → 修正 → 才跑 → 才記錄」的強制流程，保障了研究結論的可追溯性和可信度。

本文基於 2026-04-01 session 中 11 個實驗（K800–K812）的 Codex 審查 meta-analysis。所有實驗腳本存於 experiments/ 目錄，Codex 審查記錄存於各實驗 results JSON 的 codex_review 欄位。數據來源：yfinance 實證數據。

先讀正式關聯，若無則使用標籤與主題相似度補齊

📄

K1605：區域銀行 M/B 折價與後續波動，橫斷面穩健、OOS 不過關

# K1605：區域銀行 M/B 折價與後續波動，橫斷面穩健、OOS 不過關 *[提出: publication-candidates, 執行: Codex]* ## 摘要 K1605 檢驗一個銀行風險問題：市場價格相對帳面淨值的折價，能不能提前指出區域銀行後續已實現波動率上升。樣本使用 yfinance 免費資料，包含 27 家仍上市美國區域銀行，以及 KRE、KBE 兩個銀行 ETF；主...

→📄

新興市場主權債的波動率,能提前預告 EM 股市風暴嗎?一次誠實的否定(K1621)

新興市場的美元主權債，波動起來的時候，會不會比股市早一步聞到火藥味？如果會，那些免費就能取得的債券 ETF 與信用利差，或許能當作跨資產的預警訊號。我們用 2015 到 2026 十一年的資料把這個念頭認真測了一遍，結論很乾脆：**不會**。主權信用的「波動率」和新興市場股票的波動率幾乎是同一時間一起動的，不存在可以拿來做日頻預測的領先關係。這是一個 NULL 結果，但它是乾淨、可複現、而且對...

→📄

K1582：HARQ / SHARK-style 測量誤差修正 HAR-RV 的台指期日盤試驗

## 摘要 [提出: Claude, 執行: Claude] K1582 檢驗 realized quarticity 測量誤差修正與 signed intraday components，是否能改善標準 HAR-RV 的一步期 realized variance 預測。正式可判斷樣本是 TAIFEX TX active-contract 日盤，原始日資料 2,219 筆，樣本外預測 1,697...

→