← 研究動態
研究2026/05/31 下午06:01

論文發出去之後,6 個數字裡有 3 個對不上:一場我們自己抓自己的核對

GJR-GARCH黃金槓桿效應研究誠實論文修訂可復現性

讀者互動

已追蹤瀏覽 0 次,登入會員可按讚與收藏。

分享到:LINEFacebookX / Twitter

論文發出去之後,6 個數字裡有 3 個對不上:一場我們自己抓自己的核對

寫論文最尷尬的瞬間,不是審稿人退稿,是自己回頭重算一遍,發現 6 個數字裡有 3 個跟自己白紙黑字寫的對不上。

這不是假設題。這就是 K1198 發生的事。

為什麼會有「找不到腳本的數字」

我們有一篇講槓桿方向(leverage direction)的論文,主要結論是:ETF 的槓桿不對稱性(俗稱「跌得快、漲得慢」的 γ 參數)比成分股平均更強,也就是說,把一籃子股票包成 ETF,反而 放大 了下跌時的波動爆衝。

論文寫完上 arXiv 之前,我們做了一件事:把整篇正文、表格、附錄裡每一個數字,去比對「這個數字背後有沒有對應的實驗腳本可以重跑?」

結果跑出一份清單,標 KB_ONLY_PRE_K 的有 6 個,意思是它們只存在於知識庫紀錄裡,當初的計算腳本沒留下來。這在學術圈不算什麼罪大惡極,但它違反了我們自己訂的規矩: 每個論文裡的數字,都要能在公開的腳本裡重新算出來 。

要嘛把腳本補回來、要嘛承認算不出來、要嘛重算後發現跟論文不一樣再決定怎麼辦。K1198 就是這個「補回來」的動作。

6 個數字,3 個過、3 個不過

K1198 重寫了 4 段腳本,跑同樣的資料來源(yfinance)、同樣的方法(GJR-GARCH 全樣本估計、rolling window、Spearman 排序相關),把 6 個值重新算一次。結果如下:

K1198 audit dashboard

對得上的 3 個:

  • Table 11 的 SPY 買進持有期望損失(ES 1%):論文 -4.68%、重算 -4.53%,差 3.2%
  • Table 11 的超額峰度:論文 14.71、重算 14.51,差 1.4%
  • Table 12 的 Spearman 排序相關 ρ(γ, 趨勢敏感度):論文 1.000、重算 1.000,完全一致

對不上的 3 個:

  • Table 10 的 SPY 成分股平均 γ:論文 0.076、重算 0.0939
  • Table 10 的 t 統計量(ETF vs 平均股票):論文 -16.92、重算 -10.53
  • 附錄 C3 的黃金 bull vs bear t 統計量:論文 -4.71、重算 -3.79

為什麼對不上

不是論文亂寫,也不是這次亂算。是兩次計算的「設定」有差。

 Table 10 的兩個值 :論文原本用 SPY 最大 50 檔成分股,K1198 跑的時候只抓到 20 檔(公開 API 拉得到的就這些)。樣本變一半,平均值跟 t 統計量自然會飄。但 方向沒變 ——ETF 的 γ 仍然顯著高於成分股平均(重算 統計強度 -10.53 對應 達顯著水準(顯著性低於 10)⁻⁹),論文要傳達的「放大效應確實存在」這個論點完全站得住。

 C3 的黃金 t 值 :論文用的「過去報酬」定義跟這次略有差異。重算的 統計強度 -3.79 對應 達顯著水準(顯著性 0.001),跟論文的 統計強度 -4.71 都落在「強烈統計顯著」這一區,方向(bear 時 γ 為正、bull 時為負)一致。

我把這 76 個 rolling window 的 γ 跟對應的 252 日報酬畫出來:

Gold regime gamma scatter

左半邊(bear regime,過去一年報酬為負)的 γ 明顯偏正,右半邊(bull regime)的 γ 偏負,這是黃金跟一般股票最不一樣的地方。一般股票是「跌得越凶、下次波動越大」(γ 為正),黃金在多頭時反而出現「漲得越凶、下次波動越大」的反向槓桿。論文要講的是這個 regime-dependent 現象,重算之後 現象仍然存在 ,只是強度數字略有差異。

MODIFY、KEEP、RETRACT:三選一

學術界處理這種「重算對不上」的狀況,大致有三種反應。

第一種叫  KEEP ——也就是「裝沒看見、原文不動」。最容易,但風險最大。一旦未來有讀者自己跑、發現對不上、寫信質疑,整篇論文的可信度都會被連累。

第三種叫  RETRACT ——撤稿。最壯烈,也最少用。撤稿通常保留給「結論本身被推翻」「資料造假」「重大方法錯誤」這種等級。K1198 顯然不到。

中間那一種,叫  MODIFY_PAPER 。意思是:論文整體論證仍然站得住,但某幾個具體數字、樣本敘述、或某段解讀需要局部更正。發 errata(勘誤)、改 footnote、在再版裡修正,但 不撤回主結論 。

K1198 的 verdict 就是 (b) MODIFY_PAPER。

實際要做的事情非常具體:

  • Table 10 的 footnote 補一行:「公開 API 可取得的 SPY 50 大成分股為 20 檔,原 N=50 結果來自完整資料」,t 統計量更新為 -10.53
  • C3 內文那一段把 統計強度 -4.71 改成 統計強度 -3.79,方向跟顯著性敘述不動
  • Table 11 的 VT 那一欄加註:VT 數字是 Hybrid VT 規格(12/VIX switching),不是純 GARCH VT

主結論,「ETF 槓桿方向會放大」、「黃金存在反向槓桿」、「VT 在尾端風險上贏 BH」,這三句話一句不改。

我們做這件事,到底有什麼意義

老實說,公開承認「自己寫的論文有 3 個數字對不上」這件事,對個人聲譽不是加分題。

但這件事對平台的意義剛好相反。

我們訂的最高指導原則裡有一條: 研究誠實是長期商業價值的護城河 。短期看,把數字蓋過去最省事;長期看,每一次主動抓自己、主動更正,都是在累積讀者跟同行對這個平台的信任。

更具體一點:

  • 我們把每個 K 實驗的腳本、結果 JSON、README 都公開放在 git repo 裡
  • 任何讀者拉下來都可以重跑驗證
  • 重跑跟論文對不上就是對不上,沒有要遮掩
  • 這次抓到 3 個,下次抓到的就會少 3 個,再下次就會更少

而且這套流程不是寫好給人看的口號。K1198 從發現問題到實際算完、列出更正清單,前後就是一個下午的事。系統設計本來就應該把「自我核對」當成基本動作,不是某種需要特別撥時間做的偉大工程。

給讀者的兩個提醒

第一, 看到任何研究數字,先問「這數字怎麼來的、能不能重算」 。學術論文也好、券商報告也好、社群媒體上轉貼的「驚人數據」也好。能附腳本最好,不能附腳本至少要說清楚資料來源跟方法。連方法都講不清楚的數字,看看就好。

第二, 主動承認自己錯了,比被別人抓到再回應,可信度高一個量級 。這對研究者適用,對投資人寫操作紀錄也適用,對任何想經營長期信任的人都適用。沒人會因為你發 errata 就否定你整篇論文,但會因為你裝沒看見而徹底懷疑你其他結論。

K1198 不是漂亮的成功故事。它就是一份「我們發現了 3 個對不上的數字、決定怎麼處理」的工作紀錄。但這種無聊的工作紀錄累積起來,才是研究平台跟單篇爆文真正的差別。


本文基於 K1198(腳本:experiments/k1198/k1198.py,結果:experiments/k1198/k1198_results.json)。資料來源:yfinance;主要期間 2017-01 至 2025-12;C3 黃金延伸至 2005-01 至 2026-01。重算 elapsed 77.85 秒,seed=42。

相關文章

先讀正式關聯,若無則使用標籤與主題相似度補齊

📄
黃金跌時波動反而縮?石油衝擊下的槓桿非對稱效應
每次股市暴跌,投資人直覺轉向黃金避險,油價卻往往跟著地緣緊張飆升。這兩個商品在市場恐慌時走向截然不同,波動率模型能不能抓住這個差異? 在 2023 年 1 月到 2025 年 12 月的 808 個交易日樣本中,我們對 GLD(SPDR 黃金 ETF)和 USO(美國石油 ETF)跑了六種波動率模型,結果出現一個值得深究的反差:黃金的槓桿效應和石油完全反向,而 HAR 對數範圍模型在股票市場曾表...
📄
日頻波動率,HAR-RV 贏不了 GARCH:60 場跨資產對戰的紀錄
# 日頻波動率,HAR-RV 贏不了 GARCH:60 場跨資產對戰的紀錄 > 實驗 K188 | OOS 期間 2023-01-01 至 2024-12-31 | 5 資產 × 4 波動率代理 × 3 模型變體 --- HAR-RV 是過去二十年波動率預測文獻裡出現率最高的模型之一。它把波動率分解成日、週、月三個頻率的加總,捕捉長記憶結構,跑在五分鐘高頻數據上幾乎無敵。 那在日頻數據上呢...
📄
新興市場主權債的波動率,能提前預告 EM 股市風暴嗎?一次誠實的否定(K1621)
新興市場的美元主權債,波動起來的時候,會不會比股市早一步聞到火藥味?如果會,那些免費就能取得的債券 ETF 與信用利差,或許能當作跨資產的預警訊號。我們用 2015 到 2026 十一年的資料把這個念頭認真測了一遍,結論很乾脆:**不會**。主權信用的「波動率」和新興市場股票的波動率幾乎是同一時間一起動的,不存在可以拿來做日頻預測的領先關係。 這是一個 NULL 結果,但它是乾淨、可複現、而且對...