一般讀者2026/05/01 上午05:00

我們嘗試重做「歐日新聞落差 3.28σ」實驗,結果發現故事可能站不住腳

研究誠實GDELT新聞集中度歐洲股市日本股市複製危機財報事件

讀者互動

已追蹤瀏覽 0 次，登入會員可按讚與收藏。

摘要

去年我們在一份研究裡看到一個很搶眼的數字:日本股市對財報新聞的反應,比歐洲股市集中 3.28 倍標準差以上。這個落差後來被當作「為何亞洲市場波動更急、歐洲更分散」的解釋之一。最近我們用真實的全球新聞資料庫 GDELT 重做了這個測量,在第一批可用樣本上, 這個 3.28σ 的落差幾乎不見了 — 歐洲與日本的新聞集中度差異只剩 0.005,等於一張紙的厚度。本文記錄這次部分複製失敗的過程、原因、以及我們為什麼選擇先把舊結論「降溫」而不是繼續推銷它。

一個原本很漂亮的故事

研究金融市場時,我們常把不同市場的反應差異歸因於「資訊環境」 — 像是新聞密度、媒體集中度、語言市場結構等。

幾個月前我們做了一份內部研究(代號 K1170),提出一個很簡潔的假說:

歐洲股市 新聞媒體分散(英德法義西多語並存,沒有單一霸主)
日本股市 新聞媒體集中(《日經》一家獨大、語言單一)
因此 同樣一份財報出來,日本市場的注意力會在當天 (T0) 高度集中,歐洲則被分散到財報前後幾天

這個概念看起來很合理。當時我們用幾份學術文獻 — 路透研究院 2024 數位新聞報告、Pew Research 美國媒體寡占研究 — 來「校準」每個市場的新聞集中度,得到:

歐洲新聞集中度:0.317
日本新聞集中度:0.767

兩者相差 0.450,換算成跨市場標準差,等於 3.28σ 。在統計上這是一個極醒目的數字 — 隨機巧合的機率連萬分之一都不到。我們因此一度把這個落差當作整套「亞洲集中、歐洲分散」敘事的核心證據之一。

但在 K1170 報告裡,我們也老實寫下兩個警訊:

那 0.317 與 0.767 不是直接量出來的,而是 用文獻的描述「換算」出來的代理值 。
我們嘗試用 GDELT(一個收錄全球新聞的公開資料庫)直接打 API,結果連續四次都被擋(HTTP 429,代表伺服器拒絕回應)。

換句話說 — 故事很漂亮,但 3.28σ 那個數字背後沒有實際數過任何一篇新聞稿。

我們為什麼一定要重測

學術圈這幾年最常出事的地方,就是「漂亮的數字」其實只是研究者用某個方便的代理值算出來的,後來別人換真實資料一驗,落差就消失了 — 這在心理學界叫 複製危機 (replication crisis) ,在金融圈也屢見不鮮。

我們的研究守則寫得很清楚: 任何源自代理值的醒目發現,都必須在能拿到真實資料時補做一次直接測量 。所以這次我們重新做了一個實驗 K1174,目標只有一個 — 用 GDELT 真實的新聞檔案,直接數一遍每家公司財報前後五天 (T-2 到 T+2) 出現了多少次,然後看 T0 那天佔總量的比例(這就是「新聞集中度」的操作定義)。

我們怎麼做的(白話版)

GDELT 每天會切成 96 個 15 分鐘檔案存放全球新聞掃描結果。要全部下載一年的資料需要 約 240 GB 流量 ,在自動化研究 agent 的時段內不可能完成。

我們選了一個折衷: 每天只取中午 12:00 UTC 的那一個 15 分鐘檔 (約等於每天總量的 1.04%),時間從 2024 年 1 月 9 日到 7 月 10 日,合計掃了 131 個檔案。範圍涵蓋 9 個市場、31 家分析師覆蓋率最高的公司、248 場財報。

掃完之後,有 25 場財報事件累積了至少 5 則以上的新聞提及(夠可靠),分布在 6 個市場 — 歐洲(EU)3 家公司、日本(JP)2 家、美國(US)4 家、印度(IN)2 家、香港(HK)1 家、台灣(TW)1 家。

這是一個 部分樣本 ,我們事先就知道結論不能宣稱定論;但只要 1.04% 的取樣偏好不是系統性地偏向 T0,這個比例就足以給出方向性的回答。

結果:那個 3.28σ 不見了

下面這張表是這次研究的核心 — 把學術文獻換算出來的舊數字、跟 GDELT 真實數出來的新數字並排。

市場	觀察公司數	GDELT 實測新聞集中度	K1170 文獻推估值
歐洲(EU)	3	0.311	0.317
香港(HK)	1	0.667	0.667
印度(IN)	2	0.609	0.517
日本(JP)	2	0.315	0.767
台灣(TW)	1	0.467	0.650
美國(US)	4	0.242	0.850

關鍵看 歐洲 vs 日本 那兩列:

歐洲實測 0.311,日本實測 0.315
差距只有 0.005 — 等於以跨市場標準差來看 0.03σ
我們順手做了 Welch 統計檢定,落差顯著性的 p 值 = 0.98

換句話說,在這份 GDELT 樣本裡,日本與歐洲的新聞集中度 幾乎一模一樣 。原本 3.28σ 的醒目落差,在直接測量下完全消失。

更值得注意的是美國 — 文獻推估的 0.85,實測只有 0.242。我們事後檢查,可能的原因是美國公司多在收盤後(AMC,大約晚上 9 點 UTC)發布財報,新聞高峰落在 T+1 那天,我們中午 12 點切的那片 15 分鐘剛好踩不到,所以美國的數字被嚴重低估。即使把這層偏差納入考慮,文獻推估值跟實測值之間的相關係數還是 -0.26(完全沒對齊)。

一張圖看落差

下圖把六個市場排成「文獻推估 vs GDELT 實測」散布圖。如果文獻推得準,點應該排在 45 度斜線上; 實際上點散得到處都是,日本(JP)從圖右邊一路掉到中間,美國(US)更是直接跌到底 。

K1174 文獻推估 vs GDELT 實測新聞集中度散布圖

下面這張是歐洲與日本的個股新聞集中度分佈直方圖。如果 K1170 的 3.28σ 故事為真,兩個分佈應該明顯分開; 實測下兩條分佈完全重疊 ,看不出區別。

K1174 歐洲 vs 日本個股新聞集中度直方圖

為什麼我們選擇先把故事降溫

我們沒有立刻把 K1170 整個推翻,有幾個合理的保留:

樣本只有 1.04% :理論上若取樣偏好剛好踩在每個市場 T0 集中度的盲區,結果可能被扭曲。要徹底驗證,得等 BigQuery 全量掃完。
歐洲只有 3 家公司、日本只有 2 家 :這個 N 太小,單純運氣讓兩邊看起來一樣的可能性也存在。
美國的時區偏差 確實會影響部分數字。

所以我們把 K1174 的結論定為: INSUFFICIENT_COVERAGE(覆蓋不足),但證據方向偏向「削弱(WEAKENED)」K1170 的歐日落差假說 。原本 K1170 的「PARTIAL_CONFIRMED 部分確認」標籤暫時保留,但 任何引用它的論文章節、未發布的草稿、平台上既有的內容,我們都標記為待修正 ,等下一輪 BigQuery 全量掃描出爐再決定要不要正式撤回。

為什麼這件事重要 — 不只是學術潔癖

如果我們選擇繼續推銷 3.28σ 那個故事,看起來會輕鬆很多 — 數字漂亮、敘事完整、寫成投資建議也很有賣點。

但金融研究有一條鐵則: 選擇性引用文獻換算過的代理值,當作直接測量的硬證據,本質上就是 confirmation bias(確認偏誤) 。我們腦中已經有「亞洲集中、歐洲分散」的劇本,所以挑了一組看起來符合劇本的代理值塞進公式。等到真實資料能拿到,代理值跟實測對不起來,劇本就要重寫。

這次我們從 GDELT 拿到的訊息其實更精簡:

個股層面的「分析師覆蓋率」 對日本溢酬殘差的解釋力沒變 — 統計顯著性跟舊版完全一樣,經過嚴格檢定仍站得住。這是個體層的真機制。
跨市場層面的「機構持有比例」 也沒變 — 這是中間層的真機制。
跨市場層面的「新聞集中度」差異 才是這次站不住腳的部分 — 這是最上層、本來就最高度依賴代理值的那個環節。

換句話說,K1170 三層機制的下兩層仍然撐得住, 只有最上面那層的「歐日落差」要降溫 。我們因此可以保留主架構、但把「為什麼歐洲 θ 殘差比日本小」從「結論」改寫成「未解的開放問題」。

接下來怎麼辦

等 BigQuery 完整存取權限到位後,把 1.04% 樣本擴成 100% 全掃描(內部代號 K1175),再正式判定 K1170 是要保留還是撤回。
平台上所有引用 K1170 EU-JP 落差的內容(目前只有 2 篇,且都標為 reference),會在 K1175 結論出爐後同步更新或加註。
論文 §5 章節原本要拿這個 3.28σ 當主要實證證據,現在改成在「Limitations」裡描述為「依賴文獻校準、待 GDELT 全量驗證」,不誇大、不沿用未經驗證的 σ 數字。

給投資人的兩個 takeaway

遇到「σ 很大」的數字時,先問怎麼算的 — 一個 3σ 落差如果是用文獻代理推出來的,跟用真實資料數出來的,意義完全不同。市場研究最常出問題的不是統計方法,是 輸入資料本身有沒有經過直接測量 。
複製失敗也是研究結果 — 我們公開報告 K1174 部分複製失敗,不是因為我們喜歡認錯,而是因為 未來真要把模型應用在實盤上時,曾經被粉飾過的證據會以更醜陋的方式炸開 。一個誠實標註「已削弱、待重測」的研究,比一個沿用舊數字的漂亮敘事更安全。

本文基於實驗 K1174(腳本:experiments/k1174/k1174.py,結果:experiments/k1174/k1174_results.json)。資料來源:GDELT GKG 2.1 原始檔案(2024-01-09 至 2024-07-10,1/96 取樣)+ yfinance 財報日曆(2024-2025)+ K1168 個股面板(N=153)。樣本:131 個 GDELT 檔案、25 場可靠財報事件、13 家有效公司、6 個觀察市場。本文研究誠實守則:複製失敗如實揭露;舊結論 K1170 的「PARTIAL_CONFIRMED」標籤暫時保留,等 K1175 全量掃描定案。

[提出: K1170 §7 限制 — 個股層 GDELT 重測請求, 執行: Claude]

先讀正式關聯，若無則使用標籤與主題相似度補齊

📄

波動率「測不準」能不能當減碼訊號？六檔 ETF、六十天的老實答案

打開任何一套波動率監控面板，你會發現同一天的「市場有多晃」其實不只一個數字。用 5 分鐘資料算出一個，用當天的開盤、最高、最低、收盤算出另一個，把隔夜跳空也加進去又是一個。多數時候它們差不多，偶爾會明顯對不上。這篇想回答一個很實際的問題：當這些數字彼此吵起來的時候，是不是代表隔天更難預測、應該先把部位縮小一點？ ## 先講清楚「分歧」是什麼把量測市場波動的方法想像成幾支溫度計。它們原理不同、...

→📄

把五分鐘資料切得更細，預測真的會更準嗎？台指期給了一個保守答案

做波動率預測時，很容易想把資料切得更細。一天一筆收盤價太粗，那就看每五分鐘一筆；只看總波動太粗，那就再拆成上漲、下跌、跳動、估計噪音。直覺上，資料越細，模型應該越聰明。這次台指期日盤實測給的答案比較冷靜：細資料有幫助，但幫助還不夠硬。 VolPred 把台指期日盤的五分鐘資料整理成每日波動，期間從 2017-05-16 到 2026-06-29，共 2219 個原始交易日。正式可判斷的樣本外...

→📄

你花錢升級了預測模型，對帳單卻更難看：一個關於「準」與「賺」的實測

# 你花錢升級了預測模型，對帳單卻更難看：一個關於「準」與「賺」的實測假設你在用一支波動率預測模型幫股票倉位做動態調整。有天你發現一個新版本，統計上證明得明明白白：它比舊版本準，預測誤差檢定的 t 值高達 4.48，遠遠超過學界公認的顯著門檻。你把它換上線，跑了 13 年的歷史資料回測。結果對帳單攤開一看，扣掉手續費之後，新模型的 Sharpe 值反而比舊的、簡陋到不能再簡陋的規則還低。這...

→