你以為的「市場特性」,可能只是文獻幫你腦補出來的——一份新聞數據實測
讀者互動
已追蹤瀏覽 0 次,登入會員可按讚與收藏。
一個聽起來很合理的故事
去年我們在研究跨市場財報效應時,發現一個有趣的模式:歐洲與日本的分析師覆蓋密度差不多,但兩邊的財報行情反應差很多,日本投資人對單一公司財報的反應更集中、更激烈,歐洲反應分散在好幾天。
我們當下的解釋是: 「日本的財經新聞市場比較集中,三大報加上日經指數一統天下;歐洲呢,27 個會員國、十幾種語言、上百家在地媒體,新聞會分散在好幾天慢慢報。」
這個故事聽起來很合理。我們也找到文獻支持,路透研究院 2024 年的《Digital News Report》確實報告日本媒體 concentration 顯著高於歐洲。於是我們把這個假設量化成數字(學術上叫 Press Concentration Ratio,簡稱 PCR),代入模型,得到日本 vs 歐洲的差距達到 3.28 個標準差,看起來很有說服力。
直到我們真的去抓新聞數據驗證。
真實數據打臉文獻假設
我們用 GDELT(Global Database of Events, Language, and Tone,全球公開的新聞事件資料庫)抓了 2024 年 9 個市場、31 家受分析師關注的公司、248 個財報日的新聞報導,計算每家公司「財報當天的新聞量佔財報前後 5 天總新聞量的比例」。
這就是實證的 PCR—— 真的去看媒體寫了多少 ,不是用文獻推論的。

結果令人意外:
| 市場 | 文獻假設 PCR | 真實 PCR | 差距 |
|---|---|---|---|
| 美國 | 0.85 | 0.24 | 落差 -71% |
| 日本 | 0.77 | 0.32 | 落差 -59% |
| 台灣 | 0.65 | 0.47 | 落差 -28% |
| 印度 | 0.52 | 0.61 | 反而更高 |
| 香港 | 0.67 | 0.67 | 對得起來 |
| 歐洲 | 0.32 | 0.31 | 對得起來 |
文獻假設與真實新聞之間的相關性? Spearman ρ = -0.26 ——是負的。也就是說, 用文獻假設挑出來的「新聞集中市場」,實際上反而是新聞最分散的市場 。
那個「3.28σ 落差」其實是 0.03σ
回到原本的故事:日本 vs 歐洲的新聞集中度差距,原本聲稱 3.28 個標準差。實證的數字呢?

- 歐洲真實 PCR: 0.311
- 日本真實 PCR: 0.315
- 差距: 0.005 (換算成標準差倍數,0.03σ)
兩者幾乎一模一樣。原本宣稱的「3.28σ 落差」在真實數據裡縮水到原本的 1%。 不是說落差變小,是這個落差根本不存在。
為什麼會這樣?
這個故事教我們三件事,每一件都跟一般投資人的日常判斷有關。
一、「聽起來很合理的解釋」是研究最危險的陷阱
我們解釋日本與歐洲的差異時,用了很直觀的邏輯:日本媒體集中、歐洲媒體分散。這個邏輯在「總體媒體生態」層面或許成立,日本確實是少數大報主導的國家。
但這跟「 財報日的新聞報導模式 」是兩回事。財報這種高度排程化的事件,全球的金融媒體(彭博、路透、雅虎財經、本地證券媒體)都會在同一天集中報導,分散性反而比一般新聞低很多。我們把「總體媒體 concentration」直接套到「財報報導 concentration」,是個毫無根據的跳躍。
二、文獻不是 ground truth,是另一個假設
財經研究常引用「某某報告指出 XX 國家的媒體集中度是 0.85」作為 PCR 的代理變數。這在沒有更好數據時是合理的妥協,但 不能直接當成事實使用 。當我們真的用新聞原始檔(不是文獻摘要、不是替代指標、不是別人的彙總)測量同一件事,得到的數字可能完全不同。
身為投資人,當你看到一篇研究報告寫「依據文獻顯示美股投資人對財報反應較集中」時,下一個合理的問題是: 他們真的看了財報日的新聞量嗎,還是只是引用了一個 2008 年的 NBER working paper?
三、用真實數據檢驗你最相信的假設
最有趣的是,這個負相關 (-0.26) 的結論並不是要告訴你「日本投資人其實不集中關注財報」,我們的樣本只有 6 個市場、25 個有效財報事件,統計力很弱(科學語言叫 underpowered)。我們不能下「日本不集中」這種結論。
但 「日本明顯比歐洲集中」這個原本看似板上釘釘的故事,現在是個 open question 。對研究者,這代表整個三層機制論述的第三層需要重做。對投資人,這代表你過去從財經評論聽到的「日本財報行情比較劇烈」可能來自媒體版面,不是市場本質。
對你的啟發
下次看到「研究指出 X 市場的 Y 特性高於 Z 市場」這種句型時,問三個問題:
- 這個 Y 特性是怎麼測的? ——直接觀察的數字?文獻引用?專家估計?三者可信度差很多。
- 樣本多大? ——6 個市場、25 個事件、上千支股票還是 ETF 整體?小樣本下任何模式都可能是偶然。
- 如果用另一種數據源檢驗,結論還站得住嗎? ——這次的故事就是文獻假設 vs 新聞原始檔,得到不一樣的答案。
我們在波動率與相關交易策略的研究中, 永遠把「實證證據優先於文獻直覺」當成第一原則 。當實證跟直覺打架時,先懷疑直覺,不是先懷疑數據。這個故事就是我們自我打臉的一個例子,也是寫這篇文章的原因。
限制與下一步
這次的數據覆蓋率只有 GDELT 全部新聞的 1%(一天 96 個 15 分鐘檔案我們只抓了 1 個),25 個有效財報事件分散在 6 個市場,統計力遠遠不足以下「日本與歐洲一樣」的結論。 我們能下的結論是:原本宣稱的 3.28σ 落差在現有實證數據中找不到。
下一步是把全部 96 個時段都抓回來重做。但即使這次的結果只是 preliminary,它已經讓我們知道—— 「文獻怎麼說」跟「數據怎麼說」是兩件事,先查數據比較不會踩坑 。
本文基於我們團隊的真實新聞數據實測(GDELT 2024 年取樣,9 個市場、31 家公司、248 個財報事件)。圖表為實證統計結果;歷史財報新聞屬公開資料,分析可被任何人重做驗證。投資涉及風險,過去績效不代表未來表現。
相關文章
先讀正式關聯,若無則使用標籤與主題相似度補齊