K1568:Federal Register 監管文件流量能預測 ETF 波動率嗎?144 個檢定、14 個 raw 顯著、Bonferroni 全滅
讀者互動
已追蹤瀏覽 0 次,登入會員可按讚與收藏。
K1568:Federal Register 監管文件流量能預測 ETF 波動率嗎?144 個檢定,14 個 raw 顯著,Bonferroni 全滅
實驗 K1568|WEAK_RAW_ONLY|2026-06-29 [提出: Claude, 執行: Claude]
摘要
本研究使用 Federal Register API 抓取 2012 年至 2026 年 78,564 份 RULE 與 PRORULE 文件,將每日規則發布流量轉為滾動 z 分數訊號,測試其能否預測 8 個法規曝險 ETF(IJR / IWM / KRE / KBE / XLF / XLV / XLI / XRT)的前向 realized variance 與下跌半方差。設計 144 個 controlled-HAC 迴歸(8 標的 × 2 horizon × 3 結果 × 3 訊號),以 Bonferroni/Holm 多重校正作為通過門檻。結果:14 個 cell 原始 p<0.05,但 Bonferroni alpha=0.000347 下無一倖存,Holm step-down 同樣 0 survivor。最強 cell 為 XLI 5 日下跌半方差(HAC t=+3.19,p=0.0014,Spearman ρ=+0.075),效果量屬弱,不支撐交易訊號。Verdict: WEAK_RAW_ONLY 。
研究背景
「監管文件量多,被規範的產業波動率是否也跟著走?」這個直覺並不荒唐。合規成本上升理論上會壓縮小型銀行利潤、推升醫療成本不確定性,進而影響股價波動。問題在於,從「理論上」到「能用公開資料做出預測訊號」之間有多大的距離。
Federal Register 是美國聯邦法規每日公告的公開資料庫,每天更新 RULE(最終規則)與 PRORULE(擬議規則)數量,任何人免費取得。這讓它成為一個有吸引力的合規負擔代理指標:低成本、即時、可自動化。
本實驗刻意使用這個「公開、窄化、廣域」的代理指標,它不是 RegData 限制強度指數,不是 OIRA 文書負擔工時,不是企業法律費用,也不是 Hassan 等人(2019)的公司層級政治風險文字分析。結果告訴我們,從這個粗糙公開訊號到可預測波動率之間,還有多遠的路。
方法與數據
| 項目 | 設定 |
|---|---|
| 資料來源 | Federal Register API documents.json(RULE + PRORULE);yfinance 調整後 OHLCV |
| 樣本期間 | 2012-01-03 至 2026-06-26(3,641 個交易日) |
| Federal Register 文件 | 78,564 份 RULE/PRORULE |
| 目標 ETF | IJR, IWM, KRE, KBE, XLF, XLV, XLI, XRT |
| 控制變數 | SPY, ^VIX |
| 訊號 | 5d/21d log 計數的滾動 z 分數(3 類:rule_flow / proposed_rule_flow / combined_reg_flow) |
| 結果變數 | 前向 5d/21d log RV、log 下跌半方差、平均量能衝擊 |
| 主迴歸 | Controlled HAC OLS(含同資產 RV 落後、SPY 落後、VIX 落後作控制) |
| Lookahead 防護 | Federal Register 計數對齊至「下一個」交易日,訊號再 .shift(1) 落後一日;前向目標窗口嚴格限定 [t+1, t+H] |
| 多重校正門檻 | 144-test family,Bonferroni alpha=0.000347,Holm step-down 同步執行 |
訊號建構的 lookahead 防護要特別說明。Federal Register 的文件在當日發布,但要確認「當天使用、預測隔日起的 H 日報酬」不涉及前視偏差,需要兩道 lag:(1)文件計數對齊到「發布日當日或之後第一個交易日」;(2)訊號再 .shift(1) 落後一個交易日作為預測變數。前向目標窗口 [t+1, t+H] 同樣嚴格不含當日收益。

圖 1:2012–2026 年 Federal Register RULE 與 PRORULE 每日發布量,以及 5d/21d 滾動計數時序。可見 2017 年前後有明顯政策切換,Obama 任期末季發布量高峰、Trump 初期驟降,再到 Biden 時期回升。這個時序結構本身有訊號潛力,但本研究問的是:它能否預測 8 個 ETF 的前向波動率?
核心發現:144 個 cell,14 個 raw 顯著,Bonferroni 全滅
原始顯著 cell 概覽
下表列出 p<0.05 的 cell 中最強前 5 名:
| Cell | 控制後係數 | HAC t | p 值 | Spearman ρ(95% CI) | 尾部 AUC(95% CI) | 狀態 |
|---|---|---|---|---|---|---|
| XLI 5d 下跌半方差,proposed_rule_flow | +0.505 | +3.19 | 0.0014 | +0.075 [0.019, 0.128] | 0.558 [0.520, 0.596] | raw-only |
| XLV 5d RV,proposed_rule_flow | +0.082 | +3.16 | 0.0016 | +0.044 [-0.022, 0.106] | 0.495 [0.454, 0.536] | raw-only |
| XLI 5d RV,proposed_rule_flow | +0.065 | +2.87 | 0.0041 | +0.052 [-0.014, 0.106] | 0.558 [0.520, 0.596] | raw-only |
| XLI 21d 下跌半方差,proposed_rule_flow | +0.111 | +2.77 | 0.0056 | +0.096 [-0.003, 0.189] | 0.557 [0.505, 0.609] | raw-only |
| XLV 5d RV,combined_reg_flow | +0.067 | +2.70 | 0.0069 | +0.050 [-0.010, 0.105] | 0.554 [0.512, 0.596] | raw-only |
最強 cell XLI 5d 下跌半方差的 HAC t=+3.19 聽起來不差,但 Spearman ρ=+0.075(CI 下界才 0.019)已經說明問題:3,641 個交易日、解釋了多少變異?約 0.075²≈0.6%。控制後係數 +0.505 的絕對值也受制於 RV 的量級,無法直接詮釋為實際可用的波動率放大量。
訊號方向有一致性:14 個 raw-significant cell 中,proposed_rule_flow(擬議規則流量)出現最多,且集中在 XLI(工業 ETF)與 XLV(醫療 ETF)。KRE / KBE(小型銀行)未入選,IPO IJR 與 IWM 同樣無顯著 cell。這個方向性模式值得記錄,但必須在校正框架下重新評估。

圖 2:144-cell 的 controlled-HAC t 值熱力圖。色彩越深代表絕對 t 值越高。可見 XLI 與 XLV 的 proposed_rule_flow 在短 horizon 有較深色的正向 cell,但整體熱力圖多數 cell 在 ±1 範圍內,並無系統性大訊號。
多重校正消滅全部 raw 顯著 cell
這才是這篇文章的主軸。
144 個假說同時測試,即使全部 null 為真,在 alpha=0.05 下的期望假陽性數量是 144×0.05=7.2 個。也就是說,14 個 raw-significant 結果比純機率的 7 個多一倍,這確實比隨機多,但還沒有強到足夠說服任何校正框架。
Bonferroni 校正:alpha/144=0.000347。14 個 cell 中最小的 p 值是 XLI 5d 下跌半方差的 p=0.0014,是 Bonferroni 門檻的 4 倍。沒有任何 cell 通過。
Holm step-down(比 Bonferroni 更寬鬆的校正):按 p 值排序後逐步比對 alpha/(144-k+1) 的降序門檻。結果同樣是 0 survivor。
這不是「快接近門檻」的情況,是明確的拒絕。
為什麼多重校正在這裡特別重要
144 個同時測試是個非常大的 family。如果研究者只看到「XLI 5d 下跌半方差 HAC t=+3.19, p=0.0014,我找到了!」就停止,忽略其他 143 個假說的存在,那麼他犯了 selective reporting。
把這個邏輯用在實務操作上:假設你根據 raw p<0.05 去建一個「proposed_rule_flow 高於均值時做空 XLI」的策略。你的入倉訊號選自 14 個「顯著」cell 之一,但這 14 個 cell 本身的存在就有一定比例是運氣。你的策略是基於假陽性的可能性,從 7/144≈5% 推升到更高,因為你從 14 個候選中挑最好看的。
Multiple testing correction 做的事很簡單:把整個 family 的 FWER(family-wise error rate)控制在 5% 以下,而不是讓每個 cell 各自保持 5%。在 144 個同時測試下,這等於要求每個 cell 的 p 值要小得多——Bonferroni 的 0.000347 正是這個邏輯的直接結果。
本實驗的 WEAK_RAW_ONLY verdict 就是誠實回報這個現實:訊號方向廣義上是正的,但效果量太弱、數量太少,無法在大 family 的統計壓力下存活。

圖 3:combined_reg_flow_stress 滾動 z 分數(x 軸)vs KRE 前向 5d 下跌半方差(y 軸)的散佈圖。噪音主導全圖,擬合線幾乎水平。KRE 在這個訊號下並非 raw-significant 的 cell,但此圖說明多數 cell 的真實樣貌:廣域 ETF 對廣域監管計數的散佈,沒有清楚的方向性。
對讀者的意義
監管文件流量作為公開代理指標的直覺是合理的:合規負擔上升、企業不確定性增加、波動率理論上提升。實驗結果並沒有完全推翻這個直覺,XLI 與 XLV 的方向性在 proposed_rule_flow 上有弱正向信號。但「有方向性」和「可用於預測」之間,效果量擋在中間。
ρ=+0.075 意味著在 3,641 個交易日裡,監管計數的排名解釋了 XLI 下跌半方差排名的大約 0.6%。要通過 144-test family 的 Bonferroni 門檻,這個效果量需要放大幾倍才有機會。
以下三條路徑可能讓這個問題更有前景,但需要另外的實驗設計:
1. 細分監管領域,不用廣域計數。 Federal Register RULE 每天出現幾百篇,涵蓋 EPA 環保規則、FDA 藥品規則、FDIC 銀行規則、OSHA 職安規則。廣域計數把這些全部加總,等於用「台灣每天有幾篇新法規」去預測特定產業股票。如果限定只取 FDIC + OCC 的銀行規則,對 KRE / KBE 的信號雜訊比應會改善。
2. 轉向公司層級的文字分析。 Hassan 等人(2019)的 firm-level political risk 指數,是從公司財報電話會議的文字計算得出,已有大量文獻顯示其與股價波動的關係。相較於廣域 ETF 撞廣域計數,這種公司層級的路徑準確得多。
3. 測試規則「生效日」而非「公告日」。 企業合規壓力通常在規則生效、而非公告時爆發。生效日的衝擊可能更集中、更容易被捕捉,但也更需要謹慎處理 look-ahead。
Federal Register 資料是公開、免費、可復現的,它的訊號潛力並未完全被排除。本實驗的結論是:用廣域計數 z 分數打廣域合規 ETF,在 144-test family 框架下不通過。下一步需要的是更窄的目標、更精確的合規代理指標。
限制與稽健性
- Proxy 的根本限制 :Federal Register RULE/PRORULE 流量是「政府每天發了多少規則文件」,不是企業合規實際支出、不是監管機構的督查頻率、也不是監管不確定性的市場感知。這個距離本身就是效果量弱的主要解釋。
- ETF 代理 :IJR、IWM 等指數 ETF 覆蓋上百甚至上千家公司,合規負擔在 ETF 層面被高度平均化。
- 共同因子可能沒有完全控制 :迴歸控制了 SPY log-RV 與 VIX,但跨 ETF 的共同流動性 / macro 因子可能還殘留。
- 政治周期不對稱 :樣本含兩黨執政轉換(Obama → Trump → Biden),但監管量在政黨間差異顯著(圖 1 可見),固定 z-score 標準化可能無法完全消除政治周期效應。
結論
144 個 controlled-HAC 測試,14 個 raw 顯著,Bonferroni/Holm 校正後零 survivor。Federal Register 廣域規則流量作為合規負擔代理訊號,在這個框架下無法通過多重測試關卡。訊號方向廣義上指向工業(XLI)與醫療(XLV)的 proposed_rule_flow 有弱正相關,但效果量(ρ≈0.075)遠低於可用閾值。
下一步研究方向:縮小監管領域範圍到 sector-specific 規則計數;或轉向公司層級文字分析(firm-level political risk)。
本文基於實驗 K1568(腳本:experiments/k1568/k1568.py,結果:experiments/k1568/k1568_results.json)。數據來源:Federal Register API(https://www.federalregister.gov/api/v1/documents.json)、yfinance 調整後 OHLCV;樣本期間:2012-01-03 至 2026-06-26,3,641 個交易日,78,564 份 Federal Register 文件。
延伸閱讀
相關文章
先讀正式關聯,若無則使用標籤與主題相似度補齊