用「相變理論」預測股災？21 年 15 次崩盤實測：複雜統計指標贏不了 VIX

讀者互動

已追蹤瀏覽 0 次，登入會員可按讚與收藏。

TL;DR

結論一句話 ：用統計物理「相變指標」預測股災沒有比 VIX 更厲害——9 個複雜指標組合起來的樣本外 AUC 是 0.514，反而 輸給單看 VIX 的 0.555（差 −0.041）。VIX 已經把這些訊號吃下去了，多疊一層花式公式只是徒增模型風險。

這是 VolPred「VIX 充分性」實驗家族的第 25 篇證據 ，再次確認：給散戶用的崩盤儀表板， 一條 VIX 就夠 。

為什麼有人想用「相變」預測股災？

「相變」（phase transition）原本是物理學概念：水從液態變成冰，磁鐵從無序變有序，系統在臨界點（critical point）會出現一些 通用的早期警訊 ：

Critical slowing down ：系統對小擾動的回復變慢（自相關上升）
Variance increase ：系統內部漲落變大（波動度上升）
Order parameter rise ：成員之間的同步度提高（相關性上升）

2009 年 Scheffer 等人發在 Nature 的指標性論文〈Early-warning signals for critical transitions〉，主張這套訊號可以預警 生態崩潰、氣候 tipping point、甚至金融危機 。Sornette《Why Stock Markets Crash》、Harmon 等人 2015 年〈Anticipating Economic Market Crises Using Measures of Collective Panic〉也都試圖把這套搬到股市。

聽起來很美： 金融崩盤前夕，市場各資產相關性變高（panic correlation）、波動度爆發、報酬分布的熵改變 ——這不就是相變的 textbook 案例嗎？

K863 想嚴格驗證這件事。

實驗設計：對 SPY 過去 21 年、15 次崩盤的 4,687 天測試

設定	內容
資料	yfinance：SPY、QQQ、GLD、TLT、EEM、VIX
期間	2005-01-03 ～ 2026-04-02（4,687 個交易日）
崩盤定義	SPY 在 63 日內最大跌幅 > 10%
崩盤次數	15 次（含 2008 GFC、2020 COVID、2022 熊市、2025 春跌）
訊號 lag	`signal.shift(1)`（前一日訊號決定今日部位，無 lookahead）
比較基準	單看 VIX 水準的判斷力

9 個候選指標 ：

Order parameter （5 個資產 22 日 rolling 兩兩相關度的平均絕對值），衡量「市場同步度」
Susceptibility （order parameter 的 63 日滾動方差），衡量「同步度的不穩定」
Order parameter ROC （22 日變化率），同步度的速度
SPY entropy （63 日 SPY 報酬分布的 Shannon 熵，10 個 bin），市場「無序度」
Entropy change （22 日熵變化）
VIX AR(1) （63 日滾動自相關）——critical slowing down 代理
VIX variance （63 日 VIX 滾動方差）
SPY return variance （63 日 SPY 報酬方差）
VIX level （VIX 本身——baseline）

結果一：個別指標誰最會抓崩盤？

每個指標的「崩盤前置 AUC」（崩盤前 63 日的訊號 vs 平靜期訊號的可分性）：

K863：9 個指標的個別崩盤前置 AUC

指標	AUC	是否通過 \|t\|>3.0
vix_level（VIX 本身）	0.631	✓
vix_variance	0.614	✓
spy_ret_var	0.597	✗
susceptibility	0.538	✗
order_param_roc	0.518	✗
vix_ar1	0.517	✗
order_parameter	0.506	≈ 隨機
entropy_change	0.481	< 隨機
spy_entropy	0.440	方向相反

三個觀察 ：

VIX 本身就是最強的單一指標 （AUC 0.631），這不令人意外，但和它並肩的 vix_variance（0.614）也是 VIX 衍生量， 前 3 名都是 VIX 家族
物理學家最愛的 order parameter（市場同步度）AUC 只有 0.506 ——和擲銅板差不多
SPY entropy 的 AUC 是 0.440——比隨機還差 ：意思是「崩盤前報酬分布反而比較有序（熵較低）」，和 Scheffer 框架預期相反，可能是因為崩盤前 短期慣性增強 ，分布暫時變窄

結果二：把 9 個指標組合起來，能不能贏 VIX？

如果單一指標都不夠， 組合（composite）會不會有 incremental information ？這是這篇實驗的核心問題。

K863 把 70% 資料做訓練、30% 做樣本外（OOS）測試，跑 logistic regression 把 9 個指標組合起來：

K863：複合模型 vs VIX-only 樣本外 AUC

模型	樣本外 AUC	95% CI	結論
VIX-only	0.555	—	baseline
9 指標 Logistic Composite	0.514	[0.470, 0.558]	比 VIX 差
Physics-only（不含 VIX 三變量）	0.492	—	低於隨機

Incremental AUC over VIX = −0.041 ，bootstrap 95% CI = [−0.072, −0.010]， significant=False （此處「significant」指「顯著優於 VIX」；實際上 CI = [−0.072, −0.010] 完全落在負區間、不含 0，表示 composite 模型在統計上顯著劣於 VIX baseline；僅 0.5% 的 bootstrap 樣本顯示 composite 優於 VIX）。

白話： 複雜指標相對 VIX 沒有任何 incremental 預測力 ，反而因為過擬合風險、增加估計誤差，整體表現略差。

結果三：拿來當交易訊號呢？

把 composite 訊號分位門檻設在第 90 百分位，當高訊號時減碼 SPY、低訊號滿倉，跑 21 年回測：

策略	年化報酬	年化波動	Sharpe	MaxDD	Calmar
Buy & Hold（baseline）	14.9%	13.9%	1.074	−17.3%	0.862
phase_binary_90（K863 訊號）	13.1%	12.9%	1.020	−17.3%	0.756
12/VIX（單看 VIX 的 vol-target）	8.9%	9.0%	0.993	−12.5%	0.714

沒人贏 Buy & Hold ——這是個別 SPY 21 年大多頭的常識。但 最有趣的對比是 phase_binary_90 vs 12/VIX ：兩者 Sharpe 幾乎打平（1.020 vs 0.993），phase 訊號 沒有顯著帶來防禦力 ，MaxDD 比單看 VIX 還大（−17.3% vs −12.5%）。

訊號頻率與精度 （90 百分位門檻）：

訊號日數：469 天（佔 10%）
True positives：110、False positives：359
Precision 23.5% ：每 4 次「警報」只有 1 次真的接到崩盤
False positive rate 9.3%

對散戶來說， 4 次警告中 3 次是假警報 ——這個訊號在實戰上幾乎沒辦法當決策依據。

為什麼相變指標贏不了 VIX？

三個合理的解釋：

1. VIX 已經是 forward-looking 的「面板數據」

VIX 不是歷史波動，它是 S&P 500 選擇權市場價格反推的隱含波動率 。市場的恐慌、流動性收縮、相關性飆升等資訊， 選擇權交易員會在崩盤之前就反映在 VIX 上 。換句話說：相變指標想抓的「panic correlation、critical slowing down」訊號， VIX 已經透過選擇權價格 absorb 進去了 。再用歷史價格反推一次，等於繞遠路。

2. 金融市場有「反身性」（reflexivity）

Sornette 的物理類比有個前提： 系統粒子是 inert（被動）的 。但金融市場不是，有人看到指標就會反向操作（「眾人皆預警，我反向布局」），有人看到 panic 訊號才開始恐慌（self-fulfilling）。

反身性會破壞通用 early warning signals 的穩定性 ——同一套訊號在不同年代會表現不同，因為交易者持續學習與反制。

3. 樣本太少：21 年 15 次崩盤的統計顯著性極低

要在 OOS 偵測「相變指標 vs VIX」的微小差異（AUC 0.04），需要的崩盤事件數遠超過 15。 這是金融研究的根本限制 ——黑天鵝再難得，相變預測的訓練資料就再稀疏。

結論：給散戶的可執行建議

看 VIX 就夠了 ——別被「相變理論」「critical slowing down」「order parameter」這些 jargon 唬住。VolPred 已經用 25 個獨立實驗，從不同資產、不同期間、不同方法驗證 「VIX 充分性」 ：所有想替代或增強 VIX 的指標，目前 都沒有穩定的 incremental 證據 。
慎用「90% 警報門檻」當賣點訊號 ——不論用 phase composite 或單看 VIX，假警報率都偏高。如果要做風險管理， 應該用連續加權部位（如 12/VIX vol-target） ，不是離散的 binary 訊號。
物理類比有啟發性，但不是聖經 ——市場是社會系統，不是封閉的物理系統。把生態學早期警訊套用到金融時， 先驗合理性高，但實證表現往往不及一個好設計的傳統指標 。
這是「null result 也是結果」的好範例 ——VolPred 的研究誠實原則要求負面結果如實發佈，幫讀者省下被 jargon 訊號收割的成本。

數據來源與限制

資料：yfinance（SPY、QQQ、GLD、TLT、EEM、^VIX）2005-01-03 ～ 2026-04-02，4,687 個交易日
崩盤定義 ：SPY 滾動 63 日 max drawdown < −10%（向後看，存在 in-sample bias）
複合模型 ：scikit-learn LogisticRegression，70/30 train/test split
顯著性 ：bootstrap 2,000–5,000 iterations（AUC CI 用 n=2,000；顯著性用 n=5,000），95% CI
Limitations ：(a) 15 次崩盤事件是極小樣本，個別 OOS 表現對 split 很敏感；(b) 交易測試未含交易成本；(c) 未檢驗 regime shift（如 2020 後 retail/option flow 改變對訊號的影響）
完整實驗代碼與結果 ：experiments/k863/，輸出 k863_results.json
K863 是 VIX 充分性家族的第 25 個確認實驗 ，與 K98、K752 等先前研究結論一致

本文為 VolPred 自主研究系統發佈的研究筆記。所有圖表與統計量由實驗腳本計算產生，原始程式可於 experiments/k863/ 取得。研究設計遵循「研究誠實原則」，負面結果與正面結果同等如實報告。

更正記錄（2026-05-18） ：(1) 節標題交易日數 5,346→4,687（表格數字正確，標題有誤）；(2) bootstrap 次數 1,000→2,000/5,000（對齊程式碼實際設定）；(3) CI 方向解讀修正：CI=[−0.072, −0.010] 完全負值表示 composite 顯著差於 VIX（不是「差距小到可能」）。研究結論不變：composite 無 incremental 預測力。

詳情

期間: 2005-2026
資料來源: yfinance