← 研究動態
一般讀者2026/06/28 上午09:00

預測輸了,守底線卻贏了:一個模型的分裂成績單

GLDQQQTLT波動率跨資產風險管理預測模型

讀者互動

已追蹤瀏覽 0 次,登入會員可按讚與收藏。

分享到:LINEFacebookX / Twitter

預測輸了,守底線卻贏了:一個模型的分裂成績單

2022 年,美股科技股崩跌超過 30%,黃金在通膨衝擊裡逆勢震盪,長期公債跌幅創下四十年紀錄。那一整年市場劇烈抖動,每天早上你不知道波動率會是 1% 還是 3%。

如果有一套模型聲稱能預測「明天大概會動多少」,你會怎麼評分它?

多數人的第一反應是:預測值跟實際值差多遠。差越少,模型越好。

VolPred 的一組實驗給出了一個更分裂的答案: 同一套模型,預測準確度輸得很慘,風險上界卻準得出奇。 


兩個問題,兩個答案

實驗用歷史波動率預測模型跑了五年的樣本外驗證,覆蓋 QQQ(那斯達克科技 ETF)、GLD(黃金 ETF)和 TLT(長期公債 ETF)三個性質完全不同的資產。

驗證期:2021 年 1 月到 2026 年 5 月,共 1,355 個交易日。這段期間包含 2022 年的全面崩跌、2023 年的 AI 反彈、2024-2025 年的高波動行情。

這套模型有兩個版本:一個專門「猜中間值」(最普通的點預測),一個專門「設定風險上界」(95%、99% 的極端波動上限)。

結果兩個版本的成績判若雲泥。


成績單一:猜中間值,三個資產全軍覆沒

三資產分位數迴歸 vs 普通模型的準確度競賽

把「用分位數校準法預測波動率中間值」和「用最普通的平均最小化法預測波動率中間值」放在同一段市場比賽,誰贏?

結果如下:

資產比較結果預測誤差倍率
QQQ(科技 ETF)顯著輸高出 44%
GLD(黃金 ETF)顯著輸高出 64%
TLT(長債 ETF)顯著輸高出 35%

三個資產、五年數據、統計 p 值全趨近 0,不可能是巧合。


為什麼會這樣

要理解這個結果,必須先搞清楚分位數校準法在「打哪個靶」。

一般預測模型練的是:讓預測值盡量靠近實際值,用的是「差多少」的標準。

分位數校準法練的是:讓某個比例的實際值落在預測值以下,用的是「高估 vs 低估的不對稱懲罰」。

這兩個目標從數學上就不能同時最小化。就像田徑選手和游泳選手用對方的評分標準去評量,結果必然失真。

把分位數法的預測結果拿去比「誰更能猜到準確的波動率數字」,用的是普通預測的評分標準,分位數法天生就會輸。因為它從來就不是為這個項目訓練的。


成績單二:守風險上界,六個測試全部通過

三資產 95% 與 99% 風險上界的實際覆蓋率驗證

換一個問題:「我設定波動率最多到這個數字,實際上超過這個數字的機率有多高?」

這才是分位數法真正訓練的問題。

結果如下:

資產95% 上界偏差99% 上界偏差覆蓋率驗證
QQQ+0.42 百分點+0.11 百分點通過
GLD+0.06 百分點+0.26 百分點通過
TLT-0.54 百分點-0.03 百分點通過

三個資產、兩個信心水準,六個格子全部通過覆蓋率統計驗證(Kupiec 檢定 p 值最低 0.31,最高 0.93)。偏差最大的是 TLT 的 95% 上界,只偏了 0.54 個百分點。

你設定 95% 的風險上界,實際上確實有 94.5% 到 95.4% 的天數落在這條線以下。你設定 99% 的上界,實際上確實有 98.9% 到 99.3% 的天數落在這條線以下。在五年、跨越多次市場動盪的驗證期裡,這個校準精度相當穩固。


這對投資人有什麼意義

兩種使用場景,需求完全不同。

 需要「猜對波動率數字」的人 ,比如基金經理要計算明天的風險預算、量化策略要設定停損點位。這類需求叫點預測,要的是盡量準確的中間估計值。分位數法不適合這個場景,改用普通線性迴歸更好。

 需要「設定最壞情境上限」的人 ,比如風控部門要計算每日最大可能損失、投資組合要設定緊急停損線。這類需求叫尾部校準,要的是信心水準夠高、實際超越的機率夠低。分位數法在這裡表現優異,跨科技股、黃金、長期公債三個性質迥異的市場,都能維持校準精度。


問題的定義比模型本身更重要

這組實驗最後的結論很明確:你先問的問題,決定了哪個工具有效。

在科技股、黃金、長期公債三個差異極大的資產上,同一套框架在同一段驗證期裡,同時完成了兩個不同的判決。

如果問的是「你能猜對波動率嗎」,答案是一致的否。

如果問的是「你能守住波動率的邊界嗎」,答案是一致的是。

拿它去做不擅長的事,當然輸。用在它擅長的地方,跨市場五年的數據支撐這個結論。


本文基於 VolPred 研究實驗(K1403)。資料來源:yfinance 調整後收盤價,QQQ / GLD / TLT,訓練期 2007-2021,樣本外驗證期 2021-01-04 至 2026-05-27,n=1,355 個交易日。使用的統計比較方法(兩模型比較顯著-嚴格統計 調整)與覆蓋率驗證(Kupiec 無條件覆蓋檢定)均為業界標準方法。

相關文章

先讀正式關聯,若無則使用標籤與主題相似度補齊

📄
模型多看幾個鄰居,不代表就更會預測波動
有些研究的直覺很吸引人:如果一個資產的波動會受別的資產影響,那模型不只看自己,順便看一下「鄰居」的波動,理論上應該更準。 K1314 測的就是這件事。 我們拿 5 檔常見美股 ETF 做樣本,分別是 SPY、QQQ、GLD、TLT、IWM。比較對象很單純: - 基準版:只用資產自己的短、中、長期波動去預測明天 - 升級版:除了自己的資料,再加上一層「其他資產的波動關係」 如果這個想法真的穩...
📄
波動率「測不準」能不能當減碼訊號?六檔 ETF、六十天的老實答案
打開任何一套波動率監控面板,你會發現同一天的「市場有多晃」其實不只一個數字。用 5 分鐘資料算出一個,用當天的開盤、最高、最低、收盤算出另一個,把隔夜跳空也加進去又是一個。多數時候它們差不多,偶爾會明顯對不上。這篇想回答一個很實際的問題:當這些數字彼此吵起來的時候,是不是代表隔天更難預測、應該先把部位縮小一點? ## 先講清楚「分歧」是什麼 把量測市場波動的方法想像成幾支溫度計。它們原理不同、...
📄
商品 ETF 翻向時,銅先把警報拉高
很多人看商品 ETF,只盯著價格漲跌:原油漲了、天然氣跌了、銅又被叫成景氣溫度計。 但對持有人來說,另一個問題更急:價格翻向之後,接下來會不會變得更難拿? 我們把 `USO`、`UNG`、`CPER` 三個商品 ETF 放在一起看。方法很樸素:比較最近一個月和最近一季左右的報酬斜率。如果短線開始比中線強,就記成「冷轉熱」;如果短線轉弱,就記成「熱轉冷」。訊號必須連續維持 10 個交易日,而且三...
預測輸了,守底線卻贏了:一個模型的分裂成績單 | VolPred