一般讀者2026/06/05 下午12:01

模型分數明明贏了，為什麼我們還是不敢說它有效？

波動率0050研究誠實小樣本

讀者互動

已追蹤瀏覽 0 次，登入會員可按讚與收藏。

分享到：LINE Facebook X / Twitter

模型分數明明贏了，為什麼我們還是不敢說它有效？

做投資研究時，最危險的時刻通常不是模型失敗，而是它看起來「差一點就成功」的那一刻。

這次測的是一個很經典的問題：如果我們把 0050.TW 的 5 分鐘資料整理成每日波動，再拿一個標準波動模型去預測隔天，會不會比「昨天怎樣，今天大概也怎樣」這種最簡單的做法更好？

第一眼看，答案很像是會。

在最早那版樣本裡，新模型的誤差分數是 0.170，最簡單做法是 0.443。單看這組數字，很容易讓人覺得模型已經明顯勝出。問題是，這次樣本外只有 17 天。

17 天太短了。短到你很難分辨這是模型真的抓到規律，還是只是剛好踩中一小段市場節奏。

為什麼 17 天不夠

波動率模型和一般回測很不一樣。它不是只比誰報酬高，而是比誰對未來波動的描述更穩、更一致。這種比較最怕樣本太少，因為少數幾天的極端波動，就足以把整段結果推向一邊。

所以這次雖然原始分數比較漂亮，我們仍然沒有把它當成可發佈的勝利，只給了一個很保守的結論： 看起來有潛力，但證據不足。

這不是故意唱衰模型，而是因為研究裡有一條很重要的底線：

一個結果若很容易被幾天新資料推翻，它現在就還不能算結論。

我們故意多等了 4 個交易日

後續我們又做了一件很簡單、但很有殺傷力的事：不改方法，不調參數，只是把資料往後多接 4 個交易日，再重跑一次。

結果很值得記住。

原本那種「看起來有優勢」的感覺，瞬間淡掉很多。新模型在原始誤差分數上仍然比最簡單做法好，但原先接近成形的優勢，加入 4 天新資料後就明顯變弱。

這其實比「模型直接輸掉」更重要。因為它告訴我們，先前那個漂亮差距的穩定度並不高。換句話說， 模型不是被證明沒用，而是還沒有被證明真的有用。

這跟一般讀者有什麼關係

很多量化內容會把這種情況寫成：

模型優於最簡單對照組
已看到明顯改善
有望成為新方向

這些句子不一定錯，但很容易讓讀者忽略一件事：樣本如果還很薄，任何「優於」都可能只是暫時現象。

這組追蹤實驗給我們的提醒是，看到模型分數變好時，至少要再問三個問題：

樣本外到底只有幾天？
多幾天資料後，優勢還在不在？
這個差距穩不穩，還是其實很脆弱？

如果這三題都還答不紮實，最誠實的做法不是急著宣告突破，而是先把結果放在「待觀察」。

這次研究真正有價值的地方

這次研究的價值，不在於它已經證明這個模型對 0050 有穩定預測力；它的價值在於，它把一套乾淨的流程先搭好了：

0050.TW 5 分鐘資料怎麼整理成 daily RV
特徵怎麼全部 lag 一天，避免偷看到未來
最簡單對照組怎麼用同一套規則公平比較
新資料進來後，怎麼立刻重跑檢查穩定性

這讓後面的每一次追加樣本，都不是重講一次故事，而是直接回答同一個問題： 這個優勢到底是真訊號，還是小樣本幻覺？

目前最合理的結論

到這一步，最可靠的說法不是「新模型贏了」，也不是「新模型失敗了」，而是：

它目前看起來比最簡單做法更有希望，但樣本太短，還撐不起強結論。

這種答案沒有很刺激，卻比過早宣布成功更有用。因為真正能活下來的研究，不是每一篇都要有正面結果，而是當結果還不夠硬時，你願不願意老實停在那裡。

附圖

0050 每日實現波動率時序

追加 4 天後兩種方法的預測比較

資料來源

0050.TW 5 分鐘資料，期間 2026-01-20 至 2026-05-28
K1322：樣本外 17 天
K1324：在同方法下追加 4 個交易日後重跑
完整實驗檔：experiments/k1322/、experiments/k1324/

結論

這篇不是在說「經典模型沒用」，而是在說： 分數先贏，不等於證據已經夠。

如果一個優勢會被 4 個新交易日明顯削弱，那它現在更像是一個值得追蹤的線索，而不是能寫成定論的發現。對研究來說，這種克制通常比搶先下結論更有價值。

先讀正式關聯，若無則使用標籤與主題相似度補齊

📄

波動率「測不準」能不能當減碼訊號？六檔 ETF、六十天的老實答案

打開任何一套波動率監控面板，你會發現同一天的「市場有多晃」其實不只一個數字。用 5 分鐘資料算出一個，用當天的開盤、最高、最低、收盤算出另一個，把隔夜跳空也加進去又是一個。多數時候它們差不多，偶爾會明顯對不上。這篇想回答一個很實際的問題：當這些數字彼此吵起來的時候，是不是代表隔天更難預測、應該先把部位縮小一點？ ## 先講清楚「分歧」是什麼把量測市場波動的方法想像成幾支溫度計。它們原理不同、...

→📄

把五分鐘資料切得更細，預測真的會更準嗎？台指期給了一個保守答案

做波動率預測時，很容易想把資料切得更細。一天一筆收盤價太粗，那就看每五分鐘一筆；只看總波動太粗，那就再拆成上漲、下跌、跳動、估計噪音。直覺上，資料越細，模型應該越聰明。這次台指期日盤實測給的答案比較冷靜：細資料有幫助，但幫助還不夠硬。 VolPred 把台指期日盤的五分鐘資料整理成每日波動，期間從 2017-05-16 到 2026-06-29，共 2219 個原始交易日。正式可判斷的樣本外...

→📄

創新高然後急殺，網路上那套「短彈可搶、抱一年會死」是真的嗎？我把它丟進 bootstrap

端午連假前後，台股先是創了歷史新高，收假第一天又往上衝，然後連著幾天往下倒。群組裡的情緒從「這次不一樣」變成「我是不是賣在地板」。差不多同時，網路上開始流傳一個聽起來很有道理的說法：把 1999 年到現在的大盤翻出來，只挑一種情況，指數剛創一年新高，三四天內就急殺，最近三天的跌幅排進過去一年最慘的前 2%。據說這種情況歷史上出現過 10 次，急殺後三個月有 88% 收紅、中位數 +4.7%；但...

→

讀者互動

模型分數明明贏了，為什麼我們還是不敢說它有效？

為什麼 17 天不夠

我們故意多等了 4 個交易日

這跟一般讀者有什麼關係

這次研究真正有價值的地方

目前最合理的結論

附圖

資料來源

結論

相關文章