把五分鐘資料切得更細,預測真的會更準嗎?台指期給了一個保守答案
讀者互動
已追蹤瀏覽 0 次,登入會員可按讚與收藏。
做波動率預測時,很容易想把資料切得更細。一天一筆收盤價太粗,那就看每五分鐘一筆;只看總波動太粗,那就再拆成上漲、下跌、跳動、估計噪音。直覺上,資料越細,模型應該越聰明。
這次台指期日盤實測給的答案比較冷靜:細資料有幫助,但幫助還不夠硬。
VolPred 把台指期日盤的五分鐘資料整理成每日波動,期間從 2017-05-16 到 2026-06-29,共 2219 個原始交易日。正式可判斷的樣本外預測有 1697 筆。模型比較很單純:一個基本版,只看過去一天、一週、一個月的波動;再加上三個修正版,額外把每一天波動估計的噪音、上漲下跌分解、跳動成分放進去。下面聚焦其中方向最清楚的兩個,第三個版本改善 +1.54%、落在兩者之間,結論相同。
最重要的防錯規則也先講清楚:每個預測欄位都只用昨天以前的資料。當天五分鐘資料不會拿來預測當天結果,避免偷看未來。
結果:有進步,但還不能說贏
在台指期日盤這個唯一樣本夠長的市場,兩個修正版確實都往好的方向走。
| 比較項目 | 相對基本版的預測誤差改善 | 判讀 |
|---|---|---|
| 修正版 A | +1.94% | 方向有利,但未達嚴格門檻 |
| 修正版 B | +2.05% | 本次最佳,但仍只能算方向性結果 |
如果只看表格,+2.05% 好像可以寫成「新模型勝出」。但研究上不能這樣寫。改善幅度太小,嚴格檢驗後仍有可能只是樣本雜訊。比較誠實的說法是:細分資料讓台指期日盤的預測誤差往好的方向動了一點,還沒動到能升格成穩定勝利。
這個差別很重要。投資人常看到「用了高頻資料」「用了更細的分解」「用了更複雜的模型」就直覺加分。真正該問的是:加了這些細節後,樣本外結果有沒有穩定變好?如果只好一點點,實務價值就要打折。
為什麼細資料沒有大幅勝出
五分鐘資料確實比較細,但細資料同時帶來兩種東西:訊號和噪音。
訊號是有用的部分。例如某一天的日內波動很集中、下跌時段特別劇烈、或跳動成分很大,這些資訊可能幫助模型判斷隔天風險。噪音則是另一面:成交量切換、合約換月、日內微小價格跳動,都可能讓模型以為自己看到規律,其實只是在追逐雜訊。
本次結果剛好落在中間。修正版比基本版好,說明細資料不是完全沒用;改善不夠強,說明額外細節還沒有穩定到可以放心上架。
這種結果對研究反而有價值。它把問題從「要不要用高頻資料」縮小成更具體的下一題:哪些細節是真的訊號,哪些只是讓模型更忙的噪音?
SPY 和 0050.TW 只能當流程檢查
同一套流程也跑了 SPY 和 0050.TW,但這兩組資料不能拿來做正式結論。SPY 只有 51 筆樣本外預測,0050.TW 只有 38 筆,遠低於 252 筆的最低門檻。
短樣本最容易製造假故事。51 筆資料裡,幾個特殊交易日就能把結果推來推去;38 筆資料更接近系統測試,不是市場證據。這次把兩個市場列出來,是為了確認流程能跑,不是為了宣稱跨市場有效或無效。
這也是本次最值得保留的教訓:資料比較細之前,樣本要先夠長。否則模型看起來再精緻,統計地基還是薄。
投資人可以怎麼用
這篇不是在說高頻資料沒用。更準確的結論是:高頻資料有潛力,但不能只看方法名稱。
下次你看到一個投資工具或研究報告宣稱「使用五分鐘資料」「拆解跳動與下跌波動」「模型比傳統方法更細」,可以先問四個問題:
- 樣本外測試有幾筆?少於一年交易日,就先當成流程測試。
- 預測時有沒有只用昨天以前的資料?沒有明確 lag 規則,先懷疑偷看未來。
- 改善幅度是多少?1% 到 2% 的改善,要特別看嚴格檢驗。
- 短樣本市場有沒有被拿來當正式結論?有的話,結論強度通常過頭。
本次台指期日盤的答案很樸素:更細的資料讓模型往對的方向走了一步,但還沒走到終點。研究上可以記下這一步,交易上還不能把它當成新規則。
資料來源:TAIFEX TX 日盤五分鐘資料與本機 SPY / 0050.TW 五分鐘快照。台指期樣本期間 2017-05-16 至 2026-06-29,樣本外預測 1697 筆;SPY 與 0050.TW 僅為 2026 年短快照,分別 51 筆與 38 筆樣本外預測。所有預測欄位均使用前一交易日與更早資料。本文為研究結果整理,不構成投資建議。
懶人包圖組



相關文章
先讀正式關聯,若無則使用標籤與主題相似度補齊