一般讀者2026/07/02 下午02:42

把五分鐘資料切得更細，預測真的會更準嗎？台指期給了一個保守答案

波動率預測模型比較研究誠實台指期高頻資料小樣本

讀者互動

已追蹤瀏覽 0 次，登入會員可按讚與收藏。

做波動率預測時，很容易想把資料切得更細。一天一筆收盤價太粗，那就看每五分鐘一筆；只看總波動太粗，那就再拆成上漲、下跌、跳動、估計噪音。直覺上，資料越細，模型應該越聰明。

這次台指期日盤實測給的答案比較冷靜：細資料有幫助，但幫助還不夠硬。

VolPred 把台指期日盤的五分鐘資料整理成每日波動，期間從 2017-05-16 到 2026-06-29，共 2219 個原始交易日。正式可判斷的樣本外預測有 1697 筆。模型比較很單純：一個基本版，只看過去一天、一週、一個月的波動；再加上三個修正版，額外把每一天波動估計的噪音、上漲下跌分解、跳動成分放進去。下面聚焦其中方向最清楚的兩個，第三個版本改善 +1.54%、落在兩者之間，結論相同。

最重要的防錯規則也先講清楚：每個預測欄位都只用昨天以前的資料。當天五分鐘資料不會拿來預測當天結果，避免偷看未來。

結果：有進步，但還不能說贏

在台指期日盤這個唯一樣本夠長的市場，兩個修正版確實都往好的方向走。

比較項目	相對基本版的預測誤差改善	判讀
修正版 A	+1.94%	方向有利，但未達嚴格門檻
修正版 B	+2.05%	本次最佳，但仍只能算方向性結果

如果只看表格，+2.05% 好像可以寫成「新模型勝出」。但研究上不能這樣寫。改善幅度太小，嚴格檢驗後仍有可能只是樣本雜訊。比較誠實的說法是：細分資料讓台指期日盤的預測誤差往好的方向動了一點，還沒動到能升格成穩定勝利。

這個差別很重要。投資人常看到「用了高頻資料」「用了更細的分解」「用了更複雜的模型」就直覺加分。真正該問的是：加了這些細節後，樣本外結果有沒有穩定變好？如果只好一點點，實務價值就要打折。

為什麼細資料沒有大幅勝出

五分鐘資料確實比較細，但細資料同時帶來兩種東西：訊號和噪音。

訊號是有用的部分。例如某一天的日內波動很集中、下跌時段特別劇烈、或跳動成分很大，這些資訊可能幫助模型判斷隔天風險。噪音則是另一面：成交量切換、合約換月、日內微小價格跳動，都可能讓模型以為自己看到規律，其實只是在追逐雜訊。

本次結果剛好落在中間。修正版比基本版好，說明細資料不是完全沒用；改善不夠強，說明額外細節還沒有穩定到可以放心上架。

這種結果對研究反而有價值。它把問題從「要不要用高頻資料」縮小成更具體的下一題：哪些細節是真的訊號，哪些只是讓模型更忙的噪音？

SPY 和 0050.TW 只能當流程檢查

同一套流程也跑了 SPY 和 0050.TW，但這兩組資料不能拿來做正式結論。SPY 只有 51 筆樣本外預測，0050.TW 只有 38 筆，遠低於 252 筆的最低門檻。

短樣本最容易製造假故事。51 筆資料裡，幾個特殊交易日就能把結果推來推去；38 筆資料更接近系統測試，不是市場證據。這次把兩個市場列出來，是為了確認流程能跑，不是為了宣稱跨市場有效或無效。

這也是本次最值得保留的教訓：資料比較細之前，樣本要先夠長。否則模型看起來再精緻，統計地基還是薄。

投資人可以怎麼用

這篇不是在說高頻資料沒用。更準確的結論是：高頻資料有潛力，但不能只看方法名稱。

下次你看到一個投資工具或研究報告宣稱「使用五分鐘資料」「拆解跳動與下跌波動」「模型比傳統方法更細」，可以先問四個問題：

樣本外測試有幾筆？少於一年交易日，就先當成流程測試。
預測時有沒有只用昨天以前的資料？沒有明確 lag 規則，先懷疑偷看未來。
改善幅度是多少？1% 到 2% 的改善，要特別看嚴格檢驗。
短樣本市場有沒有被拿來當正式結論？有的話，結論強度通常過頭。

本次台指期日盤的答案很樸素：更細的資料讓模型往對的方向走了一步，但還沒走到終點。研究上可以記下這一步，交易上還不能把它當成新規則。

資料來源：TAIFEX TX 日盤五分鐘資料與本機 SPY / 0050.TW 五分鐘快照。台指期樣本期間 2017-05-16 至 2026-06-29，樣本外預測 1697 筆；SPY 與 0050.TW 僅為 2026 年短快照，分別 51 筆與 38 筆樣本外預測。所有預測欄位均使用前一交易日與更早資料。本文為研究結果整理，不構成投資建議。