← Research Feed
一般讀者2026/06/02 下午09:07

讓模型更常改變心意,不代表它就更會預測

台灣波動率預測模型比較負面結果投資研究

讀者互動

已追蹤瀏覽 0 次,登入會員可按讚與收藏。

分享到:LINEFacebookX / Twitter

讓模型更常改變心意,不代表它就更會預測

很多人直覺上會覺得,投資模型如果太早「認定單一答案」,就容易僵化。那最自然的改法是什麼?讓它不要記得那麼久,定期把舊證據忘掉一點,這樣它就能更靈活地重新分配權重。

這個想法很合理。我們也真的拿它去測了。

結果很有教育意義: 模型確實變得比較不固執了,但預測沒有因此變得更準。 

forgetting factor entropy evolution

上面這張圖看的不是報酬,而是「模型之間還有沒有真的在競爭」。線越高,代表權重分得越平均;線越低,代表系統很快只剩一個模型獨大。

這次我們讓模型嘗試四種不同的「忘性」設定。結論非常一致:

  • 在 SPY,模型多樣性明顯回來了
  • 在 GLD,多樣性也回來了
  • 在 0050,多樣性甚至回來得更誇張

如果只看這一步,你會以為這個修正有效。因為它真的做到了一件事: 不再讓模型那麼快變成單一答案。 

問題是,投資人真正想要的不是「看起來比較民主」,而是「預測真的比較準」。

而這裡才是這個實驗最值得記住的地方。

在預測表現上,這個做法沒有帶來你期待中的改善。

SPY 與 GLD 這兩個美國市場, 其實是原版(不忘記)的 QLIKE 微幅較低 ——也就是說,加上忘性後 QLIKE 不只沒進步,連方向都沒往對的一邊靠;不過兩邊的差距都沒有達到統計顯著,比較精準的說法是「加了忘性沒有把預測弄壞,但同樣沒讓它變好」。到了 0050,兩者幾乎平手。

換句話說, 你把模型變得更願意聽不同意見,不代表它就更接近真相。 

這個差別很重要。很多方法論上的修補,看起來像是在解決問題,其實只是把症狀變得比較好看。

原本大家擔心的是:模型太快集中到單一答案,會不會是一種 bug?

這次測完之後,比較誠實的說法反而是: 那個集中,可能不是 bug,而是資料真的把答案推向同一個方向。 

你硬把它拉回分散,並不會自動創造出新的有效訊號。

這就像一個投票小組。原本大家最後幾乎都投給同一個人,你懷疑是不是投票制度有問題,所以改規則,讓大家比較不容易那麼快形成共識。結果改完之後,現場討論確實變熱鬧了,但最後做出的判斷沒有更準。

那真正的訊息就不是「投票制度修好了」,而是: 原本那個共識很可能本來就有它的道理。 

這篇對一般投資人有兩個實際提醒。

第一, 不要把「更靈活」直接翻譯成「更厲害」。 

模型會隨時間調整、會重新分配權重、會保留更多可能性,這些都很好聽。但如果最後沒有換來更好的往前預測,那它的價值就要重新打折。

第二, 有些你以為是過度集中的缺點,其實可能是在反映市場裡真的有一個答案比較強。 

這個實驗沒有證明「讓模型忘掉舊資料」完全沒用。它證明的是另一件更細的事: 它能修復多樣性,卻不能保證修復準度。 

對研究來說,這是很有價值的負面結果。因為它幫我們把兩件常被混在一起的事情拆開了:

  1. 模型是不是還保持多樣性
  2. 模型是不是因此更會預測

這兩件事,原來不是同一件事。

而 K1317 給的答案很乾脆:在這組市場與模型裡,前者可以被修好,後者不會自動跟著回來。


本文基於 VolPred 內部對照實驗。資料期間:2010-01-01 至 2026-04-18;樣本外期間:2020-01-01 至 2026-04-17;涵蓋 SPY、GLD、0050.TW。參考結果摘要:SPY 與 GLD 上原版(不忘記)的 QLIKE 反而微幅較低(差距未達統計顯著),0050 兩者幾乎平手;但三個市場的模型多樣性都顯著回升。


 2026-06-03 errata(24h post-publish review,Antigravity 與主線程 audit) :本文初版的 SPY/GLD 段落(「最好的新設定比原本版本稍微好一點」)方向描述有誤。根據實驗 K1317 的 results.json, 原版 BMA 在 SPY/GLD 兩個美國市場上的 QLIKE 都微幅較低 (DM t-stat 為正、note 約定「negative t_stat = forgetting BMA wins」),意思是加上忘性後不僅沒改善預測、方向反而稍微往後退;不過兩邊差距均未達統計顯著,比較負責任的說法是兩者表現難以區分。本次已就該段 inline 修正。本文核心結論(多樣性能被修好、預測精度不會自動跟著回來;K1317 PASS_NULL verdict)不變。

詳情

n_obs
{"GLD":1581,"SPY":1581,"0050.TW":1524}
charts
/Users/yhlai0911/Desktop/volpred-research/experiments/k1317/k1317_entropy_evolution.png
period
2020-01-01 to 2026-04-17
verdict
PASS_NULL
data_source
internal forgetting-factor BMA comparison
cluster_waiver
pending daily_article task K1317; angle focuses on diversity-vs-accuracy tradeoff rather than repeating existing BMA failure articles
experiment_refs
K1317
errata_24h_review
{"date":"2026-06-03","fixes":["SPY/GLD direction reversed (best forgetting setting was claimed slightly better; actually standard BMA had marginally lower QLIKE, DM t>0)"],"verdict":"CONDITIONAL_PASS","reviewer":"agy primary + main-thread audit (codex queue-blocked)","core_thesis_unchanged":true}

相關文章

先讀正式關聯,若無則使用標籤與主題相似度補齊

📄
同樣是模型投票,為什麼 0050 很快就只剩一個人說話?
# 為什麼同一套「模型投票」方法,在美股和黃金有效,到了台灣就只剩一個人在講話? 很多人對投資模型有一個直覺:如果單一模型不夠穩,那就不要只押一種,改成讓好幾種模型一起投票,應該會更可靠。 這個想法聽起來很合理。我們也真的拿它去測了三個市場:美股大盤、黃金,還有台灣最常被拿來當大盤代表的 0050。 結果很有意思。 **同一套方法,在美股和黃金有用;到了 0050,它很快就退化成只剩一個模...
📄
只贏一點點,很多時候還不能算模型真的比較強
# 只贏一點點的模型,很多時候還不能算真的贏 做投資研究很容易被一種差距誘惑。 你跑完三個模型,發現其中一個的分數比較低,剛好多贏了 1% 到 2%。這時很自然會想把它翻譯成一句漂亮的話:新版模型比較強。 問題是,**看起來有領先,不代表已經贏到足以當成結論。** 這次我們把三種日頻波動率預測做法放在同一條跑道上比較:一個是經典老方法,一個是較新的版本,另一個則是在老方法上再加進市場恐慌指...
📄
波動率預測不是把指標愈疊愈多就會愈準
# 波動率預測不是把指標愈疊愈多就會愈準 做投資研究的人很容易有一個衝動:再加一個指標、再多一層結構、再換一個比較新的做法,預測應該就會更準。 這次我們把四種波動率預測方法放到同一條跑道上,直接看 2019 年到 2026 年、共 1,852 個交易日的往前預測表現。裡面有老方法、有較新的版本,也有把恐慌指標一起塞進去的組合。 結果很不戲劇化。**比較新的做法表面上有小幅領先,但差距小到不足...
讓模型更常改變心意,不代表它就更會預測 | VolPred