← 研究動態
一般讀者2026/06/20 下午01:00

當壓力測試太「保守」,反而讓結果看起來比較差

VT策略風險管理TSMOM波動率管理研究方法回測穩健性

讀者互動

已追蹤瀏覽 0 次,登入會員可按讚與收藏。

分享到:LINEFacebookX / Twitter

當壓力測試太「保守」,反而讓結果看起來比較差

有一個問題,在論文審查過程中被提出來,聽起來像在挑毛病,但仔細一想,其實是很實在的方法論質疑。


研究說了什麼

之前的研究(Paper 3)用模擬方法測試了一件事:用波動率控管策略(VT)對沖掉趨勢交易(TSMOM)成分後,大盤原本能跌多深的那個坑,有多少比例還是被保住了?

具體做法是把 SPY、QQQ、DIA、IWM、50/50 股金組合(SPY 各半搭配黃金 ETF GLD),拿 2005 到 2026 年的實際日報酬跑一萬次重採樣,看每次路徑下「VT-TSMOM 策略的最大回撤是大盤的幾%」。

結論是:SPY 的保留率下界 86%、QQQ 82%。九成信心,VT 策略能保住大盤最大回撤至少八成以上的改善幅度。


AI reviewer 的質疑

審查這篇論文的 AI reviewer(Gemini v4)提出了一個具體問題:

你的重採樣方式,是把每 252 個交易日切成一塊,然後隨機重排。252 天剛好是一個交易年。

問題在哪裡?2008 年金融海嘯或 2022 年通膨殺估值那種行情,從高點到低谷,再到恢復,往往橫跨兩三年。當你把時間序列切成一年一塊,這些跨年下跌路徑就被切斷了。模擬出來的「最壞情境」,理論上比真實歷史更快恢復,讓最大回撤看起來比較淺。

AI reviewer 的預測:如果改成更長的重採樣區塊(三到五年),讓跨年熊市路徑能完整保留,保留率下界會往下掉至少三個百分點。言下之意是原本的結論過度樂觀。


怎麼驗

這次的對照實驗就是為了正面回應這個質疑而設計的。

所有設定全部保持一致,只改一件事:重採樣方式從「固定 252 天一塊」換成「統計均衡抽樣法(Politis-Romano 1994)」,讓每個抽樣區塊的平均長度是 756 天(三年)或 1260 天(五年)。

這種方式允許區塊長度有自然的變化,同時整體均值鎖在目標長度,統計靜態性可以嚴格保證。和固定切法的根本差別在於:它不會強制每個抽樣段都是整整一年,可以是八個月,也可以是三年半。

同樣跑一萬次,同樣五個資產,種子值一致。唯一的差別是區塊長度。


結果

下表列出五個資產,原本固定 252 天設定,對比均值 1260 天設定,「保留率下界」的變化:

資產固定 252 天(下界)均值 5 年(下界)差距
SPY86%97.7% +11.7 pp 
50/50 股金 SPY/GLD90%89.8%-0.2 pp
DIA83%93.4% +10.4 pp 
QQQ82%97.5% +15.5 pp 
IWM91%100.0% +9.0 pp 

五個資產,全部往上,沒有一個往下掉三個百分點。平均差距 +9.28 pp,中位數 +10.4 pp。

AI reviewer 預測的方向剛好相反。

兩種重採樣設定的信賴區間比較


為什麼會反向?

直覺上很多人可能覺得:更長的區塊能捕捉更嚴酷的熊市,結果應該更悲觀。但實際情況不是這樣。

固定 252 天切法的問題,不只是切斷了長熊市,它同時切斷了長熊市之後的恢復過程。當你只抽一年長的片段,模擬路徑中有很多「壓縮版熊市」:跌幅夠深,但後面的恢復也很快,因為只有一年。

改成三到五年的長區塊後,抽到的路徑更完整。一個包含「完整 2008-2010」或「完整 2022-2024」的區塊,裡面既有下跌,也有慢慢爬回來的過程。VT-TSMOM 在長途熊市中能發揮動態調整的優勢,這個優勢在短切片下沒時間展現。

固定一年切法讓模擬的「最壞情境」少了一種可能:真正跨年熊市壓力下,VT 策略能撐到反彈。統計均衡抽樣把這個可能性還原了,下界反而更高。


這件事的意義

Paper 3 的核心主張沒有動搖,反而站得更穩。原本報告的下界(SPY 86%、QQQ 82%)是保守估計,真實情況很可能更好。

更重要的是過程本身:一個外部 reviewer 針對方法論提出合理質疑,研究方把質疑轉成對照實驗,用數字回答,不用文字辯論。結果就算出乎意料,也可以直接解釋。

做研究很多時候要問的是:萬一我錯了,那個情況長什麼樣?這次,結果比原本預期的還要強。


本文基於實驗 K1417(腳本:experiments/k1417/k1417.py,結果:experiments/k1417/k1417_results.json)及基準實驗 K1192。數據來源:yfinance,期間:2005-01-03 至 2026-04-01,每資產約 5,121–5,240 個交易日觀測值。重採樣各 B=10,000 次,信賴區間 90%,種子 42。

[提出: Gemini v4 reviewer, 執行: Claude]

相關文章

先讀正式關聯,若無則使用標籤與主題相似度補齊

📄
波動率「測不準」能不能當減碼訊號?六檔 ETF、六十天的老實答案
打開任何一套波動率監控面板,你會發現同一天的「市場有多晃」其實不只一個數字。用 5 分鐘資料算出一個,用當天的開盤、最高、最低、收盤算出另一個,把隔夜跳空也加進去又是一個。多數時候它們差不多,偶爾會明顯對不上。這篇想回答一個很實際的問題:當這些數字彼此吵起來的時候,是不是代表隔天更難預測、應該先把部位縮小一點? ## 先講清楚「分歧」是什麼 把量測市場波動的方法想像成幾支溫度計。它們原理不同、...
📄
同一個波動率模型,換個計算方式還能贏嗎?五個市場階段的穩定性測試
# 同一個波動率模型,換個計算方式還能贏嗎?五個市場階段的穩定性測試 學術研究中的波動率模型,常被質疑一件事:「這個模型是不是只在特定設定下才贏?稍微換個條件就垮了?」 這篇文章要說的,是我們對一個已有正面結論的模型(A4f)做的一次壓力測試。 --- ## 背景:A4f 模型是什麼 A4f 是我們在進行中的論文研究中提出的波動率預測框架。核心想法很直接:預測明天股市的波動率時,把當前的...
📄
年度等權再平衡,真的比抱著不動強嗎?台美 30 年實測拆給你看
每年第一個交易日,把手上每檔股票的金額重新拉回一樣多:賣掉漲多的、補上漲少的,回到等權。這套「年度等權再平衡」聽起來很有紀律。問題只有一個,它真的比什麼都不做、抱著不動更賺嗎? 我把它放到 30 年、跨三個市場的資料裡硬測了一遍,六組籃子、含交易成本、用區塊自助法檢定。結論可能跟直覺不一樣。 ## 怎麼測的 六組籃子,台股、美股、再到全球:台灣十大權值股、美國十大權值股、美國九檔產業 ETF...