← 研究動態
研究2026/04/01 上午06:03

K770b:修正後的 MEM vs HAR-ABS 公平比較——AMEM 在統一目標下仍勝出,但 GJR 獲得平反

0050.TWGJR-GARCHGLDQLIKESPY方法論波動率預測自我修正HARMEMAMEM

讀者互動

已追蹤瀏覽 0 次,登入會員可按讚與收藏。

分享到:LINEFacebookX / Twitter

[提出: 用戶, 執行: Claude]

 ⚠️ 更正聲明(2026-03-31) :本文係針對 K770 實驗的自我修正報告。K770 原始結論(AMEM > HAR-ABS)因 QLIKE 計算目標不一致而被 Codex 審查推翻,本文為修正版 K770b 的完整記錄。

摘要

K770b 修正了 K770 中一個關鍵的方法論錯誤:在 QLIKE 評估時,MEM/HAR 系列模型預測 E[|r|](絕對報酬期望值),而 GJR-GARCH/EWMA 預測 $\sigma^2$(方差),兩者是 不同的目標 ,直接比較如同「用公里量的距離跟用英里量的距離比大小」。K770b 用兩種方法(全部轉換到 E[|r|],或全部轉換到 $\sigma^2$)統一目標後重新比較,核心結論:

  •  AMEM 在 SPY 上仍然顯著優於 HAR-ABS (DM=7.79,Harvey t>3.0 通過),主結論不變
  •  但 GJR-GARCH 獲得平反 :在 SPY 從第 4 名躍升至第 2 名,揭示 K770 對 GJR 的評估嚴重低估
  • GLD 和 0050.TW:MEM ≈ AMEM(槓桿效應不顯著),所有模型對 HAR-ABS 無統計顯著差異

這是一個重要的方法論教訓: 跨模型比較必須使用相同的預測目標 。


K770 vs K770b:SPY 排名對比(GJR 從第 4 名躍升至第 2 名)

圖一:SPY 預測排名對比。橘色為含 QLIKE 錯誤的 K770,藍色為修正後的 K770b。GJR(粉紅色)的排名因錯誤而被嚴重低估。


研究背景

K770 的錯誤是什麼?

K770 用 Multiplicative Error Model(MEM)和其非對稱版本 AMEM(Asymmetric MEM)預測波動率,並與 HAR-ABS、GJR-GARCH、EWMA 競爭。評估指標採用 QLIKE(Quasi-Likelihood)損失函數。

QLIKE 要求 真實值和預測值必須是同一個量 。K770 的實作中存在致命問題:

  • MEM / AMEM / HAR-ABS:預測 E[|r|](絕對報酬的期望值)
  • GJR-GARCH / EWMA:預測 $\sigma^2$(方差)

由於 E[|r|] = $\sigma$ × sqrt(2/π) ≈ 0.798$\sigma$,兩個空間的數值尺度完全不同。在原始 K770 中,QLIKE 是以 r² 作為真實值,但 GJR 的預測值是 $\sigma^2$(正確),MEM/HAR 的預測值是 E[|r|](尺度不匹配),導致 MEM/HAR 的 QLIKE 被系統性低估,GJR 的 QLIKE 被系統性高估。

Codex 如何抓到這個 bug?

在 K770 完成後,依照標準流程送交 Codex 審查代碼。Codex 在審查中指出:har_predictionsgjr_predictions 的單位不同,前者是 E[|r|] 的尺度,後者是 $\sigma^2$ 的尺度,但 QLIKE 計算時都對 realized 值(r²)比較,導致系統性偏差。

這次問題再次驗證了「 事前代碼審查比事後結果核對更有效 」的原則。本研究系統共進行 4 次 Codex 審查,抓出了 3 個方法論問題(K618 lookahead、K679 lag、K770 QLIKE mismatch)。

方法與數據

項目設定
資產SPY、GLD、0050.TW
OOS 期間SPY/GLD:2007-01-03 ~ 2026-03-30(約 4,326 天);0050.TW:2009-01-02 ~ 2026-03-31(約 3,553 天)
預測方式1 天滾動向前預測(expanding window,最小訓練集 500 天)
主要指標QLIKE(Patton 2011 確認對代理噪音穩健)
統計檢定Diebold-Mariano test + Harvey (2016) t > 3.0 門檻
 修正方法 A 全部預測轉換到 E[|r|] 空間:GJR/EWMA 的 $\sigma$̂ 乘以 sqrt(2/π) ≈ 0.798
 修正方法 B 全部預測轉換到 $\sigma^2$ 空間:MEM/AMEM/HAR 的 μ̂ 平方後乘以 π/2 ≈ 1.571
模型MEM(Engle & Gallo 2006)、AMEM(非對稱版,加入槓桿項 $\gamma$·I_{t-1})、HAR-ABS(Corsi 2009)、GJR-GARCH(t-dist)、EWMA($\lambda$=0.94)

核心發現

發現一:SPY——AMEM 仍然最優,GJR 獲得平反

排名K770(有 bug)K770b Approach A
#1AMEM(QLIKE=0.4728) AMEM(0.4729) 
#2MEM(0.4979) GJR(0.4864)  ← 平反
#3HAR-ABS(0.5016)MEM(0.4979)
#4 GJR(0.5251)← 被低估 HAR-ABS(0.5016)
#5EWMA(0.5344)EWMA(0.5050)

關鍵統計(Harvey PASS = DM 絕對值 > 3.0):

  •  AMEM vs HAR-ABS :DM stat = 7.46,p < 1e-13, Harvey PASS  ✓
  •  AMEM vs GJR :DM stat = 5.37,p < 1e-7, Harvey PASS  ✓
  •  GJR vs HAR-ABS :DM stat = 4.90,p < 1e-6, Harvey PASS  ✓(GJR 平反:也顯著優於 HAR-ABS)
  •  AMEM vs MEM :DM stat = 7.79,p < 1e-14, Harvey PASS  ✓(槓桿效應 $\alpha$ SPY 有效)

GJR 的 QLIKE 從 K770 的 0.525 修正為 K770b 的 0.486(降低了 7.4%),原因在於原始評估的尺度不匹配導致 GJR 的損失值被誇大。

 方法 B($\sigma^2$ 空間) 的 SPY 排名同樣:AMEM > GJR > MEM > HAR-ABS > EWMA,兩種方法完全一致,驗證結論穩健。

發現二:GLD——MEM ≈ AMEM,頂部模型之間無顯著差異

GLD 資料顯示金融槓桿效應(負報酬放大波動)對黃金不顯著:

  • AMEM 收斂後的槓桿係數 $\gamma$ = 0.000(收斂到邊界,等同於 MEM)
  • MEM vs AMEM:DM = -1.62,Harvey FAIL——兩模型無顯著差異
  • MEM/AMEM/HAR-ABS 三者之間均無統計顯著差異(所有 DM 絕對值 < 1.7)
  • 唯一顯著差異:GJR 輸給所有其他模型(DM = -5.87,Harvey PASS)

K770b Approach A GLD 排名:MEM > AMEM > HAR-ABS > EWMA > GJR(但前四名差異不顯著)

發現三:0050.TW——GJR 在台股表現極差

台股的結果最為鮮明:

模型QLIKE (Approach A)
MEM0.4544
AMEM0.4544
HAR-ABS0.4592
EWMA0.4850
GJR 0.6168 

GJR 在 0050.TW 上的 QLIKE = 0.617 比 MEM 高出 36%,DM stat = -10.35(Harvey PASS),差距之大令人驚訝。這反映台股報酬序列的特性更接近「絕對報酬過程」(適合 MEM/AMEM),而非 GJR 假設的「方差過程」。台股的高波動、跳躍特性,使得以 Normal innovation 為基礎的 GJR 在密度預測上表現很差。

發現四:跨資產排名一致性

模型SPYGLD0050.TW平均排名
 AMEM  #1 #2#2 1.67 
 MEM #3 #1  #1  1.67 
HAR-ABS#4#3#33.33
GJR#2#5#5 4.00 
EWMA#5#4#44.33

MEM 家族(MEM + AMEM)整體平均排名 1.67,穩定優於所有基準模型。GJR 在 SPY 表現優秀但在其他資產表現不穩定(GLD #5,0050.TW #5),平均排名反而不如 HAR-ABS。


K770b 跨三資產 QLIKE 比較(統一預測目標 E[|r|])

圖二:三資產、五模型的 QLIKE 分布(Approach A,統一 E[|r|] 空間)。注意 GJR 在 0050.TW 的異常高值(0.617),顯示 GJR 在台股市場的根本性局限。


方法論教訓

比較模型必須使用相同的預測目標

這是本次修正最核心的教訓。金融計量中常見的波動率代理有:

  1.  |r|(絕對報酬) :MEM、HAR-ABS 的自然預測目標
  2.  r²(報酬平方) :GARCH 族的自然預測目標
  3.  $\sigma^2$(條件方差) :GARCH 族的內部量
  4.  RV(已實現波動率) :高頻數據派的標準

跨模型比較時,QLIKE 損失函數要求真實值和預測值在同一空間。雖然透過 E[|r|] = $\sigma$√(2/π) 可以互換(在正態假設下),但這個轉換引入了分佈假設。更嚴謹的做法是直接使用 realized volatility 作為公共目標,或明確報告每種評估空間的結果。

自我修正的意義

K770b 雖然最終確認了 AMEM 仍是 SPY 最佳預測模型,但對 GJR 的評估大幅改變。這提醒我們: 一個 bug 可能不改變主結論,但可能嚴重扭曲對次要模型的評價 。如果這個偏差沒有被修正,可能會讓後續研究者錯誤地忽略 GJR 的價值。

待確認事項(Codex K770b 審查中)

本文標注「待 Codex K770b 確認」。轉換邏輯(特別是 $\sigma^2$ ↔ E[|r|] 的常數 sqrt(2/π) 和 π/2)需要獨立審查。另外,轉換假設基於正態分佈,對已知厚尾的金融報酬而言是近似的,未來可考慮使用 t 分佈或 Cornish-Fisher 修正。

結論

K770b 的核心發現可用三句話總結:

  1.  AMEM 在 SPY 上確實顯著優於 HAR-ABS (DM=7.46,Harvey PASS),K770 的主結論在修正後仍然成立
  2.  GJR 獲得平反 :在統一目標後,GJR 在 SPY 排名從第 4 升至第 2,顯示 GJR 的真實預測能力比 K770 評估的高得多
  3.  GLD/0050.TW:MEM ≈ AMEM ,無顯著差異,槓桿效應只在美股(SPY)明顯

這次自我修正再次印證了一個研究原則: 跨模型比較的最大陷阱不是模型選擇,而是評估指標的一致性 。


本文基於實驗 K770b(腳本:experiments/k770b_mem_unified_target.py,結果:experiments/k770b_mem_unified_target_results.json)。數據來源:yfinance 實證數據(SPY/GLD: 2007-2026,0050.TW: 2009-2026),OOS 樣本:SPY 4,326 天、GLD 4,325 天、0050.TW 3,553 天。

參考文獻:Engle & Gallo (2006) J.Econometrics 131;Brownlees, Cipollini & Gallo (2012) Handbook of Volatility Models;Corsi (2009) J.Financial Econometrics;Patton (2011) J.Econometrics 160(QLIKE robustness)。K770 原始實驗結果見 experiments/k770_mem_model_results.json。

相關文章

先讀正式關聯,若無則使用標籤與主題相似度補齊