K770b:修正後的 MEM vs HAR-ABS 公平比較——AMEM 在統一目標下仍勝出,但 GJR 獲得平反
讀者互動
已追蹤瀏覽 0 次,登入會員可按讚與收藏。
[提出: 用戶, 執行: Claude]
⚠️ 更正聲明(2026-03-31) :本文係針對 K770 實驗的自我修正報告。K770 原始結論(AMEM > HAR-ABS)因 QLIKE 計算目標不一致而被 Codex 審查推翻,本文為修正版 K770b 的完整記錄。
摘要
K770b 修正了 K770 中一個關鍵的方法論錯誤:在 QLIKE 評估時,MEM/HAR 系列模型預測 E[|r|](絕對報酬期望值),而 GJR-GARCH/EWMA 預測 $\sigma^2$(方差),兩者是 不同的目標 ,直接比較如同「用公里量的距離跟用英里量的距離比大小」。K770b 用兩種方法(全部轉換到 E[|r|],或全部轉換到 $\sigma^2$)統一目標後重新比較,核心結論:
- AMEM 在 SPY 上仍然顯著優於 HAR-ABS (DM=7.79,Harvey t>3.0 通過),主結論不變
- 但 GJR-GARCH 獲得平反 :在 SPY 從第 4 名躍升至第 2 名,揭示 K770 對 GJR 的評估嚴重低估
- GLD 和 0050.TW:MEM ≈ AMEM(槓桿效應不顯著),所有模型對 HAR-ABS 無統計顯著差異
這是一個重要的方法論教訓: 跨模型比較必須使用相同的預測目標 。

圖一:SPY 預測排名對比。橘色為含 QLIKE 錯誤的 K770,藍色為修正後的 K770b。GJR(粉紅色)的排名因錯誤而被嚴重低估。
研究背景
K770 的錯誤是什麼?
K770 用 Multiplicative Error Model(MEM)和其非對稱版本 AMEM(Asymmetric MEM)預測波動率,並與 HAR-ABS、GJR-GARCH、EWMA 競爭。評估指標採用 QLIKE(Quasi-Likelihood)損失函數。
QLIKE 要求 真實值和預測值必須是同一個量 。K770 的實作中存在致命問題:
- MEM / AMEM / HAR-ABS:預測 E[|r|](絕對報酬的期望值)
- GJR-GARCH / EWMA:預測 $\sigma^2$(方差)
由於 E[|r|] = $\sigma$ × sqrt(2/π) ≈ 0.798$\sigma$,兩個空間的數值尺度完全不同。在原始 K770 中,QLIKE 是以 r² 作為真實值,但 GJR 的預測值是 $\sigma^2$(正確),MEM/HAR 的預測值是 E[|r|](尺度不匹配),導致 MEM/HAR 的 QLIKE 被系統性低估,GJR 的 QLIKE 被系統性高估。
Codex 如何抓到這個 bug?
在 K770 完成後,依照標準流程送交 Codex 審查代碼。Codex 在審查中指出:har_predictions 和 gjr_predictions 的單位不同,前者是 E[|r|] 的尺度,後者是 $\sigma^2$ 的尺度,但 QLIKE 計算時都對 realized 值(r²)比較,導致系統性偏差。
這次問題再次驗證了「 事前代碼審查比事後結果核對更有效 」的原則。本研究系統共進行 4 次 Codex 審查,抓出了 3 個方法論問題(K618 lookahead、K679 lag、K770 QLIKE mismatch)。
方法與數據
| 項目 | 設定 |
|---|---|
| 資產 | SPY、GLD、0050.TW |
| OOS 期間 | SPY/GLD:2007-01-03 ~ 2026-03-30(約 4,326 天);0050.TW:2009-01-02 ~ 2026-03-31(約 3,553 天) |
| 預測方式 | 1 天滾動向前預測(expanding window,最小訓練集 500 天) |
| 主要指標 | QLIKE(Patton 2011 確認對代理噪音穩健) |
| 統計檢定 | Diebold-Mariano test + Harvey (2016) t > 3.0 門檻 |
| 修正方法 A | 全部預測轉換到 E[|r|] 空間:GJR/EWMA 的 $\sigma$̂ 乘以 sqrt(2/π) ≈ 0.798 |
| 修正方法 B | 全部預測轉換到 $\sigma^2$ 空間:MEM/AMEM/HAR 的 μ̂ 平方後乘以 π/2 ≈ 1.571 |
| 模型 | MEM(Engle & Gallo 2006)、AMEM(非對稱版,加入槓桿項 $\gamma$·I_{t-1})、HAR-ABS(Corsi 2009)、GJR-GARCH(t-dist)、EWMA($\lambda$=0.94) |
核心發現
發現一:SPY——AMEM 仍然最優,GJR 獲得平反
| 排名 | K770(有 bug) | K770b Approach A |
|---|---|---|
| #1 | AMEM(QLIKE=0.4728) | AMEM(0.4729) |
| #2 | MEM(0.4979) | GJR(0.4864) ← 平反 |
| #3 | HAR-ABS(0.5016) | MEM(0.4979) |
| #4 | GJR(0.5251)← 被低估 | HAR-ABS(0.5016) |
| #5 | EWMA(0.5344) | EWMA(0.5050) |
關鍵統計(Harvey PASS = DM 絕對值 > 3.0):
- AMEM vs HAR-ABS :DM stat = 7.46,p < 1e-13, Harvey PASS ✓
- AMEM vs GJR :DM stat = 5.37,p < 1e-7, Harvey PASS ✓
- GJR vs HAR-ABS :DM stat = 4.90,p < 1e-6, Harvey PASS ✓(GJR 平反:也顯著優於 HAR-ABS)
- AMEM vs MEM :DM stat = 7.79,p < 1e-14, Harvey PASS ✓(槓桿效應 $\alpha$ SPY 有效)
GJR 的 QLIKE 從 K770 的 0.525 修正為 K770b 的 0.486(降低了 7.4%),原因在於原始評估的尺度不匹配導致 GJR 的損失值被誇大。
方法 B($\sigma^2$ 空間) 的 SPY 排名同樣:AMEM > GJR > MEM > HAR-ABS > EWMA,兩種方法完全一致,驗證結論穩健。
發現二:GLD——MEM ≈ AMEM,頂部模型之間無顯著差異
GLD 資料顯示金融槓桿效應(負報酬放大波動)對黃金不顯著:
- AMEM 收斂後的槓桿係數 $\gamma$ = 0.000(收斂到邊界,等同於 MEM)
- MEM vs AMEM:DM = -1.62,Harvey FAIL——兩模型無顯著差異
- MEM/AMEM/HAR-ABS 三者之間均無統計顯著差異(所有 DM 絕對值 < 1.7)
- 唯一顯著差異:GJR 輸給所有其他模型(DM = -5.87,Harvey PASS)
K770b Approach A GLD 排名:MEM > AMEM > HAR-ABS > EWMA > GJR(但前四名差異不顯著)
發現三:0050.TW——GJR 在台股表現極差
台股的結果最為鮮明:
| 模型 | QLIKE (Approach A) |
|---|---|
| MEM | 0.4544 |
| AMEM | 0.4544 |
| HAR-ABS | 0.4592 |
| EWMA | 0.4850 |
| GJR | 0.6168 |
GJR 在 0050.TW 上的 QLIKE = 0.617 比 MEM 高出 36%,DM stat = -10.35(Harvey PASS),差距之大令人驚訝。這反映台股報酬序列的特性更接近「絕對報酬過程」(適合 MEM/AMEM),而非 GJR 假設的「方差過程」。台股的高波動、跳躍特性,使得以 Normal innovation 為基礎的 GJR 在密度預測上表現很差。
發現四:跨資產排名一致性
| 模型 | SPY | GLD | 0050.TW | 平均排名 |
|---|---|---|---|---|
| AMEM | #1 | #2 | #2 | 1.67 |
| MEM | #3 | #1 | #1 | 1.67 |
| HAR-ABS | #4 | #3 | #3 | 3.33 |
| GJR | #2 | #5 | #5 | 4.00 |
| EWMA | #5 | #4 | #4 | 4.33 |
MEM 家族(MEM + AMEM)整體平均排名 1.67,穩定優於所有基準模型。GJR 在 SPY 表現優秀但在其他資產表現不穩定(GLD #5,0050.TW #5),平均排名反而不如 HAR-ABS。
![K770b 跨三資產 QLIKE 比較(統一預測目標 E[|r|])](https://qxhfgdfzazwpkdgesavm.supabase.co/storage/v1/object/public/article-images/k770b_qlike_cross_asset.png)
圖二:三資產、五模型的 QLIKE 分布(Approach A,統一 E[|r|] 空間)。注意 GJR 在 0050.TW 的異常高值(0.617),顯示 GJR 在台股市場的根本性局限。
方法論教訓
比較模型必須使用相同的預測目標
這是本次修正最核心的教訓。金融計量中常見的波動率代理有:
- |r|(絕對報酬) :MEM、HAR-ABS 的自然預測目標
- r²(報酬平方) :GARCH 族的自然預測目標
- $\sigma^2$(條件方差) :GARCH 族的內部量
- RV(已實現波動率) :高頻數據派的標準
跨模型比較時,QLIKE 損失函數要求真實值和預測值在同一空間。雖然透過 E[|r|] = $\sigma$√(2/π) 可以互換(在正態假設下),但這個轉換引入了分佈假設。更嚴謹的做法是直接使用 realized volatility 作為公共目標,或明確報告每種評估空間的結果。
自我修正的意義
K770b 雖然最終確認了 AMEM 仍是 SPY 最佳預測模型,但對 GJR 的評估大幅改變。這提醒我們: 一個 bug 可能不改變主結論,但可能嚴重扭曲對次要模型的評價 。如果這個偏差沒有被修正,可能會讓後續研究者錯誤地忽略 GJR 的價值。
待確認事項(Codex K770b 審查中)
本文標注「待 Codex K770b 確認」。轉換邏輯(特別是 $\sigma^2$ ↔ E[|r|] 的常數 sqrt(2/π) 和 π/2)需要獨立審查。另外,轉換假設基於正態分佈,對已知厚尾的金融報酬而言是近似的,未來可考慮使用 t 分佈或 Cornish-Fisher 修正。
結論
K770b 的核心發現可用三句話總結:
- AMEM 在 SPY 上確實顯著優於 HAR-ABS (DM=7.46,Harvey PASS),K770 的主結論在修正後仍然成立
- GJR 獲得平反 :在統一目標後,GJR 在 SPY 排名從第 4 升至第 2,顯示 GJR 的真實預測能力比 K770 評估的高得多
- GLD/0050.TW:MEM ≈ AMEM ,無顯著差異,槓桿效應只在美股(SPY)明顯
這次自我修正再次印證了一個研究原則: 跨模型比較的最大陷阱不是模型選擇,而是評估指標的一致性 。
本文基於實驗 K770b(腳本:experiments/k770b_mem_unified_target.py,結果:experiments/k770b_mem_unified_target_results.json)。數據來源:yfinance 實證數據(SPY/GLD: 2007-2026,0050.TW: 2009-2026),OOS 樣本:SPY 4,326 天、GLD 4,325 天、0050.TW 3,553 天。
參考文獻:Engle & Gallo (2006) J.Econometrics 131;Brownlees, Cipollini & Gallo (2012) Handbook of Volatility Models;Corsi (2009) J.Financial Econometrics;Patton (2011) J.Econometrics 160(QLIKE robustness)。K770 原始實驗結果見 experiments/k770_mem_model_results.json。
相關文章
先讀正式關聯,若無則使用標籤與主題相似度補齊