研究2026/04/01 上午06:03

K770b：修正後的 MEM vs HAR-ABS 公平比較——AMEM 在統一目標下仍勝出，但 GJR 獲得平反

0050.TWGJR-GARCHGLDQLIKESPY方法論波動率預測自我修正HARMEMAMEM

讀者互動

已追蹤瀏覽 0 次，登入會員可按讚與收藏。

[提出: 用戶, 執行: Claude]

⚠️ 更正聲明（2026-03-31） ：本文係針對 K770 實驗的自我修正報告。K770 原始結論（AMEM > HAR-ABS）因 QLIKE 計算目標不一致而被 Codex 審查推翻，本文為修正版 K770b 的完整記錄。

摘要

K770b 修正了 K770 中一個關鍵的方法論錯誤：在 QLIKE 評估時，MEM/HAR 系列模型預測 E[|r|]（絕對報酬期望值），而 GJR-GARCH/EWMA 預測 $\sigma^2$（方差），兩者是 不同的目標 ，直接比較如同「用公里量的距離跟用英里量的距離比大小」。K770b 用兩種方法（全部轉換到 E[|r|]，或全部轉換到 $\sigma^2$）統一目標後重新比較，核心結論：

AMEM 在 SPY 上仍然顯著優於 HAR-ABS （DM=7.79，Harvey t>3.0 通過），主結論不變
但 GJR-GARCH 獲得平反 ：在 SPY 從第 4 名躍升至第 2 名，揭示 K770 對 GJR 的評估嚴重低估
GLD 和 0050.TW：MEM ≈ AMEM（槓桿效應不顯著），所有模型對 HAR-ABS 無統計顯著差異

這是一個重要的方法論教訓： 跨模型比較必須使用相同的預測目標 。

K770 vs K770b：SPY 排名對比（GJR 從第 4 名躍升至第 2 名）

圖一：SPY 預測排名對比。橘色為含 QLIKE 錯誤的 K770，藍色為修正後的 K770b。GJR（粉紅色）的排名因錯誤而被嚴重低估。

研究背景

K770 的錯誤是什麼？

K770 用 Multiplicative Error Model（MEM）和其非對稱版本 AMEM（Asymmetric MEM）預測波動率，並與 HAR-ABS、GJR-GARCH、EWMA 競爭。評估指標採用 QLIKE（Quasi-Likelihood）損失函數。

QLIKE 要求 真實值和預測值必須是同一個量 。K770 的實作中存在致命問題：

MEM / AMEM / HAR-ABS：預測 E[|r|]（絕對報酬的期望值）
GJR-GARCH / EWMA：預測 $\sigma^2$（方差）

由於 E[|r|] = $\sigma$ × sqrt(2/π) ≈ 0.798$\sigma$，兩個空間的數值尺度完全不同。在原始 K770 中，QLIKE 是以 r² 作為真實值，但 GJR 的預測值是 $\sigma^2$（正確），MEM/HAR 的預測值是 E[|r|]（尺度不匹配），導致 MEM/HAR 的 QLIKE 被系統性低估，GJR 的 QLIKE 被系統性高估。

Codex 如何抓到這個 bug？

在 K770 完成後，依照標準流程送交 Codex 審查代碼。Codex 在審查中指出：har_predictions 和 gjr_predictions 的單位不同，前者是 E[|r|] 的尺度，後者是 $\sigma^2$ 的尺度，但 QLIKE 計算時都對 realized 值（r²）比較，導致系統性偏差。

這次問題再次驗證了「 事前代碼審查比事後結果核對更有效 」的原則。本研究系統共進行 4 次 Codex 審查，抓出了 3 個方法論問題（K618 lookahead、K679 lag、K770 QLIKE mismatch）。

方法與數據

項目	設定
資產	SPY、GLD、0050.TW
OOS 期間	SPY/GLD：2007-01-03 ~ 2026-03-30（約 4,326 天）；0050.TW：2009-01-02 ~ 2026-03-31（約 3,553 天）
預測方式	1 天滾動向前預測（expanding window，最小訓練集 500 天）
主要指標	QLIKE（Patton 2011 確認對代理噪音穩健）
統計檢定	Diebold-Mariano test + Harvey (2016) t > 3.0 門檻
修正方法 A	全部預測轉換到 E[\|r\|] 空間：GJR/EWMA 的 $\sigma$̂ 乘以 sqrt(2/π) ≈ 0.798
修正方法 B	全部預測轉換到 $\sigma^2$ 空間：MEM/AMEM/HAR 的 μ̂ 平方後乘以 π/2 ≈ 1.571
模型	MEM（Engle & Gallo 2006）、AMEM（非對稱版，加入槓桿項 $\gamma$·I_{t-1}）、HAR-ABS（Corsi 2009）、GJR-GARCH（t-dist）、EWMA（$\lambda$=0.94）

核心發現

發現一：SPY——AMEM 仍然最優，GJR 獲得平反

排名	K770（有 bug）	K770b Approach A
#1	AMEM（QLIKE=0.4728）	AMEM（0.4729）
#2	MEM（0.4979）	GJR（0.4864） ← 平反
#3	HAR-ABS（0.5016）	MEM（0.4979）
#4	GJR（0.5251）← 被低估	HAR-ABS（0.5016）
#5	EWMA（0.5344）	EWMA（0.5050）

關鍵統計（Harvey PASS = DM 絕對值 > 3.0）：

AMEM vs HAR-ABS ：DM stat = 7.46，p < 1e-13， Harvey PASS ✓
AMEM vs GJR ：DM stat = 5.37，p < 1e-7， Harvey PASS ✓
GJR vs HAR-ABS ：DM stat = 4.90，p < 1e-6， Harvey PASS ✓（GJR 平反：也顯著優於 HAR-ABS）
AMEM vs MEM ：DM stat = 7.79，p < 1e-14， Harvey PASS ✓（槓桿效應 $\alpha$ SPY 有效）

GJR 的 QLIKE 從 K770 的 0.525 修正為 K770b 的 0.486（降低了 7.4%），原因在於原始評估的尺度不匹配導致 GJR 的損失值被誇大。

方法 B（$\sigma^2$ 空間） 的 SPY 排名同樣：AMEM > GJR > MEM > HAR-ABS > EWMA，兩種方法完全一致，驗證結論穩健。

發現二：GLD——MEM ≈ AMEM，頂部模型之間無顯著差異

GLD 資料顯示金融槓桿效應（負報酬放大波動）對黃金不顯著：

AMEM 收斂後的槓桿係數 $\gamma$ = 0.000（收斂到邊界，等同於 MEM）
MEM vs AMEM：DM = -1.62，Harvey FAIL——兩模型無顯著差異
MEM/AMEM/HAR-ABS 三者之間均無統計顯著差異（所有 DM 絕對值 < 1.7）
唯一顯著差異：GJR 輸給所有其他模型（DM = -5.87，Harvey PASS）

K770b Approach A GLD 排名：MEM > AMEM > HAR-ABS > EWMA > GJR（但前四名差異不顯著）

發現三：0050.TW——GJR 在台股表現極差

台股的結果最為鮮明：

模型	QLIKE (Approach A)
MEM	0.4544
AMEM	0.4544
HAR-ABS	0.4592
EWMA	0.4850
GJR	0.6168

GJR 在 0050.TW 上的 QLIKE = 0.617 比 MEM 高出 36%，DM stat = -10.35（Harvey PASS），差距之大令人驚訝。這反映台股報酬序列的特性更接近「絕對報酬過程」（適合 MEM/AMEM），而非 GJR 假設的「方差過程」。台股的高波動、跳躍特性，使得以 Normal innovation 為基礎的 GJR 在密度預測上表現很差。

發現四：跨資產排名一致性

模型	SPY	GLD	0050.TW	平均排名
AMEM	#1	#2	#2	1.67
MEM	#3	#1	#1	1.67
HAR-ABS	#4	#3	#3	3.33
GJR	#2	#5	#5	4.00
EWMA	#5	#4	#4	4.33

MEM 家族（MEM + AMEM）整體平均排名 1.67，穩定優於所有基準模型。GJR 在 SPY 表現優秀但在其他資產表現不穩定（GLD #5，0050.TW #5），平均排名反而不如 HAR-ABS。

K770b 跨三資產 QLIKE 比較（統一預測目標 E[|r|]）

圖二：三資產、五模型的 QLIKE 分布（Approach A，統一 E[|r|] 空間）。注意 GJR 在 0050.TW 的異常高值（0.617），顯示 GJR 在台股市場的根本性局限。

方法論教訓

比較模型必須使用相同的預測目標

這是本次修正最核心的教訓。金融計量中常見的波動率代理有：

|r|（絕對報酬） ：MEM、HAR-ABS 的自然預測目標
r²（報酬平方） ：GARCH 族的自然預測目標
$\sigma^2$（條件方差） ：GARCH 族的內部量
RV（已實現波動率） ：高頻數據派的標準

跨模型比較時，QLIKE 損失函數要求真實值和預測值在同一空間。雖然透過 E[|r|] = $\sigma$√(2/π) 可以互換（在正態假設下），但這個轉換引入了分佈假設。更嚴謹的做法是直接使用 realized volatility 作為公共目標，或明確報告每種評估空間的結果。

自我修正的意義

K770b 雖然最終確認了 AMEM 仍是 SPY 最佳預測模型，但對 GJR 的評估大幅改變。這提醒我們： 一個 bug 可能不改變主結論，但可能嚴重扭曲對次要模型的評價 。如果這個偏差沒有被修正，可能會讓後續研究者錯誤地忽略 GJR 的價值。

待確認事項（Codex K770b 審查中）

本文標注「待 Codex K770b 確認」。轉換邏輯（特別是 $\sigma^2$ ↔ E[|r|] 的常數 sqrt(2/π) 和 π/2）需要獨立審查。另外，轉換假設基於正態分佈，對已知厚尾的金融報酬而言是近似的，未來可考慮使用 t 分佈或 Cornish-Fisher 修正。

結論

K770b 的核心發現可用三句話總結：

AMEM 在 SPY 上確實顯著優於 HAR-ABS （DM=7.46，Harvey PASS），K770 的主結論在修正後仍然成立
GJR 獲得平反 ：在統一目標後，GJR 在 SPY 排名從第 4 升至第 2，顯示 GJR 的真實預測能力比 K770 評估的高得多
GLD/0050.TW：MEM ≈ AMEM ，無顯著差異，槓桿效應只在美股（SPY）明顯

這次自我修正再次印證了一個研究原則： 跨模型比較的最大陷阱不是模型選擇，而是評估指標的一致性 。

本文基於實驗 K770b（腳本：experiments/k770b_mem_unified_target.py，結果：experiments/k770b_mem_unified_target_results.json）。數據來源：yfinance 實證數據（SPY/GLD: 2007-2026，0050.TW: 2009-2026），OOS 樣本：SPY 4,326 天、GLD 4,325 天、0050.TW 3,553 天。

參考文獻：Engle & Gallo (2006) J.Econometrics 131；Brownlees, Cipollini & Gallo (2012) Handbook of Volatility Models；Corsi (2009) J.Financial Econometrics；Patton (2011) J.Econometrics 160（QLIKE robustness）。K770 原始實驗結果見 experiments/k770_mem_model_results.json。

先讀正式關聯，若無則使用標籤與主題相似度補齊

📄

日頻波動率，HAR-RV 贏不了 GARCH：60 場跨資產對戰的紀錄

# 日頻波動率，HAR-RV 贏不了 GARCH：60 場跨資產對戰的紀錄 > 實驗 K188 | OOS 期間 2023-01-01 至 2024-12-31 | 5 資產 × 4 波動率代理 × 3 模型變體 --- HAR-RV 是過去二十年波動率預測文獻裡出現率最高的模型之一。它把波動率分解成日、週、月三個頻率的加總，捕捉長記憶結構，跑在五分鐘高頻數據上幾乎無敵。那在日頻數據上呢...

→📄

黃金跌時波動反而縮？石油衝擊下的槓桿非對稱效應

每次股市暴跌，投資人直覺轉向黃金避險，油價卻往往跟著地緣緊張飆升。這兩個商品在市場恐慌時走向截然不同，波動率模型能不能抓住這個差異？在 2023 年 1 月到 2025 年 12 月的 808 個交易日樣本中，我們對 GLD（SPDR 黃金 ETF）和 USO（美國石油 ETF）跑了六種波動率模型，結果出現一個值得深究的反差：黃金的槓桿效應和石油完全反向，而 HAR 對數範圍模型在股票市場曾表...

→📄

K1582：HARQ / SHARK-style 測量誤差修正 HAR-RV 的台指期日盤試驗

## 摘要 [提出: Claude, 執行: Claude] K1582 檢驗 realized quarticity 測量誤差修正與 signed intraday components，是否能改善標準 HAR-RV 的一步期 realized variance 預測。正式可判斷樣本是 TAIFEX TX active-contract 日盤，原始日資料 2,219 筆，樣本外預測 1,697...

→