研究2026/05/29 下午10:00

Sharpe 不夠用：六維度排名洗出完全不同的策略冠軍

composite-rankingmulti-dimensionalevaluationwin-ratestress-test策略比較

讀者互動

已追蹤瀏覽 0 次，登入會員可按讚與收藏。

Sharpe 不夠用：六維度排名洗出完全不同的策略冠軍

[提出: 用戶, 執行: Claude]

一句話結論

把 14 個波動率策略放進「報酬、風險調整、回檔、表現一致性、月勝率」 五個維度 評分後（壓力期表現為輔助 narrative 觀察，未入分；詳見文末 ERRATA）， 綜合排名第 1 是台股動能策略 （年化 32.6%、四月閃崩還賺 6.6%；該策略已知 c2c timing bias，caveat 見內文與文末 ERRATA），但純 Sharpe 排名第 1 卻是另一支極度保守的策略。同一份資料、同樣 14 個玩家， 換個尺度，前三名就完全洗牌 。這篇想講的是：當你比較策略時，如果只看一個數字，你看到的不是事實，是「那個數字偏好的世界」。

為什麼我們需要更多維度

投資圈最熟的指標是 Sharpe Ratio （每承擔一單位風險換到多少報酬）。它確實是個好指標，因為一句話就能比較不同風險等級的策略。但它有一個結構性偏好：

策略只要把波動壓得夠低，Sharpe 自然會很高，即使年化報酬只有個位數。

換句話說，純 Sharpe 排名會系統性偏向「低波動、低報酬」的策略，把「願意承受合理波動換取高報酬」的策略排到後面。對退休帳戶可能合理，對長期累積資產的人不一定。

所以我們做了一件笨工：把五個各自有意義的維度放在一起看（壓力期表現另作 narrative 討論，未進入 composite 計算）。

維度	直覺意義
CAGR（年化報酬）	你的錢長多快
Sharpe	風險調整後的效率
MDD（最大回檔）	最痛的時候有多痛
Calmar	報酬 vs 最痛回檔的比
月勝率	多少個月是賺錢的（穩定感）
壓力期表現	2025 年 4 月那波閃崩當下的單月報酬

每個維度先 normalize 到 0-1，再用 等權重 加總成一個 0-1 的綜合分數。等權重不是「正確答案」，是一個刻意誠實的選擇，稍後會解釋這點。

排名洗牌：誰升、誰降

綜合 vs Sharpe 排名比較

左邊（A 圖）是五維度綜合排名（壓力期未入分），右邊（B 圖）是純 Sharpe 排名。 同樣 14 個策略 ，但在兩個尺度下根本長得不像同一張表：

台股動能策略 （年化 32.6%）：綜合 #1，但 Sharpe 只排到 #3
Piecewise 保守 （年化 14.3%、Sharpe 3.16）：Sharpe 第 2 但綜合掉到 #3，因為 CAGR 拉低
Adaptive 分層 ：綜合 #2、Sharpe #4，全方位均衡型
台日 5050 配置 ：Sharpe #1（3.32！）但綜合排到 #4，因為月勝率只有 71.8%
VIX 條件槓桿 ：月勝率 87.2% 全場最高，綜合 #5
50/50 BH（推薦配置） ：綜合掉到 #11，因為 CAGR 13.7% 在這群裡偏弱

最有意思的是 綜合排名前 5 名差距非常小 （0.687 → 0.495），意思是「最好」這件事本來就難分軒輊；但 Sharpe 排名會給人「2.04 vs 2.05 是兩個世界」的錯覺。

真實競爭者長什麼樣

綜合前 5 強的六維度雷達圖

雷達圖把綜合前 5 強疊在一起（五維 + 壓力期作 narrative 一併呈現），每個軸是 normalized 後的維度分數（離中心越遠越好）：

#1 台股動能（紅） ：CAGR 滿格、壓力期 +6.6% 全場最佳，弱項是月勝率（37.9% 日勝率反映「常常小跌但偶爾大賺」）。> ⚠ 台股動能策略 caveat ：此策略在 scripts/daily_update.py:578 內部標記為 c2c timing bias、o2o 模式 Harvey FAIL (t<3)。其綜合 #1 的位置可能被 c2c timing 高估，o2o 下 robust 性未通過。
#2 Adaptive 分層（藍） ：每個軸都不差，幾乎是個正圓，典型「均衡型選手」
#3 Piecewise 保守（綠） ：Sharpe / Calmar / 月勝率三大強項，但 CAGR 軸明顯內縮
#4 台日 5050（橘） ：Sharpe 全場最高，但 MDD 軸是五人裡最差
#5 VIX 條件槓桿（紫） ：月勝率滿格（每 100 個月 87 個賺錢），但 CAGR 中庸

換句話說， 沒有一個策略每個維度都是冠軍 ——這正是多維度評估能告訴你、但單一指標永遠藏起來的事實。

維度組成：強在哪、弱在哪

六維度堆疊貢獻圖

每根長條的 6 段顏色 = 該策略在 6 個維度上各貢獻多少分。一眼就看得出：

台股動能（#1） 的 CAGR 段最厚（藍色），加上壓力測試正貢獻（咖啡色）撐起冠軍位
Piecewise 保守（#3） 的 Calmar（綠）+ 月勝率（紅）段最厚，但 CAGR 段薄薄一條
VIX 條件槓桿（#5） 月勝率段（紅）滿格，是月勝率冠軍的可視化證據
50/50 BH（推薦配置） 不在前 8——CAGR / Sharpe 都不算頂尖，被擠到後段

這張圖的價值在於：它把「為什麼這支策略排這個位置」具體拆給你看，不是黑箱分數。

等權重不是真理：誠實面對方法論選擇

我們刻意用 等權重 （1/5）加總五個維度，不是因為這是宇宙真理，而是因為 任何加權都是價值判斷 ：

重視穩定的退休族 → 該把月勝率和 MDD 加權拉高 → Piecewise / VIX 條件槓桿會升
追求成長的年輕投資人 → 該把 CAGR 加權拉高 → 台股動能會更穩第一
怕崩盤的避險型 → 把 MDD / 壓力測試加權拉高 → 全球 VT / 台日 5050 會升

這個排名只是一個基準視角 。它的價值在於告訴你「即使最中性的權重組合，前三名也會跟純 Sharpe 完全不同」，這已經足夠推翻「Sharpe 高就是最好」的直覺。

至於哪個權重最適合你，沒有人能替你回答；但你至少要先看到「換尺度排名會洗牌」這件事，才能開始問自己這個問題。

限制與下一步

幾個必須誠實標明的事：

回測期間 ~2022-10 到 2026-03（不同策略 747-827 個交易日不等）， 只涵蓋一個完整循環 ——含 2022 熊市尾巴、2023-24 多頭、2025 年 4 月閃崩。 未經 2008 / 2020 級別黑天鵝考驗 ，前段班的長期穩健性還要繼續觀察。
資料來自 paper_trading 持續追蹤 + yfinance 補齊基準價格；策略間的天數差異反映各策略上線追蹤時間不同，不是 cherry-pick。
壓力測試只有一個事件 （2025-04 閃崩），雙樣本以上才有結論；三支「N/A」是該事件前還沒上線追蹤。
等權重的選擇 已在上一段說明，任何其他權重都會給出不同排名，不是 bug 是 feature。
與 K715 的視角差異：K715 從 狀態相依 （regime-dependent）的角度比較同期策略，本文是從 多維度綜合 角度比較。同一群策略、不同框架、會得到不同的「最佳」。
冠軍策略 timing-sensitive ：台股動能 (taiwan_spy_momentum) 在 o2o (open-to-open) 模式下 Harvey FAIL；綜合 #1 的位置可能被 c2c (close-to-close) timing 高估。讀者應將排名理解為「c2c 視角下的相對位置」，而非 timing-robust 結論。
composite 為 5 維平均 ：本文敘事說「六維 1/6」但實際是 5 個 _norm 欄位平均，壓力期未入分（見文末 ERRATA）。

一句話帶走

下次有人跟你推銷某個策略「Sharpe 比 0050 高 50%」時，請反問：「然後 CAGR 多少？最大回檔多少？月勝率多少？2025 年 4 月那波你的策略賺多少賠多少？」這六個問題會比一個 Sharpe 數字告訴你更多，這就是為什麼即使方法論並不完美， 多維度評估永遠優於單指標排名 。

本文基於實驗 K717（腳本：experiments/k717/k717.py，結果：experiments/k717/k717_results.json）。資料來源：paper_trading 持續追蹤 + yfinance 收盤價，期間 ~2022-10 至 2026-03（n_days 747-827，依策略上線時點）。六維度等權重 normalized composite ranking 為一種視角，非唯一正確排序方法。

ERRATA（2026-05-29 Codex 24h-rule audit）

本文發表後經 Codex source-code-level audit 發現兩處需更正：

「六維度」實為五維度 — composite ranking 實際只平均 CAGR / Sharpe / Calmar / MDD / 月勝率五個 _norm 欄位（驗證：experiments/k717/k717_results.json 內每筆只有 5 個 _norm 欄位，composite 與其平均一致）。「壓力期表現」雖在 narrative 中討論，但未進入 composite 計算。原文「等權重 1/6 加總六個維度」應理解為「等權重 1/5 加總五個維度，壓力期作為輔助觀察」。
冠軍策略 biased 揭露 — 綜合 #1 的台股動能策略 (taiwan_spy_momentum) 在 scripts/daily_update.py:578-595 內被標記 c2c (close-to-close) timing bias，對應的 o2o (open-to-open) 模式在 Harvey 檢定中 FAIL (t<3)。本文敘述此策略為冠軍時應補上此 caveat：其綜合 #1 的位置可能被 c2c timing 偏好高估，o2o 模式下 robust 性未通過。

兩處更正 不影響核心命題 「換尺度排名會洗牌，單一指標排名隱藏多維資訊」；但讀者引用具體排名數字時應參照本 errata。

Codex audit verdict: FAIL → ERRATA 修正後可保留發布。原文未撤稿，errata 留檔可追溯。

先讀正式關聯，若無則使用標籤與主題相似度補齊

📄

K1590：MNA 併購套利波動 proxy 的描述性診斷

# K1590：MNA 併購套利波動 proxy 的描述性診斷 ## 摘要 K1590 問一個很窄的研究問題：用公開可下載的 IQ Merger Arbitrage ETF (MNA) 日資料，能不能替昂貴的個別 deal-spread database 提供一個 portfolio-level volatility proxy。實驗使用 yfinance adjusted close，`au...

→📄

我們把自己的預測庫抓來體檢：84 檔波動率預測，到底準不準？

# 我們把自己的預測庫抓來體檢：84 檔波動率預測，到底準不準？做波動率預測這行，最該被問的問題其實最少人敢答：你們過去喊的那些數字，事後對照真實市場，準嗎？ VolPred 累積了一百多組已存的樣本外（OOS）預測，全部出自 GARCH 家族模型。過去我們算過 QLIKE、算過 VaR，卻從沒回頭做過一件更基本的事：檢查這些預測有沒有「系統性地偏一邊」。這次補上，把其中 84 檔預測全部攤...

→📄

金融情勢一收緊，就能提前看到股市崩跌嗎？真實時點重跑後的答案

這篇文章必須重寫。舊版 K1655 用今天看得到的修訂後 NFCI，回頭模擬過去每週的股市尾部預測。問題在於，NFCI 到 2011 年 5 月才有第一個公開版本，舊測試卻從 2000 年開始，樣本外預測更早在 2004 年啟動。那段期間的投資人根本拿不到這個指標。我們現在改用 ALFRED 保存的歷史版本，逐週重建當時真正可得的 NFCI，再把整套實驗跑一次。結果推翻舊版兩個重點：樣本內...