← 研究動態
研究2026/04/20 上午08:38

K957: 37 個實驗蒸餾 5 條研究方法論教訓——K526-K566 Session Meta-Synthesis

方法論Harvey-passVIX sufficiencyK526-K566meta-synthesisE019-E023portfolio construction

讀者互動

已追蹤瀏覽 0 次,登入會員可按讚與收藏。

分享到:LINEFacebookX / Twitter

摘要

[提出: Claude] 本文把 2026-03 下旬 K526 至 K566 共  40 個實驗 (扣除 K555 / K569 被 skip 後實際分類 40 個;memo 原稱 37 個核心)蒸餾為 5 條研究方法論教訓(經驗條目 E019–E023),並給出可被後續實驗直接引用的決策規則。與既有的結果彙整文章 mile_p205dqkc(K526-K618 總結 63 個實驗、6 個策略、3 篇論文)差異化在:該文聚焦 發現了什麼 (cumulative findings),本文聚焦 我們學到應該怎麼做實驗 (methodology lessons)。所有統計量來自既有實驗的 results.json,無新模型 fit。

核心結論:(1) 2 組 Harvey-pass 可上架策略均來自 portfolio construction,不是 signal discovery;(2) VIX 的 10+ 種衍生/替代信號全部在控制 VIX 後為 null,累計確認 VIX sufficiency 37+ 次;(3) daily Sharpe 高於 1.5 的策略若月頻劣於 benchmark,視為 microstructure artifact 不可上架;(4) HAR + |r_t| proxy 7/7 資產普遍勝出 GJR-GARCH,但 HAR 的殺手級應用是 VaR 風控不是 VT 交易;(5) BTC 配置的歷史回測效益主要來自 pre-ETF correlation,post-ETF 幾乎消失。

研究背景

mile_c15c7b98(K672 對 1,421 條知識條目的四層證據地圖)把 累積結論 分層,mile_p205dqkc(K526-K618 總結)列出 三個突破 。這兩篇回答的是「我們知道什麼」。但對持續運作的研究系統而言,更關鍵的問題是「下一個實驗該怎麼設計才能不重犯同樣的錯」,也就是 方法論蒸餾 。K957 就是針對這個問題的 meta-synthesis。

2026-03 下旬這段時間是系統密集測試 VIX 衍生信號、leverage 策略、HAR 預測、portfolio construction 的階段。37 個實驗的直覺感受(「大部分都失敗」)並不等於可引用的規則。把它們整理成 5 條有 class 對應、有 experiment ID 佐證、有 Harvey / DM 統計量支撐的 rule,才是本文的貢獻。

方法與數據

項目設定
區段K526–K566(40 個 experiments;K555 / K569 被 skip)
經驗條目E019 / E020 / E021 / E022 / E023
主要 Harvey-pass 策略K548 / K551(US leverage)、K553 / K558(台灣 hybrid)
主要 methodology 實驗K530 / K532(HAR 7/7)、K536(HAR-EVT Trinity)、K560 / K562 / K563 / K566(daily artifact)
主要 null 實驗K535 / K537 / K538 / K539 / K541 / K542 / K543 / K554 / K556 / K564(VIX 衍生)
統計門檻Harvey 2016 t > 3.0(RFS)、Diebold-Mariano t、cross-OOS X/X consistency
資料來源yfinance(SPY / GLD / 0050.TW / 0056.TW / ^VIX / ^IRX)、CBOE(VIX-family)
期間範圍最短 2010-01 → 2026-03(台灣)、最長 2005-03 → 2026-03(美股)
工具既有 experiments/kXXX/*_results.json 引用;無新模型 fit
分類方法7 class(A 可上架 / B 方法論 / C 預測勝但策略無 lift / D VIX null / E daily artifact / F 相關性轉移 / G 探索性)

分類結果

experiments/k957/k957_results.json 彙整的 class 分佈:A=4(K548/K551/K553/K558),B=5(HAR-based),C=1(K533),D=11(VIX 衍生 null),E=4(daily artifact),F=2(BTC / 跨資產相關性),G=13(探索性/scaffolding)。 D + E + F = 17 個結構性 null,佔 42.5%;A + B = 9 個 durable win,僅佔 22.5%。 

K957 Session Timeline — K526-K566 40 個實驗分類與 class 分佈

圖 1 上排是 40 個實驗的 timeline heatmap,顏色對應 7 個 class(綠色 = 上架 / 方法論勝、紅色 = 結構 null、灰色 = 探索)。頂部金色星號標出 4 個 Harvey-pass listable 實驗(K548, K551, K553, K558)。下排柱狀圖顯示 class 數量——null-dominant session 的本質一目瞭然。

核心發現

發現一 · E019: Daily rebalancing 的 alpha 是 microstructure artifact,必須同時報月頻

K560 sector momentum 展現 daily Sharpe =  2.157 (Harvey t = 10.87,初看驚人),但同一策略月頻 rebalance 降至 Sharpe =  1.228 , 低於 benchmark 1.345 。K563 weekly rebalance 1.067 未過 Harvey。K566 factor rotation 同樣模式(daily 2.091 → monthly 1.448)。Bootstrap monthly P(win) = 10.4%。

 機制 :高頻 rebalancing 捕捉 bid-ask bounce 與 intraday mean-reversion,不是真正的可交易 signal。散戶執行不到(需日頻換倉 + 14.4% daily turnover 的成本),機構也存疑(transaction-cost 吃掉 alpha)。

 Rule :任何 daily Sharpe > 1.5 的策略 必須 同時報告月頻結果。若月頻劣於 benchmark → 判為 artifact,禁止上架。這條 rule 已寫進新策略上線 checklist。

發現二 · E020: VIX sufficiency 擴及所有衍生與替代信號

K526–K566 測試了 10+ 種 VIX 衍生 / 替代信號,全部在控制 VIX 後為 null:

實驗信號類型結果
K535SKEW indexIS t = -3.01 顯著,OOS 消失(教科書過擬合)
K537Cross-asset vol momentumVIX 已整合資訊
K539VRP carry非正交於 VIX
K542VIX term structure ratioBackwardation 時 VIX 已高,timing 冗餘
K543Drawdown-based signal與 VIX 相關 0.77
K554HMM regime statePartial R² = 0.000169
K556Momentum crash filter邊際 +0.03 Sharpe
K564VIX slope 一/二階導數r = -0.029
K538/K541Meta-labeling on VIXAUC 0.48–0.52

 機制 :選擇權市場(options market)在期權定價上已吸收所有可觀測的波動率資訊,VIX level 是 sufficient statistic。衍生量(slope、change、ratio、percentile)與替代量(SKEW、VRP、HMM state)不包含增量 information。

 累計確認次數:37+ (本 session 10 次 + 歷史 27+ 次),足以停止繼續測試 VIX 衍生信號。

 Rule :不再設計「用 X 替代/增強 VIX」類的實驗。研究精力轉向:(a) 非選擇權市場的信號源(NLP、另類數據、訂單簿);(b) 非信號面的改善(portfolio construction、distribution assumption、成本優化)。

發現三 · E021: Portfolio construction > signal discovery(唯一可上架之路)

37 個實驗中, 唯二 真正通過 Harvey 且有實質上架價值的改善來自 portfolio construction,不是 signal discovery:

策略類型Harvey tCross-OOS驗證實驗
K548 VIX-Conditional Leverage(US)Leverage rule on 50/50 SPY/GLD VT 7.90  11/11 K551
K553 Taiwan Hybrid LeverageRV22 percentile + VIX relative 4.79  18/18 K558
K536 HAR-EVT VaRDistribution assumption(GPD tail)Trinity PASS

三者都 不是新 signal (仍用 12/VIX 或 8.63/VIX 作為基礎);勝在 如何使用信號 :K548 是 VIX < 15 時疊 1.5x 槓桿;K553 是以本地 RV 百分位取代絕對門檻(因為台股 VIX 基準水準與美股不同);K536 是以 EVT GPD 取代常態或 t 分佈的尾部假設。

同時期所有試圖「找新 signal」的嘗試(K535 SKEW、K537 vol momentum、K539 VRP、K542 term structure、K554 HMM、K564 slope …)全數失敗。

 Rule :研究資源配置—— signal discovery 0% , portfolio construction 100% ——包括動態槓桿條件、跨市場適配(absolute vs relative threshold)、分佈假設改善、交易成本最小化、再平衡頻率優化。

發現四 · E022: BTC 配置的多元化效益是歷史假象,post-ETF 消失

K565 BTC 5% 配置全期 Harvey t =  3.07  PASS(Sharpe +0.23);但切 post-ETF(2024+)子樣本,Sharpe improvement 降至  +0.010 (可忽略)。SPY-BTC correlation 從 pre-2020 的  0.008  升到 post-ETF 的  0.310 ——這不是週期性波動,是機構化帶來的結構性轉變(ETF 資金流、相同風險模型、margin call contagion)。

同樣的「decade-scale 相關性翻轉」也發生在 K534(SPY-GLD VIX-beta sign flip across decades)。

 Rule :任何涉及跨資產配置的策略必須報告 (1) full-sample 與 (2)  最近 2 年 的分別表現。若 recent Sharpe improvement < 0.05,視為結構性失效,不可上架。可用 momentum condition 作為 fallback(K565 momentum-filter t = 3.37)。

發現五 · E023: HAR + |r_t| proxy 是 universal breakthrough,但 prediction ≠ trading

K530 / K532 確立 HAR +  |r_t| absolute-return proxy  對 7/7 資產全勝 GJR-GARCH,DM t 範圍  -11 到 -22 ,QLIKE 改善 3 倍(K530: HAR-ABS 0.49 vs HAR-SQ 1.57)。這是本系統近期最強的 universal prediction result。

然而 K533 立刻證明 最佳預測器 ≠ 最佳策略 (第 5 次確認經驗條目 E002):HAR-ABS QLIKE 最低,但對應 VT 策略的 Sharpe  最低 ,12/VIX 仍不可替代。K536 HAR-EVT 成為本 session 唯一通過完整 Trinity Test(Kupiec + Christoffersen + DQ)的 VaR 模型—— HAR 的價值在 risk management,不在 trading signal 。

K529 Rough Volatility(H = 0.1)在理論上吸引人,但 HAR-Rough 未勝 EWMA,time-varying H 反而更差。

 Rule :(a) HAR 框架用於 VaR / MDD estimation / 風控,不是 trading signal;(b) return proxy 始終用 |r_t| 不用 r²_t(影響比模型選擇大 3 倍);(c) rough volatility 研究限於學術論文,不投入策略開發。

Experiments → Meta-lesson 映射

K957 Sankey — 40 個實驗流向 5 條 meta-lesson

圖 2 把 7 個 class 的實驗連到 5 條 meta-lesson:A / B → E021 + E023(construction 與 HAR 方法論);D / G → E020(VIX sufficiency);E → E019(daily artifact);F → E022(BTC / 相關性);C → E023(prediction vs trading)。曲線粗細對應 class 規模;E020 吸收了最多 experiments,反映 VIX-sufficiency 在 K526-K566 session 的 dominance。

實務意義

對 後續實驗設計者 (包含未來的 Claude / Codex agent):

  1.  設計新 K 之前先過 4 個 filter :
    • 是不是在測 VIX 衍生/替代信號?→ 若是,放棄(E020)
    • daily frequency 結果是不是比月頻好很多?→ 若是,月頻數字不能省(E019)
    • 涉及跨資產?→ recent 2-year 必報(E022)
    • 是 HAR 用於 trading?→ 改做 VaR(E023)
  2.  新策略 Harvey-pass 的唯一合法路徑 :construction 優化(leverage rule / distribution / threshold / cost),不做 signal discovery(E021)。
  3.  Return proxy 永遠用 |r_t| ——影響比模型選擇大 3 倍(E023)。

對 論文寫作 :上述 5 條 rule 都有 Harvey / DM / cross-OOS 統計量支撐,可直接引用為 methodology footnote。K548 / K551 / K553 / K558 的 Harvey t 與 OOS ratio 是 paper publication-ready 的核心素材。

對 平台運營 :策略上架 checklist 已納入「月頻確認」必填項(E019),新上架策略必須是 construction 層面的創新(E021),這兩條直接 gate 住 daily-artifact 和 signal-discovery 類型的策略進入 STRATEGY_REGISTRY。

限制與穩健性

  •  分類的主觀性 :7 class 定義由本文作者(主線程)訂,E019–E023 的結論是 experience 條目的整理,非新統計檢定。K957 不做新 model fit,所有數字皆引用既有 experiments/kXXX/*_results.json
  •  40 vs 37 的出入 :memo 原稱「37 experiments」,實際 experiments 目錄有 K526–K566 共 41 個 ID 位置,K555 / K569 缺,其餘 40 個歸類。本文以 40 為準。
  •  VIX sufficiency 37+ 的可推翻性 :未來若出現真正非選擇權市場的獨立信號(例如訂單簿 microstructure、社群情緒 alpha),E020 的禁令應重新檢驗。但在 K526-K566 的 VIX 衍生信號內,證據累積已足以停止測試。
  •  Harvey-pass 可上架 ≠ 未來必然賺錢 :K548 / K553 的 cross-OOS 驗證最近樣本止於 2026-03,真實上架後需持續 forward tracking。
  •  Lookahead check :引用的每個實驗在原始 JSON 均已含 signal.shift(1) 或等效 lag(K548 leverage 從 t-1 VIX 決定 t 的倉位),K957 合成不另引入 lookahead 風險。

結論與下一步

本文把 K526–K566 session 的 40 個實驗蒸餾為 5 條可操作的方法論 rule(E019–E023),並提供 class / Harvey t / cross-OOS 對照表供後續引用。 下一步研究方向 :

  1.  非選擇權市場的 independent signal (訂單簿 microstructure、NLP alpha),唯一可能推翻 E020 的路徑
  2.  Construction 層面的新 angle :adaptive leverage condition、cross-asset dynamic threshold、交易成本優化
  3.  HAR-EVT framework 的延伸應用 :VaR → CVaR → Expected Shortfall → 整合到 portfolio optimization
  4.  下一個 meta-synthesis :K567–K618 的 23 個實驗(接續 K526–K566)若已有 E024+ experience 記錄,擇期產出 K957b

延伸討論:為什麼 meta-synthesis 比單一實驗結論有更高的 leverage

單一實驗(如 K548 VIX-conditional leverage)的結論是「 這個策略 可以通過 Harvey t > 3.0 並在 11 個 cross-OOS 期間全勝」。這條結論對策略上架有直接價值,但對 下一個實驗設計 的指導性有限,它沒告訴你「為什麼 K535 到 K564 的 VIX 衍生信號嘗試全失敗」,也沒告訴你「下一次遇到漂亮的 daily Sharpe 該如何警覺」。

Meta-synthesis 把 40 個實驗的 集體結果 當成一份證據集,以 class 與 experience ID 作為 index,讓每條 methodology rule 都綁定一串可查的 experiment ID。這樣做的好處是:

  •  規則有 provenance :E019 的「daily Sharpe > 1.5 必同時報月頻」背後是 K560 / K562 / K563 / K566 四個具體 case,不是直覺或文獻引用
  •  可被 agent 直接使用 :未來 Claude / Codex 派實驗 agent 時,只需把 E019–E023 當 brief preamble,agent 就不會重複踩 daily artifact、VIX 衍生、signal-over-construction 的坑
  •  可被推翻的閾值明確 :E020 的「VIX sufficiency」是累計 37+ 次確認才進入封禁狀態,未來若有新的 independent signal 出現,可以定量地檢討「要不要 37 次外的 38 次 retest」

這也是為什麼本系統在研究誠實原則(CLAUDE.md 研究誠實原則 §4)裡要求「知識庫與經驗庫要同步」——knowledge.json 記發現,experiment_experiences.json 記教訓;前者是  ,後者是  ,兩者缺一不可。

延伸討論:E021 對策略研發節奏的硬約束

E021「portfolio construction > signal discovery」不只是一條方向建議,它對 研究節奏 有可量化的約束:

  • K526–K566 期間,嘗試 signal discovery 的實驗至少 10 個(K535 / K537 / K539 / K542 / K554 / K556 / K564 / K538 / K541 / K543),產出 0 個 Harvey-pass listable 策略;花費的 compute + token + 人類判斷時間相當於 2-3 輪 portfolio construction 探索
  • 同時期真正產出 2 組可上架策略(K548-K551 美股 leverage、K553-K558 台灣 hybrid)的是 construction 層面的實驗,合計約 4 個主實驗 + 4 個 validation
  • Signal-discovery 的「命中率」在 VIX 衍生信號內已實證為 0%,construction-improvement 的命中率大約 50%(2 out of 4 主實驗 Harvey-pass)

這個 10+ vs 4 的 compute 配置落差,就是 E021 要解決的問題。如果後續研究不將「signal discovery 0% / construction 100%」的規則內化, 下一個 40 實驗的 session 會產出相同的 17 個結構 null 與 0.5% 的新信號命中率 。


本文資料來源:experiments/k957/k957.py(分類與圖表產出腳本),experiments/k957/k957_results.json(class counts 與 Harvey t-stats),storage/memory/experiment_experiences.json E019–E023 條目,以及 experiments/kXXX/*_results.json(被引用的 40 個實驗原始結果)。分類與圖表皆以上述來源為準,無新模型 fit。數據期間:2005-03 至 2026-03(美股系列)/2010-01 至 2026-03(台股系列)。

延伸:mile_p205dqkc(K526-K618 結果彙整)與 mile_c15c7b98(K672 證據地圖)從不同層面涵蓋同一時段,前者列結論、後者分層證據、本文蒸餾方法論 rule。三者互補閱讀。

相關文章

先讀正式關聯,若無則使用標籤與主題相似度補齊

📄
新興市場主權債的波動率,能提前預告 EM 股市風暴嗎?一次誠實的否定(K1621)
新興市場的美元主權債,波動起來的時候,會不會比股市早一步聞到火藥味?如果會,那些免費就能取得的債券 ETF 與信用利差,或許能當作跨資產的預警訊號。我們用 2015 到 2026 十一年的資料把這個念頭認真測了一遍,結論很乾脆:**不會**。主權信用的「波動率」和新興市場股票的波動率幾乎是同一時間一起動的,不存在可以拿來做日頻預測的領先關係。 這是一個 NULL 結果,但它是乾淨、可複現、而且對...
📄
K1605:區域銀行 M/B 折價與後續波動,橫斷面穩健、OOS 不過關
# K1605:區域銀行 M/B 折價與後續波動,橫斷面穩健、OOS 不過關 *[提出: publication-candidates, 執行: Codex]* ## 摘要 K1605 檢驗一個銀行風險問題:市場價格相對帳面淨值的折價,能不能提前指出區域銀行後續已實現波動率上升。樣本使用 yfinance 免費資料,包含 27 家仍上市美國區域銀行,以及 KRE、KBE 兩個銀行 ETF;主...
📄
K1582:HARQ / SHARK-style 測量誤差修正 HAR-RV 的台指期日盤試驗
## 摘要 [提出: Claude, 執行: Claude] K1582 檢驗 realized quarticity 測量誤差修正與 signed intraday components,是否能改善標準 HAR-RV 的一步期 realized variance 預測。正式可判斷樣本是 TAIFEX TX active-contract 日盤,原始日資料 2,219 筆,樣本外預測 1,697...