把「打敗市場」拆開：半導體 ETF 的 9% alpha，是真本事還是沒被命名的因子？（台股美股都做了）

讀者互動

已追蹤瀏覽 0 次，登入會員可按讚與收藏。

分享到：LINE Facebook X / Twitter

最近有個做研究做得很細的朋友跟我聊 AI 選股，從半導體 ETF 聊到 PCA，最後卡在一個老問題上：一個投資組合大幅打敗市場，到底是真的有 alpha，還是只是扛了某種市場還沒看懂的風險？

他舉 SMH（美股半導體 ETF）當例子。過去十多年它的報酬遠超大盤，拿去做因子分析也能跑出顯著的 alpha。可是 SMH 不選股、不擇時，它只是被動持有一籃子半導體公司。既然這樣，那個 alpha 是哪來的？

這個問題值得認真做一遍，而不是用「長期向上」帶過。所以我把它變成一個實驗：對台股和美股的半導體籃子各跑一次 PCA 加因子迴歸，看那個「alpha」拆開來之後剩下什麼。台美都做，順便比較兩個市場的結構像不像。

先說結論，包含它不漂亮的地方

美股半導體 ETF（SMH）對標普 500（SPY）做迴歸，年化 alpha 約 9.2% ，t 值 1.91——看起來像免費午餐。但這個 alpha 只到邊際顯著（p=0.056），本身就站得不太穩。

關鍵的測試在後面：當我用一組 完全不重疊 的半導體股票建一個帶有平均報酬的「sector 因子」，把它加進迴歸，alpha 從 11.4% 縮到 4.0% ，t 值掉到 0.85，不再顯著。縮水約 65%。

台股這邊更直接，半導體籃子對 0050 的 alpha 一開始就不顯著（2.8%，t=0.53），根本沒有東西可以被吸收掉。

所以我不會說「alpha 完全消失了」。誠實的講法是： 證據傾向支持「sector ETF 的 alpha 主要是一種還沒被正式命名的 sector 共同因子曝險」，但這是 suggestive，不是鐵證。 美股那個 alpha 本來就邊際，而且我換了 35 種不同的股票切分方式重跑，residual alpha 落在 -5.6% 到 17.0% 之間，其中 74% 的切法都不顯著。結果對怎麼切很敏感。

數據是 yfinance 的日報酬，2014 年 1 月到 2026 年 6 月，seed 固定 42，t 值都用 Newey-West HAC（lag=5）算，因為殘差有自相關。實驗檔在 experiments/k1425/。

第一步：PCA 看到的是什麼

PCA（主成分分析）做的事很單純：把一籃子股票的日報酬丟進去，它告訴你這些報酬裡「一起動」的方向有多強。

我把美股 8 檔（NVDA、AMD、TSM、ASML、AMAT、MU、QCOM、AVGO）和台股 8 檔（2330、2454、2303、3711、2379、3034、3037、2308）分別做 PCA。

第一主成分（PC1）的解釋力差很多：

市場	PC1 解釋變異	PC2 解釋變異
美股半導體	63.0%	7.9%
台股半導體	46.4%	10.8%

圖一：台美半導體籃子 PCA 解釋變異對比

美股那 8 檔有 63% 的波動是「一起上、一起下」。台股只有 46%，凝聚度明顯弱一截，台股半導體的個股故事比較分散，沒有像美股那樣被同一條 AI 算力敘事綁那麼緊。

PC1 的 loadings（各股在這個共同方向上的權重）全部同號，這是「共同因子」的標準長相：沒有哪一檔在唱反調。

圖三：PC1 loadings——台美籃子成分全部同號

但 PCA 只告訴你「有一股共同力量」，它不會告訴你那是什麼。你可以叫它半導體因子、AI 基建因子、算力因子，這些名字都是事後貼上去的。PCA 本身不知道它找到了什麼，它只知道這些股票確實在一起動。

這裡有個很容易踩的坑：PCA 找的是 變異量最大 的方向，不是 報酬最高 的方向。所以它找到的東西不保證是 alpha。它可能只是市場因子、利率敏感度，或者單純是當下資金最集中的地方。

第二步：把「alpha」放到顯微鏡下

要檢驗 SMH 的 alpha 是不是「未命名的 sector 因子」，不能把同一批半導體股票塞回去當解釋變數，那會機械性地共線，得到假的高 R²。（這個坑我第一版就踩了，後面講。）

正確做法是 disjoint leave-out：把半導體股票切成完全不重疊的兩半，一半拿來建「sector 因子」，另一半當被解釋的標的。這樣因子和標的不共享任何一檔股票，識別才乾淨。

迴歸分三層：

第一層，只有市場。 sector 標的對市場（美股用 SPY、台股用 0050）迴歸。美股 alpha 11.4%（t=1.88），台股 2.8%（t=0.53）。美股看起來有點東西，台股沒有。

第二層，加一個市場中性的 PC1。 這一步有個反直覺的結果：R² 從 0.57 衝到 0.76，beta 也顯著，但 alpha 的數值一動也不動 。原因是市場中性的 PC1 接近零均值，它能吸收「波動」但搬不動「平均報酬的水準」。共同波動很強是一回事，但光證明「大家一起動」，回答不了「這個超額報酬是哪來的」。

第三層，加一個帶平均報酬的 sector 因子。 這才是能搬動 alpha 水準的測試。用不重疊那半股票建一個等權 long 組合（它本身帶有 sector 的平均溢酬），加進迴歸：

	只有市場	加 sector 因子	alpha 縮水
美股 alpha（年化）	11.4%（t=1.88）	4.0%（t=0.85）	約 65%
台股 alpha（年化）	2.8%（t=0.53）	0.8%（t=0.16）	約 72%

圖二：加入 sector 因子前後的 alpha 對比（台美）

美股 alpha 縮掉三分之二，並從「邊際顯著」掉到「不顯著」。台股本來就沒 alpha，加什麼都一樣。

我得把醜話講清楚：美股那個原始 alpha 只到 t=1.88，本來就在顯著與不顯著的邊界上。而且 35 種切分裡有 74% 不顯著。所以這不是一槌定音的證明，是一個傾向性的證據——sector ETF 看起來像 alpha 的東西，比較像是被一個還沒寫進模型的共同因子撐起來的。

為什麼這跟「alpha 變因子」的歷史是同一回事

巴菲特是最有名的例子。2018 年《Buffett's Alpha》那篇研究發現，波克夏的長期超額報酬，大部分可以用幾個因子拆解：便宜（Value）、賺錢（Quality）、體質穩（Low Risk），再加上低成本的槓桿。這不是說巴菲特沒本事，恰恰相反，他在這些因子被正式命名之前幾十年就押對了。但事後看，那個曾經被叫做天賦的東西，可以用因子描述。

投資史一直在重演這件事。小型股效應、動能效應、品質因子，剛被發現時都被當成異常報酬或某種特殊能力，後來一個個變成模型裡的標準因子。

我這個半導體實驗只是同一個故事的小型版：SMH 的 alpha，在加進一個 sector 因子之後縮掉大半。它原本是 alpha，是因為市場模型裡少放了「半導體」這個維度。

機器學習的資產定價文獻有一句話我覺得很準： alpha 經常不是能力的證明，而是模型不完整的證據。 如果你的模型本來就漏掉一個因子，那任何重壓那個因子的東西都會跑出 alpha。

那 AI 選股呢？

繞回開頭那個問題。如果 AI 比人更會找因子，那它是不是能找到更多 alpha？

技術上可以。餵幾百檔股票的報酬，用 PCA 或 clustering，AI 很容易找到傳統因子描述不了的共同結構，半導體群、雲端群、AI 基建群。再從裡面挑動能強、品質高的公司組成投資組合，拿去做因子迴歸，大概率跑出顯著 alpha。

但這裡有個陷阱，也是我那位朋友提出來的：如果 AI 的訓練目標本來就是「找出現有模型解釋不了的結構」，那它最後找到 alpha 幾乎是必然的。因為它不是在發現 alpha，它是在找現有模型還沒命名的風險曝險。

我的 SMH 例子就是這個邏輯的縮小版。FF5 模型沒有半導體因子，所以 SMH 自然會冒出 alpha。但那不代表有免費午餐，比較合理的解釋是：模型少放了一個 sector。

一個站得住的因子要過三關：能跨幾十年（持續性）、有經濟道理（為什麼承擔這個風險該被補償）、能在不同市場重複（穩健性）。Value、Momentum、Quality 過得了這三關。而很多 AI 找到的結構，可能只活在某個產業週期、某段牛市。

PCA 找到的東西，應該當成假說，不是結論。它告訴你市場裡可能有一股共同風險，但它沒辦法告訴你這股風險會不會在未來換到報酬補償。網路泡沫的網路股、疫情的居家概念股、前幾年的元宇宙，當時做 PCA 都會跳出一個很強的主成分，但大部分最後都沒變成像 Value 那樣能活幾十年的因子。

而台美的對比剛好提醒了一件事：同一個「半導體」概念，美股的共同因子強度（PC1 63%）明顯高於台股（46%）。如果連「這群股票有多像一個因子」都因市場而異，那把單一市場、單一產業、單一時期跑出來的 latent structure 當成普世 alpha，風險就更明顯了。

一點研究誠實的紀錄

這個實驗我跑壞過兩次，留個紀錄，因為踩的坑很典型：

第一版我把 PCA 算出來的分數直接當解釋變數，而且 sector 因子用的是同一批股票，結果 R² 高到不像話、t 值大得離譜，alpha 反而被擠大。那是機械共線，不是發現。Codex 直接打回。

第二版改成市場中性因子，才發現零均值的因子搬不動 alpha 的水準，只能吸收波動。要測 alpha 水準，必須用帶平均報酬的可交易因子。

第三版兩個市場都改成真正不重疊的 leave-out 切分，加上 35 種切法的穩健性檢查，才通過審查。也是在這一輪我才看清楚：美股的 alpha 本來就邊際、對切法敏感，所以結論只能寫成 suggestive。

我寧可文章結論弱一點，也不要假裝它強。一個 t=0.85 的 alpha 跟一個高度顯著的 alpha，是兩件事。

寫在最後

回到最初的問題：一個組合打敗市場，要記在能力帳上，還是某種沒被理解的共同風險帳上？

過去很長一段時間，我們把超額報酬叫 alpha——天賦、洞察、紀律。但資產定價幾十年的發展告訴我們，很多曾經的 alpha，最後都被重新命名成 factor。

PCA 和 AI 的價值，或許不在於直接生出 alpha，而在於幫我們更快看見市場裡那些肉眼看不到的共同結構。但找到「大家一起動」，不等於找到「會被補償的風險」。半導體這個案例裡，那個看起來像 alpha 的東西，加進一個 sector 因子就縮掉一大半，而到底它是新的風險溢酬，還是一場還在進行的敘事，需要的不是更強的演算法，是更長的時間。

真正的因子，要經得起不同市場、不同景氣、不同世代的反覆驗證。而對我們這些做量化的人來說，重要的或許不是追下一個 alpha，是一直問自己：我相信的這個超額報酬，到底來自能力、運氣，還是某個市場還沒命名的因子？

數據來源：yfinance（auto_adjust=True 日 log 報酬），2014-01-01 至 2026-06-01。美股籃子 NVDA/AMD/TSM/ASML/AMAT/MU/QCOM/AVGO + SMH/SPY；台股籃子 2330/2454/2303/3711/2379/3034/3037/2308.TW + 0050.TW。PCA 標準化後估計；alpha 年化 = 日 alpha × 252，t 值用 Newey-West HAC（lag=5）；sector 因子用 disjoint leave-out 識別；seed=42。完整方法與 35-split robustness 見實驗 K1425。本文討論為風險歸因（contemporaneous attribution），非預測，亦非投資建議。

詳情

資料來源: yfinance 2014-01~2026-06; K1425