← 研究動態
研究2026/06/21 上午01:00

把「打敗市場」拆開:半導體 ETF 的 9% alpha,是真本事還是沒被命名的因子?(台股美股都做了)

台股美股半導體因子投資選股

讀者互動

已追蹤瀏覽 0 次,登入會員可按讚與收藏。

分享到:LINEFacebookX / Twitter

最近有個做研究做得很細的朋友跟我聊 AI 選股,從半導體 ETF 聊到 PCA,最後卡在一個老問題上:一個投資組合大幅打敗市場,到底是真的有 alpha,還是只是扛了某種市場還沒看懂的風險?

他舉 SMH(美股半導體 ETF)當例子。過去十多年它的報酬遠超大盤,拿去做因子分析也能跑出顯著的 alpha。可是 SMH 不選股、不擇時,它只是被動持有一籃子半導體公司。既然這樣,那個 alpha 是哪來的?

這個問題值得認真做一遍,而不是用「長期向上」帶過。所以我把它變成一個實驗:對台股和美股的半導體籃子各跑一次 PCA 加因子迴歸,看那個「alpha」拆開來之後剩下什麼。台美都做,順便比較兩個市場的結構像不像。


先說結論,包含它不漂亮的地方

美股半導體 ETF(SMH)對標普 500(SPY)做迴歸,年化 alpha 約  9.2% ,t 值 1.91——看起來像免費午餐。但這個 alpha 只到邊際顯著(p=0.056),本身就站得不太穩。

關鍵的測試在後面:當我用一組 完全不重疊 的半導體股票建一個帶有平均報酬的「sector 因子」,把它加進迴歸,alpha 從 11.4% 縮到  4.0% ,t 值掉到 0.85,不再顯著。縮水約 65%。

台股這邊更直接,半導體籃子對 0050 的 alpha 一開始就不顯著(2.8%,t=0.53),根本沒有東西可以被吸收掉。

所以我不會說「alpha 完全消失了」。誠實的講法是: 證據傾向支持「sector ETF 的 alpha 主要是一種還沒被正式命名的 sector 共同因子曝險」,但這是 suggestive,不是鐵證。  美股那個 alpha 本來就邊際,而且我換了 35 種不同的股票切分方式重跑,residual alpha 落在 -5.6% 到 17.0% 之間,其中 74% 的切法都不顯著。結果對怎麼切很敏感。

數據是 yfinance 的日報酬,2014 年 1 月到 2026 年 6 月,seed 固定 42,t 值都用 Newey-West HAC(lag=5)算,因為殘差有自相關。實驗檔在 experiments/k1425/


第一步:PCA 看到的是什麼

PCA(主成分分析)做的事很單純:把一籃子股票的日報酬丟進去,它告訴你這些報酬裡「一起動」的方向有多強。

我把美股 8 檔(NVDA、AMD、TSM、ASML、AMAT、MU、QCOM、AVGO)和台股 8 檔(2330、2454、2303、3711、2379、3034、3037、2308)分別做 PCA。

第一主成分(PC1)的解釋力差很多:

市場PC1 解釋變異PC2 解釋變異
美股半導體 63.0% 7.9%
台股半導體 46.4% 10.8%

圖一:台美半導體籃子 PCA 解釋變異對比

美股那 8 檔有 63% 的波動是「一起上、一起下」。台股只有 46%,凝聚度明顯弱一截,台股半導體的個股故事比較分散,沒有像美股那樣被同一條 AI 算力敘事綁那麼緊。

PC1 的 loadings(各股在這個共同方向上的權重)全部同號,這是「共同因子」的標準長相:沒有哪一檔在唱反調。

圖三:PC1 loadings——台美籃子成分全部同號

但 PCA 只告訴你「有一股共同力量」,它不會告訴你那是什麼。你可以叫它半導體因子、AI 基建因子、算力因子,這些名字都是事後貼上去的。PCA 本身不知道它找到了什麼,它只知道這些股票確實在一起動。

這裡有個很容易踩的坑:PCA 找的是 變異量最大 的方向,不是 報酬最高 的方向。所以它找到的東西不保證是 alpha。它可能只是市場因子、利率敏感度,或者單純是當下資金最集中的地方。


第二步:把「alpha」放到顯微鏡下

要檢驗 SMH 的 alpha 是不是「未命名的 sector 因子」,不能把同一批半導體股票塞回去當解釋變數,那會機械性地共線,得到假的高 R²。(這個坑我第一版就踩了,後面講。)

正確做法是 disjoint leave-out:把半導體股票切成完全不重疊的兩半,一半拿來建「sector 因子」,另一半當被解釋的標的。這樣因子和標的不共享任何一檔股票,識別才乾淨。

迴歸分三層:

 第一層,只有市場。  sector 標的對市場(美股用 SPY、台股用 0050)迴歸。美股 alpha 11.4%(t=1.88),台股 2.8%(t=0.53)。美股看起來有點東西,台股沒有。

 第二層,加一個市場中性的 PC1。  這一步有個反直覺的結果:R² 從 0.57 衝到 0.76,beta 也顯著,但  alpha 的數值一動也不動 。原因是市場中性的 PC1 接近零均值,它能吸收「波動」但搬不動「平均報酬的水準」。共同波動很強是一回事,但光證明「大家一起動」,回答不了「這個超額報酬是哪來的」。

 第三層,加一個帶平均報酬的 sector 因子。  這才是能搬動 alpha 水準的測試。用不重疊那半股票建一個等權 long 組合(它本身帶有 sector 的平均溢酬),加進迴歸:

只有市場加 sector 因子alpha 縮水
美股 alpha(年化)11.4%(t=1.88) 4.0%(t=0.85)  約 65% 
台股 alpha(年化)2.8%(t=0.53)0.8%(t=0.16)約 72%

圖二:加入 sector 因子前後的 alpha 對比(台美)

美股 alpha 縮掉三分之二,並從「邊際顯著」掉到「不顯著」。台股本來就沒 alpha,加什麼都一樣。

我得把醜話講清楚:美股那個原始 alpha 只到 t=1.88,本來就在顯著與不顯著的邊界上。而且 35 種切分裡有 74% 不顯著。所以這不是一槌定音的證明,是一個傾向性的證據——sector ETF 看起來像 alpha 的東西,比較像是被一個還沒寫進模型的共同因子撐起來的。


為什麼這跟「alpha 變因子」的歷史是同一回事

巴菲特是最有名的例子。2018 年《Buffett's Alpha》那篇研究發現,波克夏的長期超額報酬,大部分可以用幾個因子拆解:便宜(Value)、賺錢(Quality)、體質穩(Low Risk),再加上低成本的槓桿。這不是說巴菲特沒本事,恰恰相反,他在這些因子被正式命名之前幾十年就押對了。但事後看,那個曾經被叫做天賦的東西,可以用因子描述。

投資史一直在重演這件事。小型股效應、動能效應、品質因子,剛被發現時都被當成異常報酬或某種特殊能力,後來一個個變成模型裡的標準因子。

我這個半導體實驗只是同一個故事的小型版:SMH 的 alpha,在加進一個 sector 因子之後縮掉大半。它原本是 alpha,是因為市場模型裡少放了「半導體」這個維度。

機器學習的資產定價文獻有一句話我覺得很準: alpha 經常不是能力的證明,而是模型不完整的證據。  如果你的模型本來就漏掉一個因子,那任何重壓那個因子的東西都會跑出 alpha。


那 AI 選股呢?

繞回開頭那個問題。如果 AI 比人更會找因子,那它是不是能找到更多 alpha?

技術上可以。餵幾百檔股票的報酬,用 PCA 或 clustering,AI 很容易找到傳統因子描述不了的共同結構,半導體群、雲端群、AI 基建群。再從裡面挑動能強、品質高的公司組成投資組合,拿去做因子迴歸,大概率跑出顯著 alpha。

但這裡有個陷阱,也是我那位朋友提出來的:如果 AI 的訓練目標本來就是「找出現有模型解釋不了的結構」,那它最後找到 alpha 幾乎是必然的。因為它不是在發現 alpha,它是在找現有模型還沒命名的風險曝險。

我的 SMH 例子就是這個邏輯的縮小版。FF5 模型沒有半導體因子,所以 SMH 自然會冒出 alpha。但那不代表有免費午餐,比較合理的解釋是:模型少放了一個 sector。

一個站得住的因子要過三關:能跨幾十年(持續性)、有經濟道理(為什麼承擔這個風險該被補償)、能在不同市場重複(穩健性)。Value、Momentum、Quality 過得了這三關。而很多 AI 找到的結構,可能只活在某個產業週期、某段牛市。

PCA 找到的東西,應該當成假說,不是結論。它告訴你市場裡可能有一股共同風險,但它沒辦法告訴你這股風險會不會在未來換到報酬補償。網路泡沫的網路股、疫情的居家概念股、前幾年的元宇宙,當時做 PCA 都會跳出一個很強的主成分,但大部分最後都沒變成像 Value 那樣能活幾十年的因子。

而台美的對比剛好提醒了一件事:同一個「半導體」概念,美股的共同因子強度(PC1 63%)明顯高於台股(46%)。如果連「這群股票有多像一個因子」都因市場而異,那把單一市場、單一產業、單一時期跑出來的 latent structure 當成普世 alpha,風險就更明顯了。


一點研究誠實的紀錄

這個實驗我跑壞過兩次,留個紀錄,因為踩的坑很典型:

第一版我把 PCA 算出來的分數直接當解釋變數,而且 sector 因子用的是同一批股票,結果 R² 高到不像話、t 值大得離譜,alpha 反而被擠大。那是機械共線,不是發現。Codex 直接打回。

第二版改成市場中性因子,才發現零均值的因子搬不動 alpha 的水準,只能吸收波動。要測 alpha 水準,必須用帶平均報酬的可交易因子。

第三版兩個市場都改成真正不重疊的 leave-out 切分,加上 35 種切法的穩健性檢查,才通過審查。也是在這一輪我才看清楚:美股的 alpha 本來就邊際、對切法敏感,所以結論只能寫成 suggestive。

我寧可文章結論弱一點,也不要假裝它強。一個 t=0.85 的 alpha 跟一個高度顯著的 alpha,是兩件事。


寫在最後

回到最初的問題:一個組合打敗市場,要記在能力帳上,還是某種沒被理解的共同風險帳上?

過去很長一段時間,我們把超額報酬叫 alpha——天賦、洞察、紀律。但資產定價幾十年的發展告訴我們,很多曾經的 alpha,最後都被重新命名成 factor。

PCA 和 AI 的價值,或許不在於直接生出 alpha,而在於幫我們更快看見市場裡那些肉眼看不到的共同結構。但找到「大家一起動」,不等於找到「會被補償的風險」。半導體這個案例裡,那個看起來像 alpha 的東西,加進一個 sector 因子就縮掉一大半,而到底它是新的風險溢酬,還是一場還在進行的敘事,需要的不是更強的演算法,是更長的時間。

真正的因子,要經得起不同市場、不同景氣、不同世代的反覆驗證。而對我們這些做量化的人來說,重要的或許不是追下一個 alpha,是一直問自己:我相信的這個超額報酬,到底來自能力、運氣,還是某個市場還沒命名的因子?


數據來源:yfinance(auto_adjust=True 日 log 報酬),2014-01-01 至 2026-06-01。美股籃子 NVDA/AMD/TSM/ASML/AMAT/MU/QCOM/AVGO + SMH/SPY;台股籃子 2330/2454/2303/3711/2379/3034/3037/2308.TW + 0050.TW。PCA 標準化後估計;alpha 年化 = 日 alpha × 252,t 值用 Newey-West HAC(lag=5);sector 因子用 disjoint leave-out 識別;seed=42。完整方法與 35-split robustness 見實驗 K1425。本文討論為風險歸因(contemporaneous attribution),非預測,亦非投資建議。

詳情

資料來源
yfinance 2014-01~2026-06; K1425

相關文章

先讀正式關聯,若無則使用標籤與主題相似度補齊