The chip war is here! 1 million cards vs 50 million cards, Ultraman and Musk "gods fighting"

華爾街見聞
2025.07.23 08:50
portai
I'm PortAI, I can summarize articles.

OpenAI 計劃在年底前上線 100 萬張 GPU,標誌着新一輪芯片戰爭的開始。這一目標是馬斯克旗下 xAI 訓練 Grok 4 所用 20 萬 GPU 的 5 倍,顯示出 OpenAI 在算力基礎設施上的自主性和行業野心。儘管有報道稱星門計劃進展不順,OpenAI 仍與甲骨文加大投資,計劃擴容 4.5 吉瓦。與此同時,馬斯克提出 xAI 將在五年內部署 5000 萬張 H100 GPU 的目標,預計將推動英偉達市值上升。

OpenAI 年底前將上線 100 萬張 GPU,直觀感受就是新一輪芯片戰爭打響了。

7 月 21 日,奧特曼在推特上預告,OpenAI 到年底前將上線超過 100 萬張 GPU。他還補充道,“對團隊感到自豪,但現在他們最好想想,怎麼在這個數量規模上再擴容 100 倍。”

奧特曼官宣 OpenAI“百萬 GPU” 目標

這句看似簡單的預告,實則暗藏多重信號:

首先,規模碾壓對手。OpenAI 的目標不再是 10 萬卡,20 萬卡,要做就做 100 萬卡,這一規模將達到馬斯克旗下 xAI 訓練 Grok 4 所用 20 萬 GPU 的 5 倍;

其次,戰略自主。算力基礎設施的躍進,意味着 OpenAI 正逐步擺脱對微軟 Azure 的依賴——過去其算力高度綁定微軟,如今通過自建數據中心(如星門計劃)掌握主動權;

最後,OpenAI 的行業野心也一覽無餘。“擴容 100 倍” 直指 AGI 所需的終極算力目標,一場以算力為基石的 AI 軍備競賽已進入白熱化。

這裏還有個小插曲——就在奧特曼定下衝刺 100 萬卡目標之後,華爾街日報就下場拆台,稱星門計劃進度不順利,軟銀遲遲掏不出錢。但 OpenAI 隨即 “滅火”:不僅官宣與甲骨文加碼投資,將星門計劃擴容 4.5 吉瓦,還強調一期項目已部分投入運營,多方合作進展順利。

隨後,馬斯克更是直接 “放衞星”,5 年內,xAI 要部署到 5000 萬張 H100 GPU 的等效算力。

馬斯克提出 xAI 五年內 5000 萬卡目標

按照單卡平均 4 萬美元粗略計算,100 萬卡規模,僅 GPU 部分價值就高達 400 億美元,這種燒錢量級和速度,在科技行業也是前所未有,基本接近一線巨頭們的年資本支出。

英偉達對此自然是樂見其成,問題是,行業數以萬計的計算卡需求,會將英偉達的市值推向什麼高度

我們把視線再拉回算力上,OpenAI 最近一次受算力影響最大的案例是 3 月份上線的 “吉卜力風格” 生圖功能,官方一度對產品做了限流處理,包括對生圖的速率進行暫時性限制,將免費用户的生成額度限制在每日 3 次。奧特曼還在推特上高喊 “我們的 GPU 快要融化了”,表面是宣傳產品,也可以看做是給猶豫不決的投資人 “上眼藥”

顯然,星門計劃還在籌資階段,OpenAI、軟銀、甲骨文們雖然能湊出 500 多億美元,但還有一半的缺口要通過債務融資完成,想要刺激投資人們掏錢,就得釋放一些星門計劃合理性的信號。

奧特曼 “腳踏三隻船”

OpenAI 對算力的追逐由來已久,其算力來源包括自研、星門計劃、微軟三個主要渠道。

關於自研芯片這件事,一度傳出奧特曼要籌集 7 萬億美元下場造芯的消息。不過,去年 2 月份,奧特曼委婉的否認了此事,在他與英特爾前任 CEO 帕特·基辛格的爐邊談話中曾説過:“我們確實認為世界需要在 AI 計算(芯片)領域投入大量資金”。

根據行業的跟蹤和研究數據,OpenAI 自研芯片一直在有序推進,其首款產品最快 2026 年問世

科技公司自研芯片路線圖,標紅為已發佈,* 代表待確認,來源 HSBC

滙豐銀行研究團隊 6 月下旬披露了一份科技公司自研 ASIC 的進度表,包括谷歌、Meta、亞馬遜、微軟、xAI 等等在內的硅谷公司,清一色下場自研 AI 芯片。

研報顯示,OpenAI 首款 3 納米自研芯片由博通代工設計,代號為 Titan V.1,將於 2026 年發佈,更先進的 Titan V.2 芯片將於 2028 年問世,但不確定為 2nm 工藝還是 A16(1.6nm)工藝。

一位長期跟蹤半導體產業的分析師 Paul 則在推特上披露了 OpenAI 自研芯片的詳細規格和發佈時間 (如上圖),強調 Titan V.1 將在 2026 年第三季度問世,核心配置包括 N3 工藝、144GB HBM3e 顯存、兩顆計算芯片,採用 CoWoS-S 封裝等,但他認為,Titan V.2 將於 2027 年第三季度問世,比滙豐銀行的分析師團隊預測的 2028 年稍稍提前。

自研屬於長線規劃,在這條路跑通之前,OpenAI 的腳開始伸向微軟之外的 “另一條船”,牽頭搭建算力基礎設施

今年 1 月份,OpenAI 聯合軟銀、甲骨文推出星門項目,計劃四年在美國投資 5000 億美元,搭建算力基礎設施,首期投資 1000 億美元,其中軟銀承擔財務責任,OpenAI 負運營責任。

這裏的重點是,運營權才是奧特曼在星門計劃中想得到的——想怎麼分配怎麼分配,打不打價格戰全都自己説了算。

美國得州阿比林星門項目工地航拍,來源:OpenAI

4 個月之後,OpenAI 又攢了一個 “阿聯酋版” 星門計劃,計劃聯合 G42、甲骨文、英偉達、軟銀等合作伙伴,在當地構建一個 1 吉瓦的數據中心,預計 2026 年投入使用。

這些宏大的基礎設施項目兑現之前,OpenAI 的算力供給仍然依賴微軟——兩家自 2019 年開始合作,微軟向其提供了超過 130 億美元的直接投資,同時成為 OpenAI 獨家算力提供商,微軟則在 OpenAI 的模型、收入分成等方面獲得優先權,比如可獲得 OpenAI 49% 的利潤分配權,最多可達到 1200 億美元。

依賴微軟,也要避免被微軟 “卡脖子”。從 7 萬億美元造芯傳聞,到 5000 億的星門計劃,再到阿聯酋版星門,OpenAI 核心邏輯是構建一個由自己主導,不斷堆高的宏大算力敍事。

沒有規模化的算力,就會隨時被谷歌的價格戰碾壓,而規模化是谷歌的先天優勢。產品層面,缺算力就如同 “巧婦難為無米之炊”,就會出現更多 “吉卜力風格” 生圖能力受限的問題,所以之前才會就有小道消息説,伊利亞因為算力需求被砍憤而離職、GPT-5、DALL-E 等就是因為算力短缺而被迫延遲發佈等等。

巧合的是,在 OpenAI“猛踩油門” 的時候,微軟卻輕點了一下剎車。

今年 4 月份,美國券商 TD Cowen 分析師稱,微軟放棄了在美國和歐洲的 2 吉瓦新數據中心項目,微軟官方的回覆稱數據中心容量都是多年前規劃,現在各地佈局都已完善,所以做了一些靈活性的戰略調整。

微軟的戰略收縮,其實從去年底納德拉接受 BG2 播客訪談中就能找到信號,他當時毫不避諱的強調和奧特曼的分歧,“我們需要用嚴謹的方式來思考如何有效利用現有設備。同時也要考慮設備的使用壽命,不能一味地購買新設備。除非 GPU 的性能和成本能帶來顯著改善,讓利潤率達到或超過大型雲服務商的水平,否則我們不會輕舉妄動。”

大家都在追逐算力的安全感,納德拉認為存量算力已經足夠,需要精細化運營,奧特曼擔心的是算力不夠成為新模型、產品的掣肘。

於是,雙方越走越遠。

今年 1 月,微軟選擇了放手,與 OpenAI 修訂了合作條款,允許其使用第三方供應商的計算資源,很快甲骨文、CoreWeave 這些雲廠,逐個都跟 OpenAI 簽訂了租賃協議。當然,為了體面,微軟依舊擁有提供算力的優先合作權。

The Information 援引投資人會議的消息稱,OpenAI 計劃到 2030 年,將 75% 的算力來源轉移至星門項目上

算力戰爭 “燒掉” 2.5 萬億

OpenAI 追逐算力,內部要實現 “算力自主可控”,外部則是應對硅谷巨頭們的 “算力戰爭”。

7 月 16 日,The Information 上線了專訪 Meta CEO 扎克伯格的內容,扎克伯格稱 Meta 正在建設多個數據中心集羣。

“我們的人員正在夜以繼日地工作於普羅米修斯(Prometheus)和亥伯龍(Hyperion)項目中,這是我們的前兩個泰坦(Titan)集羣,都將超過 1 吉瓦。亥伯龍將在未來幾年擴展到 5 吉瓦。我分享過它的圖片,從佔地面積來看,這個數據中心的規模佔了曼哈頓的相當一部分。它太龐大了。” 扎克伯格説。

Meta 位於曼哈頓的亥伯龍數據中心項目示意圖 來源:扎克伯格

1 吉瓦的數據中心是個什麼概念?

假設 Meta 在建的1 吉瓦亥伯龍數據中心全部部署 GB200 NVL72 機架,按照單機架 140KW 的功耗計算,總計可容納 7100+ 個機架,由於每個機架內置 72 張 GPU,總計大約 51 萬張 GPU,按照單機架 300 萬美元來折算,7100 多個機架的總成本就超過 210 億美元。

而如果 OpenAI 和甲骨文新擴容的 4.5 吉瓦項目兑現,那麼未來 OpenAI 藉助星門計劃掌握的 GPU 就有可能衝到接近 250 萬張 GPU 的規模。

到 2026 年的超大規模訓練集羣,來源:SemiAnalysis

7 月 21 日,知名研究機構 SemiAnalysis 基於其數據中心和加速器模型,披露了到 2026 年底,Anthropic、OpenAI 和 Meta 的訓練集羣數據。SemiAnalysis 列舉了 Meta 的另一個 1 吉瓦容量的普羅米修斯數據中心項目,其採用 GB200/300 混搭,GPU 總量達到 50 萬張,與我們對亥伯龍數據中心的預估結果基本一致。

能耗方面,1 吉瓦的 GB200 NVL72 數據中心,全年 365 天 24 小時滿負荷運行,預計需要 87.6 億度電。作為對比,日本東京 2023 年全年的用電量也就 1300 億度。

SemiAnalysis 的跟蹤數據中未包含 xAI,但作為 OpenAI 的頭號對手,xAI 同樣在 “瘋狂” 投資基礎設施。

7 月 10 日,xAI 公佈了旗下 Grok 4 模型,馬斯克在直播中透露該模型是在一個擁有超過 20 萬張 H100 GPU 的超級計算機集羣。這句話的重點不止於這個 20 萬卡的集羣,還在於 xAI 數據集羣建設速度上——距離上一個節點 “10 萬卡” 集羣建成僅僅過去了 9 個月。

更誇張的是,xAI 旗下首個 10 萬卡級別的 Colossus AI 超級計算機集羣,從建設到投入運營,耗時 122 天,建設效率 “捲上天”。

關於為什麼要這麼卷基礎設施建設,馬斯克在直播中透露過自己的邏輯,他強調如果依賴雲廠的算力,協調一個 10 萬卡的集羣,預計需要 18 到 24 個月。“我們想,18 到 24 個月,這意味着失敗是必然的。” 馬斯克説。

自建 122 天,協調雲廠的算力最快需要 18 個月,這也一定程度上可以解釋為什麼 OpenAI 不打算和微軟一起玩了——靠外部合作伙伴來協調算力效率太低,租賃算力只能作為短期過渡方案,只有自己主導才能可控

可以想象這樣一幅畫面:當 OpenAI 推出吉卜力風格圖片生成時,奧特曼説 “我們的 GPU 快要融化了”,轉身向微軟協調算力支持卻碰了軟釘子——得到的回覆竟是 “你再等等”。此刻的奧特曼,內心恐怕只剩下一聲無奈的嘆息。

2023-2025 年,AI 基礎設施建設資本支出趨勢變化 來源:The Business Engineer

回到 xAI 的 20 萬卡集羣上來,按 H100 單卡 2.5 萬美元-3 萬美元的價格,大致可以估算一下成本,整個 GPU 部分的成本就需要 50 億美元-60 億美元,這還不包括基建和運營、維護的成本。

OpenAI、xAI、Meta 在數據中心上的投入,是行業 AI 資本支出擴張的一個縮影。

The Business Engineer 分析師 Gennaro Cuofano 今年 5 月份發佈一份研究報告,內容援引硅谷公司的業績、行業預測數據,梳理了 2023、2024、2025 三個年度硅谷大公司在 AI 上的資本支出,對應數值分別為 1700 億美元、2560 億美元、3600 億美元。

全年 3600 億美元,摺合人民幣超過 2.5 萬億元,這個規模相比 2023 年增長超過 110%。更重要的是,大公司的 AI 支出佔據了全行業 85% 以上,這也意味着 AI 基礎設施建設的 “馬太效應” 不斷強化——未來頭部雲廠將掌握着行業的核心資源。

巨頭們紛紛捲入這場 2.5 萬億美元算力戰爭,也還有一個值得關注的背景——OBBB(大漂亮法案)簽署通過。

根據法案,科技巨頭們的大型數據中心基礎設施建設、研發等都可獲得税收抵免。以設備全額折舊為例,比如企業購買價值 1 億美元的服務器等數據中心硬件。 按傳統折舊規則需要分 5 年進行,每年只能抵扣 2000 萬美元。 根據法案,企業可在購置當年一次性抵扣 1 億美元應納税所得額。

業務上有需求,競爭對手都在卷,政策又變相的起到了催化劑作用,都刺激着奧特曼、扎克伯格和馬斯克們,迫不及待的再打一場硅谷芯片戰爭。

如果非要問一個問題,有了百萬級的 GPU,人類能打開 AGI 時代的大門嗎?

風險提示及免責條款

市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。