關鍵要點:
- CoreWeave 在 8,192 張 NVIDIA GB300 GPU 上以 2.02 分鐘完成 DeepSeek-V3 671B 訓練
- 該公司在 MLPerf v6.0 基準測試中展現三種叢集規模的近線性擴展能力
- 此結果強化了 CoreWeave 在 AI 雲端領域對抗超大規模業者的競爭地位
關鍵要點:

CoreWeave 在短短兩分鐘多一點的時間內完成了擁有 6,710 億參數的 DeepSeek-V3 模型訓練,此項成果驗證了這家 AI 原生雲端供應商的全棧基礎設施策略。
CoreWeave Inc. 在 8,192 張 NVIDIA GB300 GPU 上以 2.02 分鐘完成了擁有 6,710 億參數的 DeepSeek-V3 模型訓練——這是 MLPerf Training v6.0 基準測試中的最快成績,也是該輪測試中提交的最大規模 GB300 叢集。
CoreWeave 產品與工程執行副總裁 Chen Goldberg 表示:「在全球最大的 GB300 叢集上於兩分鐘內完成 DeepSeek-V3 訓練,反映了我們多年來從底層硬體到上層模型的工程投資成果。」
該公司在三種叢集規模上展現了近線性擴展能力:8,192 張 GPU 耗時 2.02 分鐘、4,096 張 GPU 耗時 3.09 分鐘、2,048 張 GPU 耗時 5.54 分鐘。CoreWeave 還在 4,096 張 GB300 GPU 上以 9.77 分鐘完成了 Llama-3.1-405B 的訓練,所使用的 GPU 數量比同類 GB200 部署減少了 20%。在一個緊湊型 64 張 GPU 的 B200 叢集上,它分別以 26.98 分鐘和 16.54 分鐘完成了 GPT-OSS-20B 和 Llama-3.1-8B 的訓練。
這些成績是在客戶也能使用的相同基礎設施上實現的,強化了 CoreWeave 在專業 AI 訓練市場中對抗超大規模業者的競爭地位。CoreWeave 股票於 2025 年 3 月上市,在納斯達克以代碼 CRWV 交易。
MLPerf v6.0 結果揭示的 AI 訓練市場動態
MLPerf Training v6.0 於 6 月 16 日由 MLCommons 發布,新增了兩個基準測試——DeepSeek V3 和 GPT-OSS 20B——兩者均基於混合專家(Mixture-of-Experts)架構,該架構在每個 token 處理過程中僅啟動模型總參數中的一小部分。DeepSeek V3 總計使用 6,710 億個參數,每次 token 啟動 370 億個,成為該套件歷史上規模最大的基準測試。GPT-OSS 20B 總計擁有 210 億個參數,啟動 36 億個,被設計為硬體配置較小的組織的入門選項。
本輪測試共有 24 個提交組織,涵蓋 95 個獨特系統,使用了 13 種不同的硬體加速器和 19 種主機處理器。與六個月前的 5.1 版本相比,雲端系統提交數量增加了一倍以上,反映出託管式 AI 訓練市場的成長。提交的系統中有 60% 為多節點系統。
Futurum Research 研究總監 Brendan Burke 表示:「基準測試表現與生產環境現實之間的差距仍然是 AI 基礎設施領域最持久的挑戰之一。CoreWeave 在 MLPerf Training v6.0 中的成績,特別是在該基準測試最大規模的 GB300 叢集上於兩分鐘內完成 DeepSeek-V3 訓練,證明了隨著新硬體的到來,全棧 AI 專業知識能夠為實際效能帶來複合增益。」
CoreWeave 基礎設施堆疊如何驅動成果
CoreWeave 將其性能表現歸因於平台各個層面的優化。CoreWeave Mission Control 對機架級系統執行持續健康檢查,在大型訓練任務之前和期間驗證硬體、韌體、網路和散熱條件,以減少落後節點(stragglers)。該公司的 SUNK 排程器具有拓撲感知能力,將專家並行群組(expert-parallel groups)佈署於同一 NVL72 域內,以盡量減少 MoE 工作負載的跨機架通訊。其 Rail-Aware 網路策略平衡跨 fabric 的流量,以防止在數千張 GPU 規模下出現熱點。
訓練作業使用了 NVIDIA NeMo Framework Release 26.04,搭配 CUDA graphs,以及針對 GB300 NVL72 拓撲量身定制的 Tensor、Pipeline 和 Context-Parallel 分片技術,同時採用基於 RoCE 的 NVIDIA Spectrum-X 乙太網路作為擴展 fabric。
CoreWeave 是唯一在 DeepSeek-V3 上將 GB300 平台擴展至超過 2,048 張 GPU 規模的提交者。該公司也是唯一在 SemiAnalysis ClusterMAX 1.0 和 2.0 評級中均獲得最高 Platinum 排名的 AI 雲端服務商。
這對 AI 雲端競爭格局的意義
CoreWeave 的基準測試結果出爐之際,正值 AI 訓練基礎設施需求加速增長。Sharon AI(SHAZ)上週五飆升約 25%,此前該公司宣布與 NVIDIA 達成六年戰略運算合作,可能包括在澳洲 72 百萬瓦(MW)的新資料中心容量中,部署多達 40,000 張 GB300 GPU。該交易將 Sharon AI 的總 AI 工廠規模擴展至 132 百萬瓦。
對 CoreWeave 而言,MLPerf 的成果在企業正評估雲端供應商以處理大規模 AI 工作負載的關鍵時刻,為其平台提供了獨立驗證。該公司在最具挑戰性的 MoE 模型上實現近線性擴展的能力——同時使用與提供給客戶完全相同的基礎設施——為其在亞馬遜 AWS、微軟 Azure 和 Google Cloud(這些公司也提交了 v6.0 輪的結果)之間創造了一個可量化的差異化優勢。
CoreWeave 的股票於 2025 年 3 月上市,一直是 AI 基礎設施建設潮的代表標的。MLPerf 的結果為投資者提供了一個具體的基準,用以評估該公司的全棧策略是否能隨著 AI 訓練市場向稀疏運算架構轉型,轉化為可持續的競爭優勢。
本文僅供資訊參考,不構成投資建議。