CoreWeave 兩分鐘完成 DeepSeek-V3 訓練，創下 AI 雲端運算紀錄

CoreWeave 在短短兩分鐘多一點的時間內完成了擁有 6,710 億參數的 DeepSeek-V3 模型訓練，此項成果驗證了這家 AI 原生雲端供應商的全棧基礎設施策略。

CoreWeave Inc. 在 8,192 張 NVIDIA GB300 GPU 上以 2.02 分鐘完成了擁有 6,710 億參數的 DeepSeek-V3 模型訓練——這是 MLPerf Training v6.0 基準測試中的最快成績，也是該輪測試中提交的最大規模 GB300 叢集。

CoreWeave 產品與工程執行副總裁 Chen Goldberg 表示：「在全球最大的 GB300 叢集上於兩分鐘內完成 DeepSeek-V3 訓練，反映了我們多年來從底層硬體到上層模型的工程投資成果。」

該公司在三種叢集規模上展現了近線性擴展能力：8,192 張 GPU 耗時 2.02 分鐘、4,096 張 GPU 耗時 3.09 分鐘、2,048 張 GPU 耗時 5.54 分鐘。CoreWeave 還在 4,096 張 GB300 GPU 上以 9.77 分鐘完成了 Llama-3.1-405B 的訓練，所使用的 GPU 數量比同類 GB200 部署減少了 20%。在一個緊湊型 64 張 GPU 的 B200 叢集上，它分別以 26.98 分鐘和 16.54 分鐘完成了 GPT-OSS-20B 和 Llama-3.1-8B 的訓練。

這些成績是在客戶也能使用的相同基礎設施上實現的，強化了 CoreWeave 在專業 AI 訓練市場中對抗超大規模業者的競爭地位。CoreWeave 股票於 2025 年 3 月上市，在納斯達克以代碼 CRWV 交易。

MLPerf v6.0 結果揭示的 AI 訓練市場動態

MLPerf Training v6.0 於 6 月 16 日由 MLCommons 發布，新增了兩個基準測試——DeepSeek V3 和 GPT-OSS 20B——兩者均基於混合專家（Mixture-of-Experts）架構，該架構在每個 token 處理過程中僅啟動模型總參數中的一小部分。DeepSeek V3 總計使用 6,710 億個參數，每次 token 啟動 370 億個，成為該套件歷史上規模最大的基準測試。GPT-OSS 20B 總計擁有 210 億個參數，啟動 36 億個，被設計為硬體配置較小的組織的入門選項。

本輪測試共有 24 個提交組織，涵蓋 95 個獨特系統，使用了 13 種不同的硬體加速器和 19 種主機處理器。與六個月前的 5.1 版本相比，雲端系統提交數量增加了一倍以上，反映出託管式 AI 訓練市場的成長。提交的系統中有 60% 為多節點系統。

Futurum Research 研究總監 Brendan Burke 表示：「基準測試表現與生產環境現實之間的差距仍然是 AI 基礎設施領域最持久的挑戰之一。CoreWeave 在 MLPerf Training v6.0 中的成績，特別是在該基準測試最大規模的 GB300 叢集上於兩分鐘內完成 DeepSeek-V3 訓練，證明了隨著新硬體的到來，全棧 AI 專業知識能夠為實際效能帶來複合增益。」

CoreWeave 基礎設施堆疊如何驅動成果

CoreWeave 將其性能表現歸因於平台各個層面的優化。CoreWeave Mission Control 對機架級系統執行持續健康檢查，在大型訓練任務之前和期間驗證硬體、韌體、網路和散熱條件，以減少落後節點（stragglers）。該公司的 SUNK 排程器具有拓撲感知能力，將專家並行群組（expert-parallel groups）佈署於同一 NVL72 域內，以盡量減少 MoE 工作負載的跨機架通訊。其 Rail-Aware 網路策略平衡跨 fabric 的流量，以防止在數千張 GPU 規模下出現熱點。

訓練作業使用了 NVIDIA NeMo Framework Release 26.04，搭配 CUDA graphs，以及針對 GB300 NVL72 拓撲量身定制的 Tensor、Pipeline 和 Context-Parallel 分片技術，同時採用基於 RoCE 的 NVIDIA Spectrum-X 乙太網路作為擴展 fabric。

CoreWeave 是唯一在 DeepSeek-V3 上將 GB300 平台擴展至超過 2,048 張 GPU 規模的提交者。該公司也是唯一在 SemiAnalysis ClusterMAX 1.0 和 2.0 評級中均獲得最高 Platinum 排名的 AI 雲端服務商。

這對 AI 雲端競爭格局的意義

CoreWeave 的基準測試結果出爐之際，正值 AI 訓練基礎設施需求加速增長。Sharon AI（SHAZ）上週五飆升約 25%，此前該公司宣布與 NVIDIA 達成六年戰略運算合作，可能包括在澳洲 72 百萬瓦（MW）的新資料中心容量中，部署多達 40,000 張 GB300 GPU。該交易將 Sharon AI 的總 AI 工廠規模擴展至 132 百萬瓦。

對 CoreWeave 而言，MLPerf 的成果在企業正評估雲端供應商以處理大規模 AI 工作負載的關鍵時刻，為其平台提供了獨立驗證。該公司在最具挑戰性的 MoE 模型上實現近線性擴展的能力——同時使用與提供給客戶完全相同的基礎設施——為其在亞馬遜 AWS、微軟 Azure 和 Google Cloud（這些公司也提交了 v6.0 輪的結果）之間創造了一個可量化的差異化優勢。

CoreWeave 的股票於 2025 年 3 月上市，一直是 AI 基礎設施建設潮的代表標的。MLPerf 的結果為投資者提供了一個具體的基準，用以評估該公司的全棧策略是否能隨著 AI 訓練市場向稀疏運算架構轉型，轉化為可持續的競爭優勢。

本文僅供資訊參考，不構成投資建議。