OpenAI 工程師找到將 AI 模型推論成本削減超過一半的方法,重塑了 AI 產業的經濟格局。
OpenAI 工程師找到將 AI 模型推論成本削減超過一半的方法,重塑了 AI 產業的經濟格局。

據一位知情人士透露,OpenAI 工程師本月稍早向同事表示,他們已開發出一套優化技術,可將模型推論成本降低超過 50%。這些討論此前未曾公開。
「這是在推論效率上的一次階級性變革,直接打擊了大規模 AI 服務中最昂貴的成本項目,」該人士因細節尚未公開發布而要求匿名受訪時表示。
此項突破針對的是導致大型語言模型運營成本高昂的運算瓶頸。推論——即從已訓練模型中生成回應的過程——佔據 AI 服務提供商營運費用的絕大部分,且成本與使用量直接掛鉤。該人士表示,OpenAI 的新技術結合了多種創新方法,以減少每次查詢所需的運算量,但未透露具體方法或量產部署時間表。《The Information》率先報導了這項進展。
效率提升可使 OpenAI 的雲端運算成本每年減少數億美元,進而可能降低 API 定價,並向競爭對手——包括 Anthropic、Google 以及以接近零成本推出競爭模型的中國實驗室——施壓,迫使它們跟進同樣的經濟效益。OpenAI 最先進的模型目前每百萬輸入 tokens 收費數美元,這一價格水準限制了高用量應用的採用。
此項進展發生在 AI 產業的關鍵時刻。推論成本已成為企業廣泛採用的最大障礙,各公司將費用列為部署 AI 應用時的首要考量。若成本降低 50%,OpenAI 最先進模型的每 tokens 成本將更接近其小型產品的經濟效益,從而擴大 AI 在經濟上可行的應用場景——從即時客服到大規模文件處理。
對 OpenAI 而言,這個時機具有戰略意義。該公司正在大規模建設基礎設施,投入數十億美元用於數據中心容量和客製化晶片。本月稍早,OpenAI 與 Broadcom 發布了 Jalapeno,一款旨在挑戰 Nvidia 在數據中心運算主導地位的客製化 AI 推論晶片。客製化硬體與軟體層級優化的結合,可為 OpenAI 帶來相對於依賴 Nvidia 通用 GPU(目前毛利率超過 70%)的競爭對手的結構性成本優勢。Nvidia 的 H100 和 B200 晶片目前仍是推論領域的行業標準,但客製化專用積體電路(ASIC)越來越被視為實現更佳性價比的途徑。
競爭格局正在迅速變化。包括 DeepSeek 和阿里巴巴 Qwen 團隊在內的中國實驗室,已推出成本遠低於西方產品且性能可與之匹敵的模型,迫使 OpenAI 和 Anthropic 必須證明其高定價的合理性。據報導,DeepSeek 的最新模型在推論成本約為十分之一的情況下,實現了與 GPT-4 級別模型相當的性能。與此同時,Google 一直在大力投資其自有的客製化張量處理單元(TPU),以降低 Gemini 模型的服務成本。OpenAI 在推論成本上的突破將有助於縮小與這些低成本替代方案的差距,在維持其因性能優越而收取更高價格的能力的同時,仍提供具競爭力的經濟效益。
這項優化技術推出的同時,OpenAI 也正面臨外界對其支出的日益關注。該公司正以驚人速度燒錢,用於模型訓練和基礎設施建設,投資者已要求其提供更清晰的盈利路徑。將推論成本降低一半將直接改善 API 收入的毛利率,這是公司財務健康狀況的關鍵指標。
對投資者而言,其影響具有雙面性。較低的推論成本擴大了 AI 的整體可尋址市場(TAM),使更多應用場景變得更經濟——這對整個行業是正面因素。但這也壓縮了無法實現同等效率提升的 AI 模型提供商的利潤空間。Nvidia 的 GPU 承擔了大多數 AI 推論工作負載,若客製化晶片和軟體優化減少了每次查詢所需的運算量,該公司可能面臨逆風。OpenAI 近期報導估值達三千億美元,其單位經濟效益的改善將為估值提供支撐。微軟作為 OpenAI 的最大投資者和雲端合作夥伴,將受益於在 Azure 上運行的低成本 AI 服務,可能加速其 Copilot 產品在企業客戶中的採用。市場尚未將這些效率提升計入價格,因為這些技術仍未公開,且未經獨立基準測試驗證。
本文僅供資訊參考,不構成投資建議。