OpenAI 新優化技術削減推論成本達 50%

據一位知情人士透露，OpenAI 工程師本月稍早向同事表示，他們已開發出一套優化技術，可將模型推論成本降低超過 50%。這些討論此前未曾公開。

「這是在推論效率上的一次階級性變革，直接打擊了大規模 AI 服務中最昂貴的成本項目，」該人士因細節尚未公開發布而要求匿名受訪時表示。

此項突破針對的是導致大型語言模型運營成本高昂的運算瓶頸。推論——即從已訓練模型中生成回應的過程——佔據 AI 服務提供商營運費用的絕大部分，且成本與使用量直接掛鉤。該人士表示，OpenAI 的新技術結合了多種創新方法，以減少每次查詢所需的運算量，但未透露具體方法或量產部署時間表。《The Information》率先報導了這項進展。

效率提升可使 OpenAI 的雲端運算成本每年減少數億美元，進而可能降低 API 定價，並向競爭對手——包括 Anthropic、Google 以及以接近零成本推出競爭模型的中國實驗室——施壓，迫使它們跟進同樣的經濟效益。OpenAI 最先進的模型目前每百萬輸入 tokens 收費數美元，這一價格水準限制了高用量應用的採用。

此項進展發生在 AI 產業的關鍵時刻。推論成本已成為企業廣泛採用的最大障礙，各公司將費用列為部署 AI 應用時的首要考量。若成本降低 50%，OpenAI 最先進模型的每 tokens 成本將更接近其小型產品的經濟效益，從而擴大 AI 在經濟上可行的應用場景——從即時客服到大規模文件處理。

對 OpenAI 而言，這個時機具有戰略意義。該公司正在大規模建設基礎設施，投入數十億美元用於數據中心容量和客製化晶片。本月稍早，OpenAI 與 Broadcom 發布了 Jalapeno，一款旨在挑戰 Nvidia 在數據中心運算主導地位的客製化 AI 推論晶片。客製化硬體與軟體層級優化的結合，可為 OpenAI 帶來相對於依賴 Nvidia 通用 GPU（目前毛利率超過 70%）的競爭對手的結構性成本優勢。Nvidia 的 H100 和 B200 晶片目前仍是推論領域的行業標準，但客製化專用積體電路（ASIC）越來越被視為實現更佳性價比的途徑。

競爭格局正在迅速變化。包括 DeepSeek 和阿里巴巴 Qwen 團隊在內的中國實驗室，已推出成本遠低於西方產品且性能可與之匹敵的模型，迫使 OpenAI 和 Anthropic 必須證明其高定價的合理性。據報導，DeepSeek 的最新模型在推論成本約為十分之一的情況下，實現了與 GPT-4 級別模型相當的性能。與此同時，Google 一直在大力投資其自有的客製化張量處理單元（TPU），以降低 Gemini 模型的服務成本。OpenAI 在推論成本上的突破將有助於縮小與這些低成本替代方案的差距，在維持其因性能優越而收取更高價格的能力的同時，仍提供具競爭力的經濟效益。

這項優化技術推出的同時，OpenAI 也正面臨外界對其支出的日益關注。該公司正以驚人速度燒錢，用於模型訓練和基礎設施建設，投資者已要求其提供更清晰的盈利路徑。將推論成本降低一半將直接改善 API 收入的毛利率，這是公司財務健康狀況的關鍵指標。

對投資者而言，其影響具有雙面性。較低的推論成本擴大了 AI 的整體可尋址市場（TAM），使更多應用場景變得更經濟——這對整個行業是正面因素。但這也壓縮了無法實現同等效率提升的 AI 模型提供商的利潤空間。Nvidia 的 GPU 承擔了大多數 AI 推論工作負載，若客製化晶片和軟體優化減少了每次查詢所需的運算量，該公司可能面臨逆風。OpenAI 近期報導估值達三千億美元，其單位經濟效益的改善將為估值提供支撐。微軟作為 OpenAI 的最大投資者和雲端合作夥伴，將受益於在 Azure 上運行的低成本 AI 服務，可能加速其 Copilot 產品在企業客戶中的採用。市場尚未將這些效率提升計入價格，因為這些技術仍未公開，且未經獨立基準測試驗證。

本文僅供資訊參考，不構成投資建議。