當(dāng)前位置：首頁 > 新聞資訊 > 人工智能應(yīng)用 > deepseek大模型生態(tài)報告,AI供應(yīng)鏈格局將被重塑,基礎(chǔ)模型層商品化,為應(yīng)用開發(fā)者帶來新機遇

deepseek大模型生態(tài)報告,AI供應(yīng)鏈格局將被重塑,基礎(chǔ)模型層商品化,為應(yīng)用開發(fā)者帶來新機遇

來源：賽迪智庫電子信息研究所編輯：創(chuàng)澤時間：2025/3/6 主題：其他 [加盟]

DeepSeek 對中國最大的啟示，還是“開放”二字。無論是心態(tài)上還是方法上，都要毫不動搖地堅持開放，繼續(xù)開放。 DeepSeek 的勝利，就是開源打敗閉源。OpenAI 以前是開源的，后來變成閉源的，這次 DeepSeek 爆火之后，OpenAI 的奧特曼也出來說話，承認(rèn)閉源是一種戰(zhàn)略錯誤。

本周圍繞 DeepSeek 的熱議，讓許多人清晰地看到了幾個一直存在的重要趨勢：美國在 GenAI領(lǐng)域的領(lǐng)先地位正在被中國迎頭趕上，AI 供應(yīng)鏈格局將被重塑；開放權(quán)重模型正在推動基礎(chǔ)模型層商品化，為應(yīng)用開發(fā)者帶來新機遇；擴大規(guī)模并非通往 AI 進步的唯一途徑。盡管算力備受追捧，但算法創(chuàng)新正在快速降低訓(xùn)練成本。

“DeepSeek 可能會開辟一個全新的由中國引領(lǐng)的技術(shù) 生態(tài)系統(tǒng)，這會讓全球的開發(fā)者因 DeepSeek 開發(fā)的低成本、更高效的人工智能產(chǎn)品而受益�！币晃� TMT 領(lǐng)域投資人如是說，“這種競爭從某種程度來說也將打破美國科技巨頭的市場主導(dǎo)地位。

大模型訓(xùn)練降低成本主要靠兩招：壓縮、并行和提升硬件使用效率。DeepSeek-V3 這次所用的方法基本上就是猛揮這三板斧。

1. 壓縮：從結(jié)構(gòu)到量化

壓縮很容易理解，就是把大的東西壓縮成小的。對于模型訓(xùn)練來講，壓縮之后，運算單元（GPU 和 CPU）需要進行的運算數(shù)據(jù)量就會減少，運算速率必然會提升。另一個重要影響是，內(nèi)存占用和緩存會減少，這樣訓(xùn)練同樣大小的模型所需要的硬件規(guī)模也可以大幅減少。

2. 并行：對硬件的極限使用

要實現(xiàn)更快的訓(xùn)練速度，最有效的方法就是增加并行計算的規(guī)模，讓更多的計算單元同時處理不同的數(shù)據(jù)或任務(wù)。而在并行中，需要解決的問題就是盡可能的有效利用計算資源，讓它們都高負(fù)載的工作。

DeepSeek-V3 這回真的可以說是在訓(xùn)練工程上無所不用其極�？偨Y(jié)下來，最重要的包括以下這么幾個方面。

DeepSeek-V3 的橫空出世，用一組的數(shù)據(jù)完美詮釋了沒有 GPU Poor，只有卷得不夠多。當(dāng) o1、Claude、Gemini 和 Llama 3 等模型還在為數(shù)億美元的訓(xùn)練成本苦惱時， DeepSeek-V3 用 557.6 萬美元的預(yù)算，在 2048 個 H800 GPU集群上僅花費 3.7 天/萬億 tokens 的訓(xùn)練時間，就達(dá)到了足以與它們比肩的性能。這意味著每萬億 tokens 僅需 180K 個 H800 GPU 小時，總計 278 萬 GPU 小時的訓(xùn)練成本。而 Llama 3.1 的訓(xùn)練使用了 16,384 塊 Nvidia H100 GPU，總計 2100 多萬 GPU 小時，翻了十倍。通過 671B 的總參數(shù)量，在每個 token 激活 37B 參數(shù)的精準(zhǔn)控制下，DeepSeek-V3 用 14.8 萬億高質(zhì)量多樣化 token，構(gòu)建出了一個能夠超越所有開源模型，直逼 GPT-4 和 Claude-3.5 的 AI 巨人。

附件：deepseek大模型生態(tài)報告,AI供應(yīng)鏈格局將被重塑,基礎(chǔ)模型層商品化,為應(yīng)用開發(fā)者帶來新機遇