深度|DeepSeek爆發(fā),中國智算中心該怎么建?
近日,隨著DeepSeek的熱潮席卷全球,人工智能競賽也正式切換賽道進入"算法驅(qū)動算力"的深度博弈期,中國智算基礎(chǔ)設(shè)施也正面臨歷史性轉(zhuǎn)折,DeepSeek開源生態(tài)催生的算法革命,正在重構(gòu)國產(chǎn)AI芯片的軟硬協(xié)同范式。政策與技術(shù)的雙重變量已按下產(chǎn)業(yè)升級快進鍵,推動智算建設(shè)從粗放堆砌向"效能躍遷"的戰(zhàn)略轉(zhuǎn)型,將成為未來三到五年檢驗中國智算體系競爭力的核心標尺。
中國智能計算中心(智算中心)在市場需求、技術(shù)演進、成本控制、商業(yè)模式以及建設(shè)方案等方面,都面臨新的機遇與挑戰(zhàn)。IDC圈將從以下幾個方面進行深入分析:
DeepSeek日活全球第二,推理算力需求全面爆發(fā)
2023年,各路玩家競相訓(xùn)練基礎(chǔ)模型,但到2024年中期,由于前期算力投資過大導(dǎo)致投資回收期過長,許多大模型放緩了新模型訓(xùn)練計劃,導(dǎo)致高端算力一度過剩。
但DeepSeek的橫空出世迫使大模型公司估值重構(gòu),加速重構(gòu)算力市場投資邏輯。據(jù)專業(yè)機構(gòu)AI產(chǎn)品榜統(tǒng)計(2025/01/11-2025/1/31),僅包含應(yīng)用(APP)全球iOS、海外GP、以及國內(nèi)安卓市場,不含網(wǎng)站(Web),DeepSeek的MAU(月活)已經(jīng)超過3370萬,DAU(日活)達到2215萬,成為全球日活總榜第二,僅次于第一名的ChatGPT(5323萬)。也正因為此,春節(jié)后開工以來,大家使用DeepSeek收到的最多的回復(fù)就是“服務(wù)器繁忙,請稍后再試?!?
這一現(xiàn)象也在一定程度上表明國產(chǎn)智能算力能力的不足,國產(chǎn)智算集群的高效建設(shè)運營仍需時日。預(yù)計隨著生成式AI應(yīng)用落地,推理算力需求將呈現(xiàn)爆發(fā)。Mate創(chuàng)始人扎克伯格和微軟CEO薩提亞·納德拉等業(yè)內(nèi)巨頭也強調(diào),隨著AI效率提高、易用性增強,企業(yè)對AI服務(wù)的需求將呈指數(shù)級增長。他們認為持續(xù)的大規(guī)模算力投入將成為保持競爭力的關(guān)鍵。
因此,進入2025年幾大科技巨頭資本開始均出現(xiàn)大幅上漲,其中谷歌、Meta都超過了50%,亞馬遜則超過40%,其他科技大廠也均出現(xiàn)不同程度的上漲。
與此同時,隨著AI應(yīng)用下沉,企業(yè)還關(guān)注將推理部署到邊緣以降低時延和帶寬占用。運行大型模型的精簡版本于本地設(shè)備已成為趨勢,使服務(wù)更實時可靠,并降低云端壓力。例如,DeepSeek-R1等新一代開源模型宣稱實現(xiàn)小型化部署,能在筆記本乃至嵌入式設(shè)備運行強大的推理功能。這意味著智算中心不僅需提供云端算力,還可能扮演邊緣AI的訓(xùn)練支撐與協(xié)同角色,為邊緣設(shè)備提供預(yù)訓(xùn)練模型和更新支持。在未來,中心-邊緣協(xié)同的計算架構(gòu)將更普遍:中心負責訓(xùn)練大模型和復(fù)雜推理,邊緣負責本地實時推理,兩者共同滿足企業(yè)的AI需求。
智算中心核心成本趨勢及優(yōu)化策略
智算中心作為大型數(shù)據(jù)中心的特殊形態(tài),在選址規(guī)劃、基礎(chǔ)設(shè)施和能效優(yōu)化等建設(shè)環(huán)節(jié)有其獨特考量。未來3-5年,新技術(shù)和新要求將引導(dǎo)智算中心在建設(shè)層面實現(xiàn)升級,除選址、供電、冷卻、網(wǎng)絡(luò)架構(gòu)以及能源效率優(yōu)化方面之外,核心成本的趨勢變化更值得關(guān)注。
智算中心的建設(shè)和運營成本主要包括硬件設(shè)備投資、能源消耗、冷卻基礎(chǔ)設(shè)施和日常維護等方面。未來3-5年,這些成本因素的趨勢和優(yōu)化策略如下:
硬件成本趨勢:
構(gòu)建智算中心需要大量高端CPU、GPU/TPU等加速器以及高速網(wǎng)絡(luò)存儲設(shè)備。隨著半導(dǎo)體工藝提升和市場規(guī)模擴大,單位算力成本總體呈下降趨勢,但尖端AI芯片仍價格不菲,且中美技術(shù)博弈可能影響進口高端GPU的供給。中國正推進國產(chǎn)AI芯片替代,以緩解成本和供應(yīng)壓力。然而,考慮到未來模型規(guī)模增長快于硬件性能提升,滿足需求仍需要更多設(shè)備投入。例如,一個支持大模型訓(xùn)練和推理的智算中心配置1250臺服務(wù)器,每年光折舊和電費運行成本就高達10億元人民幣??梢娪布度牒驼叟f是巨大的成本壓力。未來如果采用Chiplet技術(shù)的國產(chǎn)加速器批量上市,有望降低采購成本并減少對受限進口器件的依賴。此外,硬件模塊化設(shè)計也將流行,便于漸進擴容,避免一次性巨額投資。
能源與冷卻成本:
智算中心由于大量使用GPU等高功耗芯片,能耗極為驚人。據(jù)報道,AI數(shù)據(jù)中心的耗電量可達傳統(tǒng)CPU數(shù)據(jù)中心的4倍。電力成本在運營支出中占很大比例,甚至決定項目盈虧。因此能源價格走勢直接影響智算中心成本結(jié)構(gòu)。未來隨著全球能源轉(zhuǎn)型和碳排放約束,能源成本中樞可能上升,倒逼數(shù)據(jù)中心提升能效。冷卻也是重要的耗能環(huán)節(jié),傳統(tǒng)風(fēng)冷方式在高密度AI算力場景下效率有限,需要大量空調(diào)制冷功耗。為降低PUE,許多新建智算中心開始采用液冷或浸沒式冷卻(詳見后文),短期投入增加但可換取長期電費的大幅節(jié)省。總體而言,能源成本將趨于上升,而先進冷卻和能耗管理技術(shù)是主要的降本途徑。
運維和管理成本:
智算中心的日常運營涉及人員、維護、網(wǎng)絡(luò)帶寬等花費。隨著AI集群規(guī)模擴大,智能化運維將成為必然選擇,通過自動化軟件和AI運維系統(tǒng)降低人力成本。比如利用AI進行故障預(yù)測、流量調(diào)度,可以減少宕機損失和人工干預(yù)。此外,采用統(tǒng)一的云平臺管理多租戶資源,可以提升利用率、減少閑置,從而攤薄單位算力的運維開銷。在網(wǎng)絡(luò)成本方面,若大流量訓(xùn)練數(shù)據(jù)需要從遠端傳輸,運營商專線費用不容忽視。未來可能通過分布式存儲和邊緣預(yù)處理來減少跨地域傳輸量,從而節(jié)約帶寬成本。
大模型訓(xùn)練與推理的成本優(yōu)化:
面對日益高昂的訓(xùn)練費用(據(jù)估算訓(xùn)練一個大型LLM模型電費可達數(shù)百萬美元量級),各方都在尋求降本增效策略:
1.算法層面:正如前述,利用模型剪枝、量化來減少計算;采用更高效的優(yōu)化器和并行算法(如優(yōu)化的并行通信算法減少GPU等待時間)。這些都直接降低了完成同一任務(wù)所需的計算總量。例如微軟的1-bit LAMB優(yōu)化器將通信量降低4.6倍,可在多機情況下節(jié)省大量網(wǎng)絡(luò)開銷,從而節(jié)約時間和電力成本。
2.硬件層面:選用高能效比的芯片。例如最新一代GPU每瓦性能明顯優(yōu)于上一代,盡管購置貴但長期能耗省錢。也可以針對推理使用專用ASIC(如Edge TPU、Inferentia等)來降低成本和功耗。智算中心可能會區(qū)分訓(xùn)練集群和推理集群,訓(xùn)練用最高端GPU,推理則用成本更低的加速卡,從而優(yōu)化整體投入產(chǎn)出比。
3.資源調(diào)度:通過云平臺實現(xiàn)彈性算力供給。在訓(xùn)練高峰期動態(tài)擴容GPU實例,閑時降頻或關(guān)機部分節(jié)點,避免不必要的能耗。先進的調(diào)度系統(tǒng)還能在電價低谷時執(zhí)行耗能任務(wù),在高峰時暫停,平滑電力開銷。這種“削峰填谷”的策略需要和電網(wǎng)調(diào)度聯(lián)動,以獲得更低電價,降低運營成本。
4.復(fù)現(xiàn)和共享:越來越多企業(yè)選擇不從零開始訓(xùn)練大模型,而是復(fù)現(xiàn)開源模型(如DeepSeek、LLaMA、ChatGLM等)進行微調(diào)。這大幅降低了計算量需求。例如開源LLM的普及使企業(yè)可以用幾張GPU在智算中心完成定制微調(diào),而不必像以前那樣投入上千GPU訓(xùn)練基礎(chǔ)模型。對于智算中心而言,這意味著單個任務(wù)的算力租用時長可能縮短,但任務(wù)數(shù)量會增多,因為更多中小企業(yè)也能承擔微調(diào)所需的較小算力。因此運營方應(yīng)調(diào)整計費模式,如提供更細粒度的按時計費或套餐,吸引這部分客戶,提高整體設(shè)備利用率。
總之,智算中心建設(shè)與運營成本在未來幾年會呈現(xiàn)硬件資本支出和能源成本持續(xù)攀升,形成了“高開高走”的局面。然而,通過技術(shù)進步和精細化管理,單位算力的平均成本有望實現(xiàn)“中間降”的趨勢。例如,算法優(yōu)化在突破模型或研發(fā)階段不會降低對算力的需求,只有到應(yīng)用階段才會逐漸降低成本。行業(yè)競爭和規(guī)模效應(yīng)也將迫使服務(wù)價格下降,推動運營方不斷優(yōu)化成本結(jié)構(gòu)。那些能夠在保證性能的前提下降低PUE、提升設(shè)備周轉(zhuǎn)率的智算中心,將在激烈的市場競爭中獲得優(yōu)勢。
智算中心的商業(yè)模式將在未來幾年發(fā)生演變
智算中心作為算力服務(wù)的提供者,其商業(yè)模式和盈利邏輯將在未來幾年發(fā)生演變,受開源生態(tài)、云服務(wù)模式以及算力需求變化等因素影響。
普惠紅利、服務(wù)重構(gòu)與算力突圍:
隨著DeepSeek-R1等開源模型的突然爆發(fā),加之近年涌現(xiàn)了許多開源大模型(如BERT、Stable Diffusion、LLaMA系列等),這些模型性能接近商業(yè)產(chǎn)品且免費使用。這對智算中心的盈利模式產(chǎn)生兩方面影響:
降低進入壁壘,擴大用戶群:開源模型使得眾多中小企業(yè)和開發(fā)者也能開展AI應(yīng)用研發(fā),但他們通常缺乏自有算力,于是會尋求智算中心的算力租賃來運行和微調(diào)這些模型。換言之,開源模型拓寬了市場蛋糕,長尾客戶對算力服務(wù)的需求被激發(fā)出來,智算中心可以通過提供低成本、易用的算力來服務(wù)這一批量巨大的新客戶,從而增加營收。
壓縮高端服務(wù)溢價:以前少數(shù)巨頭掌握頂尖模型,智算中心若能提供對這些模型的API服務(wù),可收取高溢價(因為模型本身稀缺且有知識產(chǎn)權(quán))。但開源模型普及后,算力提供逐漸同質(zhì)化為純算力比拼,難以因為“獨家模型”而提價。因此智算中心需要轉(zhuǎn)變思路,從賣模型轉(zhuǎn)向賣算力和配套服務(wù)。在盈利模式上,更類似傳統(tǒng)云計算的按性能/時長計費,而非按功能算法收費。這將倒逼運營商提高運營效率,以更低成本提供算力,否則利潤空間會被壓縮。
增值服務(wù)機會:盡管模型開源,但很多企業(yè)缺乏將其高效部署的能力。因此智算中心可以提供增值服務(wù)來創(chuàng)造收益,例如為客戶優(yōu)化開源模型(剪裁加速、部署優(yōu)化)、提供預(yù)訓(xùn)練模型庫和一鍵調(diào)用接口(即Model-as-a-Service,MaaS),甚至輸出整套解決方案。這些增值部分可以成為新的利潤點,部分彌補算力商品化導(dǎo)致的毛利下降。
云化轉(zhuǎn)型、期貨交易與生態(tài)聚合:
智算中心的發(fā)展與云計算密不可分。未來算力服務(wù)將更加云化、平臺化:
1.云上智算:大型云服務(wù)商(如阿里云、騰訊云、華為云等)紛紛打造AI專屬計算集群,通過云平臺對外出租GPU/TPU算力和AI開發(fā)平臺。這實際上將智算中心的功能與云結(jié)合,用戶無需建設(shè)機房,只需在云端租用所需算力。這種AI即服務(wù)(AIaaS)模式降低了AI應(yīng)用的門檻,被越來越多企業(yè)接受。對于智算中心運營方而言,可以與云廠商合作,將自身算力資源接入云市場出售,或者自行搭建云平臺直銷算力。無論哪種,服務(wù)模式從傳統(tǒng)IDC租賃轉(zhuǎn)向在線彈性租用是大勢所趨。
2.算力即資源的租賃模式:除了按時按需租用,未來還可能出現(xiàn)算力期貨、算力合約等金融化模式。比如企業(yè)可以預(yù)定未來多少算力以鎖定成本,或在算力需求低谷時購買便宜的閑置算力。這類模式需要成熟的算力交易平臺和標準計量,有望提高資源利用率。中國可能探索由政府或行業(yè)牽頭建立算力交易市場,智算中心作為供給方可以掛單出讓富余算力,需求方競價獲取,從而形成市場化定價機制。這將豐富智算中心的盈利渠道。
3.AI開發(fā)生態(tài)構(gòu)建:云化的智算中心不只是賣原始算力,還會提供AI開發(fā)全流程支持,例如數(shù)據(jù)管理、模型訓(xùn)練調(diào)度、模型評估部署等一站式平臺。這類似于提供AI研發(fā)生態(tài)(MLOps平臺)服務(wù),按項目或流水收費。通過將算力與軟件結(jié)合,增強客戶粘性和附加值。例如提供AutoML工具、預(yù)置算法庫,使客戶更高效地用掉算力,從而增加算力消耗、提高收入。
彈性調(diào)度、差異競爭與綠色協(xié)同:
面對未來算力需求的演變,中國智算中心需相應(yīng)調(diào)整運營戰(zhàn)略:
1.提升資源利用率:正如前述,目前部分智算中心存在資源閑置。運營方將更加重視提高上架率和利用率,通過引入多元用戶、彈性計費來避免算力空轉(zhuǎn)。同時采用先進的調(diào)度和虛擬化技術(shù),將碎片化的算力拼租給不同用戶,以“切片”形式提供服務(wù),做到“閑時賣給小客戶,忙時保障大項目”。
2.區(qū)域協(xié)同運營:在“東數(shù)西算”背景下,可能出現(xiàn)跨區(qū)域運營聯(lián)盟。比如東部的數(shù)據(jù)需求峰值可以動態(tài)調(diào)度到西部算力中心處理。這需要運營商之間共享調(diào)度系統(tǒng)和收益分配機制,實現(xiàn)異地算力統(tǒng)一編排。這種協(xié)同有助于提升整體算力利用,并為客戶提供更彈性的服務(wù)(按需調(diào)用全國算力)。運營商可能通過并購或聯(lián)盟擴大覆蓋范圍,形成“一云多中心”的運營格局。
3.差異化定位:隨著智算中心增多,差異化競爭顯得重要。有的中心可能專注于訓(xùn)練型算力服務(wù),提供超大規(guī)模GPU集群供企業(yè)訓(xùn)練前沿模型;有的則定位為推理服務(wù)平臺,著重優(yōu)化延遲和成本,托管大量線上推理請求;還有的結(jié)合本地產(chǎn)業(yè)成為行業(yè)算力中心,比如醫(yī)療AI計算中心、自動駕駛仿真中心等,提供垂直優(yōu)化的軟硬件環(huán)境。通過差異化,智算中心可以避開純價格戰(zhàn),在細分領(lǐng)域形成品牌溢價。
4.綠色和社會效益:未來運營策略還需考慮 ESG(環(huán)境、社會、治理)因素。打造綠色低碳成為招攬客戶和政府支持的賣點,智算中心可通過使用清潔能源、碳中和運營來獲得政策優(yōu)惠和社會認可。同時,通過為本地AI產(chǎn)業(yè)提供基礎(chǔ)設(shè)施,帶動就業(yè)和創(chuàng)新,也是爭取政府資金支持的重要邏輯。因此,智算中心運營不再僅僅是商業(yè)利潤考量,也涉及政策配合和社會價值創(chuàng)造,這將反映在其戰(zhàn)略定位上。
未來中國智算中心將在商業(yè)模式上更加靈活多元,從單純賣算力設(shè)備轉(zhuǎn)向提供綜合AI算力服務(wù)。開源大模型、云服務(wù)模式使算力服務(wù)趨于大眾化和商品化,運營商唯有提升效率、增加附加服務(wù)才能獲取穩(wěn)健收益。同時,緊跟政策導(dǎo)向、強化合作共贏,將使智算中心在算力需求的浪潮中立于不敗之地。
總之,展望未來3-5年,中國智算中心將在市場驅(qū)動下迅速發(fā)展,但同時面臨技術(shù)革新和成本控制的多重挑戰(zhàn)。從需求側(cè)的大模型熱潮、各行業(yè)上云用AI,到供給側(cè)的新架構(gòu)芯片、綠色能源方案,智算中心需要不斷演進才能匹配時代要求。可以預(yù)計,經(jīng)過這幾年的探索,中國智算中心將逐步形成高效集約、技術(shù)先進、綠色低碳、商業(yè)多元的發(fā)展格局,成為支撐數(shù)字經(jīng)濟和AI產(chǎn)業(yè)騰飛的重要基石。各參與方唯有緊抓趨勢、前瞻布局,方能在新一輪算力競賽中取得領(lǐng)先地位。
參考文獻:
1.LightReading – China's hectic AI rollout has left data centers idling
2.FanaticalFuturist – China plans 50% boost in national computing power by 2025
3.ThinkView – Analysis of the size of the Intelligent Computing Power Market in 2024
4.The Register – China’s drive for efficient datacenters has made liquid cooling mainstream
5.Synopsys – 50% of New HPC Chip Designs Will Be Multi-Die in 2025
6.The Register – Chinese RISC-V project teases 2025 debut of advanced chip
7.Datafloq – How to Optimize Data Center Energy Efficiency With AI
8.RPower – Optimizing energy usage within data centers with AI
9.AI+ – Chinese Cities Subsidize AI Computing Power
10.Microsoft Research – DeepSpeed: Accelerating large-scale model inference
11.NVIDIA – Structured Sparsity in Ampere Architecture
12.Modular – Leveraging KV Caches for Faster Response Times