智算依舊以CPU為主,相變浸沒(méi)式液冷是必須嗎?
“2022年,液冷滲透率約3%-5%,2023年大概8%-10%,但接下來(lái)增長(zhǎng)趨勢(shì)會(huì)非常驚人,我們預(yù)計(jì)會(huì)有30%-40%的增長(zhǎng)率?!笔锕鈹?shù)創(chuàng)副總裁兼CTO張鵬博士日前接受采訪時(shí)對(duì)液冷市場(chǎng)做出判斷,并進(jìn)一步指出,目前冷板式的技術(shù)與產(chǎn)業(yè)鏈已經(jīng)成熟,是應(yīng)用的主流,與浸沒(méi)式的比例約為9:1。但伴隨智算需求的提升,數(shù)據(jù)中心設(shè)計(jì)、建設(shè)的改變,GPU應(yīng)用增多后,這一比例將發(fā)生改變,浸沒(méi)式中的相變浸沒(méi)將進(jìn)一步發(fā)展。
為什么相變浸沒(méi)式液冷是未來(lái)
據(jù)《全球數(shù)字經(jīng)濟(jì)白皮書(shū)(2024年)》,截至目前,全球人工智能大模型數(shù)量為1328個(gè)(包含同一企業(yè)、同一模型的不同參數(shù)版本),中國(guó)大模型數(shù)量位居第二位,占比為36%,約478個(gè)。這需要海量智算的支撐,液冷也隨之爆發(fā),張鵬指出,液冷的快速增長(zhǎng)主要是三個(gè)原因。
一是降低PUE與節(jié)能減碳的要求,多項(xiàng)政策在推進(jìn)數(shù)據(jù)中心降低PUE,部分還明確了液冷占比,如《上海市智能算力基礎(chǔ)設(shè)施高質(zhì)量發(fā)展“算力浦江”智算行動(dòng)實(shí)施方案(2024-2025年)》指出,到2025年,上海市新建智算中心PUE值達(dá)到1.25以下,液冷機(jī)柜數(shù)量占比超過(guò)50%。液冷也為余熱回收的利用提供了更高的可能,液冷條件下的余熱能量更高,為就近的居民用熱乃至農(nóng)業(yè)用熱提供新思路。
二是芯片功率提高,液冷能夠更好地滿足高散熱需求。同體積液體帶走的熱量是同體積空氣的3000倍以上,能夠高效降溫。
三是液冷能夠更充分地釋放芯片計(jì)算潛能的需要,這也是尤為重要的一點(diǎn)。如果制冷能力不足,為了安全穩(wěn)定的運(yùn)行,GPU需要降頻,而這就影響了計(jì)算能力,液冷可高效地解決這一問(wèn)題,確保芯片計(jì)算能力的全火力輸出。
相變浸沒(méi)式液冷被認(rèn)為能夠從中脫穎而出便是主要源于更高的散熱需求,是市場(chǎng)的需求與選擇。張鵬指出,目前數(shù)據(jù)中心建設(shè)還是以CPU為主,CPU與GPU的比例約8:2,但是未來(lái)可能會(huì)變成6:4或5:5?;谥撬阈枨?,以CPU為主的新建數(shù)據(jù)中心,機(jī)柜設(shè)計(jì)功率建議要到20KW;伴隨GPU比例提升,機(jī)柜設(shè)計(jì)功率則要達(dá)到60-100千瓦乃至更高。
換句話說(shuō),伴隨GPU應(yīng)用增多,數(shù)據(jù)中心功率將持續(xù)提升,這就要求更高的散熱效率。據(jù)張鵬介紹,與冷板式與單相浸沒(méi)式相比,相變浸沒(méi)式制冷效率更高。如同當(dāng)前風(fēng)冷占比減少,冷板式占比提高一樣,相變浸沒(méi)式也將實(shí)現(xiàn)進(jìn)一步發(fā)展,這是散熱的需要,是保證芯片計(jì)算力輸出的需要。
同時(shí)張鵬提到,不論是冷板式還是相變浸沒(méi)式都是因市場(chǎng)而發(fā)展,但液冷與風(fēng)冷不是非黑即白的關(guān)系。風(fēng)冷有其適用場(chǎng)景,液冷占整個(gè)數(shù)據(jù)中心散熱市場(chǎng)的60%便可能會(huì)達(dá)到極限,如金融對(duì)安全性更為看中,功率卻不高,便可以利用風(fēng)冷散熱。
相變浸沒(méi)式液冷是否已準(zhǔn)備就緒
技術(shù)的大規(guī)模應(yīng)用需要兩個(gè)基本支撐,一是成熟的技術(shù),二是產(chǎn)業(yè)化生產(chǎn)能力。目前,國(guó)內(nèi)唯一實(shí)現(xiàn)全浸式液體相變冷卻大規(guī)模商業(yè)化部署的企業(yè)是曙光數(shù)創(chuàng),其在重慶和多個(gè)東部一二線城市均有相變浸沒(méi)式數(shù)據(jù)中心的建設(shè)實(shí)踐。以此來(lái)看,相變浸沒(méi)式已基本滿足技術(shù)與產(chǎn)業(yè)化兩項(xiàng)條件。
技術(shù)方面,據(jù)張鵬介紹,曙光數(shù)創(chuàng)相變浸沒(méi)液冷系統(tǒng)在6大關(guān)鍵技術(shù)實(shí)現(xiàn)了創(chuàng)新突破。具體來(lái)看,在浸沒(méi)冷媒新材料上實(shí)現(xiàn)了聯(lián)合研發(fā)、自主可控;材料兼容性技術(shù)上,構(gòu)建了兼容性數(shù)據(jù)庫(kù);高速信號(hào)衰減抑制技術(shù)上,能提供信號(hào)完整性的保障;結(jié)構(gòu)密封與機(jī)電轉(zhuǎn)接上,實(shí)現(xiàn)了氣液循環(huán)的密封解決方案;高效相變換熱技術(shù)上,完成了液冷的創(chuàng)新應(yīng)用;相變換熱自動(dòng)控制技術(shù)上,可進(jìn)行智能化系統(tǒng)管理。
通過(guò)對(duì)這6項(xiàng)技術(shù)的攻克,曙光數(shù)創(chuàng)實(shí)現(xiàn)了產(chǎn)品的持續(xù)更新和迭代升級(jí),為相變浸沒(méi)式的應(yīng)用提供了技術(shù)基礎(chǔ)。
產(chǎn)業(yè)化方面,曙光數(shù)創(chuàng)不斷進(jìn)行優(yōu)化,以提升生產(chǎn)效率,實(shí)現(xiàn)降本增效,推動(dòng)相變浸沒(méi)的應(yīng)用。如曙光數(shù)創(chuàng)在山東青島建設(shè)投產(chǎn)了目前我國(guó)規(guī)模最大的液冷數(shù)據(jù)中心全鏈條產(chǎn)業(yè)創(chuàng)新基地,該基地囊括研發(fā)、生產(chǎn)和保障三大功能區(qū),擁有七大研發(fā)創(chuàng)新實(shí)驗(yàn)室和四條先進(jìn)生產(chǎn)線,實(shí)現(xiàn)專業(yè)的全鏈條、一站式系統(tǒng)解決方案的創(chuàng)新研發(fā)和生產(chǎn),能夠有效降本增效,提升交付能力,提高保密性,推進(jìn)生產(chǎn)發(fā)展。
技術(shù)與產(chǎn)業(yè)化能力的發(fā)展,為相變浸沒(méi)式的應(yīng)用推廣奠定了基石。除此之外,也應(yīng)認(rèn)識(shí)到相變浸沒(méi)式的發(fā)展目前依舊存在諸多挑戰(zhàn),需要加大投入,這也是曙光數(shù)創(chuàng)能夠保持領(lǐng)先并不斷突破的重要原因。據(jù)根據(jù)財(cái)報(bào)來(lái)看,2023年研發(fā)投入共計(jì)6825.33萬(wàn)元,2024年第一季度研發(fā)費(fèi)用總額超1440萬(wàn)元,相較于2023年第一季度同比增長(zhǎng)超過(guò)4%。這將有效促進(jìn)相變浸沒(méi)式的技術(shù)革新與商業(yè)化進(jìn)程,為滿足未來(lái)數(shù)據(jù)中心更高的散熱需求做好準(zhǔn)備。
當(dāng)前數(shù)據(jù)中心中依舊是CPU為主,為應(yīng)對(duì)智算需求,功率便需要達(dá)到20KW,伴隨GPU比例的提升,功率將極大提高,且未來(lái)將進(jìn)一步升高,面對(duì)這一情況,相變浸沒(méi)式應(yīng)用將增多。目前,曙光數(shù)創(chuàng)已經(jīng)實(shí)現(xiàn)了6項(xiàng)核心技術(shù)的突破,產(chǎn)業(yè)化能力在快速提高,投入也將持續(xù)加大,這為相變浸沒(méi)式的應(yīng)用打下了基礎(chǔ),將為未來(lái)算力的發(fā)展提供有效助力。