智算依舊以CPU為主,相變浸沒式液冷是必須嗎?
“2022年,液冷滲透率約3%-5%,2023年大概8%-10%,但接下來增長趨勢會非常驚人,我們預計會有30%-40%的增長率?!笔锕鈹?shù)創(chuàng)副總裁兼CTO張鵬博士日前接受采訪時對液冷市場做出判斷,并進一步指出,目前冷板式的技術與產業(yè)鏈已經成熟,是應用的主流,與浸沒式的比例約為9:1。但伴隨智算需求的提升,數(shù)據(jù)中心設計、建設的改變,GPU應用增多后,這一比例將發(fā)生改變,浸沒式中的相變浸沒將進一步發(fā)展。
為什么相變浸沒式液冷是未來
據(jù)《全球數(shù)字經濟白皮書(2024年)》,截至目前,全球人工智能大模型數(shù)量為1328個(包含同一企業(yè)、同一模型的不同參數(shù)版本),中國大模型數(shù)量位居第二位,占比為36%,約478個。這需要海量智算的支撐,液冷也隨之爆發(fā),張鵬指出,液冷的快速增長主要是三個原因。
一是降低PUE與節(jié)能減碳的要求,多項政策在推進數(shù)據(jù)中心降低PUE,部分還明確了液冷占比,如《上海市智能算力基礎設施高質量發(fā)展“算力浦江”智算行動實施方案(2024-2025年)》指出,到2025年,上海市新建智算中心PUE值達到1.25以下,液冷機柜數(shù)量占比超過50%。液冷也為余熱回收的利用提供了更高的可能,液冷條件下的余熱能量更高,為就近的居民用熱乃至農業(yè)用熱提供新思路。
二是芯片功率提高,液冷能夠更好地滿足高散熱需求。同體積液體帶走的熱量是同體積空氣的3000倍以上,能夠高效降溫。
三是液冷能夠更充分地釋放芯片計算潛能的需要,這也是尤為重要的一點。如果制冷能力不足,為了安全穩(wěn)定的運行,GPU需要降頻,而這就影響了計算能力,液冷可高效地解決這一問題,確保芯片計算能力的全火力輸出。
相變浸沒式液冷被認為能夠從中脫穎而出便是主要源于更高的散熱需求,是市場的需求與選擇。張鵬指出,目前數(shù)據(jù)中心建設還是以CPU為主,CPU與GPU的比例約8:2,但是未來可能會變成6:4或5:5。基于智算需求,以CPU為主的新建數(shù)據(jù)中心,機柜設計功率建議要到20KW;伴隨GPU比例提升,機柜設計功率則要達到60-100千瓦乃至更高。
換句話說,伴隨GPU應用增多,數(shù)據(jù)中心功率將持續(xù)提升,這就要求更高的散熱效率。據(jù)張鵬介紹,與冷板式與單相浸沒式相比,相變浸沒式制冷效率更高。如同當前風冷占比減少,冷板式占比提高一樣,相變浸沒式也將實現(xiàn)進一步發(fā)展,這是散熱的需要,是保證芯片計算力輸出的需要。
同時張鵬提到,不論是冷板式還是相變浸沒式都是因市場而發(fā)展,但液冷與風冷不是非黑即白的關系。風冷有其適用場景,液冷占整個數(shù)據(jù)中心散熱市場的60%便可能會達到極限,如金融對安全性更為看中,功率卻不高,便可以利用風冷散熱。
相變浸沒式液冷是否已準備就緒
技術的大規(guī)模應用需要兩個基本支撐,一是成熟的技術,二是產業(yè)化生產能力。目前,國內唯一實現(xiàn)全浸式液體相變冷卻大規(guī)模商業(yè)化部署的企業(yè)是曙光數(shù)創(chuàng),其在重慶和多個東部一二線城市均有相變浸沒式數(shù)據(jù)中心的建設實踐。以此來看,相變浸沒式已基本滿足技術與產業(yè)化兩項條件。
技術方面,據(jù)張鵬介紹,曙光數(shù)創(chuàng)相變浸沒液冷系統(tǒng)在6大關鍵技術實現(xiàn)了創(chuàng)新突破。具體來看,在浸沒冷媒新材料上實現(xiàn)了聯(lián)合研發(fā)、自主可控;材料兼容性技術上,構建了兼容性數(shù)據(jù)庫;高速信號衰減抑制技術上,能提供信號完整性的保障;結構密封與機電轉接上,實現(xiàn)了氣液循環(huán)的密封解決方案;高效相變換熱技術上,完成了液冷的創(chuàng)新應用;相變換熱自動控制技術上,可進行智能化系統(tǒng)管理。
通過對這6項技術的攻克,曙光數(shù)創(chuàng)實現(xiàn)了產品的持續(xù)更新和迭代升級,為相變浸沒式的應用提供了技術基礎。
產業(yè)化方面,曙光數(shù)創(chuàng)不斷進行優(yōu)化,以提升生產效率,實現(xiàn)降本增效,推動相變浸沒的應用。如曙光數(shù)創(chuàng)在山東青島建設投產了目前我國規(guī)模最大的液冷數(shù)據(jù)中心全鏈條產業(yè)創(chuàng)新基地,該基地囊括研發(fā)、生產和保障三大功能區(qū),擁有七大研發(fā)創(chuàng)新實驗室和四條先進生產線,實現(xiàn)專業(yè)的全鏈條、一站式系統(tǒng)解決方案的創(chuàng)新研發(fā)和生產,能夠有效降本增效,提升交付能力,提高保密性,推進生產發(fā)展。
技術與產業(yè)化能力的發(fā)展,為相變浸沒式的應用推廣奠定了基石。除此之外,也應認識到相變浸沒式的發(fā)展目前依舊存在諸多挑戰(zhàn),需要加大投入,這也是曙光數(shù)創(chuàng)能夠保持領先并不斷突破的重要原因。據(jù)根據(jù)財報來看,2023年研發(fā)投入共計6825.33萬元,2024年第一季度研發(fā)費用總額超1440萬元,相較于2023年第一季度同比增長超過4%。這將有效促進相變浸沒式的技術革新與商業(yè)化進程,為滿足未來數(shù)據(jù)中心更高的散熱需求做好準備。
當前數(shù)據(jù)中心中依舊是CPU為主,為應對智算需求,功率便需要達到20KW,伴隨GPU比例的提升,功率將極大提高,且未來將進一步升高,面對這一情況,相變浸沒式應用將增多。目前,曙光數(shù)創(chuàng)已經實現(xiàn)了6項核心技術的突破,產業(yè)化能力在快速提高,投入也將持續(xù)加大,這為相變浸沒式的應用打下了基礎,將為未來算力的發(fā)展提供有效助力。


