年耗電超過(guò)三峽大壩發(fā)電,數(shù)據(jù)中心節(jié)能提上議程
每到廠商發(fā)布服務(wù)器硬件時(shí),都會(huì)用可觀的性能提升圖表來(lái)吸引客戶,然而事實(shí)是,無(wú)論是服務(wù)器CPU、GPU還是內(nèi)存,其功耗都是在大幅增加的。以英偉達(dá)的數(shù)據(jù)中心GPU為例,目前最普及的A100 GPU功耗在250W到300W,而新公布的H100 GPU功耗已經(jīng)翻倍至700W。
在如此高的功耗下,早在2017年,國(guó)內(nèi)數(shù)據(jù)中心的年度耗電量就已經(jīng)超過(guò)1000億千瓦時(shí),也超過(guò)了三峽大壩的發(fā)電量。更可怕的是,這個(gè)數(shù)字還在一直攀升,目前數(shù)據(jù)中心用電量已經(jīng)占了全社會(huì)耗電量的1.5%到2%左右了。
每年近一半浪費(fèi),中國(guó)開(kāi)始數(shù)據(jù)中心改革
在數(shù)據(jù)中心的能效指標(biāo)中,最重要的就是數(shù)據(jù)中心電能利用效率,也就是PUE。PUE代表了IT設(shè)備占總耗電的比值,這個(gè)指標(biāo)越接近1,也就意味著制冷、供配電等非IT設(shè)備的耗能占比越低。
2021年7月,工信部印發(fā)了《新型數(shù)據(jù)中心發(fā)展三年行動(dòng)計(jì)劃(2021-2023)》,其中對(duì)數(shù)據(jù)中心的能效和算力做了規(guī)劃,目標(biāo)是在2021年底全國(guó)數(shù)據(jù)中心平均利用率爭(zhēng)取提升到55%以上,總算力超過(guò)120EFLOPS,新建大型及以上數(shù)據(jù)中心PUE降低到1.35以下。
而此次三年行動(dòng)的最終目標(biāo)是將平均利用率提升到60%以上,總算力超過(guò)200EFLOPS,新建大型及以上數(shù)據(jù)中心PUE降低到1.3以下,更容易控制散熱功耗的嚴(yán)寒與寒冷地區(qū)爭(zhēng)取降低到1.25以下。
可以看出早在這一計(jì)劃提出前,我國(guó)的數(shù)據(jù)中心平均利用率是不及55%,這意味著在全中國(guó)的數(shù)據(jù)中心運(yùn)維成本中,有45%是完全被浪費(fèi)掉了,如果能將整體利用率提升至目標(biāo)中說(shuō)的60%,
但事實(shí)上,如果只是控制大型及以上數(shù)據(jù)中心的PUE,很難起到整體提高能效的作用,固然在全年耗電量中大型和超大型數(shù)據(jù)中心占了很大一部分,但這些項(xiàng)目通常都是經(jīng)過(guò)云服務(wù)企業(yè)、政府審批的,往往早在立項(xiàng)之初就考慮到了能效。但中小型數(shù)據(jù)中心的亂象才是最難解決的問(wèn)題,雖然行動(dòng)計(jì)劃給出了改造升級(jí)“老舊小散”數(shù)據(jù)中心的任務(wù),但這類(lèi)任務(wù)畢竟不比老舊建筑改造,需要考慮的因素也更加復(fù)雜。
還有一點(diǎn)需要關(guān)注,那就是數(shù)據(jù)中心的利用率的提升其實(shí)并沒(méi)有那么容易,尤其是某些云服務(wù)廠商的數(shù)據(jù)中心。云服務(wù)講究的是按需收費(fèi),所以云服務(wù)廠商往往都會(huì)在資源利用上都會(huì)留有余地。固然我們可以利用大量共享硬件的實(shí)例提高利用率,但這難免會(huì)對(duì)云應(yīng)用的性能造成影響,顯現(xiàn)在我們的日常應(yīng)用上就是軟件響應(yīng)時(shí)間變長(zhǎng)、搶購(gòu)商品崩潰或是視頻碼率降低等。
但我們沒(méi)法對(duì)沒(méi)有利用上的服務(wù)器想關(guān)就關(guān),且不說(shuō)開(kāi)關(guān)本身消耗的電能,這種頻繁操作對(duì)于數(shù)據(jù)中心另一個(gè)昂貴的硬件資源,存儲(chǔ),也會(huì)造成嚴(yán)重磨損。所以,如何在留有余地的同時(shí),動(dòng)態(tài)調(diào)整能耗,并充分利用分布式計(jì)算,才是這些數(shù)據(jù)中心需要突破的。
氮化鎵拯救數(shù)據(jù)中心電源的效率
除了提高IT硬件本身的能效比之外,還有一種思路就是從數(shù)據(jù)中心的PSU電源上下手。PSU負(fù)責(zé)將輸入的交流電轉(zhuǎn)化為直流電,但就是這樣一個(gè)電能轉(zhuǎn)換裝置,卻占據(jù)了近1/4的耗電量,僅次于CPU等IT器件。正因如此,不少PSU廠商開(kāi)始在其產(chǎn)品中利用新的電源技術(shù),比如寬禁帶材料氮化鎵。
目前PSU追求的都是80 Plus這一推薦能效標(biāo)準(zhǔn),這一標(biāo)準(zhǔn)規(guī)定了在額定負(fù)載的20%、50%和100%下,都要擁有80%以上的能效。而要想達(dá)到80 Plus Titanium,這一標(biāo)準(zhǔn)PSU在不同負(fù)載下的能效要做到超過(guò)90%。傳統(tǒng)的硅超結(jié)MOSFET方案,固然也有做到90%以上的方案,但這每提升1%,對(duì)大型數(shù)據(jù)中心而言就意味著可觀的能耗減少,況且傳統(tǒng)硅基方案在低負(fù)載下的高效能存在挑戰(zhàn),而不用說(shuō)功率密度難以堆上去了。
氮化鎵PSU與硅基PSU功率密度和能效對(duì)比/GaN Systems
而在利用氮化鎵這一技術(shù)后,其功率密度可以輕松達(dá)到100W/in3,能效達(dá)到95%以上。這樣一來(lái),數(shù)據(jù)中心可以在保證機(jī)架高度不變的情況下,用上更小的PSU電源模塊,多出來(lái)的空間可以加裝更多的DIMM內(nèi)存,甚至是CPU。
既然氮化鎵能做到如此高的能效,那么同為寬禁帶材料的碳化硅是否也能勝任呢?如果單從能效的角度來(lái)說(shuō),擁有更低導(dǎo)通電阻和更快開(kāi)關(guān)速度的氮化鎵還是要更勝一籌,這也是為何無(wú)論是不少寬禁帶半導(dǎo)體廠商,比如英飛凌、安森美、GaN Systems,相繼在PSU上推出氮化鎵解決方案的原因。
結(jié)論
在數(shù)據(jù)中心提高能效的這條路上,除了規(guī)范標(biāo)準(zhǔn)和提高PSU或UPS這些電源模塊的能效外,發(fā)展新型冷卻技術(shù)也是另一種高效的方法,尤其是在數(shù)據(jù)中心的計(jì)算密度越來(lái)越大的情況下,水下數(shù)據(jù)中心就是一種可以嘗試的應(yīng)用場(chǎng)景。與此同時(shí),能源本身的管理也與數(shù)據(jù)中心息息相關(guān),就拿智能電網(wǎng)技術(shù)來(lái)說(shuō),這一技術(shù)的發(fā)展可以進(jìn)一步降低數(shù)據(jù)中心的運(yùn)營(yíng)成本和能耗,但智能電網(wǎng)的數(shù)據(jù)分析和優(yōu)化本身,也需要靠數(shù)據(jù)中心的支持。


