加入收藏 設(shè)為首頁 聯(lián)系我們 歡迎光臨本網(wǎng)站!
郵箱:support@zcecs.com
地址:北京市西城區(qū)南濱河路27號貴都國際中心A座1111室
數(shù)據(jù)中心功耗密度持續(xù)攀升,特別是用于人工智能和高性能計算的服務(wù)器,其單個芯片的熱流密度已逼近甚至超越風(fēng)冷散熱的能力邊界。在此背景下,冷板式液冷作為一種解決方案,正從特定領(lǐng)域走向更廣泛的產(chǎn)業(yè)應(yīng)用。
與服務(wù)器“浸沒”在冷卻液中的浸沒式液冷不同,冷板式方案將液體循環(huán)的路徑準(zhǔn)確地引導(dǎo)至發(fā)熱核心部件,實(shí)現(xiàn)更為準(zhǔn)確和可控的熱量移除。
1、技術(shù)背景:從“房間降溫”到“芯片直連”
傳統(tǒng)數(shù)據(jù)中心主要依賴空氣作為冷卻介質(zhì)。這種方式需要先將空氣降溫,再吹向設(shè)備,通過強(qiáng)制對流帶走熱量。但面對數(shù)百瓦乃至上千瓦功耗的CPU、GPU,空氣的比熱容低、導(dǎo)熱性一般的物理特性成為瓶頸。
空氣冷卻如同為整個房間開啟空調(diào)以降低人體體溫,而冷板式液冷則類似于為高燒患者佩戴冰帽,進(jìn)行局部降溫。
其核心思路是將液態(tài)冷卻介質(zhì)通過密閉管路,直接輸送至發(fā)熱芯片的表面。液體(通常是水或特定介電流體)具有遠(yuǎn)高于空氣的比熱容和導(dǎo)熱系數(shù),能夠在單位時間內(nèi)、單位面積上帶走更多的熱量,滿足高熱流密度芯片的散熱需求。
2、工作原理:間接接觸與熱交換
冷板式液冷之所以稱為“冷板”,關(guān)鍵在于其核心傳熱部件——液冷冷板。它的工作方式可以分解為幾個清晰的步驟:
首先,在服務(wù)器的內(nèi)部,發(fā)熱量大的關(guān)鍵部件(如CPU、GPU)的金屬頂蓋上,會安裝一塊內(nèi)部蝕刻有復(fù)雜微通道的金屬板,這就是冷板。冷板底部與芯片表面通過導(dǎo)熱材料(如導(dǎo)熱硅脂、導(dǎo)熱墊片)緊密貼合,確保熱接觸良好。
然后,循環(huán)冷卻液從外部管路泵入冷板內(nèi)部的微通道網(wǎng)絡(luò)。當(dāng)冷卻液流經(jīng)這些通道時,與僅有一板之隔的高溫芯片進(jìn)行熱交換,液體的溫度隨之上升,從而將芯片產(chǎn)生的熱量持續(xù)帶走。
最后,被加熱的冷卻液流出服務(wù)器,進(jìn)入機(jī)房級別的循環(huán)系統(tǒng),將熱量傳遞給室外的冷卻塔或干冷器,降溫后再被泵回服務(wù)器冷板,形成一個閉合的、持續(xù)的散熱循環(huán)。
整個過程,液體與電子器件本身不直接接觸,而是在密封的金屬管路內(nèi)流動,避免了兼容性和絕緣性風(fēng)險。
3、系統(tǒng)架構(gòu):從機(jī)架到數(shù)據(jù)中心的三層循環(huán)
一套完整的冷板式液冷系統(tǒng)并非只是服務(wù)器的內(nèi)部改造,它是一個涉及三個層級循環(huán)的系統(tǒng)工程。
第一層:服務(wù)器內(nèi)部循環(huán)
這是蕞貼近熱源的環(huán)節(jié)。在部分設(shè)計中,服務(wù)器內(nèi)部會有一個小型的、準(zhǔn)確的泵和微型管路,負(fù)責(zé)將CDU分配過來的冷卻液,按需輸送給CPU、GPU等不同位置的冷板,形成一個服務(wù)器內(nèi)部的二次分配回路。
第二層:機(jī)架級分配循環(huán)
這是系統(tǒng)的關(guān)鍵樞紐,其核心設(shè)備是冷卻液分配單元。一臺CDU通常服務(wù)于一個或幾個機(jī)柜。CDU的主要功能包括:為機(jī)柜內(nèi)的服務(wù)器提供壓力和流量穩(wěn)定的冷卻液;過濾液體中的雜質(zhì);監(jiān)測液體的溫度、壓力和泄漏情況;并通過板式換熱器,將服務(wù)器循環(huán)回路的熱量傳遞給下級的機(jī)房循環(huán)回路。
CDU實(shí)現(xiàn)了兩個重要隔離:一是將服務(wù)器內(nèi)的循環(huán)與大樓級的粗獷循環(huán)隔離開,提升了可靠性;二是當(dāng)使用水等導(dǎo)電液體作為機(jī)房級介質(zhì)時,CDU可通過換熱器確保去離子水在服務(wù)器內(nèi)循環(huán),保障了電氣安全。
第三層:機(jī)房級外循環(huán)
這是將熱量蕞終排出數(shù)據(jù)中心的環(huán)節(jié)。被CDU換熱器加熱的冷卻水(通常是水),通過水泵和管道輸送至機(jī)房外的散熱設(shè)施,如冷卻塔、干冷器或與樓宇空調(diào)系統(tǒng)結(jié)合,完成蕞終的熱量耗散。
4、設(shè)計考量:關(guān)鍵部件與工程權(quán)衡
實(shí)施冷板式液冷需要進(jìn)行多方面的細(xì)致設(shè)計和權(quán)衡。
冷板本身的設(shè)計是核心,其內(nèi)部微通道的流道形狀、分布、壓降與散熱能力需要根據(jù)芯片的熱圖進(jìn)行仿真優(yōu)化,力求在流動阻力、制造成本和散熱效果間取得平衡。
冷卻工質(zhì)的選擇也影響很大。去離子水因其高比熱容、低成本和易獲取成為主流選擇,但須嚴(yán)格監(jiān)控其電導(dǎo)率以防腐蝕和漏電。在一些特殊場景,也會使用介電流體。
系統(tǒng)的冗余設(shè)計和可靠性至關(guān)重要。CDU、泵、室外冷卻設(shè)備等都需要考慮N+1或備用配置,如同數(shù)據(jù)中心的供電系統(tǒng)一樣,防止單點(diǎn)故障導(dǎo)致服務(wù)器過熱。
與現(xiàn)有基礎(chǔ)設(shè)施的兼容與改造是需要面對的現(xiàn)實(shí)問題。新建數(shù)據(jù)中心可以整體規(guī)劃管路布局,而對現(xiàn)有風(fēng)冷數(shù)據(jù)中心進(jìn)行改造,則需要評估樓板承重、空間布局和管道敷設(shè)路徑。
5、應(yīng)用特點(diǎn)與適用場景
冷板式液冷技術(shù)展現(xiàn)出的特點(diǎn),決定了其應(yīng)用方向。
它在散熱能力上具備優(yōu)勢,可穩(wěn)定支持單芯片功耗超過500瓦甚至更高的場景,輕松應(yīng)對高密度計算集群的熱負(fù)荷。通常,采用該技術(shù)的數(shù)據(jù)中心,其電能利用效率有望降低至1.15甚至更優(yōu)的水平。
其次,它在部署上具有一定的靈活性。服務(wù)器可以采用部分液冷(僅冷卻CPU/GPU)+部分風(fēng)冷(冷卻內(nèi)存、硬盤等其他部件)的混合模式,降低了技術(shù)導(dǎo)入的復(fù)雜度和風(fēng)險。
從投資和運(yùn)維角度看,其技術(shù)復(fù)雜性和初期投入高于傳統(tǒng)風(fēng)冷系統(tǒng)。專用冷板、CDU、管路及監(jiān)控系統(tǒng)都增加了成本。運(yùn)維團(tuán)隊也需要掌握液體化學(xué)管理、管路維護(hù)等新技能。
因此,該技術(shù)當(dāng)前主要應(yīng)用于對算力密度和能效有明確需求的場景,例如人工智能訓(xùn)練平臺、高性能計算中心、超大規(guī)模云數(shù)據(jù)中心的特定高密度機(jī)柜,以及軍事、科研等特殊領(lǐng)域。
6、未來展望:技術(shù)演進(jìn)與生態(tài)成熟
冷板式液冷并非散熱技術(shù)的終點(diǎn),而是通向更高熱管理路徑上的重要階段。隨著芯片功耗的持續(xù)增長,冷板的設(shè)計將更加精細(xì)化,與芯片封裝的結(jié)合可能更緊密。
未來,系統(tǒng)設(shè)計的標(biāo)準(zhǔn)化將是推動其規(guī);瘧(yīng)用的關(guān)鍵,包括冷板接口、快換接頭、CDU規(guī)格等方面的統(tǒng)一,可以降低成本并提升互操作性。
與此同時,智能化管理也將成為標(biāo)準(zhǔn)配置。通過傳感器監(jiān)測各路冷卻液的流量、溫度和壓力,結(jié)合服務(wù)器負(fù)載數(shù)據(jù),動態(tài)調(diào)整冷卻策略,實(shí)現(xiàn)從“充分冷卻”到“準(zhǔn)確冷卻”的演進(jìn),進(jìn)一步挖掘節(jié)能潛力。
當(dāng)人工智能等前沿科技持續(xù)推高算力需求,服務(wù)器內(nèi)的熱量管理已從輔助課題變?yōu)楹诵奶魬?zhàn)之一。冷板式液冷技術(shù)通過將液體準(zhǔn)確引至熱源,提供了一條可行的散熱路徑。
它背后反映的是數(shù)據(jù)中心基礎(chǔ)設(shè)施與IT技術(shù)協(xié)同演進(jìn)的大趨勢,即在追求更高計算密度的同時,須構(gòu)建與之匹配的、更具針對性的物理環(huán)境支持系統(tǒng)。
關(guān)鍵詞: