이수영 버티브 부장은 ‘고발열 AI서버를 위한 액체냉각 도입 준비’를 주제로 한 발표에서 “블룸버그는 생성형 AI가 2032년까지 1조3,000억달러 규모 산업이 될 것으로 전망했다”라며 “AI는 DC산업 확장을 가속할 것이며 AI 작업부하는 기존 IT부하를 대체하는 것이 아니라 추가해 나감을 의미한다”고 강조했다.
전통적인 IT솔루션은 부하를 여러 랙에 분산시켜 랙밀도를 50kW 이하로 낮게 유지할 수 있었다. 그러나 AI 워크로드는 랙밀도를 높이고 있으며 유닛당 더 많은 전력을 소모하고 네트워크 지연시간‧비용을 최소화하기 위해 더욱 조밀하게 배치되고 있다.
버티브는 이를 위해 데이터홀 리퀴드쿨링시스템 배치가 필수적이라고 강조했다. 다만 현재는 액체냉각을 준비하는 시기로서 공랭식은 미래에도 여전히 사용될 것이므로 시스템을 유지할 필요가 있다고 조언했다.
이수영 부장은 “데이터홀 리퀴드쿨링 도입 시 Feed(공급온도), Flow(유량), Filtration(여과), Fluid(유체), Faults(장애) 등 5F에 주안점을 두고 관리해야 한다”라며 “특히 액체냉각에서는 랙밀도와 함께 칩의 TDP(Thermal Design Power: 열설계전력)를 함께 고려해야 한다”고 강조했다.
TDP 700~800W 이상 칩은 공기냉각이 비효율적이거나 열을 효율적으로 발산할 수 없다. 이러한 칩을 사용하는 서버에 공랭식을 적용하며 설비비용이 지나치게 증가할 우려가 있다. 랙밀도는 TDP를 기반으로 서버당 칩 개수, 랙당 서버 수를 계산해 산출해야 하며 랙당 40~60kW 이상인 경우 액체냉각으로 전환하는 것이 경제적이다.
엔비디아 A100서버는 TDP가 400W 수준이며 H100은 800W를 나타낸다. 향후 시장을 주도할 블랙웰 라인업인 B100은 TDP가 1,000W, B200은 1,200W에 달한다. 이에 따라 새로운 서버출시에 따라 리퀴드쿨링이 더 빠르게 확산될 것으로 예상된다.
리퀴드쿨링 중 가장 활성화된 시장은 D2C(Direct to Chip)다. 서버칩과 직접 접촉해 냉각하는 콜드플레이트, 콜드플레이트까지 유체를 운반하는 호스‧매니폴드 등 2차측 배관, 플레이트에서 발생한 열을 1차측 회로와 열교환하며 유량‧압력‧필터링을 제어하는 CDU 등으로 구성된다. D2C는 GPU, CPU 등 냉각을 담당하며 메모리나 스토리지 등 저장장치를 냉각하기 위한 공랭식을 병행하는 시스템이다. 유체는 PG(프로필렌글리콜)25를 주로 활용한다.
다른 리퀴드쿨링 방식으로는 RDHx(Rear Door Heat eXchanger), 액침냉각 등이 있다. RDHx는 랙 후면에 냉각코일이 장착된 도어를 장착해 서버발열을 빨아들여 냉각 후 외부로 차가운 공기를 내뿜는 구조다. 액침냉각은 비전도성 유체에 서버를 직접 담가 냉각하는 방식이며 가장 높은 발열을 처리할 수 있는 시스템으로 1상형, 2상형으로 나뉘며 2상형이 더 높은 랙밀도 처리가 가능하다.
이수영 부장은 “버티브는 엔비디아, 인텔, 슈퍼마이크로 등 기업과 협업해 제품 아키텍처를 개발 및 지원하고 있다”라며 “특히 엔비디아와 함께 B200 솔루션에 대해 발표했으며 D2C용 CDU를 공급한다”고 밝혔다.
버티브 CDU는 450kW, 600kW, 1,350kW 라인업으로 구성돼 장비 하나당 최대 1.3MW 처리가 가능하다. CDU는 스테인리스스틸 구성으로 25㎛(마이크로미터) 또는 50㎛ 필터시스템 및 인버터‧펌프‧필터‧센서 이중화시스템을 구성한다. 고효율 열교환기를 내장하고 있으며 운영 중 유지보수가 가능해 서비스용이성을 확보했다.
이수영 부장은 “버티브는 냉동기부터 인로쿨링, RDHx, D2C CDU, 액침냉각 등 폭넓은 솔루션을 보유하고 있어 리퀴드쿨링 A부터 Z까지 공급할 수 있는 역량을 갖췄다”라고 강조했다.