생성형 인공지능(AI) 경쟁이 치열해지면서 데이터센터의 승부처도 달라지고 있다. 과거에는 얼마나 많은 그래픽처리장치(GPU)를 확보했는지가 경쟁력을 좌우했다면, 이제는 확보한 GPU를 얼마나 안정적이고 효율적으로 운영할 수 있느냐가 핵심 경쟁력으로 떠오르고 있다. AI GPU의 전력 소비와 발열이 빠르게 증가하면서 냉각 기술이 AI 데이터센터 경쟁력을 좌우하는 핵심 요소로 부상하는 모습이다.
AI 모델이 대형화될수록 연산량도 함께 늘어나고 있다. 이에 따라 AI 학습과 추론에 사용되는 GPU 역시 세대가 거듭될수록 더 높은 성능과 함께 더 많은 전력을 요구한다. 업계에서는 초고밀도 GPU 클러스터 환경에서 기존 공랭 방식의 한계를 보완하기 위해 D2C(Direct-to-Chip) 수랭과 액체냉각 기술 도입이 확대되고 있다.
냉각 기술은 단순히 서버 온도를 낮추는 역할에 그치지 않는다. GPU 온도가 일정 수준 이상으로 상승하면 장비를 보호하기 위해 연산 성능을 자동으로 낮추는 '스로틀링(throttling)'이 발생할 수 있다. 같은 GPU를 사용하더라도 열을 얼마나 효율적으로 제어하느냐에 따라 실제 연산 성능과 운영 안정성, 전력 효율이 달라질 수 있다는 의미다.
이 같은 변화는 글로벌 슈퍼컴퓨터 성능 평가에서도 확인된다. 세계 슈퍼컴퓨터 순위인 TOP500은 GPU의 이론상 최대 성능(Rpeak)이 아니라 실제 연산 성능(Rmax)을 기준으로 순위를 산정한다. 단순히 최신 GPU를 많이 확보하는 것만으로는 높은 성능을 구현하기 어렵고, 전력과 냉각, 네트워크를 얼마나 효율적으로 설계하고 운영하느냐가 실제 성능을 좌우하는 요소로 작용한다.
국내 기업들도 AI 전용 데이터센터 경쟁력 확보에 속도를 내고 있다.
NHN클라우드는 AI 인프라 브랜드 '팩토리X'를 통해 D2C 수랭 기반 GPU 클러스터를 구축하고 있다. 최근 글로벌 슈퍼컴퓨터 TOP500에서 국내 최고 순위인 20위에 오른 GPU 클러스터 역시 이러한 인프라 운영 기술을 기반으로 구현됐다. 회사는 B200 GPU 4080장을 하나의 클러스터로 구성하는 과정이 가장 큰 기술적 과제였다고 설명했다. 국가 AI 데이터센터 운영 경험을 바탕으로 GPU 클러스터링 기술을 고도화했으며, 전력·냉각·네트워크 기술이 유기적으로 연계돼 GPU 성능을 효율적으로 구현할 수 있었다는 설명이다.
LG유플러스도 AI 전용 데이터센터 구축 과정에서 액체냉각 기술을 핵심 요소로 적용하고 있다. AI 전용 데이터센터에서는 GPU 성능뿐 아니라 전력 공급과 냉각 효율, 네트워크 설계가 함께 최적화돼야 대규모 AI 연산을 안정적으로 수행할 수 있다는 판단에서다.
업계에서는 앞으로 AI 인프라 경쟁의 기준이 단순한 GPU 확보를 넘어 운영 기술 경쟁으로 확대될 것으로 보고 있다. AI 서비스의 성능과 비용 경쟁력은 GPU 자체보다 이를 얼마나 안정적으로 운영하고 전력 효율을 높일 수 있는지에 따라 결정되는 비중이 더욱 커질 것이라는 분석이다.
업계 관계자는 "GPU 품귀 현상은 당분간 이어질 것으로 보이지만 GPU 세대가 발전하며 성능이 높아질수록 전력과 냉방 기술의 역할은 더욱 커질 것"이라며 "AI 데이터센터의 경쟁력도 GPU 확보뿐 아니라 전력과 냉각, 네트워크를 아우르는 운영 역량에서 판가름 날 것"이라고 말했다.
AI 모델이 대형화될수록 연산량도 함께 늘어나고 있다. 이에 따라 AI 학습과 추론에 사용되는 GPU 역시 세대가 거듭될수록 더 높은 성능과 함께 더 많은 전력을 요구한다. 업계에서는 초고밀도 GPU 클러스터 환경에서 기존 공랭 방식의 한계를 보완하기 위해 D2C(Direct-to-Chip) 수랭과 액체냉각 기술 도입이 확대되고 있다.
냉각 기술은 단순히 서버 온도를 낮추는 역할에 그치지 않는다. GPU 온도가 일정 수준 이상으로 상승하면 장비를 보호하기 위해 연산 성능을 자동으로 낮추는 '스로틀링(throttling)'이 발생할 수 있다. 같은 GPU를 사용하더라도 열을 얼마나 효율적으로 제어하느냐에 따라 실제 연산 성능과 운영 안정성, 전력 효율이 달라질 수 있다는 의미다.
이 같은 변화는 글로벌 슈퍼컴퓨터 성능 평가에서도 확인된다. 세계 슈퍼컴퓨터 순위인 TOP500은 GPU의 이론상 최대 성능(Rpeak)이 아니라 실제 연산 성능(Rmax)을 기준으로 순위를 산정한다. 단순히 최신 GPU를 많이 확보하는 것만으로는 높은 성능을 구현하기 어렵고, 전력과 냉각, 네트워크를 얼마나 효율적으로 설계하고 운영하느냐가 실제 성능을 좌우하는 요소로 작용한다.
국내 기업들도 AI 전용 데이터센터 경쟁력 확보에 속도를 내고 있다.
NHN클라우드는 AI 인프라 브랜드 '팩토리X'를 통해 D2C 수랭 기반 GPU 클러스터를 구축하고 있다. 최근 글로벌 슈퍼컴퓨터 TOP500에서 국내 최고 순위인 20위에 오른 GPU 클러스터 역시 이러한 인프라 운영 기술을 기반으로 구현됐다. 회사는 B200 GPU 4080장을 하나의 클러스터로 구성하는 과정이 가장 큰 기술적 과제였다고 설명했다. 국가 AI 데이터센터 운영 경험을 바탕으로 GPU 클러스터링 기술을 고도화했으며, 전력·냉각·네트워크 기술이 유기적으로 연계돼 GPU 성능을 효율적으로 구현할 수 있었다는 설명이다.
LG유플러스도 AI 전용 데이터센터 구축 과정에서 액체냉각 기술을 핵심 요소로 적용하고 있다. AI 전용 데이터센터에서는 GPU 성능뿐 아니라 전력 공급과 냉각 효율, 네트워크 설계가 함께 최적화돼야 대규모 AI 연산을 안정적으로 수행할 수 있다는 판단에서다.
업계에서는 앞으로 AI 인프라 경쟁의 기준이 단순한 GPU 확보를 넘어 운영 기술 경쟁으로 확대될 것으로 보고 있다. AI 서비스의 성능과 비용 경쟁력은 GPU 자체보다 이를 얼마나 안정적으로 운영하고 전력 효율을 높일 수 있는지에 따라 결정되는 비중이 더욱 커질 것이라는 분석이다.
업계 관계자는 "GPU 품귀 현상은 당분간 이어질 것으로 보이지만 GPU 세대가 발전하며 성능이 높아질수록 전력과 냉방 기술의 역할은 더욱 커질 것"이라며 "AI 데이터센터의 경쟁력도 GPU 확보뿐 아니라 전력과 냉각, 네트워크를 아우르는 운영 역량에서 판가름 날 것"이라고 말했다.