AI DC로 거듭난 네이버 ‘각 세종’, 전력공급 이중화로 'AI풀스택' 극대화

각 세종에서 AI DC 특화된 인프라 경쟁력 소개역량 내재화·설비 이중화로 서비스 안정성 확보AI 풀스택 역량 기반 GPUaaS로 비즈니스 확장

▲ ⓒ네이버클라우드

네이버 데이터센터 ‘각 세종’이 AI 풀스택 역량을 바탕으로 AI 데이터센터로 거듭나고 있다. 내재화된 데이터센터 운영 역량과 기술, 이원화된 시스템을 바탕으로 GPUaaS 기반 성장을 가속화한다는 목표다.

네이버클라우드는 지난 27일 데이터센터 각 세종에서 테크밋업 행사를 열고 AI 데이터센터 역량을 공유했다.

각 세종은 하이퍼스케일 데이터센터로서 2023년 11월 1단계 구축을 마쳤다. 2013년 오픈한 각 춘천 운영 경험을 통해 쌓은 노하우를 바탕으로 기획부터 구축, 운용과 실행까지 네이버의 기술력이 집약된 것이 특징이다. 모듈 형태로 확장성을 확보해 6차까지 증설 시 60만 유닛의 서버를 수용할 수 있으며, 이는 국립중앙도서관 100만개 수준 데이터 양을 처리하는 규모다.

데이터센터 구축에서 핵심적으로 신경 쓴 부분은 서비스 안정성 확보를 위한 이중화 작업이다. 특히 AI DC에서 중요한 전력 구축을 위해 135MW 규모 전력 공급을 이중화하며 총 270MW 전력을 공급할 수 있도록 구축했다. 데이터센터 내 모든 전력 계통은 실사용되는 액티브 전력과 비상상황을 대비한 스탠바이 전력이 두 개 이상 짝을 이뤘다.

네트워크 환경도 이원화됐다. 서비스별 충분한 용량을 확보하기 위해 분산배치했고, 하이퍼클로바X와 같은 AI 서비스를 안정적으로 제공하기 위한 네트워크 인프라를 갖췄다. 한쪽 시스템이 다운되더라도 서비스에 피해가 없도록 재해복구시스템(DR)도 철저히 적용해 국내만 아니라 해외에서도 글로벌 리전 10개를 구축했다.

각 세종은 서버실과 배터리가 분리돼 국정자원 화재와 같은 사고 발생 요인을 원천 차단했다. 지하에 기계실과 정비실, UPS실 등이 배치됐고 서버실은 지상 1-2층에 위치해 철저히 공간적으로 분리시켰고, 상호 화재로부터 영향을 받지 않기 위한 차폐에도 신경썼다. 배터리 화재 시 진화를 위한 소화가스에 더해 스크링쿨러 설치도 마쳤다는 설명이다.

GPU 발열로 AI DC 운용의 핵심 요소로 꼽히는 서버 냉각은 네이버가 자체 개발한 외기활용 냉방 기술 ‘NAMU’ 시스템이 적용됐으며, 찬물이 흐르는 벽에 외기로 끌어온 바람을 통과시켜 온도를 낮추는 방식이다. 각 세종에는 직접 외기와 간접외기를 활용한 하이브리드 시스템을 갖춘 ‘NAMU3’가 적용됐다. 습도가 높은 여름에는 배기열을 활용하고 겨울에는 배기열과 외기를 섞어서 적정 온도를 유지하며, 냉방 시스템도 양방향으로 이중화해 효율성과 안정성을 높인 구조다.

하이퍼스케일 데이터센터 운용을 위해 개발·적용한 기술은 AI 시대에 걸맞는 ‘인텔리전트 센터’ 전환 흐름에도 부합한다는 설명이다. 네이버는 직접 공간을 구성하고 사용하며 내재화된 최적화 역량을 AI DC에서 핵심 경쟁력으로 꼽았다.

이상준 네이버클라우드 CIO는 “AI 인프라 경쟁력은 GPU를 얼마나 많이 확보하는가를 넘어 확보한 자원을 안정적이고 효율적으로 운영하는지에 달려있다”며 “GPU 확보와 운영 기술 내재화를 통해 AI 인프라 경쟁력을 갖췄다”고 말했다.

AI를 위한 데이터센터 기술은 전력과 네트워크 등 무중단 운영을 위한 핵심 자원 이원화를 염두에 두고 서버실과 배터리실을 완전히 분리하는 설계부터 시작된다. 또한 주어진 자원을 효율적으로 사용하기 위해 검증과 설계 등 내부 프로세스를 거쳐 최적의 아키텍처를 만들어내는 일이 AI시대에 더 필요하다는 설명이다.

네이버는 그동안 각 춘천을 10년 넘게 운영하면서 쌓은 기술 노하우와 전문인력 등 운영 역량을 내재화했다는 점도 다른 AI DC와 차별화 포인트로 꼽았다. 노상민 네이버클라우드 데이터센터 통합 센터장은 “다른 기업에서 운영하는 상면을 임차해서 쓸 때 같은 회사라도 각각 업무역량이 다르다는 것을 느낀다”며 “데이터센터 직군이 부서 하나로 구성돼 모든 이슈나 장애를 일원화해 처리하며 어느 센터에서도 상향 평준화된 역량을 보유하도록 노력하고 있다”고 강조했다.

물리적 운영 기반 위에서 작동하는 ‘AI 플랫폼’은 모델 개발부터 학습과 추론, 서빙까지 AI 전 과정을 하나로 연결하는 통합 운영 체계다. GPU 자원을 효율적으로 배분하고 모니터링하며 운영 효율성을 높이기 위함이다. 내부적으로는 하이퍼클로바 학습과 운영이 플랫폼 위에서 이뤄지면서 GPU 자원 배분과 모델 관리, 스케줄링 등이 효율적으로 통제된다.

네이버는 AI 데이터센터 구축과 운영, 모델 개발 등 내재화된 ‘AI 풀스택’ 역량을 기반으로 다양한 사업모델을 확장하고 있다. 하이퍼클로바X 기반으로 산업에 특화된 버티컬 모델을 만드는 한편, 필요한 애플리케이션을 구축하는 비즈니스도 영위하고 있다.

특히 네이버클라우드에서 힘을 싣는 부분은 CSP(클라우드 서비스 사업자)로서 GPUaaS 모델이다. 국내 주요 기업에 AI 인프라 서비스를 제공하는 방식으로, 다양한 산업 현장에서 이미 활용되고 있다.

이상준 CIO는 “축적한 AI 인프라 운영 역량을 GPUaaS 모델로 발전시켜 국내 기업들이 손쉽게 AI를 활용할 수 있는 생태계를 만들 것”이라며 “AI 인프라가 특정 기업의 자산을 넘어 산업 전반의 성장 기반이 될 수 있도록 하겠다”고 역설했다.

한편, 각 세종은 외기를 활용한 냉각 방식에 더해 DLC(Direct Liquid Cooling) 시스템을 도입하기 위한 PoC(기술 검증)을 진행 중이다. 최신 GPU를 기반으로 더 높은 랙당 전력밀도를 구현하기 위해서는 필수적인 단계라는 설명이다. 2027년 2차 증설 단계에서 적용하는 서버실부터는 DLC를 구성한다는 목표다.
▲ ⓒ네이버클라우드

AI DC로 거듭난 네이버 ‘각 세종’, 전력공급 이중화로 'AI풀스택' 극대화

이 시각 주요뉴스