터보퀀트 발표 직후 국내외 반도체주 동반 약세정확도 손실 없이 메모리 사용량 최소 6배 줄여실제 상용 서비스에서 동일한 효과낼지는 미지수추론비용 낮아지며 오히려 AI 반도체 수요 늘수도
  • ▲ ⓒ뉴데일리
    ▲ ⓒ뉴데일리
    구글이 공개한 AI(인공지능) 압축 기술 하나가 메모리 반도체 시장을 흔들었다. 26일 삼성전자와 SK하이닉스 주가가 동반 약세를 보였고, 미국에서도 마이크론 등 메모리 관련 종목이 하락했다. 

    구글이 최근 공개한 ‘터보퀀트’가 대규모언어모델의 KV캐시 메모리를 크게 줄일 수 있다는 점이 부각되면서 데이터센터용 HBM(고대역폭메모리) 수요 증가세가 예상보다 빨리 둔화할 수 있다는 우려가 투자심리를 자극한 영향으로 풀이된다.

    터보퀀트는 거대언어모델이 긴 대화를 이어갈 때 사용하는 KV캐시를 3비트 수준으로 압축해, 정확도 손실 없이 메모리 사용량을 최소 6배 줄일 수 있다는 것이 구글 측 설명이다. AI 모델이 커질수록 메모리 사용량도 함께 늘어나 병목이 심해졌는데 이를 낮출 수 있는 대안이 나왔다는 점에서 시장이 민감하게 반응한 것이다. 

    그동안 삼성전자와 SK하이닉스의 주가를 밀어 올린 핵심 논리는 AI 확산이 결국 HBM 수요 폭증으로 이어진다는 기대였다. 터보퀀트는 이 전제에 균열을 낼 수 있는 기술 변수로 받아들여졌다.

    터보퀀트가 주목받는 이유는 겨냥한 지점이 명확하기 때문이다. 대규모언어모델은 답변을 생성하는 추론 과정에서 이전 토큰들의 ‘키(Key)’와 ‘밸류(Value)’ 정보를 KV캐시에 계속 쌓아둔다. 그래야 이미 처리한 문맥을 다시 계산하지 않고 다음 답변을 이어갈 수 있다.

    문제는 대화가 길어질수록, 또 처리해야 할 사용자 요청이 많아질수록 이 캐시가 커지면서 HBM과 D램 사용량을 빠르게 잡아먹는다는 점이다. 이른바 ‘메모리 월’이 생기는 이유다. 터보퀀트는 이 KV캐시를 초저비트로 저장해 추론 단계의 메모리 점유와 대역폭 부담을 줄이겠다는 접근이다. 학습 전체를 바꾸는 기술이라기보다 추론 병목을 겨냥한 효율화 기술에 가깝다.
  • ▲ ⓒ뉴데일리
    ◇HBM 피크론 우려 자극했지만 … 아직은 ‘연구 단계’

    다만 이번 충격을 곧바로 업황 반전 신호로 해석하기에는 이르다는 시각이 우세하다. 터보퀀트는 아직 상용 서비스에 본격 적용된 기술이 아니라 논문과 연구 성과 공개 단계에 가깝다. 실제 대규모 상용 AI 서비스 환경에서 동일한 수준의 절감 효과와 정확도 유지가 가능한지, 또 어떤 모델과 어떤 서비스에서 범용적으로 작동하는지는 추가 검증이 필요하다.

    국내 반도체 업계도 시장 반응이 다소 앞서갔다고 보고 있다. 업계 관계자는 “전체 AI 메모리 수요가 폭발적으로 늘고 있는 상황에서 설령 메모리 압축 기술이 확산되더라도, 그 증가세를 실제로 얼마나 상쇄할 수 있을지는 불투명하다”고 말했다. 업계에서는 당분간 AI 메모리 수요를 공급이 따라가지 못하는 국면이 이어질 가능성에 더 무게를 두는 분위기다.

    삼성전자도 최근 고객사들이 HBM 용량 확대뿐 아니라 저전력, 효율, 시스템 최적화를 동시에 요구하고 있다고 보고 있다. 결국 고용량과 전력 효율, 성능 최적화를 함께 충족하지 못하면 경쟁에서 밀릴 수밖에 없다는 판단이다. 이런 점에서 터보퀀트 같은 효율화 기술은 HBM의 대체재라기보다, AI 메모리 경쟁이 용량 중심에서 시스템 최적화 경쟁으로 더 빠르게 이동하고 있다는 신호에 가깝다는 해석이 나온다.

    ◇‘메모리 절감’이 곧 ‘메모리 수요 감소’는 아니다

    터보퀀트는 메모리를 덜 쓰게 만드는 기술이지만 동시에 AI 추론 비용을 낮추는 기술이기도 하다. 같은 인프라로 더 긴 문맥을 처리하고, 더 많은 동시 요청을 소화하며, 더 복잡한 에이전틱 AI 서비스를 돌릴 수 있게 되면 오히려 전체 AI 사용량이 더 크게 늘어날 수 있다. 메모리 효율이 높아졌다고 해서 총 메모리 수요까지 줄어든다고 단정할 수 없는 이유다.

    국내 증권가도 비슷한 해석을 내놓고 있다. 추론 비용이 낮아질수록 장문맥 처리와 대규모 배치 활용이 가능해지고, 온디바이스 AI 확산까지 이어질 수 있다는 분석이다. 이른바 제본스 역설(Jevons Paradox)이다. 이 경우 개별 작업당 메모리 사용량은 줄더라도 전체 쿼리와 토큰 사용량이 늘어나 총 수요는 오히려 더 커질 수 있다. JP모건과 일부 시장 전문가들은 이번 이슈를 두고 “최근 급등한 메모리주에 차익실현 명분이 붙은 측면이 더 크다”고 보는 것도 같은 맥락이다.

    업계 관계자는 “구글이 앞으로 구체적인 적용 사례를 얼마나 내놓는지, 다른 빅테크가 이를 얼마나 빠르게 채택하는지, 실제로 HBM 주문 패턴이 흔들리는지가 관건”이라며 “지금은 기술의 실체보다 시장의 해석이 더 빨리 움직인 국면으로 볼 필요가 있다”고 말했다.