AI모델 아키텍처는 밀집모델에서 전문가 혼합 방식으로 진화비용 효율성 제고 차원, 안정성 위해 밀집모델 고수하기도효율화 전략 조합으로 진화 … 국내는 다양화·경량화 대응
  • ▲ ⓒ구글 제미나이 생성 이미지
    ▲ ⓒ구글 제미나이 생성 이미지
    AI 모델이 덩치를 키우면서도 운영 비용과 처리 속도는 오히려 제자리를 지키거나 더 빨라지고 있다. '거대화가 곧 고비용'이라는 공식이 깨진 배경에는 전문가를 골라 쓰고 정보를 압축하는 AI 설계의 ‘묘수’가 있었기 때문이다.

    15일 업계에 따르면 최근 빅테크 AI 모델에는 MoE(Mixture of Experts, 전문가 혼합) 방식이 다수 적용되고 있다. MoE는 성능과 효율을 동시에 달성하기 위한 아키텍처다.

    전문가 혼합으로 불리는 이유는 LLM의 연산 비용을 효율적으로 통제함에 있어 특정 분야 전문가를 호출하기 때문이다. 생성형 AI 이용자가 입력한 프롬프트에 맞춰 필요한 부분만 책에서 발췌하듯이 해당 분야를 담당하는 뉴런(파라미터 그룹)만 활성화하는 방식이다. 파라미터 수가 높아져도 실제 연산량은 낮출 수 있는 배경이다.

    초기 생성형 AI 모델은 MoE가 아닌 ‘밀집모델(dense)’ 방식을 취해 왔다. 밀집모델은 모든 데이터 처리에 전체 파라미터를 동원하는 것으로, 구현이 단순하고 안정적이지만 처리하는 비용이 높아지는 구조다. 메타 라마 1·2와 구글의 초기 제미나이 등에도 밀집모델 방식이 적용됐다.

    다만 모델 파라미터가 수백억개로 늘어나며 연산에 필요한 비용이 감당할 수 없을 정도로 늘어났다는 점에서 밀집모델을 유지하기 어려워졌다. 특히 단순 응답 모델이 아닌 복잡한 사고 과정을 요하는 ‘추론’으로 고도화되면서 처리 속도와 비용 효율화에 대한 요구도 더 높아졌다. 최근 오픈AI와 앤트로픽, 구글 등 주요 AI 기업들은 모델 학습 비용뿐만 아니라 수백억 달러 규모의 추론 비용 부담에 직면했다.

    MoE를 접목한 대표 사례는 최신 버전의 구글 제미나이다. 파라미터 수가 매우 큰 만큼 MoE를 통해 토큰마다 일부 전문가만 활성화시키고, 실제 연산은 일부만 수행하는 방식이다. 구글 젬마4와 미스트랄 AI의 Mixtral, 메타의 라마3 등에도 MoE가 채택됐다.

    오픈AI와 클로드는 밀집모델 방식을 기반으로 한다. 효율성과 처리 속도를 위해 오픈AI는 데이터를 학습시키는 모델링 기술력부터 시스템과 인프라에 기반해 효율성을 확보하고 있다. 클로드는 MoE 대신 밀집모델 방식을 유지하는 쪽으로 가닥을 잡았다.

    비용 부담이 커졌음에도 불구하고 MoE를 도입하기보다 밀집모델 방식을 고수하는 이유는 학습과 추론에서 안정성을 중점적으로 확보하기 위함이다. 압축과 효율 과정에서 운영 복잡도가 높아지면서 환각 현상 등 성능 저하가 나타나기 때문이다. 모델 사고 품질을 개선하며 신뢰성에 초점을 맞춘 조치다.

    국내에서는 업스테이지 최신 모델인 ‘솔라 오픈 100B’가 MoE를 채택하고 있으며, 대다수는 거대 모델 개발과 병행해 특정 목적의 '소형언어모델(sLLM)'과 경량화 전략으로 우회하고 있다. 네이버와 KT가 대표적이며, SK텔레콤은 MoE 대신 요청별 최적 모델을 선택하는 모델 라우팅 방식으로 실용 노선을 구사하고 있다. MoE는 대규모 파라미터와 데이터를 전제로 하기 때문에 빅테크 대비 불리할뿐더러, 분산 학습 난이도가 높아 인프라 차원에서도 부담이 크기 때문이다.

    또 다른 효율화 방식에는 ‘양자화(Quantization)’가 있다. 롯데이노베이트가 자체 LLM인 아이멤버를 고도화하며 적용한 것으로 파라미터 표현을 압축하는 형태다. 정보 용량 단위인 바이트(byte)와 비트(bit)를 압축시켜 1000억 파라미터 규모를 300억 정도로 만드는 방식이다.

    최근 효율화 전략은 단일 방식이 아닌 MoE와 양자화, 최적화와 외부 시스템을 조합하는 형태로 진화하고 있다. 이 중 모델 외부로 확장하는 것은 파라미터 자체에 모든 지식을 넣지 않고 외부 DB에서 필요할 때 접목하는 것을 의미한다. 파라미터 증가 없이 성능 개선과 최신성을 확보할 수 있어 주류로 떠오르고 있다.

    업계 관계자는 “학습과 추론 비용이 기하급수적으로 증가하면서 모델 성능을 높이면서도 효율성을 유지하기 위한 아키텍처의 중요성이 강조되고 있다”며 “기업마다 보유한 인프라와 기술력을 바탕으로 최적의 방안을 강구하되 환각 현상을 최소화하는 등 정확도를 제고하는 부분이 관건”이라고 말했다.