챗GPT 답변 빨라지나 … 서강대 이영민 교수팀, 거대언어모델 추론 2배 가속 기법 제시

FFN 가중치 재배열하고 이상치 차원과 뉴런을 군집화해 기존 한계 극복정확도 하락 없이 추론 시간 최대 2배 가속 … 최고성능모델 대비 13% 속도↑컴퓨터 시스템분야 최고 권위 국제학술대회 'ACM ASPLOS 2026'에 논문 채택

▲ 서강대학교 인공지능학과 이영민 교수(왼쪽)와 송근수 석사과정(제1저자).ⓒ서강대

서강대학교는 인공지능학과 송근수 석사과정생(제1저자)과 이영민 교수(교신저자)의 논문이 시스템 소프트웨어와 아키텍처 분야 최고 권위의
국제 학술대회인 2026 국제컴퓨터학회(ACM) 프로그래밍 언어와 운영체제 지원 아키텍처 국제학술대회(2026 ACM International Conference on Architectural Support for Programming Languages and Operating Systems, ASPLOS)에 채택돼 발표된다고 18일 밝혔다.

ASPLOS는 오는 22~26일 미국 피츠버그에서 열릴 예정이다.

채택된 논문은 'oFFN: 빠르고 정확한 거대언어모델(LLM) 추론을 위한 이상치와 뉴런 인지형 구조적 순방향 신경망(FFN)(oFFN: Outlier and Neuron-aware Structured FFN for Fast yet Accurate LLM Inference)이다. LLM의 추론 속도와 정확도를 동시에 잡기 위한 기술적 방법론을 다룬다.

연구팀은 해당 논문에서 이상치(평균범위를 벗어나는 값)가 활성 벡터의 특정 위치에 집중돼 나타난다는 특성을 발견하고, 이에 기반한 LLM 추론 가속 기법인 'oFFN'을 제안한다.

oFFN은 FFN(순방향 신경망) 계층에서 출력 뉴런 활성화 빈도와 이상치 출현 빈도를 동시에 고려해 가중치를 정적으로 재배열한다. 이를 통해 활성 희소도(activation sparsity)를 효율적으로 활용함으로써 정확도 손실 없이 높은 추론 가속을 달성한다.

활성 희소도를 활용한 추론 가속은 계산 병목뿐만 아니라 메모리 병목도 해결할 수 있어 매우 효과적인 접근법이지만, 어떤 출력이 희소한지를 정확히 예측하는 게 어렵다. 또한 배치 크기가 커질수록 구조적 희소도가 낮아져 가속 효과가 감소하는 한계가 있다.

이번 연구는 FFN 가중치 재배열을 통해 이상치 차원을 군집화하고, 유사한 희소도를 가지는 뉴런들도 효율적으로 묶음으로써 이 두 문제를 동시에 완화했다. 그 결과 정확도 하락이 거의 없이 FFN 기준 최대 5.46배, 전체 추론 시간 기준 최대 2.01배(이론적 상한 2.18배)의 가속을 달성했다. 기존 SOTA(최고 성능 모델) 대비 13% 추론 속도 향상을 보였다.

이영민 교수는 "LLM 추론 가속에서 활성 희소도 활용은 매우 유망하지만, 출력 활성 희소도는 정확하고 효율적인 활용이 어렵다는 한계가 존재했다"며 "oFFN은 FFN 가중치를 재배열하고, 이상치 차원과 뉴런을 구조적으로 군집화함으로써 기존 한계를 극복했다"고 설명했다. 이어 "이번 연구는 그래픽처리장치(GPU)의 텐서 코어와 CUDA 코어를 상호보완적으로 활용해 멀티 배치 추론에서도 활성 희소도를 실질적인 추론 가속으로 실현했다는 점에서 의미가 크다"고 덧붙였다.

챗GPT 답변 빨라지나 … 서강대 이영민 교수팀, 거대언어모델 추론 2배 가속 기법 제시

관련기사

이 시각 주요뉴스