구글 ‘터보퀀트’ 개발 참여한 한인수 카이스트 교수 “대규모 AI 효율 높일 핵심 기술”

미국 캘리포니아주 마운틴뷰에 있는 구글 본사./AP 연합뉴스

구글이 최근 공개한 인공지능(AI) 메모리 압축 알고리즘 ‘터보퀀트(TurboQuant)’가 주목받고 있다. 특히 이번 터보퀀트 연구에 참여한 한인수 전기및전자공학부 교수는 터보퀀트가 AI의 메모리 병목을 줄여 산업 전반의 효율을 높이고, 메모리 반도체 시장에도 중장기적 변화를 가져올 수 있다고 전망했다.

카이스트는 한인수 전기및전자공학부 교수가 참여한 구글 리서치, 딥마인드, 뉴욕대 공동 연구진이 AI 메모리 과부하 문제를 해결할 차세대 양자화 알고리즘 ‘터보퀀트’를 공개했다고 27일 밝혔다.

대규모 언어모델(LLM)은 질문과 답변의 맥락을 이해하기 위해 앞서 나온 정보를 계속 저장하면서 작동한다. 대화가 길어질수록 저장해야 할 정보도 많아지기 때문에, 필요한 메모리 용량도 빠르게 커진다. 이 때문에 AI를 더 빠르고 저렴하게 운영하는 데 가장 큰 걸림돌 가운데 하나로 메모리 병목이 꼽혀 왔다.

구글은 이러한 문제를 해결하기 위해 압축 기술 ‘터보퀀트’를 개발했다. AI 모델의 메모리 사용량을 최대 6배까지 줄이면서도 성능 저하는 거의 없도록 설계됐다.

핵심은 양자화다. 양자화는 쉽게 말해 복잡한 숫자 데이터를 더 단순한 형태로 바꿔 저장하는 기술이다. 예를 들어 소수점이 긴 숫자를 보다 간단한 숫자로 바꿔 표현해도, 중요한 정보만 잘 남기면 전체 성능에는 큰 영향을 주지 않을 수 있다. 사진 파일의 용량을 줄이면서도 화질 저하는 최소화하는 것과 비슷한 원리다. 이런 방식을 쓰면 저장 공간은 줄고, 계산 속도는 빨라진다.

터보퀀트 기술은 2단계 방식으로 작동한다. 먼저 1단계에서는 입력 데이터를 무작위로 회전시킨 뒤, 각 요소를 각각 압축한다. 이렇게 하면 유난히 큰 값이나 튀는 값을 줄일 수 있어 전체 데이터를 더 효율적으로 압축할 수 있다. 이 방식은 한 교수가 앞서 참여했던 ‘폴라퀀트(PolarQuant)’ 연구에서도 활용된 바 있다.

2단계에서는 1단계에서 생긴 오차까지 다시 한번 압축한다. 이 과정에서는 데이터를 -1과 1 두 값으로만 표현하는 QJL(Quantized Johnson-Lindenstrauss) 기법이 적용된다. 복잡한 계산 부담을 낮추면서도 모델 성능은 유지할 수 있도록 한 것이다.

한 교수는 이번 기술이 메모리 반도체 시장에도 중장기적으로 긍정적인 영향을 줄 수 있다고 봤다. 단기적으로는 같은 AI 모델을 구동하는 데 필요한 메모리 용량이 줄어들어 수요 증가세가 잠시 둔화하는 것처럼 보일 수 있다. 그러나 장기적으로는 AI를 더 저렴하고 쉽게 활용할 수 있게 되면서 시장 전체를 키우는 계기가 될 수 있다는 설명이다. AI가 널리 확산하면, 반도체 역시 단순히 많이 필요한 것을 넘어 더 효율적이고 고도화된 제품에 대한 수요가 늘어날 가능성이 크다는 의미다.

한 교수는 “이번 연구는 AI 메모리 사용량 증가에 따른 병목 현상을 효과적으로 줄이면서도 정확도를 유지할 수 있는 새로운 방향을 제시했다”며 “대규모 AI 모델을 더욱 효율적으로 운영하기 위한 핵심 기반 기술로 활용될 것으로 기대한다”고 말했다.

한편 폴라퀀트 연구는 오는 5월에 열리는 AI·통계 분야 국제학회 AISTATS(Artificial Intelligence and Statistics)에서 발표될 예정이다.

구글 '터보퀀트' 개발 참여한 한인수 카이스트 교수 "대규모 AI 효율 높일 핵심 기술"