“터보퀀트 알고리즘 하나가 하드웨어나 메모리 시장까지 영향을 미치는 걸 보고 많이 놀랐습니다”
한인수 카이스트 전기및전자공학부 교수는 30일 온라인에서 열린 연구 성과 설명회에서 구글이 공개한 인공지능(AI) 메모리 압축 알고리즘 ‘터보퀀트(TurboQuant)’를 소개하며 이렇게 말했다. 그는 이번 사례가 AI 경쟁력을 좌우하는 변수가 반도체·하드웨어에만 있지 않음을 보여준다며, 앞으로는 하드웨어와 소프트웨어의 공동 최적화가 중요해질 것이라고 말했다.
터보퀀트는 AI가 답변을 만들기 위해 임시로 저장해 두는 정보를 더 작게 압축해 메모리 부담을 줄이는 기술이다. 예를 들어 대규모언어모델(LLM)은 대화가 길어질수록 이전 맥락과 중간 계산 결과를 계속 쌓아두기 때문에, 메모리 사용량이 빠르게 늘고 비용과 처리 시간도 함께 증가한다. 터보퀀트는 이런 병목을 줄이기 위해 고안됐다.
한 교수는 2024년 카이스트에 부임한 뒤, 지난해부터 구글 리서치 방문 연구원으로 공동 연구를 이어오고 있다. 미국 예일대 박사후연구원 시절부터 이어진 공동 연구자들의 연결이 협업의 배경이 됐다. 이 과정에서 터보퀀트의 기반이 된 폴라퀀트(PolarQuant)와 QJL(Quantized Johnson-Lindenstrauss) 연구에 참여했다. 터보퀀트의 1단계 양자화(정보를 더 적은 값으로 표현하는 과정)에는 폴라퀀트의 무작위 회전 아이디어가, 2단계 오차 보정에는 QJL 연구가 반영됐다.
한 교수는 “연구진의 첫 번째 목표는 메모리를 줄이면서도 성능을 최대한 유지하는 것이었다”며 “그런데 연구 내용이 알려진 뒤 시장에서는 이 기술이 메모리 반도체 수요와 하드웨어 구조에까지 영향을 줄 수 있다는 해석이 나왔다”고 말했다. 이어 “이번 터보퀀트 사례는 AI 경쟁력이 더 이상 반도체나 하드웨어만의 문제가 아니라, 이를 얼마나 효율적으로 구동하게 만드는 소프트웨어를 설계하느냐에 따라서도 크게 달라질 수 있다는 점을 보여준다”고 덧붙였다.
그는 터보퀀트의 장점으로 실용성과 이론적 검증을 함께 갖췄다는 점을 꼽았다. AI 압축 기술은 보통 성능 수치 중심으로 소개되기 쉽지만, 터보퀀트는 알고리즘이 왜 작동하는지, 어느 정도까지 성능을 낼 수 있는지를 이론적으로 설명할 수 있다는 것이다.
그러면서 실용화 가능성에 대해 비교적 낙관적인 평가를 내놨다. 한 교수는 “이미 관련 구현 코드가 온라인에 공개돼 있고, 기술을 정확히 이해한다면 코드를 AI 모델에 적용하는 데 큰 어려움은 없을 것”이라며 “별도의 재학습이나 복잡한 튜닝 없이 사전 학습된 언어 모델에 곧바로 적용할 수 있어 빠른 시일 안에 실제 성능이 검증될 수 있다”고 말했다.
터보퀀트는 온디바이스 AI 환경에서도 활용 가능성이 높다는 평가를 받는다. 메모리 사용량이 줄어드는 만큼 기기 내부 메모리와 네트워크 제약이 큰 환경에서도 AI를 더 효율적으로 구동할 수 있어서다. 개인이 자신의 데이터로 개인화된 AI 모델을 기기 안에서 직접 실행하기 쉬워지고, 데이터가 외부로 나가지 않는 만큼 정보 보안 측면의 이점도 커질 수 있다. 한 교수는 보안이 중요한 군사 분야 역시 이런 변화의 영향을 받을 수 있는 영역으로 언급했다.
다만 한 교수는 장기적으로 효율을 더 끌어올리려면 소프트웨어만으로는 한계가 있다고 봤다. 지금은 메모리를 아끼기 위해 값을 압축해 저장하더라도, 실제 계산 단계에서는 이를 다시 풀어 쓰는 과정이 필요해 추가 비용이 발생할 수 있기 때문이다. 만약 압축한 값을 별도 복구 없이 바로 연산할 수 있는 하드웨어가 나온다면, 메모리 절감뿐 아니라 연산 속도와 전력 효율까지 함께 개선될 가능성이 있다는 것이다.
한 교수는 “이런 점에서 AI 효율화를 위해서는 하드웨어와 소프트웨어의 공동 최적화가 중요해질 것”이라며 “앞으로도 구글 리서치와 후속 연구를 이어가며 AI 추론 연산을 더 효율화하는 방향의 연구를 계속할 계획”이라고 밝혔다.