“현재 AI 인프라 확장의 최대 병목(bottleneck)은 메모리 칩 부족이다.”
브래드 라이트캡 오픈AI 최고운영책임자(COO)가 최근 한 포럼에서 “지난 2년간 AI 업계가 가장 우려했던 전력(電力) 부족 현상을 넘어섰다”며 한 말이다.
인공지능(AI) 업계에서 공급 부족이 심각한 메모리 반도체의 효율을 높이기 위한 이른바 ‘AI 기억력 전쟁’이 치열하다. 초거대 AI 모델에는 연산력도 중요하지만 제한된 메모리 반도체를 얼마나 효율적으로 잘 쓰느냐가 성능과 비용을 좌우하는 핵심이기 때문이다. 미국 제재로 첨단 반도체를 구하기 어려운 중국 AI 업체에 효율 증대를 통한 ‘메모리 영끌’은 칩 부족의 한계를 극복하기 위한 생존 전략이다.
메모리 효율화는 AI가 외부에 정보를 저장해 놓고 필요할 때 가져다 쓰거나 데이터를 압축해 메모리 사용량을 줄이는 방식 등 다양한 기술이 개발됐다. 올 초 엔비디아는 메모리를 외부로 빼 보관하는 AI 추론용 메모리 관리 플랫폼인 ICMSP를 공개했다. 메모리 용량이 꽉 차도 AI 연산이 멈추지 않도록 그래픽처리장치(GPU) 메모리 한계를 외부 저장 장치로 확장하는 방식이다. 당장 활용할 것 같지는 않지만, 곧 쓸 것 같은 기억들을 GPU에서 빼서 창고(ICMSP)에 임시 보관하는 것이다. AI 전용 외장 하드 겸 보조 기억 장치다. 비싼 GPU를 무한정 늘리는 대신 상대적으로 값이 싼 ICMSP 플랫폼을 섞어 AI 서비스 가격을 낮추는 것이다.
스탠퍼드대 연구진이 발표한 ‘ttt-e2e’(tEST-tIME tRAINING–eND-TO-eND)는 데이터를 보관하는 대신 필요한 핵심 정보를 요약해 머릿속에 기억하는 방식이다. 시험 공부할 때 모든 예상 문제를 별도 노트(기억 장치)에 메모해 두는 게 아니라 핵심 내용만 외워 버리는 식이다. 구글의 터보퀀트가 기억할 데이터 자체를 압축해 부피를 줄이는 방식이라면 엔비디아의 ICMSP는 데이터를 보관할 별도 창고를 만드는 인프라 구축 방식이다. ttt-e2e는 데이터를 보관하지 않고 기억하는 방식의 메모리 효율화다.
중국의 화웨이도 메모리를 효과적으로 관리하는 기술인 ‘추론 메모리 데이터 관리자(UCM)’를 지난해 8월 공개했다. 데이터를 한곳에 두지 않고, 중요도에 따라 쪼개서 저장하는 방식이다. 비싸고 구하기 어려운 HBM은 조금만 쓰고 중국이 잘 만들 수 있는 SSD(대용량 저장장치)를 최대한 활용하는 것이다. 중국의 AI 스타트업 딥시크는 메모리를 외부로 빼거나 압축하는 대신 애초부터 작게 기억하도록 했다. 반도체 제재로 하드웨어가 부족한 환경에서도 고성능 AI를 돌릴 수 있도록 AI 모델 설계 자체를 바꾼 것이다.