각국 정부와 테크 기업이 AI(인공지능) 학습과 추론에 사용하는 GPU(그래픽 처리 장치) 확보 전쟁을 벌이고 있다. AI 경쟁력으로 통하는 GPU를 미국 빅테크 등 극소수 기업이 선점하면서 중소 AI 기업들은 GPU를 구하기 어려울 정도다.
이런 상황에서 무작정 GPU를 많이 사두는 것보다는 효율적으로 잘 쓰는 것이 더 중요하다고 강조하는 기업이 있다. 서버·클라우드 등 IT 인프라 모니터링 시장에서 국내외 1200여 고객사를 확보한 스타트업 ‘와탭랩스’다. 이 회사는 지난 7월 “GPU 모니터링을 차세대 성장 동력으로 삼겠다”고 공언했다.
지난 12일 서울 서초구 본사에서 만난 최진식 와탭랩스 개발총괄은 “최근 국내 대기업과 5년 계약을 체결했다”며 “사실상 국내 첫 GPU 모니터링 상용 계약”이라고 했다. 또 “챗GPT 이후 AI 투자가 급증하면서 ‘GPU를 얼마나 잘 쓰고 있나’에 대한 관리 수요도 크게 늘었다”고 했다. 와탭랩스는 정식 도입을 추진하는 10여 기업과 기술 검증을 진행 중이다.
와탭랩스가 주목하는 핵심 지표는 GPU 활용률, 전력 소비, 메모리 사용량, 온도 등이다. 최 총괄은 “GPU는 발열이 심한 장비라 온도가 조금만 높게 유지돼도 수명이 단축되고 스로틀링(성능 저하)까지 온다”며 “온도 변화 추이를 시각화해 보여주는 것이 하드웨어 장애를 줄이는 첫 단계”라고 설명했다.
GPU 효율성은 기업 입장에서 비용과 직결되는 문제다. 일반적으로 기업 회계상 GPU 감가상각은 5년이지만, 제대로 관리를 하지 못하면 3년을 못 버티는 사례도 많다고 한다. 최 총괄은 “AI가 본격화될수록 각 기업은 GPU를 고부하로 돌리기 때문에 몸(하드웨어)이 금방 지친다”며 “건강 검진하듯, 온도·전력·사용률을 묶어 보는 시스템이 없으면 비싼 장비가 제값을 못 하고 비효율적으로 쓰이게 된다”고 했다.
지금까지 기업들은 GPU를 공급하는 엔비디아의 기본 도구나 오픈소스를 조합해 GPU 따로, 서버 따로 관리를 했다. 와탭랩스 설루션의 강점은 GPU가 어디에 연결돼 있고, 어떤 프로그램이 그걸 쓰고 있는지 전체 흐름을 한눈에 보여준다는 점이다. 예를 들어 GPU가 어떤 작업(Pod)을 처리하며, 그 작업을 어느 서버(Node)가 담당하는지 한눈에 보여 문제가 생기면 원인을 즉시 파악하고 해결할 수 있다.
GPU의 ‘유휴 시간’도 줄일 수 있다. 최 총괄은 “수요일이나 토요일처럼 특정 요일과 시간대에 GPU가 ‘놀고 있는 경우’가 있다”며 “이럴 때 일을 효율적으로 배분해 줄 수 있어야 한다”고 했다. GPU를 대규모로 보유한 회사일수록 GPU에 대한 모니터링과 관리 수요가 크다는 설명이다.
최근 엔비디아는 1년 주기로 신제품 GPU를 내놓고, 빅테크들은 독자 AI 칩 개발에 나서고 있다. 이처럼 신제품 출시 주기가 빨라지고, 다양해지는 상황에서 GPU 모니터링 사업이 가능할까. 이 질문에 최 총괄은 “모니터링의 본질은 ‘무엇을 어떻게 보여주는가’이기 때문에 새로운 제품이 나와도 대응할 준비가 되어 있다”며 “새 GPU가 나온다고 1년마다 장비를 교체하는 기업은 없기에 이미 가진 걸 잘 쓰는 기업이 경쟁력을 가질 것”이라고 했다.
와탭랩스는 최근 정부·공공기관의 대규모 GPU 확보 계획, 글로벌 기업들의 GPU 도입 확대를 새로운 성장 기회로 보고 있다. 최 총괄은 “GPU 26만장 국내 도입이 논의되는 시점에서, GPU 모니터링 수요는 더 커질 수밖에 없다”며 “일본 등 해외로도 진출할 것”이라고 했다. 올해 설립 10주년을 맞은 와탭랩스는 21일 ‘와탭 옵저브 서밋 2025’를 열고 지난 10년간의 성과와 새 전략을 발표한다.