모든 AI는 이곳을 통한다… AI 성능 평가 사이트 ‘LM 아레나’ 급성장

인공지능(AI) 모델이 우후죽순 생겨나면서, 어떤 모델이 좋은지 판단하기 어려워졌다. 기업들이 벤치마크(성능 평가) 결과를 내놓지만, 테스트마다 기준이 다르고 숫자만 나열돼 이용자 입장에서는 무슨 말인지 알아듣기 어렵다. 이런 한계를 보완한 AI 챗봇 평가 사이트 ‘LM아레나’가 인기를 끌고 있다. 사용자가 어떤 모델이 더 잘 대답했는지 평가한 결과에 따라 AI의 순위가 매겨진다. 최근 GPT, 제미나이, 클로드 등 주요 AI 모델이 모두 이곳의 평가를 받으며, “모든 AI는 LM아레나를 통한다”는 말이 나온다.

LM아레나의 가장 큰 특징은 아레나(경기장)라는 이름처럼 AI 모델들을 1대1로 대결시켜 볼 수 있다는 점이다. 익명의 두 AI 모델에 같은 일을 시킨 뒤, 그 결과를 비교해 누가 더 나은지 투표한다. 좋은 평가를 받은 모델은 상위로 올라가는 방식이다. 처음에는 텍스트 챗봇만 비교가 가능했지만, 현재는 이미지·코딩·검색·영상 등 거의 모든 분야를 아우른다. 실제 사용자의 평가를 받을 수 있다는 점에서 대부분의 빅테크 모델이 이곳을 거치고 있다.

LM아레나가 유명해진 것은 지난달 이미지 생성 AI ‘나노 바나나’가 인기를 끌면서다. 압도적인 성능을 보이는 나노 바나나를 실제 테스트해 보려는 사람이 몰리면서 LM아레나는 급성장했다. 100만명 수준이던 LM아레나의 월간 사용자 수는 나노 바나나 출시 이후 300만명으로 늘어났다. 유명세를 치르면서 나노 바나나가 구글의 ‘제미나이 2.5 플래시 이미지’라는 사실도 밝혀졌다.

현재 LM아레나는 6억달러(약 8400억원)의 가치를 인정받았다. 지난 16일에는 실제 이용자 평가를 기준으로 AI 모델을 컨설팅해 주는 새로운 서비스를 출시하며 새로운 사업 모델을 구축했다.

모든 AI는 이곳을 통한다… AI 성능 평가 사이트 'LM 아레나' 급성장