'Humanity’s Last Exam', HLE. /intuitionlabs.ai

전 세계 학자들이 힘을 합쳐 인공지능(AI)의 성능을 비교하기 위해 만든 초고난도 시험 문제 ‘인류의 마지막 시험’(Humanity’s Last Exam·HLE)의 내용이 28일 국제 학술지 네이처에 공개됐다.

HLE는 전 세계 50개국 500여 기관 교수와 연구자, 약 1000여명의 전문가가 모여 다양한 분야에서 제출한 문제 2500문항으로 구성됐다.

제출자 중엔 AI스타트업 에임인텔리전스의 박하언 최고기술책임자(CTO), 김대현 연세대 교수를 비롯, KAIST·한국기술교육대 등의 국내 연구자들도 포함됐다.

HLE는 미국 비영리단체 AI안전센터(CAIS)와 스타트업 스케일AI가 지난해 1월 처음 공개한 프로젝트다. 이후 1년 정도 검증기간을 거쳐 이날 공식 논문으로 발표됐다. 최근 AI 성능이 빠르게 고도화되면서 기존 성능 평가 기준들이 더 이상 변별력을 갖기 어려워지자, 이를 보완할 새로운 벤치마크를 마련하기 위해 기획됐다.


◇인공지능도 못 푸는 초고난도 문제

HLE에 포함된 로마 비문 번역 문제 /HLE

HLE 시험 문항은 수학부터 인문학까지 100여 개 세부 분야를 망라한다. 글과 그림을 함께 해석해야 풀 수 있는 문제도 포함돼 있다.

수학 문제가 전체 41%로 가장 많다. 로마 시대 묘비에 새겨진 비문을 해석하거나, 벌새 뼈 구조를 묻는 등 인간 전문가 수준의 지식을 요구하는 문제도 다수 출제됐다.

출제자들은 문제를 낼 당시에 나왔던 최고 성능의 AI도 풀지 못한 문제만을 선별해 최종 문항으로 남겼다고 한다.


◇제미나이도 챗GPT도 ’40점 미만'

실제로 이 문제들을 최신 AI에게 풀게 했을 때, AI들은 모두 40점에도 못 미치는 점수를 기록했다.

CAIS에 따르면, 구글 ‘제미나이 3 프로’는 정확도 38.3점으로 가장 높은 점수를 기록했다. 오픈AI의 GPT-5.2는 29.9점, 오푸스 4.5는 25.8점, 딥시크 3.2는 21.8점에 그쳤다.

국내 AI 모델들의 성적은 더 낮다. 텍스트 문항만을 대상으로 한 평가에서 LG AI연구원의 ‘엑사원’은 13.6점, 업스테이지의 ‘솔라 오픈’은 10.5점, SK텔레콤의 ‘A.XK1′은 7.6점을 받았다.

다만 출제자들은 HLE의 의미를 과도하게 해석하는 데는 선을 그었다. HLE에서 높은 점수를 기록해도 이는 학술 문제에 대한 전문 지식과 추론 능력이 높아졌음을 의미할 뿐, 인간처럼 새로운 연구를 주도하거나 범용 인공지능(AGI)까지 도달했다는 것은 아니란 얘기다. 출제자들은 “HLE가 인류의 마지막 벤치마크일 거라고는 생각하지 않고, 정말 범용적인 AGI를 시험하는 벤치마크는 없다고 생각한다”고도 했다.

※참고 A benchmark of expert-level academic questions to assess AI capabilities | Nature