네이버 사옥. /네이버 제공

네이버클라우드가 초대규모 AI 하이퍼클로바X의 학습 방법, 성능 같은 세부 정보를 담은 테크니컬 리포트를 공개했다. 이번 리포트는 자체 개발한 평가 지표와 신뢰성 높은 평가체계(벤치마크)를 종합해, 다양한 분야에서 하이퍼클로바X 및 비교군 모델들의 성능 평가 결과를 도출했다.

◇한국어·일반상식·수학·코딩 성능 14개 모델 중 1위

리포트에 따르면 하이퍼클로바X는 글로벌 오픈소스 모델과 비교했을 때 성능 평가에서 높은 종합 점수를 획득했다. 특히 ▲한국어 ▲일반상식 ▲수학 ▲코딩 부문에서는 비교 평가를 위해 선정한 14개 모델 중 1위를 기록해, 특정 국가 언어 능력을 넘어 보편적인 지식과 프로그래밍 능력 등 여러 분야에 걸친 문제 해결력을 갖춘 소버린 AI로서의 경쟁력을 증명했다. 비교 대상인 폐쇄형 모델들 중에서도 하이퍼클로바X는 눈에 띄는 성과를 거뒀다. 한국어 능력 평가에서는 세계 최고 수준의 모델을 포함한 4개 모델 중에서 1위를 차지했고, 영어 능력 평가에서도 같은 모델들 가운데 2위를 기록하며 그 우수함을 증명했다.

더불어 리포트를 통해 하이퍼클로바X가 ‘다국어 능력(Multilinguality)’에도 강점이 있는 것이 확인됐다. 학습 데이터의 대부분인 한국어와 영어 정보를 활용해 제3의 언어로 추론하는 능력을 갖춰 일본어, 아랍어, 힌디어, 베트남어를 비롯한 아시아 국가 언어 능력 평가에서 주요 오픈소스 모델을 포함해 선정한 9개 모델 중 가장 높은 점수를 획득했다. 기계 번역 평가에서도 한국어를 일본어로, 일본어를 한국어로 번역하는 능력은 실제 서비스 중인 번역 모델 등 리포트에서 선정한 10개의 모델 중 1위를 기록했으며, 영어를 한국어로 번역하는 정확도도 동일한 10개 모델 중 가장 높은 점수를 받았다.

◇하이퍼클로바X의 윤리 원칙에 따라 안전성 확보 노력

네이버클라우드는 사회적 이슈나 편향, 불법적 행동 등과 관련된 질의 데이터를 수집하고 이를 기반으로 레드티밍(Red-teaming)을 진행해 모델의 취약점을 보완했다. 하이퍼클로바X의 윤리 원칙에 따라 ▲혐오 ▲편향 ▲저작권 침해 ▲개인정보 등의 콘텐츠를 생성하지 않도록 지속적으로 개선하고 있다. 또한 테크니컬 리포트를 통해 하이퍼클로바X가 특정 문화권에 적합한 배경지식은 물론 ▲프로그래밍 ▲수학적 추론 ▲다국어 능력과 안전성까지 확보한 소버린 AI의 ‘모범 사례’임을 입증했다.

◇레드팀 운영하며 안전한 AI 개발 위한 모니터링 지속

네이버는 안전한 AI 개발을 위해 다양한 노력을 기울이고 있다. 대표적으로 하이퍼클로바X 내부 레드팀을 운영하고 모델 업데이트 전 테스트 및 모니터링을 통해 문제점을 대비하고 있으며 서비스 출시 전에 사회적 관점을 반영한 윤리 자문 프로세스도 자체적으로 운영하고 있다. 또한 ‘AI 안전성’ ‘지속 가능한 AI’를 중요한 연구 주제로 보고 선행연구를 진행하고 있으며, 미래 AI 시대를 대비해 AI 안전성 연구 및 개발을 위한 글로벌 AI 연구 조직인 ‘Future AI Center’를 통해 국내외 AI 윤리 정책 전문가 그룹과 협업해 AI 윤리 정책도 수립할 계획이다.