국립국어원이 AI에 가르칠 한국어 학습 자료 18억 어절을 ‘모두의 말뭉치’ 홈페이지에서 공개했다. ‘말뭉치’란 AI의 한국어 처리 능력을 높이기 위한 자료로 한국어 분야의 빅데이터라 할 수 있다. 국립국어원은 “챗봇이나 AI 비서가 한국어를 자연스럽게 알아듣고 말할 수 있으려면 다양한 한국어 말뭉치로 학습해야 한다”고 설명했다.

국립국어원은 2018년부터 AI 산업계와 관련 연구기관에서 공공재로 활용할 수 있는 대규모 한국어 학습 자료를 구축해왔다. 이번에 공개한 자료는 작년까지 구축한 18억 어절 규모의 말뭉치다. ‘모두의 말뭉치’ 사이트에서 온라인 약정서를 작성하면 누구나 파일을 내려받을 수 있다.

문화체육관광부와 국립국어원은 2007년 ’21세기 세종계획'을 추진해 2억 어절의 자료를 구축하고 공개했다. 10여년이 지나 이번에 공개한 자료는 규모도 9배로 커졌고 일상 대화와 메신저, 웹 문서 등 구어체 자료의 비중을 높였다. 최근 인공지능 스피커나 챗봇처럼 대화형 서비스가 늘어나는 점을 고려했다. 표준어뿐 아니라 지역별·연령별로 다양한 대화 자료를 수집해 AI가 지역별 방언도 처리할 수 있는 기반을 마련했다.

‘모두의 말뭉치’에는 최근 10년간의 신문 기사와 책 2만188종, 일상생활의 음성 대화와 메신저 대화, 방송 자료, 각종 인터넷 사이트의 블로그와 게시판 자료 210만 건 등이 포함됐다. 국립국어원 소강춘 원장은 “국립국어원은 앞으로도 날로 변화하는 언어를 신속하게 반영한 말뭉치와 고품질의 언어 자료를 지속적으로 구축·공개해 한국어 AI 기술을 뒷받침하도록 노력하겠다”고 했다.