남기심 전 국립국어원장

현존하는 국내 신문 중 가장 역사가 오랜 조선일보가 '조선 뉴스 라이브러리 100'을 통해 100년사를 공개했다. 역사의 뒤뜰에 묻혀 있던 신문 뭉치를 꺼내 세상 사람들과 나누어 보게 됐으니 가히 재창간이라 할 만하다.

조선일보는 100년간 매일 역사를 기록해왔다. 나라 운명을 바꾼 대형 사건은 물론, 이웃의 소소한 일상사까지 담았다. 한일 강제 병합 후 조선 언론계는 10년의 암흑기를 겪었다. 1920년 조선일보 창간은 조선 민중을 대변하고, 알 권리를 찾게 되었다는 면에서 시대적 소명에 부응한 것이다.

'조선 뉴스 라이브러리 100' 공개로 역사학계는 우리 근대사의 빠진 조각을 채워갈 자료들을 얻게 됐다. 조선일보 지면에서는 참혹했던 일본 제국주의의 조선 수탈 현장을 엿볼 수 있다. 우리 사회가 어떻게 깨어났는지, 원시적 조선의 경제를 극복하기 위해 당시 지식인들이 어떻게 애썼는지도 생생하게 담겨 있다. 이 모든 일을 '조선 뉴스 라이브러리 100'에서 읽을 수 있다.

'조선 뉴스 라이브러리 100' 과제는 2016년 7월 시작됐다. 옛 지면을 디지털화하는 데만 2년 넘게 걸렸다. 서고에 보관된 지면과 마이크로필름을 일일이 스캔했고, 누락된 지면을 찾기 위해 전국을 누볐다. 이렇게 26만1589면, 295만건의 기사가 모였다. 쌓으면 에베레스트산의 3289배 높이이고, 지면을 이어 붙이면 지구~화성 거리와 비슷한 분량이다. 한 장씩 스캔한 지면은 문자 인식 기술(OCR)을 통해 디지털 문자로 추출했다. 인식되지 않은 문자는 원본과 비교해 수작업으로 일일이 쳐 넣었다.

조선일보는 여기에 그치지 않고 국내 언론 최초로 옛 신문의 현대어 변환에 도전했다. 창간호부터 6·25전쟁 휴전까지 약 1억 단어로 이뤄진 기사 총 122만6113건을 현대국어 형식에 맞춰 새로 쓰는 작업이었다. 1920~1930년대는 현대국어의 어법이나 단어 뜻이 확립되지 않았던 시기로 띄어쓰기조차 없었다. 당시 국어와 오늘날 국어는 서로 다른 외국어나 마찬가지이다. 연세대 언어정보연구원은 우선 인공지능 기술인 심층 학습을 이용해 디지털화한 옛 기사들을 1차 변환했다. 이어 연구원 수십 명이 원문 이미지와 디지털화한 텍스트를 대조했다. 당시 인쇄 사정이 열악하고, 숙련된 식자공이 흔치 않아 신문이 아예 틀린 부분도 적지 않았다. '감 柹(시)'를 음이 같은 '베풀 施(시)'로 썼거나, '수(洙)'의 획 길이를 잘못 조정해 다른 한자 '말(沫)'이 되기도 했다. 이렇게 변환한 기사를 여러 학교 교수와 연구원들이 한 글자, 한 단어씩 고쳐 썼다.

조선일보는 국어사적 사료로도 귀중하다. '에서'를 쓸 자리에 '에'를 쓰거나 주어를 나타내는 조사로 '으로'를 사용하는 것과 같은 문법적 현상은 훌륭한 연구 주제이다. 캘리포니아의 음역어로 '가주(加州)' 외에 '가주(歌洲)'를 사용한다든지 영화배우 '게리 쿠퍼'의 이름을 '게리-·쿠-퍼-'라 쓴다든지 하는 옛 표기 흔적도 선명하다. 이 방대한 자료의 보고(寶庫)를 통해 다시 쓸 한국 근현대사와 국어사가 벌써 기대된다.