이미지=게티이미지뱅크, 그래픽=김하경

글로벌 빅테크 간에 인공지능(AI) 모델 경쟁이 불붙으면서, 개발 과정에 필수적인 AI 학습 콘텐츠의 저작권을 둘러싼 논란이 전 세계적으로 거세지고 있다. 빅테크는 AI 모델로 막대한 수익을 얻고 있지만, AI 개발 때 양질의 뉴스 콘텐츠를 대거 사용하고도 합당한 사용료를 내지 않는다는 지적이 잇따르고 있다.

미국 일간 워싱턴포스트(WP)가 AI 훈련에 사용되는 거대 데이터 세트인 구글 ‘C4′의 1000만개 이상 웹사이트(2023년 기준)를 분석한 결과, AI에 가장 많은 정보를 제공한 웹사이트 상위 10개 중 5개가 뉴스 사이트인 것으로 나타났다. 미국의 뉴욕타임스(NYT)가 4위, LA타임스가 6위, 영국의 가디언이 7위였다. 웹사이트 리스트를 상위 100개로 늘려도 뉴스 사이트는 51개로 비중이 절반을 넘어섰다. AI 업계 관계자는 “언론 외 다른 웹사이트의 콘텐츠도 뉴스를 인용하거나 참고한 것이 많다”며 “콘텐츠의 출발점까지 거슬러 가면, AI 학습에 뉴스 콘텐츠의 기여도는 압도적”이라고 말했다.

AI 훈련용 데이터 시장은 급성장하고 있다. 지난달 10일 시장조사 업체 스트레이츠 리서치는 2030년 글로벌 AI 훈련용 데이터 시장 규모가 72억달러(약 10조원)에 육박할 것이라는 결과를 내놨다. 2021년 13억달러에서 9년 후 6배로 급성장한다는 것이다. 이에 따라 전 세계적으로 AI 학습 콘텐츠의 저작권에 대한 법제화 작업도 활발하다. 지난달 초 미국 하원에서는 생성형 AI 저작권 공개법이 제출돼 현재 하원에 계류 중이다. 구글 등은 미디어와 저작권 사용 계약을 맺기도 했다.

하지만 국내에선 이런 논의 자체가 전혀 없다. 네이버 등은 뉴스 콘텐츠를 활용해 AI를 학습시키고 있지만, 대가를 지불하지 않고 있다. 이혁재 서울대 전기·정보공학부 교수는 “뉴스를 중심으로 양질의 데이터를 확보하는 것이 AI 업체의 격전지가 될 것”이라며 “데이터 품질을 높이는 데 도움이 되는 회사를 인수하거나 콘텐츠 사용료를 내는 등 협력 움직임이 많아질 수밖에 없다”고 말했다.

그래픽=김하경

워싱턴포스트(WP)가 미국 시애틀에 있는 앨런 인공지능 연구소와 함께 분석한 구글의 AI 훈련용 데이터세트 ‘C4′에서 AI 모델에 가장 많은 정보값을 제공한 것은 뉴스 콘텐츠다. 분석에 사용된 1000만개 웹사이트 중 뉴스·미디어 웹사이트 비율은 13%지만, AI 모델이 처리한 데이터양(토큰)을 기준으로 봤을 때 이 뉴스 사이트들이 대부분 100위권 이내로 집중돼 있다.

C4에서 AI 모델이 단일 웹사이트에서 가장 많은 정보를 처리한 곳은 구글의 특허 문서 검색 사이트다. 하지만 웹사이트 상위 30개 중 14개는 뉴스 사이트다. 해당 리스트에서 상위권에 뉴스·미디어만큼이나 AI 학습에 많은 정보를 제공하는 카테고리는 없었다. 테크 업계 관계자는 “다양한 블로그나 유튜브, 심지어는 논문까지 뉴스에서 보도된 사안을 재생산하는 경우가 많기 때문에, 실제로 AI 훈련에 사용되는 뉴스 콘텐츠는 단순 뉴스 웹사이트 이상으로 많다고 봐야 한다”고 말했다.

◇AI 시대 양질의 뉴스 콘텐츠

테크 기업들이 AI 훈련에 뉴스 콘텐츠를 이토록 많이 사용하는 것은 데이터를 먹고 자라는 AI 모델에 뉴스는 문제를 일으키지 않는 ‘건강식’이기 때문이다. 욕설이나 선정적인 문구가 없는 데다, 법적 서류나 논문, 소설 등과 다르게 현실 세계의 정보를 실시간으로 업데이트하는 것도 강점이다. 미국 싱크탱크 브루킹스연구소는 “저널리즘은 실시간 정보, (특정 사안의) 맥락, 사실 확인 등을 제공하는 생성형 AI 서비스에 특히 유용하다”며 “다양한 주제, 속보, 탐사 보도 등에 강점을 갖춘 저널리즘은 가짜 뉴스 등 ‘정보의 재앙’에서 이용자에게 시의적절한 정보를 제공하는 서비스에 도움이 될 것”이라고 평가했다. 테크 업계 관계자는 “이는 테크 기업들이 저작권 문제를 알고 있음에도 뉴스를 AI 훈련에 사용하는 이유”라고 말했다.

빅테크들이 AI 훈련에 뉴스 콘텐츠를 선호하는 데는 보다 현실적인 이유가 있다. 예전의 AI는 트위터(현 X), 레딧 등 소셜미디어에 공개된 텍스트를 기반으로 훈련하는 경우가 많았다. 저작권 문제는 없었지만, 저속한 표현이나 가짜 정보가 넘쳐났다. 업체들은 AI 학습 전에 이렇게 잘못된 정보와 표현을 걷어내야 하는데, 그에 따르는 비용이 많이 들었다. 오픈AI는 이처럼 AI가 폭력성이나 편견에 가득한 발언을 하는 것을 막기 위해 아프리카에서 수년간 저임금 노동자 1000여 명을 고용해 대대적인 ‘데이터 클리닝’ 작업에 나서기도 했다. 현재 테크 업계에선 오픈AI 같은 AI 기업들이 이 같은 작업에 매년 수백만~수천만 달러를 투자하고 있는 것으로 보고 있다.

◇빅테크, 뉴스 콘텐츠에 사용료 지급

AI 훈련에 뉴스 콘텐츠를 활용하기 위해 테크 업체들이 미디어 기업과 콘텐츠 사용 계약을 맺는 경우가 조금씩 늘고 있다. 특히 지금까지 편법을 동원해 무단으로 뉴스 콘텐츠를 사용한 것에 대한 소송전이 늘어나면서 합법적인 계약을 맺으려는 움직임이 빨라지고 있다. 여기에 지난 2월 리처드 블루먼솔 미 상원 의원이 “뉴스 콘텐츠가 AI 챗봇에 무료로 사용되는 것을 방지하는 데 의회가 역할을 해야 한다”고 강조하며, 미국 정계가 움직이기 시작했다. AI 업계에선 데이터 클리닝(정제)에 사용되는 비용이 수년 안에 연간 수억 달러로 크게 늘어날 것으로 예측되면서, 고품질의 데이터를 합법적으로 구매하는 게 오히려 AI 개발 비용 절감으로 이어질 수 있다는 평가도 나오고 있다.

실제로 지난 30일 시카고트리뷴, 덴버포스트 등 8사가 오픈AI와 마이크로소프트(MS)를 상대로 뉴스 콘텐츠를 무단으로 썼다는 소송을 진행하자, 오픈AI는 즉시 “뉴스 파트너들과 함께 협력 관계를 구축하겠다”고 성명을 냈다. 테크 업계 관계자는 “모든 테크 기업이 물밑으로 미디어 기업들과 만나며 협상하고 있는 단계”라며 “구글이 세계 최대 미디어 그룹인 뉴스코퍼레이션과 연간 600만달러에 달하는 계약을 하는 것과 같은 사례가 늘어날 것”이라고 했다.