인공지능(AI) 발전이 가속화되면서 국가의 부와 권력을 측정하는 기준에도 변화가 감지되고 있다. 20세기 세계 경제를 설명해 온 ‘GDP(국내총생산)’에 대응하는 새로운 지표로, 또 하나의 ‘GDP(Gross Data Product·데이터 총생산)’가 부상하고 있다. AI가 고도화될수록 ‘AI 엔진’을 돌릴 양질의 데이터를 누가 얼마나 많이 확보하느냐가 국가 경쟁력을 좌우하는 시대가 열리고 있기 때문이다.
영국 시사 주간 이코노미스트는 앞서 “세계에서 가장 가치 있는 자원은 더 이상 석유가 아니라 데이터”라고 선언했다. ‘오일의 시대’는 저물고, ‘데이터의 세기’가 본격화되고 있다. WEEKLY BIZ는 이현익 과학기술정책연구원 부연구위원과 함께 데이터 총생산 시대의 의미와 다가올 도전을 짚어봤다.
◇1. 데이터 총생산 시대란
한 나라의 경쟁력과 부가 전통적인 생산량이 아니라 AI가 활용할 수 있는 ‘양질의 데이터’를 얼마나 많이 생산·축적·활용하느냐로 결정되는 시대를 의미한다. 지금까지 널리 쓰여온 GDP(국내총생산)는 거의 한 세기 전 대공황과 전쟁이란 비극 속에서 국가의 경제력을 숫자로 파악해보자는 차원으로 탄생했다. 러시아 혁명을 피해 미국으로 망명한 경제학자 사이먼 쿠즈네츠는 1930년대 대공황 상황에서 국민소득을 집계했고, 이는 오늘날 GDP 개념의 출발점이 됐다.
하지만 디지털 전환이 본격화되면서 기존 GDP가 포착하지 못하는 영역이 급격히 커졌다. 전통적 GDP 산식이 토지·노동·자본과 기술을 통한 물질 생산량을 중심으로 설계됐다면, 오늘날의 경제력은 단순한 생산 규모를 넘어 디지털 역량을 끌어올리는 데이터의 양과 질, 그리고 이를 활용하는 능력으로 이동하고 있다. 이런 배경에서 ‘데이터 총생산’ 개념이 태동했다. 실제로 미 터프츠대 바스커 차크라보르티 교수팀은 2019년 하버드비즈니스리뷰(HBR)에서 국가별 데이터 경제의 경쟁력을 분석, ‘데이터 총생산(GDP)’을 지표화해 제시하기도 했다.
◇2. ‘AI 버블론’ 대두되는데 여전히 데이터가 중요한가
최근 AI 열풍이 과열인지 논란이 일고 있지만, 데이터의 중요성은 오히려 더 부각되고 있다. 데이터는 사용하면 사라지는 자원이 아니라 축적될수록 가치가 커지는 ‘비감가(非減價) 자산’이기 때문이다. AI 발전은 크게 데이터, 하드웨어(컴퓨팅), 소프트웨어(알고리즘) 등 세 축에 의해 이뤄진다. 그런데 최근 제기되는 AI 버블론 논쟁의 핵심은 이 가운데 하드웨어, 즉 데이터센터 건립과 그래픽처리장치(GPU) 확보를 위한 막대한 인프라 투자 비용에 쏠려 있다.
빅테크 기업들은 인프라 구축에 천문학적인 자금을 쏟아붓고 있다. 문제는 이런 인프라 자산의 감가상각 속도가 매우 빠르다는 점이다. 단순 계산으로 설명하자면, AI 성능은 해마다 칩 성능 증가 등으로 연산량이 약 3배씩, 알고리즘·시스템 발전 등으로 약 4.6배씩 발전하고 있다. 연간 13.8배씩 개선되고 있다는 뜻이다. 이 속도가 계속 이어지면 2028년 말 AI의 성능은 2025년 초에 비해 3만6000배 이상 우수해질 것으로 예상된다. 즉, 현재 시점에서 구축한 인프라는 3년 후 3만6000분의 1 수준으로 가치가 뚝 떨어질 수 있다는 뜻이다.
이런 속도가 이어질 경우 현재 시점에서 구축한 인프라는 불과 몇 년 뒤 상대적으로 빠르게 뒤처질 수 있다. 결국 명확한 수익 모델이 담보되지 않은 상태에서 대규모 데이터센터 투자가 지속되기 어렵다는 우려가 나오는 이유다. 반면 AI 발전을 떠받치는 또 다른 축인 데이터는 시간이 흐른다고 가치가 줄어들지 않는다. 오히려 축적될수록 활용 가능성이 커지고, 새로운 알고리즘과 결합하며 부가가치를 낳는다.
◇3. 그렇다면 왜 ‘데이터 절벽’이란 얘기는 나오나
전문가들은 앞으로 AI 발전의 한계가 GPU 연산력이나 알고리즘 성능이 아닌, 데이터 부족이란 구조적 제약 때문에 먼저 나타날 것이라고 예상한다. 스튜어트 러셀 캘리포니아대 버클리 캠퍼스 교수는 2023년 한 회의에서 “대형 언어 모델(LLM) 학습에 사용할 데이터가 이미 바닥을 드러내기 시작했다”고 했고, 오픈AI의 공동 창업자 중 한 명인 일리야 수츠케버도 지난해 “우리는 데이터 피크(정점)에 도달했다”고 했다. 미국의 AI 연구기관 에포크AI(Epoch AI)는 2028년이면 인터넷에 공개된 모든 고품질 텍스트 데이터가 사실상 고갈될 수 있다고 내다봤다. AI가 추가로 성능을 끌어올릴 만큼 신뢰할 수 있는 양질의 텍스트 데이터가 빠르게 줄어들고 있다는 의미다. 이른바 ‘데이터 절벽’이 현실로 다가오고 있다는 얘기다.
문제는 이 절벽을 넘을 돌파구를 찾는 일이 점점 더 어려워지고 있다는 점이다. 데이터 수집을 둘러싼 저작권 분쟁이 잇따르고, 플랫폼 기업들이 서버 부하와 비용 문제 등을 이유로 접근을 제한하면서 AI 학습에 활용할 수 있는 데이터의 문은 갈수록 좁아지고 있다.
◇4. 한국에서 데이터 절벽이 가져올 문제는
데이터 절벽은 국가 간 격차를 더 벌릴 가능성이 크다. 특히 한국어처럼 사용 인구가 상대적으로 적은 언어권 국가는 구조적으로 더 불리할 수 있다. 현재 챗GPT의 주요 데이터 출처로 알려진 위키피디아의 주요 언어별 문서 수를 보면 영어(711만건)가 가장 많고, 독일어(308만건), 프랑스어(273만건), 스페인어(208만건), 중국어(152만건), 일본어(148만건) 등이다. 한국어는 73만건의 정보를 보유해 20위권 수준에 머물고 있다. 이처럼 상대적으로 빈약한 데이터 환경은 한국이 AI 학습에 활용할 기초 연료 자체가 부족하다는 뜻이다. 또 데이터 절벽이 예상보다 빠르게 닥칠 경우 AI 성능 저하뿐 아니라 ‘독자 AI 파운데이션 모델’ 개발을 추진하는 과정에서도 상당한 병목 요인으로 작용할 가능성이 크다.
◇5. 이를 타개할 방법은
대안으로는 공공 데이터 활용 확대가 가장 먼저 거론된다. 모델 학습용 데이터 시장을 선도하는 스케일AI의 공동 창업자 알렉산더 왕은 미 하원 청문회에서 다음과 같이 증언했다. “중국 공산당은 방대한 공공 데이터를 개방해 AI 시스템에 연료를 공급하는 전략으로 미국을 앞지르고 있습니다.”
여기서 핵심은, 공공이 보유한 데이터를 AI가 바로 활용할 수 있는 연료로 전환하는 체계를 구축했다는 점이다. 공공 부문은 행정, 안전, 재난, 교통, 보건, 교육 등 사회 전반에서 방대한 데이터를 생성한다. 이 데이터는 AI가 사회 문제를 해결하는 데 가장 직접적으로 쓰일 수 있는 자산이다. 예컨대 재난·안전 분야에서는 AI가 위험을 감지하고 예측해 조기 경보를 내릴 수 있고, 행정 서비스는 개인 맞춤형으로 정밀화할 수 있다. 공공연구기관에 산재한 연구 데이터도 국가의 과학기술역량의 잠재적 성장을 이끌어낼 수 있는 ‘흙 속의 진주’와 같은 데이터 연료로 여겨진다. 그러나 한국에선 기관 간 데이터 공유의 한계와 표준화 미비, 데이터 처리 비용 부담 등 공공 데이터 활용에 장애물이 산적해 있다. 이에 국가 AI 전략의 최우선 과제로 데이터에 집중해야 한다는 목소리가 커지고 있다.