생성형 인공지능(AI)을 AI가 만든 데이터로만 학습시켰더니, 횡설수설하면서 완전히 엉뚱한 대답을 내놓게 된다는 연구 결과가 나왔다. 근친 교배로 돌연변이가 나타나 종이 사라지는 것처럼, AI 자체 생산 데이터로만 학습한 AI가 스스로 무너졌다는 것이다.
영국 옥스퍼드대와 캐나다 토론토대 등 국제 공동 연구진은 국제학술지 네이처 최신호에 “AI가 만든 데이터를 AI가 학습해 결과를 생성하고, 이 데이터를 AI가 다시 학습해 결과를 내는 과정을 반복했더니 결국에는 엉뚱한 결과물을 생성하는 ‘AI 모델 붕괴’ 현상이 나타났다”고 밝혔다.
최근 AI는 학습 데이터 부족으로 AI가 생성한 콘텐츠를 AI에 다시 학습시키는 방법이 추진되고 있다. 연구진은 거대언어모델(LLM)을 활용해 특정 주제에 관한 텍스트 데이터를 생성한 뒤, 이를 AI에 학습시켰다. AI가 생성한 합성 데이터로 AI를 학습시키고, 이 결과물로 AI를 다시 학습시키는 과정을 반복하는 방식이다. 연구진이 AI에 14세기 중반 건축에 관한 데이터를 입력한 뒤, 위키피디아와 유사한 결과물을 내도록 하는 식으로 학습과 결과 생성 과정을 반복했더니 9번째 만에 검정 @-@ 꼬리 토끼, 흰 @-@ 꼬리 토끼 등 이해할 수 없는 토끼 얘기를 늘어놓았다.
다만 이번 AI 붕괴가 현실에서 당장 일어나지는 않을 전망이다. 상용화된 AI가 100% 합성 데이터에 의존하고 있진 않기 때문이다. 연구진은 인간의 데이터를 10% 비율로 포함해 학습했을 때는 AI 붕괴 현상이 더뎠다고 했다. 인간의 데이터가 양념처럼 조금만 있으면, AI가 순식간에 무너지지 않는다는 것이다.