‘집을 정돈하라’, ‘맛있고 건강한 요리를 하라’와 같은 간단한 명령 만으로도 로봇이 알아서 행동할 수 있는 시대가 다가오고 있다. 거대언어훈련(LLM)을 기반으로 필요한 행동을 스스로 하는 ‘자율 로봇’ 초기 모델이 개발된 것이다.
구글 딥마인드 연구팀은 ‘오토RT’라는 이름의 로봇 학습 및 제어 시스템 연구 결과를 4일(현지 시각) 공개했다. 오토RT는 LLM와 시각언어행동모델(VLM)과 같은 인공지능 모델과 결합해 주변 환경에 맞춰 알아서 작업을 수행할 수 있는 학습 모델이다. 예를 들어 로봇이 카메라로 탁자 위에 놓인 과자 봉지, 냅킨, 스펀지 등 물체를 포착하면, LLM은 ‘스펀지로 탁자를 닦는다’, ‘과자 봉지를 연다’ 등의 작업들을 제안한다. 제안된 작업 목록들 중 사람의 도움 없이도 로봇이 할 수 있는 행동을 찾아 로봇이 스스로 ‘스펀지로 탁자를 닦는다’는 행동을 하게 하는 것이다.
연구팀은 로봇이 오토RT를 통해 얼마나 자율적으로 작업을 수행하는지 분석하기 위해 7개월 동안 사무실 등 다양한 환경에서 오토RT를 시험했다. 한 번에 최대 20대의 로봇을 시험한 결과 6650개의 명령에 따른 7만7000개 이상의 사례를 수집할 수 있었다. 연구팀은 “오토RT는 데이터 수집 시스템이지만 실제 활용을 위한 자율 로봇의 초기 모델이기도 하다”고 했다.
연구팀은 자율적으로 움직이는 로봇이 예상치 못한 위험한 행동을 해 사람과 주변 사물 등에게 피해를 끼치는 것을 방지하기 위한 안전 규칙도 만들었다. 안전 규칙에는 인간에게 해를 끼칠 수 없다는 기본 규칙과 함께 칼과 같은 날카로운 물체와 상호 작용 금지, 허용치 이상의 무거운 물체 조작 금지 등이 포함돼 있었다. 이러한 위험한 행동을 시도하면 로봇이 자동으로 움직임을 멈추도록 소프트웨어를 탑재했다.
이 밖에도 연구팀은 로봇이 명령어를 실제 물리적 동작으로 빠르게 변환할 수 있게 하는 RT-트레젝토리(RT-Trajectory)라는 학습모델도 개발했다. 로봇이 데이터 훈련 과정마다 자신의 동작을 카메라로 찍어 어떤 동작으로 작업을 수행했을 때 가장 좋은 결과를 얻을 수 있었는지 확인하고 이를 기반으로 행동을 개선할 수 있는 것이다. 또 RT-트레젝토리를 통해 인간의 작업 모습을 보고 궤적을 만들어 스스로 이를 통해 배울 수도 있다. 연구팀은 로봇 팔에 RT-트레젝토리를 적용하니 작업 성공률이 29%에서 63%로 두 배 이상 향상됐다고 밝혔다.
연구팀은 “꿈꾸는 미래 로봇에 한 걸음 더 다가선 것”이라며 “여러 환경에서 다양한 명령을 자연스럽게 수행할 수 있는 다목적 로봇을 개발하는 것을 목표로 하고 있다”고 했다.