LG그룹 산하 초거대 인공지능(AI) 개발 조직인 LG AI연구원은 지난 18일(현지시각) 캐나다 밴쿠버에서 진행 중인 세계 최대 컴퓨터 비전 학회 ‘CVPR(Computer Vision and Pattern Recognition·컴퓨터 비전 및 패턴 인식) 2023′에서 ‘캡셔닝 AI(Captioning AI)’를 처음 공개했다고 19일 밝혔다.
이번 행사에서 LG AI연구원이 처음으로 외부에 공개한 ‘생성형 AI’ 상용화 서비스인 ‘캡셔닝 AI’는 인간처럼 처음 보는 이미지까지 자연어로 설명할 수 있는 AI다. 이미지를 입력하면 검색에 활용할 수 있는 정보인 문장이나 키워드 등 메타데이터를 자동으로 생성해준다.
예를 들어, 캐나다 국기 배경에 북극곰이 있는 이미지를 AI에 입력하면, ‘A polar bear sitting in front of a Canadian flag(캐나다 국기 앞에 앉아 있는 북극곰)’이라는 문장과 함께 #animal(동물) #fur(동물 털) #arctic animals(북극 지방 동물) #concept(개념) #drawing(그림) 같은 단어 형태 키워드까지 생성한다.
LG AI 연구원은 “AI가 인간처럼 처음 보는 물체나 장면에 대해서도 이전의 경험과 지식을 활용해 이해하고 설명할 수 있도록 ‘제로샷 이미지 캡셔닝’ 기술을 적용했다”고 설명했다.
‘제로샷 이미지 캡셔닝’은 AI가 기존에 학습한 대량의 이미지와 텍스트 데이터를 기반으로 배경, 인물, 행동 등 이미지의 다양한 요소와 특징을 인식하고, 그 관계를 이해하고 설명할 수 있게 하는 기술이다.
이 같은 기술이 적용된 ‘캡셔닝 AI’는 대량의 이미지를 관리해야 하는 기업들의 업무 효율성과 생산성을 높일 수 있다. ‘캡셔닝 AI’는 문장이나 단어의 길이와 개수에 따라 다르지만 평균적으로 5개 문장과 10개의 키워드를 10초 내에 생성한다. 이미지 1만장도 2일 안에 작업을 끝낼 수 있어 빠른 시간 안에 맞춤형 이미지 검색·관리 시스템 구축이 가능할 것으로 예상한다.
LG AI연구원은 이번 학회 행사에 맞춰 ‘캡셔닝 AI’의 기반 기술인 ‘제로샷 이미지 캡셔닝’을 주제로 서울대 AI대학원, 셔터스톡과 함께 워크숍도 진행했다. 또, 상반기에 진행한 ‘LG 글로벌 AI 챌린지’ 시상식도 열었다.
자체 개발한 AI 모델의 이미지 이해 능력을 평가하는 대회인 ‘LG 글로벌 AI 챌린지’에는 총 142개 연구팀이 참여했고, 1, 2위를 차지한 난징과기대, 카이스트(KAIST) 소속 참가자들은 워크숍에서 연구 성과도 발표했다.
오는 22일까지 열리는 학회에서 LG전자, LG이노텍, LG에너지솔루션, LG유플러스 등 LG의 주요 계열사는 학회에 참가한 석·박사 학생들을 대상으로 인재 채용도 진행한다.