LG그룹의 초거대 인공지능(AI) 개발 조직인 LG AI 연구원은 지난 18일(현지 시각) 캐나다 밴쿠버에서 열린 세계 최대 컴퓨터 비전학회 ‘CVPR 2023′에서 이미지 ‘캡셔닝 AI(Captioning AI)’ 기술을 처음 공개했다.

이미지 캡셔닝이란 AI에 이미지를 입력하면 사람처럼 문장과 주요 단어로 설명하는 기술이다. 이번에 LG가 공개한 AI는 평균적으로 문장 5개와 키워드 10개를 10초 안에 생성한다. 예를 들어 캐나다 국기 배경에 북극곰이 있는 이미지를 AI에 입력하면, ‘캐나다 국기 앞에 앉아 있는 북극곰’이라는 문장과 함께 animal(동물) fur(동물 털) arctic animals(북극 지방 동물) 같은 핵심 키워드를 제시한다.

이미지의 다양한 요소와 특징을 인식해 설명글과 키워드를 생성하는 캡셔닝 AI(Captioning AI). /LG

연구원 측은 “대량의 이미지를 관리해야 하는 기업의 업무 효율성과 생산성을 높일 수 있는 기술”이라며 “이미지 1만장을 이틀 안에 분석할 수 있어 빠른 시간 안에 맞춤형 이미지 검색·관리 시스템 구축이 가능하다”고 했다. 연구원은 매일 수십만개 넘는 이미지와 영상이 추가되는 사진 아카이브 플랫폼 ‘셔터스톡’과 데이터 학습부터 서비스 개발까지 협력해 완성도를 높였다.

LG AI연구원은 이번 학회에 맞춰 서울대 AI대학원, 셔터스톡과 함께 ‘제로샷 이미지 캡셔닝’을 주제로 워크숍도 열었다. 또 LG전자, LG이노텍, LG에너지솔루션, LG유플러스 등 LG의 주요 계열사는 학회에 참가한 석·박사 학생들을 대상으로 글로벌 AI 우수 인재 채용 상담도 진행했다.