죽음은 산자와 죽은자를 갈라 놓는다. 생이별도 마찬가지이다. 보고 싶어 이름을 불러도 대답이 없다. 그리움만 쌓일 뿐이다. 하지만 최근 각광을 받고 있는 가상인간(digital humans) 기술이 발전하면 상황이 달라질 수 있다. 스마트폰에 부모님이나 애인을 가상인간 형태로 저장해 놓고 버튼을 누르면 알라딘 마술램프의 지니처럼 튀어나와 이야기를 나누는 세상이 올 수 있다. 죽음과 역경이 사람을 갈라 놓을 수 없다. 이런 세상은 과연 가능할까?
클레온(klleon)은 인공지능(AI)의 딥 러닝(deep learning) 기술을 기반으로 가상인간을 만들어 내는 스타트업이다. 컴퓨터가 인간처럼 음성과 영상을 인식하도록 교육시키는 딥러닝 기술을 바탕으로 빠른 속도로 가상인간을 만들어내는 기술을 보유하고 있다. 미국 라스베이거스에서 열린 2022년 CES(국제전자제품박람회)에서 혁신상도 탔다. 과연 그들이 만들어내는 가상인간은 어떤 수준일까? 꿈을 이룰만큼 기업 경영은 튼튼한가? 기술과 경영을 모두 잘 아는 사람을 만나고 싶다고 했더니 김성곤 부대표가 나왔다. 인터뷰는 지난 4월 19일 오후 3시 서울 중구 소월로 2길 T빌딩 18층 클레온 사무실 내 제 2 회의실에서 진행됐다. 회의실 옆 휴게실에서 남쪽 창문을 통해 가까이 용산공원이, 멀리 관악산이 보였다.
—IT 업계 일을 하게 된 계기는?
“대학 때 전공이 산업공학이었다. 산업공학은 공학과 경영학의 중간 지대이다. 그래서 공학과 경영학 양쪽에 모두 관심이 많았다. 처음에는 경영학에 중점을 두고 기업을 만들어 보기도 하고 경영전략 컨설팅을 하기도 했다. 그런데 경영전략 컨설팅 회사에서 전통적 방식의 단순한 회사 경영을 넘어 IT(정보기술) 신산업 부문으로 컨설팅 주력을 전환하는 모습을 보고 단순한 경영 기술만으로는 시대 변화에 발맞춰 나가기 어렵다는 생각을 했다. 최근 추세를 보면 IT 친화적인 창업이 많이 이뤄지지 않나? 그래서 IT 사업을 주목하던 중 오래 전부터 알던 클레온 창업자에게서 연락이 와서 작년에 합류하게 됐다.”
—회사에서 본인이 하고 있는 일은?
“회사 전체의 경영 전략과 ‘클론’이라는 제품 부문의 사업전략 수립과 마케팅을 하고 있다.”
—회사는 언제 생겼나?
“법인 설립은 2018년 4월이다. 그러나 기술 연구가 선행되어야 했기 때문에 2020년 초까지는 상용화가 가능한 기술 연구에 매진했다. 2020년부터 인력을 고용해 사업을 본격 시작했다.”
사업 ① : 동영상에 얼굴 바꾸기
—클레온이 하고 있는 일은?
“크게 3가지 부문이다. 첫째, 2021년 6월 쯤에 회사 최초의 프로젝트로 SNS(소셜네트워크서비스)용 카멜로(KAMELO) 서비스를 만들어 구글 플레이 스토어와 애플의 앱 스토어에 런칭했다. 현재 약 30만명의 고객이 앱을 다운로드했다. 카멜로 서비스를 사용하면 사람의 사진 한 장만 있어도, 원하는 얼굴로 재미있는 영상을 만들어 낼 수 있다.
예를 들어 어떤 사람이 자신이 촬영한 동영상 위에 다른 사람의 얼굴 사진이나 음성을 입혀서 그 사람의 동영상을 만들 수 있다. 요즘 사람들이 말하는 부캐(부캐릭터)를 만드는 작업이다. 반대로 틱톡이나 유튜브에 유행하는 재밌는 영상에 본인의 얼굴과 음성을 얹으면, 수고스러운 촬영이나 편집 과정 없이 쉽게 자신만의 컨텐츠를 만들어 다른 사람에게 보내 줄 수 있다.”
사업 ② : 가상인간 만들기
—두번째 서비스는?
“가상인간을 만드는 클론(Klone) 서비스이다. 내가 원하는 얼굴과 원하는 목소리를 갖고, 원하는 의상을 입고, 원하는 몸동작을 하는 가상인간을 만든 뒤 내가 텍스트를 컴퓨터로 입력하면 입력하는 내용 그대로 가상인간이 말을 하는 서비스이다. 예를 들어 고객이 은행에 문자로 뭔가 문의를 하면 은행의 콜센터 직원이 그 대답을 컴퓨터로 입력하게 되고, 그 입력된 텍스트를 가상인간이 말과 몸짓으로 자연스럽게 응답하는 형태이다. 은행원은 텍스트를 쳐 넣지만 고객은 가상인간이 말로 하는 대답을 접하게 된다. 5월쯤 서비스를 시작할 예정이다.”
—은행원이 직접 말로 응답을 하면 되지 않나?
“가상인간을 쓰면 고객이 재미있어 하고 좀 더 집중을 하는 측면이 있다. 그리고 정형화된 질문과 답변의 경우 지금은 챗봇(chatbot)을 쓰고 있는데, 텍스트로만 등장하는 챗봇보다는 가상인간이 나와 설명하면 고객들이 좀 더 친근감을 느끼고 쉽게 받아들이는 경향이 있다. 대화 상대가 기계보다는 사람에 가깝다는 느낌을 받는다고 할까?”
—다른 용도가 있다면?
“5060세대의 경우 홈쇼핑을 많이 보는데 비해 모바일 앱 결제를 어려워 하는 경우가 많다. 이때 클론의 쇼호스트가 모바일 앱을 켜는 순간 등장해 이용자가 찾는 물건을 알아서 찾아주고 결제까지 함께 해줄 수 있다.”
가상인간 고르기
—자기가 원하는 가상인간을 어떻게 선택할 수 있나?
김 부대표가 컴퓨터를 켜더니 현재 시험중인 클론 서비스를 보여줬다. 화면에 젊은 여성의 얼굴 여러 개가 썸네일처럼 나타났다.
“이 얼굴 중에서 먼저 한 사람을 택해야 한다. 그리고 음성을 선택한다. (김 부대표가 다음 화면을 열자 다양한 의상 종류가 나타났다.) 그리고 의상을 선택하고, (다음 화면을 열면서) 왼손을 올린다든지, 혹은 오른손을 올린다든지 여러 동작 선택지 중에서 하나를 선택한다. 그리고 상반신, 전신 등 화면에 등장할 체형을 정한다. 이어 텍스트 창에 텍스트를 입력하면 선택한 모양의 가상인간이 선택한 몸동작을 하면서 텍스트로 입력한 문장을 말한다. 여러 동작을 합성해 고객이 원하는 영상을 만들 수 있게 하는 것이 우리의 목적이다.”
김 대표가 텍스트 창에 “안녕하세요. 오늘 날도 더운데 저희 클레온을 방문해 주셔서 감사합니다”라고 입력하자 15초 뒤에 화면의 여성이 부드러운 목소리로 자연스럽게 이 인사말을 했다. 또 “속보입니다. 4월 18일 러시아 군이 우크라이나의 마리우폴에 최후 통첩을 날렸다고 합니다”라고 입력하자 15초 뒤에 이 여성이 오른 손을 들어 배경 화면을 가리키며 마치 방송국 앵커처럼 말을 했다.
—예컨대 이 가상여성이 뉴스 앵커라고 하면 배경에 뉴스와 관련된 영상이 나오게 할 수도 있나?
“배경이 파란색으로 되어 있기 때문에 크로마키 기법으로 다른 영상을 합성할 수 있다. 시중에 있는 어도비 프로그램을 통해서도 쉽게 합성할 수 있고, 클론 자체 서비스 내에서도 배경을 합성할 수 있다.”
김 부대표가 말을 이어 갔다.
“이와 같은 과정으로 만들어진 다양한 콘텐츠를 NFT(대체불가능토큰)와 연동하고, 이 과정에서 별도의 NFT 거래 플랫폼과 거래용 코인을 개발하고 있다. 해당 코인으로 거래를 지원할 예정이고, 구매된 NFT 자산을 외부 영상제작 등에 사용할 수 있게 지원할 계획이다.”
사업 ③ : 동영상 자동 더빙·번역
—세번째 서비스는?
“AI 더빙 솔루션인 클링(Klling)이다. 클론에 이어서 6월쯤에 출시될 예정이다. 요즘 한류가 전세계적으로 유행하지 않나? ‘오징어 게임’과 같은 좋은 컨텐츠를 클링 플랫폼에 업로드하면 별도의 번역이나 더빙 작업 없이 원스톱으로 번역부터 더빙까지 제공하는 서비스이다. 이 때 배우는 고객이 원하는 언어로 이야기하는데, 그의 목소리가 그대로 유지되고 입 모양도 해당 언어에 맞게 자연스레 바뀐다.”
김 대표가 컴퓨터에서 유튜브 영상을 불러왔다. 배우 이정재씨가 오징어 게임에서 연기하는 영상이 차례로 나타났다. 한 영상은 한국어로 된 오리지널 장면이었다. 다른 영상에서는 이씨가 같은 대사를 한국어, 영어, 중국어, 일본어로 이야기했다. 이씨의 목소리는 동일했으나 언어는 달랐는데, 다른 언어를 이야기할 때에도 입 모양은 그 언어에 맞게 자연스레 움직였다. 이야기하는 동안 아래에 해당 언어의 자막이 떴다. 배우 송광호씨가 출연한 영화 ‘기생충’에서도 송씨가 여러나라 언어로 자연스레 이야기했다.
—다른 활용 가능한 사례를 든다면?
“교육계에서 많이 활용될 수 있다. 세계 각국의 교육 프로그램이 서로 다른데, 클링을 활용하면 예컨대 미국 스탠퍼드 대학의 강의를 한국에서 한국어로 무리 없이 들을 수도 있다.”
—현재 더빙이 가능한 언어 종류는?
“현재까지 한국어, 영어, 중국어, 일본어, 스페인어까지 가능하다. 올해 내로 필리핀 타갈로그어를 포함한 동남아 신흥국 언어와 독일어, 프랑스어 등 주요 유럽 국가의 언어를 추가로 지원할 예정이다.”
—카멜로, 클론, 클링 등 3가지 서비스를 종합해 동시에 받는다면?
“자신의 사진 1장과 30초짜리 음성을 가져 오면 원하는 동영상에 자신의 모습을 얹을 수 있다. 또 자신을 닮은 캐릭터를 만들어 원하는 말을 하게 할 수 있고 그 말을 외국어로도 자연스럽게 번역해 이야기하게 할 수 있다.”
CES에서 혁신상 받다
—올해 세계 최대 IT 박람회인 CES(국제전자제품박람회)에서 혁신상을 받았는데 어떤 내용인가?
“CES 소프트웨어 & 모바일 앱 부문에서 카멜로와 클링이 각각 1개씩 2개의 혁신상을 받았다. 올해 CES 소프트웨어 & 모바일 앱 부분에서는 30여개 제품이 혁신상을 받았는데 한 회사가 2개 제품의 상을 받은 것은 세계적으로 클레온이 유일하다.”
—어떤 점이 높이 평가 받았나?
“기술적 구현도에서 높은 평가를 받았다. 말은 쉽지만, 클링과 같은 AI 더빙 서비스는 매우 복잡하다. 인공지능이 음성을 따로 추출하고, 영화 내의 배경음을 제거하고, 학습한 음성을 다른 국가의 언어로 번역하고 재현해 내며, 여기에 맞는 입모양을 만들어 주는 작업은 사실 간단하지 않다. 세계적으로도 이런 작업을 해 내는 소프트웨어를 보기 힘들었다. 우리 소프트웨어는 30초 정도의 음성만 있으면 높은 품질의 변형품을 만들어 낼 수 있기 때문에 매우 혁신적이라는 평가를 받았던 것 같다.”
—이 작업을 한 사람들은 모두 한국 사람들인가? 외국인 직원도 있나?
“모두 한국 사람들이다. 직원들이 모두 50여명 되는데 기술을 만드는 연구자와 상품을 만드는 개발자가 30명 정도 된다. 직원들의 나이는 평균 20대 후반이다.”
사진 1장, 음성 30초면 충분
—클레온이 하는 서비스는 다른 업체들도 상품화하거나 추진중일텐데, 클레온이 다른 업체와 비교해 볼 때 갖는 강점이 있다면?
“적은 정보를 갖고도 빠른 속도로 우수한 품질의 가상인간을 만들어 낸다는 점이다. 예를 들어 다른 업체는 실물을 본 딴 가상인간 한 명을 만들기 위해서 1000 장 이상의 사진과 많은 분량의 음성을 요구한다. 이 정보를 인공지능이 분석해 가상인물을 만들어낸다. 그래서 시간도 한달 이상 걸리고 비용도 많이 든다.
반면에 우리는 사진 1장과 30초 분량의 음성만 있으면 짧으면 하루, 길어도 일주일 내에 실물을 닮은 가상인간을 만들어 낼 수 있다. 시간과 비용의 측면에서 우위를 차지한다는 것이 우리의 전략이다.”
—구체적인 사례를 들면
“예를 들어 다른 업체는 가상 인간 1명을 만들기 위해 평균 5000만원의 제작비가 든다. 제작 시간도 최소한 한달이 소요된다. 고객의 입장에서는 주문 후 한달 뒤에 5000만원을 내고 이 가상인간을 사용해야 한다.
이에 반해 우리는 수천명의 사람을 가상인간으로 만드는 프로젝트를 진행중인데, 각각의 사람을 1인당 수십만원 이내의 비용으로 한 달 이내에 만들어 매우 저렴한 가격으로 사용할 수 있게 할 예정이다. 고객사의 입장에서는 결과물이 빠르게 나올 뿐 아니라 월 사용료만 내면 되기 때문에 한꺼번에 목돈이 들지 않고 경제적 부담도 적다. 또 사용하다가 중도에 포기할 경우에도 한꺼번에 5000만원씩 내고 구입한 경우보다 비용 손실이 적다.”
—서비스 제공시 구독(subscription) 모델을 주로 쓰나?
“그렇다. 다른 업체는 제작비를 한꺼번에 받고 소유권을 넘겨주는 형태이다. 소유권을 넘겨줬다고 하더라도 매달 유지 관리를 위한 비용을 받는다. 이에 반해 우리는 소유권을 넘겨주는 대신, 매달 사용료를 받는 구독 모델을 쓰고 있다. 고객은 중단하고 싶으면 언제든지 안쓰면 된다. "
—수천명의 가상인간을 만든다고 했다. 모두 각각 다른 사람인가?
“얼굴도 목소리도 모두 다른 사람들이다.”
AI 범용엔진이 경쟁력
—다른 업체들보다 빨리 가상인간을 만들어 낼 수 있는 비결에 대해 설명해 달라.
“가상인간은 인공지능(AI)이 딥 러닝 방식으로 학습을 해서 만들어 낸다. 그런데 우리 회사의 인공지능이 경쟁력이 있다. 우리는 범용엔진을 갖고 있기 때문이다.
—범용엔진이 무슨 뜻인가?
“예를 들어, 특정 가상인간 A가 a, b, c, d, e 등 다섯가지 표정을 지어야 한다고 치자. 다른 업체 인공지능 엔진의 경우 각 표정을 짓고 있는 수천장의 A 사진을 확보해 표정을 학습한다. 만약 A가 아닌 B가 a, b, c, d, e 등 표정을 짓기 위해서는 다시 한 번 다양한 표정의 B 사진 수천장을 확보해 표정을 학습시켜야 한다.
반면, 우리의 범용엔진은 이미 보편적인 사람의 표정을 많이 학습하여, 어떠한 가상인간의 얼굴에도 자연스럽게 적용 가능한 표정을 만들어낼 수 있다. 그래서 따로 학습할 필요가 없이 원하는 사람의 사진 한 장만 넣으면 범용엔진이 여러 표정을 만들어 낸다.”
헨리 포드를 넘어서다
—잘 이해가 되지 않는다. 예를 들어 나의 얼굴을 닮은 가상인간을 만든다고 할 때 내 사진 1000장을 읽은 다른 업체의 인공지능이 클레온 인공지능보다 나의 얼굴 모양 변화와 훨씬 유사한 가상인간을 만들어 낼 수 있지 않을까?
“실제로 만들어진 결과를 보면 큰 차이가 나지 않는다. 예를 들어 음성의 경우 타사는 2시간 정도의 음성 자료를 필요로 한다. 이에 반해 우리는 짧으면 30초, 길면 3분 정도 음성만 있으면 어투까지 비슷하게 만들어 낸다. 경쟁사 만큼의 제품 품질을 확보하면서 빠른 속도로 만들어 낼 수 있기 때문에 우리의 범용엔진이 경쟁력이 있다고 본다.”
김 부대표가 이 대목에서 20세기 초 자동차 대량생산 방식을 창조한 미국 자동차왕 헨리 포드 이야기를 꺼냈다.
“헨리 포드 이전에는 자동차 생산이 소품종 소량 생산이었다. 그러나 포드가 표준화된 자동차를 컨베이어벨트 시스템을 이용해 생산하면서 소품종 대량생산의 시대를 열었다.
IT 서비스 부문에서는 더 진화한 형태가 나타나고 있다. 예전에는 가상인간을 만들어 내는데 비용이 많이 들었다. 그래서 제작된 가상인간도 많지 않았다. 그런데 우리는 한 번 촬영된 컨텐츠를 갖고 다양한 종류의 제품을 대량으로 만들 수 있는 시스템을 갖고 있다. 포드 시스템보다 더 진보한 셈이다. 디지털 컨텐츠가 복제와 변화가 자유로운 성격을 갖고 있기 때문에 가능한 측면도 있다. 가상인간 산업이 지향하는 방향은 결국 우리처럼 다품종 대량생산이라고 생각한다.”
고객을 창작자로
—하나의 범용엔진을 쓰는데 어떻게 다품종 생산이 가능한가?
“고객에게 많은 창작의 자유를 주면 가능하다. 고객이 원하는 얼굴, 헤어스타일, 의상, 동작을 우리 플랫폼 내에서 자기가 원하는 대로 만들 수 있게 해 주면 다양한 품종의 생산이 가능하다. 고객에게 전지전능한 창조주의 마인드를 주는 것이다. 고객맞춤형 서비스를 넘어 고객창조형 서비스를 제공하는 셈이다.
우선 올해말까지 고객이 단순히 얼굴과 음성을 고르는 차원을 넘어, 동작까지 변화시킬 수 있는 기능을 부여할 계획이다. 추후에는 의상과 헤어스타일에 변화를 주고 더 나아가 대화도 가능한 플랫폼을 내년이나 후년까지 내놓을 예정이다.”
—클레온의 경쟁력은 결국 다품종 대량생산이 가능한 인공지능 알고리즘에 있다는 뜻인가?
“그렇다. 공개되는 오픈 소스가 아니라 우리만의 고유한 알고리즘이다.”
인기 있는 가상인간은?
—클레온이 만든 가상인간의 사례를 든다면?
“우리 회사가 자체적으로 만들어 운용하는 가상인간 인플루언서가 있다. 남자의 이름은 우주, 여자의 이름은 은하이다. 국내 최초로 가상인간 ‘남매’라는 컨셉(개념)으로 활동하고 있다. 은하의 경우 틱톡에서 다양한 영상 컨텐츠를 업로드하며 팬층을 확보중이다.”
—가상인간도 아이돌 스타처럼 팬을 갖고 있나?
“은하는 ‘고 3 수험생’ 컨셉으로 작년 11월 대학수학능력시험 날에 맞춰 공개됐는데, 지금 1만 2000명 정도의 팔로워를 보유하고 있다. 틱톡에서 ‘좋아요’를 25만개 얻었다.”
—여러가지 가상인간을 만들었을 텐데, 현재 가장 인기있는 가상인간은 어떤 타입인가?
“현재까지는 20대 여성이 가장 인기가 많았다. 그러나 이제 수요가 점점 다변화될 것으로 예상한다.”
가상인간의 용도
—가상인간을 어디에 활용할 수 있나?
“호텔 체크인이나 기업들의 고객 상담 업무 가운데 단순한 업무는 가상인간이 대신할 수 있다. 더 나아가 자기가 좋아하는 연예인을 가상인간으로 만들어 스마트폰에 넣어 두고 수시로 꺼내 대화를 나눌 수도 있다.
우리가 처음 시작할 때에는 가상인간 기술을 모든 영상에 적용하는 것을 목표로 삼았다. 산업적 활용보다는 일단 재미에 포커스를 맞춰서 SNS용 카멜라 프로그램을 내놓은 것으로 첫걸음을 내디뎠다. 이후 산업적 활용을 위해 클론과 클링 서비스를 개발하게 된 것이다.”
김 부대표의 말이 이어졌다.
“클론의 경우 사람이 받는 제약을 받지 않고도 사람이 하는 모든 업무를 다 할 수 있는 가상인간을 만드는 것이 목표다. 현실 세계의 사람들은 잠도 자고 멀리 가려면 비행기도 타야 한다. 하지만 가상인간은 수없이 쏟아지는 뉴스를 24시간 동안 잠을 자지 않고 처리하는 리포터라든가, 굳이 비행기를 타고 해외에 가지 않아도 해외 출장 동영상을 만드는 연예인 같은 역할을 할 수 있다. 가상인간 선생님의 경우 업무시간이 아닐 때에도 학생이 물어보면 실제 선생님의 얼굴과 목소리로 답을 해 줄 수 있다.”
—다른 활용 방안이 있다면?
“매우 다양한 방향으로 사업을 구상중이다. 그 중 하나는 상조회와 협업을 통해 고인의 생전 모습을 재현하는 서비스를 생각해 볼 수 있다. 극소량의 사진과 음성만 있으면 되기 때문에 어렵지 않다.”
—기업들과 협업도 하고 있나?
“현대자동차, LG, CJ E&M과 협업을 하고 있다.”
—기업들은 어떤 가상인간을 원하나?
“다양하다. 일반 대기업들은 회사 이미지와 찰떡 궁합인 가상인간을, 언론사들은 가상앵커를 만들려고 한다. 전체 고객의 40% 정도는 실존 인물을 재현하려고 한다. 예를 들어 학교 선생님이나 책을 읽어주는 사람, 연예인이나 앵커 등을 용도에 맞게 재현하는 형태이다.”
대화도 가능할까?
—가상인간과 대화를 나누는 것도 가능한가?
“지금도 대화가 가능하지만 챗봇(chatbot) 수준이다. 즉 이미 정해 놓은 질문에 대한 대답만 가능하다. 현행 챗봇은 텍스트를 통해 말을 거는 형태인데, 이런 챗봇 엔진을 가상인간의 배경에 두고 고객이 카메라와 음성을 통해 말을 걸면 챗봇 엔진이 가동해 가상인간이 정해진 답을 하는 수준이다.
현재 세계 최고의 챗봇 기술을 가진 미국 회사와 파트너십을 맺고 관련 기술을 개발 중이다. 내년말까지는 AI 학습기능을 활용해 보다 자유로운 대화가 가능한 가상인간을 만들어 시판하는 것이 목표이다.”
—좋아하는 연예인을 가상인간으로 만들어 스마트폰에 저장해 두고 대화를 즐기면 젊은 사람들이 더욱 결혼의 필요성을 느끼지 못하는 부작용이 있지 않을까? 안 그래도 인구가 줄어 걱정인데.
“친구 개념이라고 봐야 한다. 1950년대 미국의 유명한 여배우였던 마릴린 먼로의 열렬 팬들이 그녀의 사진을 몸에 지니고 다녔다고 해서 결혼을 안한 것은 아니지 않나? 연예인과 팬의 관계를 더욱 긴밀하게 연결해 주는 매개체라고 보는 것이 옳다.”
김성곤 클레온 부대표와 이야기를 나누면서 가상인간을 실제로 어떻게 만드는지 궁금해졌다. 주제를 제작과정으로 옮겼다.
(‘이어 보기’ 아이콘이 작동하지 않으면 검색창에 ‘김성곤 가상인간’을 입력하세요.)