주3회 발송하는 유료레터 스타트업이니다. 유료가입 https://page.stibee.com/subscriptions/158656

무료가입 https://page.stibee.com/subscriptions/143087 입니다. 감사합니다.


“영화 ‘Her’ 혹시 보셨나요. 호아킨 피닉스(주연 배우)가 실물조차 없는 OS의 AI와 사랑에 빠지는 내용의 영화요. 그 영화를 보면 주인공은 사람처럼 말하고 생각하는 AI에서 여태 사람과의 관계에서 느낄 수 없는 행복을 느껴요. 소통은 꼭 인간과 해야 하는 것일까요? 그렇다면 반려동물과의 소통은 어떤 의미일까요? 어쩌면 우리는 소통의 의미를 지나치게 제한적으로 생각하고 있을지도 몰라요.

클레온 창업 전에 잠시 회계학 인터넷 강의를 듣고 있었어요. 쭉 듣는데, 너무 재미가 없었어요. 갑자기 머릿속에 다른 생각이 들었죠. 꼭 선생님이 선생님처럼 보일 필요가 있을까? 만약 인터넷 강의 강사님이 연예인 수지였다면? 이런 딴생각에서 계속 생각하다 보니 갑자기 스티브 잡스와 대화를 하고 싶더군요. 잡스가 아니라 그전의 괴테, 혹은 삼국지의 유비와 대화를 한다면 무슨 이야기를 할 수 있을까요. 살아있는 인간을 넘어서, 만약 경복궁이 의인화되어서 ‘복궁이’라는 AI가 있고, 그 캐릭터가 경복궁 가이드를 해준다면 어떨까. 우리 상상 속의 존재와의 소통을 계속 생각하게 됐어요.”

클레온의 진승혁 대표(29)는 ‘디지털 휴먼’이 인간의 소통 대상이 될 수 있다고 믿는 창업가다. 그러고 보니 쫌아는기자들이 시즌2 때 인터뷰했던 스캐터랩의 김종윤 대표와 AI 챗봇 이루다가 생각났다. 인터뷰 때 기억에 남았던 대목은 진심으로 이루다의 복귀를 기다렸던 친구들이 있었다는 것이다. 그들이 보냈던 피드백은 이루다가 정말 ‘내 이야기를 잘 들어주는’ 친구라 여기고 있었다. 그때부터 2호도 ‘우리가 안다는 커뮤니케이션의 범주’는 훨씬 넓을 수 있다는 것을 느꼈다. 클레온과 진승혁 대표는 이루다와 다른 방식으로 디지털 휴먼의 길을 개척하고 있는 스타트업이다. 어린 시절, 잠시 반짝하고 떠올랐지만 결국 소리 소문도 없이 사라지고 말았던 사이버가수 아담의 실패를 되풀이하지 않기 위해서다.

1990년대말 화제가 됐던 사이버가수 아담. CF에 출연하기도 했다.

◇디지털 휴먼의 눈,코,입,... 얼굴, 몸을 만든다

클레온의 진승혁 대표 /클레온

클레온은 디지털 휴먼의 그래픽에 집중하는데요. 이루다나 영화 ‘Her’에 등장하는 AI처럼 실체가 없어도 되는 것 아닐까요.

디지털 휴먼의 큰 갈래는 2개입니다. 실제 인간처럼 대화하도록 두뇌를 만드는 일. 그게 이루다고요. 또 다른 기술은 클레온처럼 디지털 휴먼을 인간처럼 보이도록 하는 기술을 만드는 일이죠. 사람은 시각에 영향을 많이 받아요. 눈에 보이지 않고, 약간의 이질감이 느껴져도 바로 믿는 것을 그만둡니다. 예를 들면 목소리가 사람 같아야 하고, 그다음에는 얼굴, 표정과 제스처까지. 인간처럼 느끼게 하려면 모두 중요하다고 생각해요. 이루다가 디지털 휴먼의 뇌에 집중했다면, 클레온은 UX에 집중하는 것이죠.예전에도 사이버 가수 아담처럼 수많은 디지털 휴먼이 있었어요. 하지만 친숙하게 생각하지 못했던 이유는 그 이질감 때문이죠. 눈을 윙크하는 모습이 어색하거나, 어딘가 삐뚤어져 보이기만 해도 곧바로 무의식에서는 거리가 멀어집니다. 디지털 휴먼을 기계라고 인식하지만, 무의식 속에서는 인간처럼 느끼도록 만들어야 디지털 휴먼과 더 깊은 소통이 가능해요. 인간의 시각을 설득하는 작업이죠.

외국어로 음성과 입 모양을 자동으로 바꿔주는 서비스도 있던데요.

음성은 시각의 영역이 아닌데요.”한국인이 한국어로 한국인하고만 소통을 넘어설 수 있으니까요. 어쩌면 소통의 혁신, 그 끝은 모든 세계인이 언어의 장벽에 제한받지 않고 대화하는 것일 겁니다. 번역은 구글이나 다른 기업들이 만들고 있고, 음성을 텍스트로, 텍스트를 음성으로 바꾸는 기술을 연구하는 스타트업도 있고요. 저희 기술 ‘클링’은 영상 속에서 다른 여러 언어를 더빙하도록 입혀주는 솔루션이에요. 예컨대 송강호가 ‘오, 넌 다 계획이 있구나’를 영어,스페인어,일어로 바꾼다고 가정할게요. 기계음처럼 이걸 번역하고 입 모양이 어색하다면요? 사람들이 소통에 몰입할 수 없겠죠. 이걸 자연스럽게 음성의 톤과 영상을 조절해주는 기술입니다.”

[[MWC 2022] Hidden language genius in Parasite]

클링 외에도 2개의 제품이 있더군요.

“가상 인물을 만들어내는 서비스 ‘클론’, 그리고 기존 영상을 다양하게 합성해서 공유할 수 있는 소셜미디어 서비스 ‘카멜로’도 운영하고 있어요. 카멜로는 예컨대, 제 얼굴 사진을 찍고 다른 가수의 영상에 제 얼굴을 합성하는 방식으로 재밌는 영상 여럿을 만들어서 공유하는 플랫폼이죠. 클론과 클링은 주로 B2B 서비스를 타깃으로 만들었습니다.”

가상 인물을 만들어낸다? 그것도 사진 한 장과 음성 30초 만으로?

“기자님 사진을 지금 한 장을 주고, 제작 코드에 원하는 단어를 입력합니다. (실제 시연해봤음) 예컨대 devil이라고 검색하면 얼굴이 악마처럼 변하고, 강도를 조절할 수 있어요. 게임 캐릭터로 해볼까요? 이즈리얼이라는 리그 오브 레전드의 캐릭터를 입혀볼게요. 2~3초면 이렇게 기자님 얼굴이 이즈리얼과 비슷해지죠. 같은 방식으로 윤석열 대통령 합성도 가능해죠. 이렇게요. 구글에서 키워드를 검색한다음, 이미지들의 특성을 AI가 파악해 공통된 요소를 얼굴에 입히는 방식이죠. 음성은 30초면 5개 국어를 할 수 있도록 입 모양을 바꿔가면서 합성이 가능하죠.”

[전문은 유료구독하고 보세요. 유료구독자에겐 주3회 유료 레터와 작년 3월 이후에 쌓은 모든 콘텐츠 아카이브를 제공합니다]

2호의 얼굴을 게임 캐릭터 이즈리얼(위)과 윤석열 대통령과 합성해봤다. 윤 대통령과의 합성(아래)은 살짝 놀랐다. 클레온은 합성의 정도를 조절할 수 있는 기능도 갖췄고, 이 모든 변환은 5초 이내에 끝났다. /클레온