[쫌아는기자들] 감정을 표현하고 노래도 하는 음성합성 엔진, 휴멜로

주 3회 발행하는 유료 레터 [스타트업]의 콘텐츠입니다. 가입은 https://page.stibee.com/subscriptions/158656 하세요. 유료 콘텐츠 중 일부는 무료 온라인 공유합니다.

@[나는 그때 투자하기로 했다] 코너에서는 현업의 벤처캐피털 심사역이 왜 이 스타트업에 투자했는지 정보를 직접 공유합니다. 이메일 하단에 [감정 담은 AI 목소리] 샘플을 공개합니다.

스타트업 액셀러레이터나 VC라면 다양한 창업경진대회에 멘토나 심사위원으로 초대되는 경우가 많다. 나도 그렇다. 대부분의 경우 감사한 마음으로 참여해 훌륭한 스타트업이 있을지 열심히 찾아본다. 요즘에는 정말 많은 스타트업들이 만들어지고 있어서, 의외의 장소에서 보석같은 회사를 만나는 경우도 있기 때문이다. 하지만 스타트업을 하려고 구체적으로 마음을 먹고 충분한 준비한 분들이 아니라, 스타트업에 대한 관심은 있으시지만 정말 창업할 수 있을지 아직 결심과 고민이 부족한 분들이 모이는 행사라면 어떨까. 아마도 많은 투자자들이 참여를 주저할 것 같다. 창업을 위한 조언이나 도움은 드릴 수 있어도, 창업을 할 것인가 말 것인가 하는 가장 중요한 결정을 투자자가 도와주기는 어렵기 때문이다.

한국콘텐츠진흥원에서 “음악과 인공지능의 콜라보”를 주제로 음악가들과 인공지능 개발자들을 모아 완전히 새로운 뭔가를 만들어 보자는 제안이 왔다. 나도 마찬가지로 고민이 컸다. 과연 이런 시도를 통해 새로운 스타트업이 만들어질 수 있을까? 음악을 전공하지도 않았고, 인공지능을 직접 개발하지도 않은 내가 의미 있는 조언을 할 수 있을까? 그런 생각 끝에 본의 아니게 프로그램을 담당한 서희선 부장님을 괴롭히기 시작했다. “제가 이 프로그램에 왜 참여해야 하나요? 이 프로그램을 통해 퓨처플레이가 좋은 스타트업을 찾을 수 있을까요?”

휴멜로 창업팀 /퓨처플레이 제공

◇ “음악, 인공지능을 켜다” 프로젝트, 아티스트와 개발팀이 만났을때

서 부장님의 답은 좀 엉뚱했지만 거절할 수가 없었다. “SM엔터테인먼트 이성수 이사님이나 한국예술종합학교 장재호 교수님 같은 훌륭한 분들 참여하시기로 하셨어요. 이 분들 뵐 수 있는 좋은 기회잖아요. 그리고 류 대표님 음악 좋아하시잖아요?” 그래, 설사 좋은 스타트업을 찾지는 못하더라도 좋은 분들과 재미있는 시도를 해 보는 것도 충분히 가치는 있는 일이지. 평소 관심이 많았지만 연결고리를 생각 못해본 음악과 인공지능이라면 어떤 결과물이 나올지도 기대가 되는 일이고.

그렇게 시작한 ‘음악, 인공지능을 켜다’라는 프로젝트는 상상보다 훨씬 훌륭한 결과를 만들었다. 잠비나이, 이디오테입과 같은 쟁쟁한 아티스트들과 스캐터랩, 코클리어.AI 등의 뛰어난 스타트업들이 참여했다. 이들의 열정적인 협업을 통해 멋진 결과물들이 만들어졌고, 함께 모여 공연 형식으로 결과를 풀어내는 참신한 데모데이까지 가졌다. 비록 참여했던 스타트업들은 이미 투자를 받은 경우들이 많아서 퓨처플레이와 인연이 만들어지지는 않았어도, 충분히 만족스러운 프로그램이었다. 이때는 상상도 못했지만, 이 때 맺은 이성수 대표님(당시는 이사 직함이었음)과 인연은 지금 퓨처플레이가 SM엔터테인먼트와 같은 건물을 쓰게 되는 데까지 발전을 하기도 했고 말이다.

“이제 저희도 창업을 하고 싶은데 어떻게 하면 좋을까요?”

프로그램이 마무리될 때, KAIST 출신의 학생 팀 하나가 조심스럽게 상의를 해왔다. 워낙 참여한 회사들이 화려해서 주눅이 들었을 수도 있는데, 당당하게 멋진 결과를 낸 “휴멜로”라는 팀이었다. 이 팀은 인공지능으로 작곡을 하는 기술을 선보였다.

“기술은 정말 훌륭하신데 솔직히 저는 작곡을 하는 AI가 빠르게 매출을 내는 사업으로 진화하기는 어려울 것 같아요. 혹시 우리가 풀 수 있는 다른 문제는 없을까요?”

작곡이나 작사를 하는 AI는 매우 신기하지만, 유튜브 등의 미디어에서 활용할 수 있는 무료 BGM들도 많고, 프로페셔널 작곡가나 작사가를 대체할 수 있는 수준까지 올라간다고 해도 히트곡을 만들지 못하면 저작권 수익을 가지기 어렵다. 이런 고민에 나는 인공지능 기술을 이용한 다른 사업모델을 찾아보기를 권해드렸다. 고민 끝에 제안을 받아들인 휴멜로의 창업자분들은 매주 카이스트가 있는 대전에서 서울로 올라와 새롭게 찾은 문제들을 놓고 함께 고민해 주셨다.

◇외화의 더빙을 대신하는 인공지능 성우의 등장 가능할까

“이번에는 음성합성을 생각해 보았는데요, 어떻게 보세요?”

“음성합성은 이미 구글이 완벽하게 만들었잖아요. 얼마 전에 전화 거는 시연도 보여줬고요.” “아뇨, 그래도 구글은 성우처럼 연기를 하거나 가수처럼 노래하는 기술은 아직 못 만들었잖아요. 저희라면 그 수준으로 만들 수 있을 것 같아요.”

이야기를 듣고 나니 한방 먹은 느낌이었다. 너무 자주 기술 뉴스를 듣다보면 실리콘밸리의 거인들이 왠만한 기술은 다 만든 것 같고, 작은 스타트업이 여기 도전이나 할 수 있을까 심드렁해지기도 한다. 하지만 문제를 다시 정의하고, 작지만 중요하고, 앞으로 커질 시장을 공략한다면?

“그러고보니 게임에도 성우가 필요하고, 영화나 유튜브도 번역이 되면 성우가 필요한데 이 시장을 AI가 대체할 수 있겠네요. 인공지능 가수가 나올 수도 있겠구요.”

“예, 구글의 논문을 보니 이 모델에는 감정이나 피치를 넣기가 매우 어렵겠더라고요. 저희가 해볼 수 있을 것 같습니다.”

작곡이나 작사에서는 멀어지는 피봇이었지만, 훨씬 더 큰 시장에 빠르게 접근하기 위해서는 옳은 선택이라는 확신을 모두 가졌다. 그렇게 퓨처플레이는 휴멜로에 초기 투자를 결정했다. 이제 훌륭한 음성합성 기술만 개발하면 되는 일이었다.

“대표님, 개발은 잘 되어 가세요?”

“… 생각보다 쉽지 않네요. 그래도 열심히 하고 있습니다.”

우리가 처음 생각했던 “감정을 가진 목소리”를 가진 음성합성 엔진은 생각보다 만들기 쉽지 않았다. 일단 머신러닝을 위한 음성 데이터를 최소한만 사용하도록 개발했지만, 적은 데이터로 높은 음질의 음성을 만드는 일은 쉽지 않았다. 학습에 필요한 시간도 그랬다. 가능한 실시간으로 음성을 합성할 수 있어야 상품성이 높아지지만, 이것도 그렇게 쉬운 일은 아니었다. 설상가상으로 완벽한 제품의 개발이 생각보다 늦어지며 사람과 돈의 문제가 둘 다 나타났다. 회사의 비전에 의구심을 가지거나 느린 개발과 사업 전개에 아쉬움을 가지는 인원들이 이탈했고, 투자금은 바닥을 드러내기 시작했다.

하지만 여기서 멈추기는 너무나도 아쉬웠다. 감정을 표현하고 노래를 할 수 있는 음성합성 엔진을 만들고 있는 경쟁사는 아직 없었다. 조금만, 조금만 더 기술을 갈고 닦으면 그 영역에 도달할 수 있지는 않을까. 우리가 고민하고 또 고민해서 찾은 문제, 그 문제 자체는 틀리지 않은 것이었다. “대표님, 크지는 않지만 브릿지 투자를 저희가 할께요. 이제 고지가 멀지 않았으니 마지막으로 한번 달려 봐요.” 퓨처플레이에서도 쉽지는 않은 결정이었지만, 다시 한번 휴멜로에 투자를 하고, 경기도 버전 TIPS로 불리는 WINGS에 추천을 했다. 다행히도 WINGS에도 선정이 되고, 다시 팀이 정비되어 시너지를 발휘하며 휴멜로는 연구개발에 박차를 가하기 시작했다.

/퓨처플레이 제공.

◇ 좋은 문제를 찾았다면 끝까지 풀어라, 포기하지 말고

“저희 최근에 만든 테스트 비디오인데요, 한번 보실래요?”

휴멜로 이자룡 대표가 자랑스러운 목소리로 보여준 비디오는 대단했다. 영어를, 중국어를 잘 하지 못하는 유튜버들이 자신의 목소리와 감정으로 완벽한 영어와 중국어를 구사하고 있었다. 계속 아쉬움을 주던 음질 문제도 말끔히 해결되어, 마치 스튜디오에서 녹음한 음성 같았다.

“와 이건 정말 대단한데요? 앞으로 외국 시청자들도 한국 컨텐츠를 자막으로 볼 필요 없을 것 같아요!”

휴멜로는 이후 KT인베스트먼트, 카카오인베스트먼트에서 30억의 투자를 받았고, 다양한 대기업들의 서비스에 감정을 가진 목소리를 제공하는 일을 하고 있다. 우리가 처음 생각했던 문제는 우리의 생각보다도 훨씬 큰 문제였고, 우리가 그 문제에 대해 확실한 해답을 만들었을 때 시장은 큰 관심과 협업, 그리고 투자로 화답했다. 휴멜로가 초창기에 좋은 문제를 찾지 못했다면, 그리고 어려운 고비에서 문제에 대한 확신을 가지지 못했다면 어땠을까. 많은 스타트업들이 우리가 잘 하고 있는가를 고민하지만, “정말로 시장이 원한다는 증거를 가진 확실한 문제를 찾았다면” 그 다음 우리에게 필요한 건 끝까지 견뎌내며 절실한 마음으로 그 문제를 풀어내는 것은 아닐까. 절대로, 절대로 포기하지 않고.

/퓨처플레이 제공

◇ 이자룡 창업가의 ‘인간의 목소리를 그대로 흉내낸 인공지능 목소리’

쫌아는기자들이 휴멜로의 ‘감정 담은 인공지능 목소리’를 테스트했습니다. 쫌아는기자들 성호철이 책 [창업가의답] 서문 일부를 녹음해 보냈습니다(1번 클릭, 원문). 휴멜로는 지체없이 배우 이병헌씨 목소리로 변환해 보내왔습니다(2번).4번은 이병헌씨 목소리를 영어, 중국어, 일본어로 바꾼 인공지능입니다. 이병헌씨가 녹음한게 아니라, 인공지능이 만든 목소리(AI 모사)입니다. (@링크는 구글드라이브를 활용했음)

[1.성호철_ 책 서문 읽음(원문)]

https://drive.google.com/file/d/1j5o8gdKJeZOp5yg5Rcj0UOjGQzohvBNu/view

[2.성호철->이병헌 목소리 변환]

https://drive.google.com/file/d/17cn7G9ZUBHMkVVoARnlucG9aZyXSRlIX/view

[3.성호철_이병헌 동시 비교]

https://drive.google.com/file/d/1x1vAhdjFWTtr5giklS4m2aIHdk8dx4OW/view

[4.이병헌 목소리_영중일어 변환]

https://drive.google.com/file/u/1/d/1u03zPLpTBG0cIlA5YXISElfH6G-xmwt_/view?usp=sharing

휴멜로 이자룡 대표. /퓨처플레이 제공.

1. 회사명 : 휴멜로

2. 설립연도 : 2018년 04월 19일

3. 주력 서비스

- Prosody API service

- Prosody 인공지능 성우 소프트웨어 (https://www.prosody-tts.com/)

4. 창업자 이자룡 대표

2017~2018 KAIST 전산석사 과대표

2018~ Humelo Inc. 대표이사

“성호철님이 보내온 녹음 목소리에서 음길이는 그대로 딴 상태에서 음높이는 배수를 넣어서 맞춰준뒤, 이병헌씨의 음색 데이터를 넣어서 만든 인공지능 음성입니다. 이병헌씨의 음색에 대한 잠재 벡터를 넣어서, 목소리를 재해석했다고 해야할까요? 영어나 일본어, 중국어로 변환하는 것도 마찬가지입니다. 이렇게 생각해보시죠. 성대모사하는 어떤 개그맨이 있는데, 한두명이 아니라 천명 이상을 똑같이 흉내낼 수 있고, 무려 20개 언어를 구사한다고요. 그러면 이 개그맨은 이병헌씨의 목소리로 영어, 일본어, 중국어 뭐든 상상해서 유창하게 할 수 있지 않을까요? 이 기술은 예컨대 영화나 드라마, 유튜브 더빙에 사용할 수 있습니다. 출연 배우 본인의 목소리를 외국어로 실시간 더빙합니다.”

이건 우리가 알던 인공지능 스피커의 목소리 수준이 아닌데요?

“3년 전에 인공지능 스피커가 막 쏟아져나왔을 당시엔 목소리가 다들 천편일률적이었죠. AI 목소리는 다 그런건가했던때죠. 10분만 얘기하면 지루해지는 목소리였죠. AI가 발전하면서 점차 자연스럽게 말은 하는데, 감정 정보가 없어요. 그래서 감정이나 특수한 목소리를 만들자는 도전을 시작했죠.”

인공지능이 감정 담은 목소리를 배우는 방법은요?

“인공지능한테 수많은 데이터를 주면, 스스로 패턴을 인식하는 것이죠. 인공지능은 블랙박스라고 하잖아요. 예전 기준의 프로그램과는 전혀 다른 방식이죠. 우리는 음성을 엄청 많이 학습시킵니다. 그러면 인공지능은 ‘감정’이 뭔가를 스스로 분석하고, 음성과 감정간 연관성을 찾아 잠재 벡터로 추출할 수 있습니다. 벡터 값에 우리가 원하는 정보가 잠재적으로 들어있을 것으로 예상되는 거죠. 물론 그런 값이 정확히 어디에 어떻게 들어있는지 알 필요는 없습니다. 블랙박스니까요.”

“일반 목소리에다 잠재 벡터, 그러니까 감정이 뭔지를 담은 벡터를 힌트로 제공해 음성을 합성합니다. 예컨대 무덤덤한 목소리에다 화난 감정 벡터를 합성하면 화난 목소리가 되는 식입니다. 학습할때 실제로 화난 목소리도 인공지능에게 데이터에 포함이 되어있긴 합니다. 인공지능은 화난 목소리 음성에서 음색과 같은 감정 외의 정보를 온전히 배제하고 ‘이런게 화난 것이구나’라고 패턴을 파악합니다.”

현재 개발한 감정의 숫자는요?

“현재 9가지 감정이 있습니다. 화남, 차분함, 실망, 흥분, 공포, 행복, 중립, 슬픔, 졸림. 감정을 담은 인공지능 목소리가 구현하는 최고의 형태는 노래입니다. 감정을 담은 호소력 짙은 노래요. 또 감정 연기도 마찬가지입니다. 그 전단계는 내레이션이나 라디오 방송 정도인데, 기술적으로는 개발 완료했습니다. 최고봉인 감정연기와 노래에 대해서도 여러 방법으로 도전하고 있고, 내년 상반기에 개발을 완료하는 것이 목표입니다.”

“인공지능이 목소리에서 감정 표현을 할 수 있느냐는 사실 창업 초창기때 도전했던 과제입니다. 지금은 그걸 넘어서, 목소리에 감정을 넣는데 드는 비용을 얼마큼 낮추느냐, 그리고 한국어 목소리를 녹음한 것을 가지고 영어나 중국어와 같은 외국어를 유창하게 하게 만들 수 있느냐는 도전입니다. 예컨대 한국 배우의 한국말 목소리를 가지고, 그 배우의 목소리인데 그 배우가 못 하는 영어나 중국어를 하는 겁니다. 그래서 더빙이죠. 현재 클레온이라는 영상 인공지능 스타트업과 협업하는데요, 입모양을 변형하는 기술도 보유하고 있습니다. 협업 프로젝트는 내년초 열리는 CES에서 혁신상을 2개나 받았고, 현장에서 데모를 공개할 예정입니다.”