#1. "하이 빅스비, 넌 누구니?" 하고 묻자, 스마트폰에서 "제 이름은 빅스비. 가장 가까이 있는 인공지능 친구죠"라는 답이 돌아왔다. 그런데 목소리가 어디서 들어본 듯하다. 배우 강소라의 목소리다.
이는 삼성전자가 지난 2일 인공지능(AI) 비서 서비스인 '빅스비'에 연예인 3명의 목소리를 추가로 탑재한 '빅스비 셀럽 보이스'다. 삼성전자는 연예인 강소라, 김소현, 김예원의 목소리를 9시간씩 녹음했고, 인공지능 딥러닝(심화학습)을 활용해 이 목소리를 무한대로 구현했다.
#2. 태어나자마자 청력을 잃었고 말도 못했던 김소희(47)씨는 최근 목소리를 찾았다. KT의 음성합성 기술 덕분이다. KT는 소희씨의 목소리를 찾아주기 위해 가족의 목소리를 녹음하고, 소희씨의 성대와 구강 구조를 분석했다. 이를 AI 딥러닝으로 분석해 소희씨의 목소리를 유추했다. 이제 그는 하고 싶은 말이 있으면 스마트폰 앱에서 문자를 친다. 그러면 목소리가 흘러나온다. 그는 딸에게 "앞으로 하고 싶은 말은 (목소리로) 들려줄게. 사랑해"라고 했다.
인공지능 딥러닝 기술이 발달하면서 9시간이면 타인의 목소리를 완벽하게 재연해, 새로운 목소리를 만들 수 있는 시대가 도래했다. 사람의 목소리를 기반으로 새로운 음성을 만드는 음성합성 기술이 인공지능(AI)과 결합하며 빠르게 발전하고 있기 때문이다.
◇새 목소리 만드는 TTS 기술
사람의 목소리를 기반으로 음성을 합성해 새로운 목소리를 만드는 작업은 오래전부터 있었다. TTS(Text to Speech)다. 미리 녹음된 음성을 활용해 문자를 소리로 바꿔주는 기술이다.
본격적인 음성합성 기술은 2000년대 중반부터 시작됐다. 하지만 엄청난 양의 음성 데이터를 모아 이를 쪼개고 이어붙여 새로운 소리를 만드는 식이었다. 끊어지는 듯한 느낌이 들고 억양이 어색해 활용도가 낮았다. 지하철 안내 등 제한된 문장을 서비스하는 분야에만 적용됐다.
2014년 아마존이 매우 많은 양의 음성 데이터를 활용해 음성 인식 비서인 '알렉사'를 만들면서, 음성합성 기술은 최대한 많은 양의 음성 데이터를 모으는 데 집중됐다. 삼성전자가 2017년 빅스비를 처음 내놓을 때도 이러한 방식이 사용됐다. 빅스비에 탑재되는 음성을 구현하기 위해 성우 서유리씨 등이 1년 동안 하루 4시간씩 주 5회 녹음을 했다. 약 4000시간이다.
◇9시간이면 목소리 구현
제대로 된 음성합성 기술은 2016년 9월 구글이 인공지능 딥러닝에 기반을 둔 '웨이브넷'을 발표하면서부터다. 인공지능이 문장을 분석하고, 이에 맞게 저장된 음성 데이터의 특성을 파악해 실제와 비슷한 음성을 만든다. 인공지능이 '이 사람은 고음이다, 저음이다, 문장 마무리는 어떻게 발음한다' 등 말하는 사람의 발음 특성과 패턴을 파악하는 것이다.
삼성전자가 빅스비에 강소라 등 3인의 연예인 목소리를 입힌 것도 이러한 딥러닝을 활용했다. 삼성전자는 소설·수필 등 여러 경로에서 수집한 수백만개 문장 중 발음의 특성을 파악할 수 있는 1000여개의 문장을 선정했다. 이후 강소라 등 3명에게 각각 1000개 문장을 읽게 하고 이를 녹음했다. 1000개의 문장을 읽는 데는 9시간이 걸렸다. 이후 빅스비는 스스로 딥러닝을 통해 녹음하지 않은 문장까지 음성으로 구현해 냈다. 수년 전 음성합성을 위해 4000시간이 걸리던 녹음 시간이 9시간으로 줄어든 것이다.
김인창 삼성전자 무선사업부 AI팀 상무는 "모든 기술과 제품은 사용자에게 더 큰 만족을 줄 수 있는 방향으로 진화해 가야 한다"며 "음성 기술에 AI가 접목되면서 사람들이 더욱 자연스럽고 다양한 환경에서 여러 IT 기기와 소통할 수 있게 됐다"고 말했다.
◇여러 방면에서 활용
딥러닝 음성합성을 활용한 서비스 출시도 잇따르고 있다. KT는 '개인화 음성합성 기술(P-TTS)'을 활용해 다양한 서비스를 제공 중이다. 2018년 5월 개그맨 박명수의 음성을 합성해 만든 퀴즈 게임 '박명수를 이겨라'를 내놨다. 작년 4월에는 시범 서비스로 '내 목소리 동화'를 내놨다. 부모가 300문장을 녹음하면, 음성합성 기술을 통해 KT의 인공지능 스피커 '기가지니'가 부모의 목소리로 아이에게 책 한 권을 처음부터 끝까지 읽어주는 것이다. KT는 이를 더 고도화해 한 문장만 녹음하면 영어 음성까지 만들어주는 영어 개인화 음성합성 기술을 개발했고, 올해 상용화할 계획이다.
SK텔레콤도 인공지능 스피커 '누구'에 걸그룹 레드벨벳의 아이린 목소리를 적용했다. 알람, 스케줄 알림 등을 아이린 목소리로 들을 수 있다. 네이버는 문장을 입력하면 AI가 합성음을 만들어 동영상 같은 콘텐츠에 목소리를 입혀주는 '클로바더빙' 서비스를 제공 중이다.
최근엔 합성한 음성에 감정까지 담는 시도도 늘어나고 있다. 작년 11월 미 IT 전문지인 '더 버지'는 "미국 아마존이 사람처럼 다양한 감정을 담은 목소리를 내는 인공지능을 개발한다"고 보도했다.
사투리 억양도, 입속 웅얼거리는 소리도 알아듣는다
음성인식 기술 개발도 활발, 구글 연구비만 年 6조원
글로벌 IT(정보기술) 기업들은 음성 합성과 더불어 사람 목소리를 알아듣는 '음성인식' 기술 개발도 서두르고 있다. 두 기술을 결합하면 궁극적으로 사람과 흡사한 인공지능(AI) 로봇을 개발할 수 있기 때문이다.
음성인식은 사람 목소리의 진동을 분석해 텍스트 형태의 단어나 문장으로 바꾸는 기술이다. 음성인식은 음성합성에 비해 기술 개발이 더 까다롭다. 같은 단어라도 사람마다 내는 발음과 억양이 달라 방대한 양의 음성 데이터를 AI에 학습시켜야 하기 때문이다. IT 시장조사 업체 가트너에 따르면 구글 등 주요 글로벌 기업들은 해마다 총 50억달러(약 6조원)의 예산을 음성인식 연구에 쏟아붓고 있다.
음성인식은 최근 들어 꾸준한 투자로 사투리 억양까지 알아들을 정도로 정교해졌다. 주요 기업 기술의 사람 목소리 인식률은 평균 95%가 넘는다. 애플은 속삭이는 목소리를 인식하는 기술을, 구글은 입속에서 웅얼거리는 소리까지 단어로 변환시킬 수 있는 기술을 개발했다. 네이버는 최근 고객이 식당에 전화를 걸었을 때 사람 대신 예약을 받는 음성인식 AI를 개발했다.
음성인식은 이제 에어컨·TV 등 일부 가전에는 필수적으로 탑재되고 있다. 음성인식 AI가 리모컨을 대신하고 있는 것이다. 예를 들어 "좋은 아침"이라고 하면 공기청정기와 로봇 청소기를 동시에 켜는 식이다. 최근 현대차·기아차·BMW 등 자동차 기업들도 목소리로 창문을 열거나 히터를 조절할 수 있는 음성인식 AI 비서를 도입하고 있다.