성우 내레이션도 인공지능이 대체? AI로 사람 목소리 만든 구글 딥마인드

AI로 사람 목소리 만든 구글 딥마인드

최근 구글에서는 텍스트를 사람의 목소리로 변환시켜주는 기술을 공개했습니다. 이 기술은 문자(텍스트)를 음성으로 변환시켜주는 TTS기술의 한 종류인데요. 기존의 TTS 기술은 컴퓨터가 글씨를 단어별로 또박 또박 읽는 탓에 컴퓨터 목소리라는 것은 한번에 알아 챌 수 있었지만 이번에 발표된 기술은 사람과 인공지능의 목소리를 구분하는 것이 거의 불가능할 정도라고 합니다.

타코트론2(Tacotron 2)이라 불리는 이 기술은 바둑의 신 알파고를 만든 구글의 인공지능 연구팀 '딥마인드(Deepmind)'에서 개발했습니다. 이 기술은 두개의 신경망을 이용해 완벽에 가까운 사람의 육성을 재현한다고 하는데요. 첫번째 신경망은 문자를 12.5ms 마다 80차원으로 구분한 오디오 스펙트로그램을 만들어 주는 역할을 한다고 합니다. 스펙트로그램은 소리의 진폭을 색으로 표현한 그래프라고 이해하시면 됩니다.

스펙트로그램


▼이렇게 만들어진 스펙트로그램은 딥마인드에서 만든 음성합성 신경망인 '웨이브넷'에 전달되게 됩니다. 웨이브넷은 이 스펙트로그램을 분석해서 사람의 목소리로 읽어내는 것입니다. 이렇게 웨이브넷을 통해서 재생된 소리를 품질을 측정한 결과 타코트랜2의 평균 발성 점수(MOS)는 4.53점을 기록했다고 합니다. 이는 성우들의 평균 점수인 4.58점과 거의 차이가 없는 수준인데요. 2016년에 기록한 4.21점보다 0.37점이나 향상된 것입니다.

tacotron 2 기술

인공지능과 사람의 육성을 구분해 보세요.

“That girl did a video about Star Wars lipstick.”
1
2
“She earned a doctorate in sociology at Columbia University.”
1
2
“George Washington was the first President of the United States.”
1
2
“I'm too busy for romance.”
1
2

▼Tacotron 2 기술의 놀라운 점은 이 것 뿐만이 아닙니다. 이 기술은 대문자로 강조된 문장에 엑센트를 줘서 읽기도 하며, 문장에 오타가 있어도 이를 알아서 고쳐서 읽는 다고 합니다. 이정도면 거의 사람와 차이가 없다고 봐도 무방한 수준입니다. 딥마인드가 개발한 이 기술은 구글홈에 적용 된다고 하는데요. 앞으로는 목소리만 들어서는 이게 사람이 하는 말인지 컴퓨터가 하는 말인지 구분을 못하는 세상이 온 것 입니다.


어려운 문장도 유창하게 읽는 Tacortron2

“Peter Piper picked a peck of pickled peppers. How many pickled peppers did Peter Piper pick?”
“She sells sea-shells on the sea-shore. The shells she sells are sea-shells I'm sure.”


▼하지만 개발팀에서는 앞으로 개선해야할 부분도 있다고 밝혔는데요. 간혹 Decorum, Merlot과 같이 복잡한 단어를 발음하는데는 어려움을 겪을 수 있으며 이 때 종종 이상한 소리를 재생할 수도 있다고 합니다. 또한 아직 슬픔이나 행복한 감정을 표현할 수는 없다고 합니다.

감정없는 인공지능


▼이 또한 시간이 해결해줄 것같은데요. 문장의 의미를 이해하고 감정까지 실어서 AI가 책을 읽어준다면 전문성우가 책을 읽어주는 느낌을 받을 수 있을 것 입니다. 아이들에게 구현동화를 사람이 아닌 컴퓨터가 해줄수도 있을 것이구요.

영화 Her


▼무엇보다 지난해 발표된 몇시간만의 학습으로 성대모사가 가능한 인공지능 기술을 결합하면, 유명인들의 목소리를 그대로 흉내내는 인공지능 성우가 탄생할 수 있는 것입니다. 그렇게 되면 앞으로 목소리로 먹고사는 직업 아나운서, 스포츠아나운서, 성우, 나래이터, 구현동화 선생님들은 일자리를 위협받게 될 것입니다.


Tacotron 1 기술을 이용해서 우리나라 개발자가 만든 손석희 성대모사 인공지능

▼사람들은 스포츠 중계방송이나 뉴스, 영화를 볼 때 자신이 좋아하는 사람의 목소리를 들을 수 있게 되는 것입니다. 또한 실시간 번역기술과 결합된다면 우리는 미국 트럼프 대통령의 연설을 인공지능이 변환해준 한국말로 들을 수도 있을 것 입니다. 물론 목소리는 트럼프 대통령의 톤이 그대로 녹아 들어 있겠죠. 본인도 못하는 한국말을 인공지능이 대신해주는 격입니다.


▼이 밖에도 다양한 분야에서 재미있는 서비스가 생겨날 것 같은데요. 활용할 곳은 무궁무진할 것 같습니다. 물론 악의적으로 사용할 수도 있을 텐데요. 이 기술을 탑재한 인공지능이 보이스피싱을 하면 왠만한 사람은 다 넘어가지 않을까요? 이런 엄청난 기술들을 개발하고 있는 구글이 정말 대단하면서도 무섭게 느껴지는 이유입니다.


댓글

Designed by JB FACTORY