사람들은 주변의 소음이 있어도 내가 대화하는 상대방의 목소리에 집중해서 대화할 수 있는 능력이 있습니다. 칵테일파티 효과는 인간은 쉽게 발휘할 수 있는 능력이지만 컴퓨터는 이런 능력이 없기 때문에 인공지능스피커들은 주변 소음이 있으면 사람의 말귀를 제대로 못 알아먹는 경우가 많습니다. 하지만 앞으로 인공지능이 주변 소음 때문에 내 목소리를 놓치는 일은 사라질 것 같습니다.
▼구글이 딥러닝 기술을 이용해 여러 사람들 중에서 특정 사람의 목소리만 뽑아 내는 기술을 완성했기 때문입니다. 구글은 신경망 모델을 훈련시켜, 인공지능이 사람처럼 칵테일파티 효과를 지원할 수 있도록 만들었습니다. 개발팀에 따르면 영상에서 주변소음과 다른 사람들의 목소리를 억제시켜 특정인의 목소리만 분리해 내는 시청각학습모델(Deep learning audio-visual model)을 개발했다고 합니다.
▼이 기술의 원리는 간단한데 구글은 영상속에 등장하는 인물들의 입의 움직임을 관찰하여 그 사람이 말할 때 발생하는 소리를 연관시킨 다고 합니다. 이렇게 영상신호와 음성신호를 결합시킴으로써 더욱 정교하게 목소리를 구분할 수 있었다고 합니다. 구글은 이 모델을 학습시키기 위해 유튜브에서 등록된 10만건의 강연 영상을 활용했습니다. 2000시간 분량의 강연 영상을 학습 시킨후 이 영상들을 혼합해 목소리를 구분하는 훈련을 진행했습니다.
▼학습을 마친 인공지능이 실제 음성을 분리한 결과물은 놀랍습니다. 아래 샘플 영상을 한번 보시기 바랍니다.
▼이 기술은 다양한 분야에서 혁신적인 진전을 가져올 것으로 예상됩니다. 보청기의 성능을 획기적으로 개선 시킬 수 있으며, 유튜브 영상의 자막을 좀더 정확하게 생성할 수도 있습니다. 비디오 컨퍼런스콜이나, 일반인들이 녹화한 영상에서 소음을 제거하는 용도로도 사용 가능합니다. 구글이 개발한 실시간 통역기에도 적용 된다면 실시간 통역기 시대를 좀더 앞당길 수도 있어 보입니다.