자막은 청각 장애인 뿐만아니라 거의 모든 사람에게 도움이 됩니다. 요즘 TV 프로그램을 보면 사운드 없이 프로그램을 볼 수 있을 정도로 자막이 사용되고 있는데요.
한 연구결과에 따르면 자막을 통해 사용자의 비디오 시청시간을 약 40% 정도 늘릴 수 있다고도 합니다. 물론 스마트폰도 예외는 아닙니다.
하지만 영상 제작자가 자막까지 작업을 하기에는 어려움이 따릅니다. 또 이미 제작한 영상에 다시 자막작업을 다시 하는 것 또한 많은 작업이 피룡한데요.
최근 구글에서는 재생중인 영상에 자동으로 자막을 생성해주는 안드로이드의 새로운 기능 Live Caption을 공개했습니다.
Live Caption은 네트워크 접속하지 않고 기기에서 작동하기 때문에 프라이버시도 보호되며 영상과의 싱크도 잘 맞는다고 합니다.
아래 영상을 보시면 볼륨 컨트롤 및에 자막 On/Off 기능이 추가된 걸 확인할 수 있습니다.
라이브 캡션은 3가지 온 디바이스 립러닝 모델의 조합을 통해 작동한다고 합니다.
- 음성 인식을위한 반복 신경망 (RNN) 시퀀스 변환 모델 (RNN-T)
- 무성 구두점을 위한 텍스트 기반 반복적인 신경 네트워크 모델
- 소리 사건 분류를 위한 경량 신경 네트워크(CNN) 모델
위 세가지 모델의 신호를 통합하여 [APPLAUSE]와 [MUSIC]와 같은 사운드 이벤트 태그가 음성 인식 결과의 흐름을 방해하지 않고 나타나는 단일 자막을 만들며, 자막이 병렬로 업데이트되는 동안 문장 기호까지 예측한다고 합니다.
Live Caption은 Pixel 4에서 영어로 제공되며 곧 Pixel 3 및 기타 Android 장치에서 사용할 수 있다고 합니다. 특히 다중 스피커 콘텐츠의 경우 캡션의 인식 정확도 및 일관성을 향상시키기 위해 다른 언어로의 지원을 확장하고 서식을 개선하여이 기능을 더 많은 사용자에게 제공할 계획이라고 합니다.
출처 : 구글 AI 블로그