구글, 자동 자막생성 인공지능(Live Caption) 픽셀4 적용 및 확대 추진

IT

자막은 청각 장애인 뿐만아니라 거의 모든 사람에게 도움이 됩니다. 요즘 TV 프로그램을 보면 사운드 없이 프로그램을 볼 수 있을 정도로 자막이 사용되고 있는데요.

한 연구결과에 따르면 자막을 통해 사용자의 비디오 시청시간을 약 40% 정도 늘릴 수 있다고도 합니다. 물론 스마트폰도 예외는 아닙니다.

하지만 영상 제작자가 자막까지 작업을 하기에는 어려움이 따릅니다. 또 이미 제작한 영상에 다시 자막작업을 다시 하는 것 또한 많은 작업이 피룡한데요.

최근 구글에서는 재생중인 영상에 자동으로 자막을 생성해주는 안드로이드의 새로운 기능 Live Caption을 공개했습니다.

Live Caption은 네트워크 접속하지 않고 기기에서 작동하기 때문에 프라이버시도 보호되며 영상과의 싱크도 잘 맞는다고 합니다.

아래 영상을 보시면 볼륨 컨트롤 및에 자막 On/Off 기능이 추가된 걸 확인할 수 있습니다.

라이브 캡션은 3가지 온 디바이스 립러닝 모델의 조합을 통해 작동한다고 합니다.

- 음성 인식을위한 반복 신경망 (RNN) 시퀀스 변환 모델 (RNN-T)
- 무성 구두점을 위한 텍스트 기반 반복적인 신경 네트워크 모델
- 소리 사건 분류를 위한 경량 신경 네트워크(CNN) 모델

위 세가지 모델의 신호를 통합하여 [APPLAUSE]와 [MUSIC]와 같은 사운드 이벤트 태그가 음성 인식 결과의 흐름을 방해하지 않고 나타나는 단일 자막을 만들며, 자막이 병렬로 업데이트되는 동안 문장 기호까지 예측한다고 합니다.

Live Caption은 Pixel 4에서 영어로 제공되며 곧 Pixel 3 및 기타 Android 장치에서 사용할 수 있다고 합니다. 특히 다중 스피커 콘텐츠의 경우 캡션의 인식 정확도 및 일관성을 향상시키기 위해 다른 언어로의 지원을 확장하고 서식을 개선하여이 기능을 더 많은 사용자에게 제공할 계획이라고 합니다.

출처 : 구글 AI 블로그

저작자표시 (새창열림)

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

구글, 자동 자막생성 인공지능(Live Caption) 픽셀4 적용 및 확대 추진

Copyright © Aedi의 스마트라이프 All Rights Reserved

Designed by JB FACTORY

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

'IT' 관련 글

개발자가 코로나로 재택근무하면 생기는 일(바나나 땅콩버터 샌드위치 AI)

마이크로소프트 새로운 윈도우 터미널(도스창) 출시

교통사고 48% 줄인 DeNA의 인공지능 기술

옛날 사진 선명하게 복원해주는 인공지능 서비스 인기