구글, 새로운 사물 추적(Object Tracking) 인공지능 기술 개발

구글, 새로운 사물 추적 인공지능 기술 개발

구글은 최근 블로그에 흑백 동영상 색상화를 통한 자체 추적 인공지능 알고리즘 개발에 성공했다고 공개했습니다.


구글에 따르면 영상에서 특정 물체를 추적하는 것은 컴퓨터 비저닝 및 활동인식, 객체간의 상호작용 등을 구현하는데 필수 적인 기술이지만, 인공지능이 시각적으로 사물을 추적하도록 하는것은 상당히 어렵다고 합니다.


그 이유는 학습을 위해서는 많은 영상과 그 영상을 설명하는 주석이 달린 데이터셋이 필요한데, 현실적으로 그런 데이터를 구할 방법이 없기 때문입니다.(사람의 수작업 필요)


비디오 데이터셋▲ 주석작업이 필요한 비디오 데이터셋


Google은 이 문제를 해결하기 위해 전혀 다른 접근법을 사용하게 됩니다. 이들의 논문 'Tracking Emerges by Colorizing Videos'을 보면 하나의 컬러 프레임을 활용 흑백영상을 컬러로 변환하는 'Convolutional Network'를 활용하기로 합니다.


Tracking Emerges by Colorizing Videos.pdf


이 'Convolutional Network'는 흑백영상을 컬러로 변환하면서 (의도적으로 학습시키지 않았지만) 자연스럽게 사물를 시각적으로 추적하는 능력을 학습할 수 있었다고 합니다.


흑백영상 컬러링


여기서 힌트를 얻은 구글 연구팀은 색의 일시적 일관성은 영상에서 사물을 추적하는데 필요한 충분한 데이터 셋을 제공할 수 있다는 가설을 세웁니다.(물론 갑자기 조명이 켜지는 등의 상황이 발생할 수 있지만 일반적으로 시간이 지나면 색상은 안정적인 일관성을 갖게 되기 때문에 큰 문제는 아님)


이에 연구팀은 AI를 학습시키기 위해 Kinetics 영상을 사용했습니다. 이들은 모든 영상을 첫번째 프레임만 제외한 모든 프레임을 흑백으로 변환시키고 원래 색을 예측하기 위해 'Convolutional Network'를 학습시켰습니다.


CNN 원리


윗몸일으키기

태극권


AI는 단일 프레임에서 색상을 복사하기 위해서는 영상에서 올바르게 영역을 구분할 수 있어야 하는데 이 과정에서 사물 추적하는 메커니즘을 학습하는 것 입니다. 비디오 채색모델이 어떻게 동작하는지는 아래 예시에서 확인할 수 있습니다.


구글 연구팀은 이렇게 완성된 인공지능의 사물 추적 알고리즘을 분석했습니다. 아래 영상은 PCA(Principal Component Analysis)를 사용하여 최대 3차원까지 투영하고 RGB영상으로 플로팅하여 모델에서 학습한 영상을 시각화 한 것입니다.


PCA RGB

이 결과물을 보면 학습된 임베딩 공간에서 가장 가까운 이웃들이 변형되거나 시점이 변경되더라도 객체들은 동일성에 해당하는 경향이 있다는 것을 알 수 있습니다.


연구팀은 이 인공지능 기술을 활용해 인간의 포즈를 추적할 수 있다는 것도 발견했습니다. 아래는 JHMDB 데이터셋을 인공지능이 분석할 결과입니다.


인간포즈1


인간포즈2


이번에 개발된 인공지능 기술은 기존 방식(Optical Flow)보다 사물 추적이나 인간 포즈 인식에 더 효과적일 수 있다는 것을 보여줬습니다. 연구팀은 이 기술을 좀더 개선한다면 관련 기술의 발전을 더욱 촉진 시킬것으로 기대된다고 밝혔습니다.


댓글

Designed by JB FACTORY