사람처럼 느끼고 사고하는 AI기술 개발 중인 MIT

사람처럼 사고하는 인공지능 개발중인 MIT


지금까지의 인공지능 연구는 이미지, 영상, 텍스트를 인식하고 합성하는 분야에서 활발하게 진행되어 왔습니다. 대부분의 연구는 이 세가지를 다른문제로 이해하고 각 개별 작업에 적합한 알고리즘을 개발했습니다.


하지만 이런 연구방식은 AI가 사람처럼 느끼고 사고하는 것과는 많은 차이가 있기 때문에 인간처럼 학습할 수 있는 AI를 만드는 것과는 거리가 멀 수 밖에 없었습니다.


그런데 최근 MIT 에서는 흥미로운 논문을 발표 했습니다. 논문을 보면 그들은 인공지능이 전체적으로 보고 듣고 읽을 수 있도록 하는 연구를 진행하고 있다는 것을 알 수 있습니다. 의미있는 실험결과도 공개가 됐구요.


see, hear, and read, Depp aligned representations.pdf


MIT의 Yusuf Aytar 박사는 "차를 직접 보는 것이나 엔진 소리를 듣것은 방식의 차이일뿐 우리 뇌는 '이 것이 차다.'라는 것을 자연스럽게 인지할 수 있습니다." 라고 설명합니다.



그는 사람처럼 사고하는 인공지능을 개발하기 위해 각기 개발된 알고리즘을 다름 알고리즘과 연결하거나 정렬할 수 있는 방법으로 새로운 인공지능을 개발했다고 합니다.


Aytar는 이 시스템을 훈련시키기 위해 오디오와 관련된 신경망 비디오 프레임을 먼저 보여주었습니다. 신경망은 비디오의 객체와 오디오의 사운드를 찾은 후 어떤 객체가 어떤 사운드와 상관 관계가 있는지 예측하게됩니다.


그 다음 유사한 상황을 표현한 캡션이 있는 이미지를 동일한 알고리즘에 입력합니다. 이렇게 사진과 함께 동작하는 단어와 단어를 연관시킬 수 있었습니다.


아래는 Aytar가 실험한 결과 입니다. 강아지 사진을 입력하면, 개짖는 소리와, 사진을 설명하는 문장, 연관된 이미지를 결과로 얻을 수 있습니다.



물론 아직은 초기단계이기 때문에 아주 완성도 높은 수준은 아니지만, 조만간 복합적으로 상황을 인지하고 판단하는 AI가 나타날 수 있지 않을까 기대해 봅니다.


댓글

Designed by JB FACTORY