인공지능 · 1 min read · Dec 06, 2025

AI가 600시간의 TV와 YouTube를 시청하며 인간 행동을 예측하는 법을 배운다

과학자들이 컴퓨터에 TV 프로그램을 제공하여 인간이 다음에 무엇을 할지 예측하다

MIT의 컴퓨터 과학 및 인공지능 연구소는 인공지능(AI)이 이전보다 더 정확하게 상호작용을 예측할 수 있도록 하는 딥 러닝을 활용하는 알고리즘을 만들었다.

연구자들은 주어진 비디오 프레임 세트에 따라 어떤 행동이 뒤따를지를 예측하기 위해 머신 러닝을 사용하는 예측 비전 소프트웨어를 개발했다. 그들은 이 프로그램에 YouTube와 빅뱅 이론, 오피스, 절망적인 주부들 같은 인기 TV 프로그램의 600시간 분량의 비디오를 제공하여 두 사람이 악수, 하이파이브, 키스 또는 포옹을 할지를 예측할 수 있는지 테스트했다.

두 번째 상황에서는 알고리즘이 5초 후 비디오에 무엇이 나타날지를 예측할 수 있다. 그것은 인간의 얼굴, 손 등과 같은 패턴과 인식 가능한 객체를 검색한다.

인간의 인사는 예측하기에 임의적인 행동처럼 보일 수 있지만, 이 작업은 연구자들이 연구하기에 더 쉽게 통제할 수 있는 테스트 사례로 작용했다.

“인간은 경험을 통해 자동으로 행동을 예측하는 법을 배우며, 이것이 우리가 컴퓨터에 같은 종류의 상식을 주입하려고 관심을 가지게 만든 이유입니다.”라고 MIT의 컴퓨터 과학 및 인공지능 연구소(CSAIL)의 박사 과정 학생인 칼 본드릭이 말했다.

“우리는 단순히 YouTube의 무작위 비디오를 사용하고 싶었습니다.”라고 본드릭은 말했다. “텔레비전의 이유는 그 데이터에 쉽게 접근할 수 있고, 일상적인 상황을 설명하는 데 있어 다소 현실적이기 때문입니다.”

그들은 컴퓨터에 포옹, 키스, 하이파이브 및 악수 중 하나를 하려는 사람들의 비디오를 보여주었다. AI는 43%의 정확도로 올바르게 추측할 수 있었으며, 이는 기존 알고리즘이 36%의 정확도로만 수행할 수 있는 것과 비교된다.

이 작업에서 인간조차도 실수를 한다는 점은 주목할 만하다. 예를 들어, 인간 피험자들은 71%의 정확도로 행동을 올바르게 예측할 수 있었다고 연구자들은 말했다.

알고리즘이 실용적으로 사용되기까지는 오랜 시간이 걸리겠지만, 연구자들은 미래의 더 정교한 버전이 다양한 분야에 적용될 수 있다고 말한다. 행동을 예측하는 컴퓨터 시스템은 인간 환경을 더 잘 탐색할 수 있는 로봇, 낙상을 예측하는 긴급 대응 시스템, 다양한 상황에서 무엇을 해야 할지 제안하는 가상 현실 헤드셋 등 새로운 가능성을 열어줄 것이다.

아래 비디오를 시청하여 알고리즘이 어떻게 작동하는지 확인하세요.

출처

Share: X/Twitter LinkedIn

새 게시물을 받은 편지함에서 받기

스팸은 없습니다. 언제든지 구독 해지 가능합니다.