구글의 AI 소프트웨어, '바둑'의 그랜드마스터를 이기다, '인간이 고안한 가장 복잡한 게임'

구글의 AI 소프트웨어, 세계 고전 보드 게임 ‘바둑’에서 세계 챔피언을 이기다

구글은 인공지능(AI) 게임의 판도를 바꾸었다. 과학자들은 수요일, 중국에서 유래된 복잡한 보드 게임인 바둑에서 전문 인간 플레이어를 이길 수 있는 컴퓨터 프로그램을 만들었다고 발표했다. 바둑은 ‘인간이 고안한 가장 복잡한 게임’ 중 하나로 설명되며, 수조 개의 가능한 수가 있다.

이 업적은 IBM 슈퍼컴퓨터 딥 블루가 1997년 체스 세계 챔피언 가리 카스파로프를 이긴 경기를 떠올리게 한다. 그러나 바둑은 중국, 한국, 일본과 같은 지역에서 가장 인기 있는 전략 보드 게임으로, 체스보다 훨씬 더 복잡하다.

“바둑은 게임 AI 연구의 정점으로 여겨진다”고 구글 딥마인드의 인공지능 연구원 데미스 하사비스가 말했다. “딥 블루가 체스에서 카스파로프를 이긴 이후 AI의 가장 큰 도전 과제이자 성배로 여겨져 왔다.”

바둑판은 19x19의 교차선 그리드로 구성되어 있다. 두 플레이어는 흰 돌과 검은 돌을 큰 격자 보드에 놓아 대부분의 영역을 둘러싸기 위해 차례로 진행한다. 다른 친한 돌에 닿을 수 있는 한 색의 돌은 살아 있다고 하며, 탈출 경로가 차단된 돌은 죽은 것으로 간주된다.

그러나 간단한 규칙 뒤에는 믿을 수 없을 정도로 복잡한 게임이 있다. 최고의 플레이어는 평생을 바쳐 게임을 마스터하며, “사다리”와 같은 수의 연속을 인식하고, “코 전쟁”이라고 불리는 끝없는 영역 전투를 피하기 위한 전략을 고안하며, 바둑판을 보고 즉시 어떤 조각이 살아 있고, 죽어 있으며, 불확실한지를 아는 비범한 능력을 개발한다.

“인간이 고안한 가장 복잡한 게임일 가능성이 높다”고 연구 공동 저자이자 구글 딥마인드의 컴퓨터 과학자인 데미스 하사비스가 1월 26일 기자 회견에서 말했다. “바둑은 10의 170제곱 가능한 보드 위치를 가지고 있으며, 이는 우주의 원자 수보다 많다.”

이 복잡성의 핵심은 바둑의 “분기 패턴”이라고 하사비스는 말했다. 각 바둑 플레이어는 자신의 차례마다 200개의 수 중에서 선택할 수 있는 옵션이 있으며, 체스에서는 차례마다 20개의 가능한 수가 있다. 또한, 보드를 단순히 보고 플레이어가 얼마나 잘하고 있는지를 정량화하는 쉬운 방법이 없다.

바둑판

구글이 설정한 최근 토너먼트에서 알파고라는 알고리즘이 세 번의 유럽 바둑 챔피언이자 중국 프로인 판 후이를 5대 0으로 이겼다. 지금까지 최고의 컴퓨터 바둑 프로그램은 인간 아마추어 수준에서만 플레이해왔다. 이 연구 결과는 네이처 저널에 발표되었으며, 기계 학습 알고리즘에 대한 주요 성과를 나타낸다.

“요약하자면, 이 연구를 동료 심사를 거친 연구로 발표함으로써, 우리는 네이처에서 인공지능의 투명성에 대한 논의를 촉진하고자 한다”고 수석 편집자 탕기 샤르가 어제 기자 회견에서 말했다. “이 논문은 지능이 무엇인지에 대한 신비의 핵심에 다가가는 가장 좋은 기회인 것 같다.”

이 게임은 중국에서 처음 플레이되었으며 체스보다 훨씬 더 어렵고, 인공지능에 대한 뛰어난 ‘그랜드 챌린지‘로 여겨졌다 - 지금까지.

토너먼트의 결과는 로봇이 질병 분석과 같은 복잡한 분야에서 인간만큼 잘 수행할 수 있기를 희망하지만, 우리가 만든 기계에 의해 더 똑똑해질까 두려워하는 사람들을 걱정하게 만들 수 있다.

딥마인드는 세계 챔피언 이세돌과의 대결을 서울에서 3월에 열기로 했으며, 상금은 100만 달러이다.

이세돌은 “구글 딥마인드의 AI가 놀라울 정도로 강하고 점점 더 강해지고 있다는 이야기를 들었지만, 이번에는 적어도 이길 수 있다고 확신한다”고 말했다.

컴퓨터가 이기면, 구글 소속 딥마인드의 개발자이자 사장인 데미스 하사비스는 상금을 자선단체에 기부하겠다고 말했다.

이 작업을 수행하기 위해 알파고는 두 세트의 신경망에 의존한다. 하나는 가치 네트워크로, 본질적으로 보드 위치를 보고 누가 이기고 있는지와 그 이유를 결정하며, 다른 하나는 정책 네트워크로, 수를 선택한다. 시간이 지남에 따라 정책 네트워크는 가치 네트워크가 게임이 어떻게 진행되고 있는지를 볼 수 있도록 훈련시켰다.

‘딥 신경’ 네트워크는 인간 전문가 게임에서의 ‘지도 학습’과 스스로 플레이하는 게임에서의 ‘강화 학습’의 조합을 통해 훈련된다.

이전 방법들과 달리, 모든 가능한 수의 이점을 계산하려고 시도하는 대신, 이 프로그램은 이길 가능성이 가장 높은 수만 고려한다고 연구자들은 말했다. 이는 좋은 인간 플레이어들이 사용하는 접근 방식이다.

“우리의 검색은 상상 속에서 게임을 여러 번 플레이함으로써 앞을 내다본다”고 연구 공동 저자이자 알파고를 구축하는 데 도움을 준 구글 딥마인드의 컴퓨터 과학자 데이비드 실버가 기자 회견에서 말했다. “이로 인해 알파고의 검색은 이전 접근 방식보다 훨씬 인간과 유사해진다.”

컴퓨터는 다른 바둑 프로그램에 대해 99.8%의 승률을 기록했으며, 세 번의 유럽 바둑 챔피언이자 중국 프로인 판 후이를 토너먼트에서 5대 0으로 완승했다.

영국 바둑 협회의 재무 담당자이자 심판인 토비 매닝은 “경기는 완전한 토너먼트 조건에서 진행되었으며, 판 후이가 기계와 경기를 하는 데 불리함이 없었다”고 말했다.

“구글 딥마인드는 이 인상적인 소프트웨어를 개발한 것에 대해 축하받아야 한다.”

이것은 컴퓨터 프로그램이 핸디캡 없이 전체 크기의 바둑 게임에서 전문 플레이어를 이긴 첫 번째 사례로, 10년이 걸릴 것이라고 여겨졌던 업적이다.

구글의 AI 소프트웨어, 세계 고전 보드 게임 ‘바둑’에서 세계 챔피언을 이기다

새 게시물을 받은 편지함에서 받기