‘뻥카’도 치는 AI가 주는 메시지, “이제 심리전도 한다”
  • 김회권 기자 (khg@sisapress.com)
  • 승인 2017.02.06 16:06
이 기사를 공유합니다

뛰어난 겜블러는 참고 물러나는 법을 잘 알아야 한다. 때로는 상대방의 심리를 읽어내 허세도 부릴 수 있어야 한다. 이런 기질을 잘 발휘할 수 있는 게임이 포커다. 무적의 인공지능인 알파고가 바둑을 이기자 사람들은 다음 AI와의 전쟁이 포커에서 벌어질 거라 내다봤다. 물론 바둑의 알파고는 수많은 기보를 학습하고 수많은 상대의 수를 분석해 자신이 낼 최적의 수를 찾아내 인간 최고수들을 완파했다. 

 

그런데 포커는 좀 다르다. 바둑과 달리 상대방의 카드를 내가 볼 수 없다. ‘불완전한 정보’를 바탕으로 상대가 취할 수 있는 모든 수를 고려해야 한다. AI가 이기려면 더욱 복잡한 작업을 거쳐야 한다. 바둑에서 말하는 ‘신의 한 수’라는 개념이 포커에는 존재하지 않는다. 대신 ‘뻥’이 중요하다. 포커의 고수들은 이른바 ‘블러핑’이라고 부르는 허풍의 대가들이다. 별 것 아닌 카드를 들고 마치 좋은 카드인양 판돈을 팍팍 지르며 상대의 심리를 무너뜨리는 ‘뻥카의 기술’은 포커에서 승리하기 위해 갖춰야 할 미덕이며 그래서 포커는 인공지능의 것이 아닌, 인간의 게임이었다. 물론 훌륭한 포커 플레이어는 블러핑을 잘 이용해야 하지만, 블러핑에 의존해서도 안 된다. 그래서 참 복잡하다. 

 

ⓒ pixabay

그런데 카네기멜론대학의 연구자가 개발한 최신 AI는 이미 블러핑을 활용하고 있었다. 리브라투스(Libratus)라고 불리는 이 AI는 1월11일부터 30일까지 20일 동안 네 명의 프로 포커 선수와 무제한 ‘텍사스홀덤’을 했고 76만6250달러의 칩을 획득해 최종 우승을 차지했다. 카네기멜론대학은 이미 2015년에 클라우디코(Cloudico)라는 인공지능으로 포커 승부에 도전했는데 그때는 패했다. 이번에는 그 벽을 넘어선 셈이다.

 

원래 포커를 모르던 AI에 연구팀은 무작위로 다양한 방법을 시도하도록 지시했다. 리브라투스는 10의 160제곱에 해당하는 경우의 수를 처리할 수 있다. 수억 번의 시행착오 끝에 점점 이기는 방법을 배워갔고 이번 대회기간 동안 매일 밤 10시까지 약 11시간 동안 인간 포커 플레이어 대결했다. 처음에는 AI의 패배가 적지 않았다. 하지만 매일 자신이 했던 게임 중 약점을 보완하고 분석하는 작업을 반복하면서 AI는 자신의 약한 부분을 없앴다.

 

물론 이런 수많은 연산이 블러핑을 가능하게 한 건 아니다. AI는 상대방의 심리를 읽어내기보다는 매일 자신이 치렀던 게임 중 상대방 선수가 치고 들어왔던 자신의 취약점을 분석해 보완하는 작업을 거쳤다. 이 때문에 게임에 참여한 프로 포커 선수들은 처음 며칠 동안에는 리브라투스를 공략할만한 취약점을 찾아냈지만 시간이 지날수록 그런 약점을 발견하기 어려웠다. AI의 공동제작자인 토마스 샌드홈(Tuomas Sandholm) 카네기멜론대 교수는 “매일 대결이 끝난 뒤 메타 알고리즘이 프로 포커 플레이어들 전략의 구멍을 분석했고 리브라투스는 그것을 다음 날 전략에 반영했다. AI 스스로의 약점 우선 순위 3개를 슈퍼컴퓨터로 보완하고 전략의 알고리즘에 녹였다. 이것은 과거의 AI 포커 학습법과는 다르다. 보통은 상대의 약점을 찌르는 알고리즘을 개발하기 때문이다. 우리는 반대로 AI 자신의 전략적 약점을 메워 알고리즘을 개선했다”고 말했다.

 

 

“AI가 새차 가격을 딜러와 대신 논의해주는 세상이 온다”

 

이런 방법을 통해 실제로 AI는 블러핑을 시도했다. 이번 대회 중 이런 장면이 있었다. AI는 다이아몬드10, 하트 10을 쥐며 시작했다. 당시 바닥에 공개된 건 4,9,킹이었는데 클로버가 두 장이었다. 베팅이 시작되자 AI는 클로버를 한 장도 쥐지 않았지만 마치 클로버 플러시(같은 무늬의 카드 5장을 모으는 것)를 완성하듯 전략을 펼쳤다. 뒤에 공개된 카드와 마지막 공개된 카드가 클로버가 아니었는데도 AI는 계속 베팅금액을 올리며 공세를 취했다. 말 그대로 ‘뻥카’를 시도한 것이다. 

 

4명의 포커 플레이어는 김동규, 지미추, 다니엘 매컬레이, 제이슨 레스였다. 이들은 20만 달러의 상금을 나눠 가졌다. 이들은 AI의 약점을 찾기 위해 협력했다. AI도 스스로 자신의 약점을 연구했다. 실제 AI와의 대전을 치른 뒤 매컬레이는 “리브라투스는 생각했던 것 이상으로 강한 상대였다”고 평가했다. 

 

단지 포커라는 카드 게임에서 승리를 거둔 것이지만(포커에는 무제한 텍사스 홀덤 외에도 수많은 게임이 있고 1대1 포커는 여러 명이 하는 것과는 완전히 다르다. 그래서 이번 경기를 두고 AI의 승리라고 표현하는 게 섣부르다는 지적도 많다) 불완전한 정보를 전략적으로 처리하는 이번 시스템은 보다 폭넓은 분야에서 응용될 수 있다. 왜냐하면 ‘불완전한 정보’를 가지고 전략을 짜는 것은 우리 현실에서 종종 마주치는 상황과 비슷하기 때문이다. 대표적인 게 협상이다. AI가 협상에서 정보를 제공하는 조력자가 아닌 결정권자로 나서는 미래도 상상해볼 수 있다.

 

샌드홈 교수는 이렇게 말했다. “엄청난 응용법이 무수히 펼쳐질 수 있다. 예를 들어 새차를 사고 싶을 때, 스마트폰이 가장 싼 차를 알려주는 게 아니라 당신 대신 최선의 가격을 딜러와 협상할 수 있게 된다면 어떨까. 이건 단지 하나의 예에 불과하다.” 단지 포커 하나 이긴 게 아니라 좀 더 다른 차원의 AI 활용법이 열렸다는 얘기다.​ 

 

이 기사에 댓글쓰기펼치기