빅데이터는 지금 누구의 당선을 예측하나
  • 구민주 기자 (mjooo@sisajournal.com)
  • 승인 2022.02.26 10:00
  • 호수 1689
이 기사를 공유합니다

역대 선거 결과 적중한 ‘구글 트렌드’ ‘썸트렌드’ 활용, 이재명·윤석열·안철수 데이터 분석
검색량 이재명 우위, 與 “‘샤이 이재명’ 있다” 주장…단, 부정어 비율도 더 높아

‘구글신(神)’은 알고 있었다. 2016년 모든 여론조사가 도널드 트럼프가 아닌 힐러리 클린턴의 당선을 점쳤던 미국 대선에서도, 2017년 불확실성 속에서 5자 구도로 치러진 우리 19대 대선과 지난해 ‘LH사태’ 변수로 역전극이 일어난 4·7 서울시장 보궐선거에서도 구글 트렌드는 일찍이 최종 승자를 지목했다. 구글 트렌드는 특정 기간 특정 대상의 검색량을 0~100으로 수치화한 데이터다. 즉 대상을 향한 대중적 관심의 양을 의미한다. 이 수치가 높은 인물이 최종 승리한다는 게 최근 선거들에서 반복적으로 증명돼 관심을 받았다.

ⓒ국회사진취재단·안철수 캠프 제공

2016년 트럼프 당선 예측 이후 구글 트렌드는 우리 선거에서도 판세를 읽는 유력한 참고자료로 활용됐다. 지난 2017년 대선에서도 역시 문재인·홍준표·안철수 후보 캠프는 모두 구글 트렌드 결과를 끌어와 여론의 변동을 살폈고, 이 결과와 관련한 공식 논평을 내기도 했다. 당시 선거 직전 구글 트렌드 검색량 순위는 문재인-홍준표-안철수-유승민-심상정 순으로 나타나 최종 결과와 완벽히 일치했다. 지난해 4·7 보궐선거 당시에도 LH 부동산 투기 이슈가 터진 3월 둘째 주를 기점으로, 검색량에서 앞섰던 박영선 후보가 오세훈 후보에게 열세를 보이기 시작했다. 이처럼 유독 여론조사 결과가 들쭉날쭉하거나, 선거 직전 일주일 여론조사 공표 금지 기간일 때 구글 트렌드는 더욱 주목을 받아왔다.

李, 90일 중 83일 관심도 우세…연관어는 ‘논란’ 위주

그 어느 때보다 대선후보 지지율 여론조사 결과가 크게 상이한 지금, 구글 트렌드는 어느 후보의 당선을 예측하고 있을까. 시사저널은 현재 여론조사에서 뚜렷하게 선두 각축을 하고 있는 이재명 더불어민주당 후보와 윤석열 국민의힘 후보, 그리고 단일화 등 이슈로 대선판을 흔들고 있는 안철수 국민의당 후보를 대상으로 최근 3개월(2021년 11월22일~2022년 2월22일)과 최근 한 달(2022년 1월22일~2월22일)간 검색량 추이를 각각 살펴봤다.

지난해 11월 세 후보 모두 당 대선후보로 최종 확정되고 본격 레이스를 시작한 후 3개월간 관심도, 즉 검색량은 이재명 후보가 전반적으로 많았다. 90일 중 윤석열 후보가 이 후보를 앞선 날은 김건희씨 기자회견(2021년 12월26일)을 비롯해 총 7일에 그쳤다. 해당 기간 가장 검색빈도가 높았던 검색어를 100으로 뒀을 때, 이 기간 평균 관심 지수는 이재명 37, 윤석열 25, 안철수 8로 나타났다. 이 후보는 장남의 도박 의혹에 대해 사과했던 지난해 12월16일(100) 최다 하루 검색량을 기록했다. 윤 후보는 1월5일 김종인 총괄선거대책위원장과 공식 결별하고 선대위 해체를 발표했을 때(46), 안 후보는 2월13일 윤 후보에게 단일화를 제안하는 기자회견을 했을 때(37) 가장 관심이 몰렸다.

해당 기간에 지역별로 어느 후보를 비중 있게 검색했는지 살펴봤다. 이 후보는 민주당 텃밭 중 하나인 광주와 도정을 살핀 경기도에서 검색 비중이 높았다. 윤 후보는 정계 진출 후 줄곧 공을 들여온 충북과 보수세가 강한 경북, 경남 순으로 관심도가 높았다. 안 후보는 제주·경남·대전 순이었다. 선거운동을 본격화하면서부터는 후보들의 행선지에 따라 지역의 관심도가 그때그때 급증하는 모습을 보였다.

기간을 한 달로 좁혀 세 후보 관심도에 어떤 변화가 있었는지도 살폈다. 대선이 임박하면서 세 후보 모두 평균 관심 지수가 전체적으로 상승했다. 이 후보 70, 윤 후보 48, 안 후보 19로 기록됐다. 이 기간에도 윤 후보가 하루 검색량에서 이 후보를 앞선 날은 호남은 방문한 2월12일과 안 후보가 단일화를 제안한 2월13일뿐이었다. 안 후보의 경우 단일화 제안에 이어 유세차 사망 사고가 발생하면서 2월 중순 들어 검색량이 급증하는 모습을 보였다.

최근 한 달 사이 급상승한 연관 검색어를 도출한 결과, 새롭게 제기된 의혹 및 논란들이 주를 이뤘다. 이 후보의 경우 김혜경씨 과잉 의전 논란과 관련해 김씨의 수행을 담당했던 5급 공무원 배아무개씨 이름이 가장 높은 상승률을 기록했다. 구단주 시절 후원금 의혹이 불거진 ‘성남FC’도 상위에 올랐다. 윤 후보는 TV토론에서의 발언과 관련한 검색어들이 주로 나타났다. 토론 과정에서 이 후보와 비율을 두고 공방을 벌인 ‘LTV(주택담보대출비율)’와 윤 후보가 모른다고 답변했던 ‘RE100’ 등이 이에 해당한다. 안 후보는 유세차 사고와 관련한 검색어들이 급상승했다.

언급량 많은 만큼 부정 노출도 많아

최근 윤 후보가 전반적으로 우세한 여론조사 추세와 달리, 구글 트렌드상에선 이 후보의 우위가 비교적 꾸준하고 뚜렷하다. 실제 2007년과 2012년, 2017년까지 세 차례 대선에서도 모두 당내 경선이 끝난 후 검색량 우위를 차지한 후보가 최종적으로 당선돼 왔다. 민주당에선 이를 바탕으로 최근 열세에도 이 후보의 당선 가능성이 더 높다고 점치고 있다. 송영길 민주당 대표는 최근 “지금과 같이 여론조사가 들쭉날쭉할 땐 구글 트렌드가 유용한 판단 근거가 된다”며 이 후보의 승리를 낙관하기도 했다.

민주당은 구글 트렌드 추이를 바탕으로 ‘샤이 이재명’의 존재를 기대한다. 2016년 미국 대선 역시 여론조사에선 잡아내지 못한 ‘샤이 트럼프’를 구글 트렌드에서 찾아냈다는 평가가 있었다. 2017년 한국 대선에서도 여론조사에서 채 포착되지 않았던 ‘샤이 홍준표’가 구글 트렌드엔 어느 정도 반영돼 있었다는 분석이 나오기도 했다. 이를 바탕으로 일각에선 대략 4~5% 안팎의 ‘샤이 이재명’ 표심이 숨어있다는 예상도 나오고 있다. 샤이 이재명이 존재한다면 주로 호남, 그리고 문재인 대통령 지지층에 쏠려있을 거란 관측이다.

그러나 구글 트렌드의 경우, 검색의 ‘의도’까지 반영되지 않는다는 한계가 꾸준히 지적돼 왔다. 특히 네거티브가 극심한 이번 대선에선 검색량이 많은 만큼 부정 노출도 많다는 걸 의미한다. 즉 검색량 안엔 부정적 관심도도 함께 잡힌다는 것이다. 후보들의 주요 연관 검색어들이 주로 부정적인 내용을 담고 있다는 점이 이를 증명한다. 또한 이 후보가 가족 리스크로 사과한 직후, 그리고 윤 후보가 문재인 정부 적폐 수사 발언을 한 직후 검색량이 급증한 점도 주목할 부분이다. 해당 후보와 관련한 논란 또는 악재가 발생했을 때 이를 더 알아보기 위해 검색하는 사례가 실제 더 활발히 나타나고 있다는 의미다.

이러한 왜곡이 나타나면서 미국은 물론 국내에서도 구글 트렌드를 여론조사의 대안으로 보는 시각은 점차 줄어들고 지극히 ‘참고용’으로만 살피는 분위기다. 오히려 구글 트렌드 결과에 대한 각 진영의 아전인수식 해석을 경계해야 한다는 지적이 나온다. 실제 2017년 대선 당시 2위 싸움을 벌인 홍준표·안철수 후보는 모두 자신이 구글 트렌드에서 확실히 앞선다고 주장한 바 있다.

홍 후보는 자신의 검색량이 눈에 띄게 튀어오른 특정한 시점들과 대선 직전 단 며칠간의 추이를 중심으로, 안 후보는 대선 기간 중장기적 추이를 중심으로 각각 해석한 결과였다. 뿐만 아니라 2018년 지방선거의 서울시장 선거 당시 안철수 후보는 구글 트렌드 검색량에서 자신이 박원순 후보를 압도한다며 승리를 자신했다가 최종 3위에 그쳐 망신을 겪기도 했다. IT 전문가인 안 후보가 국내 구글 이용 패턴이 외국과 다르고, 연령별로 이용률 차이가 커 유권자 전체를 고루 대표하지 못한다는 점을 간과했다는 지적이 나왔다.

李, 대장동→김혜경 의전…尹, 처가→검찰·무속

해당 기간 유권자들의 검색 ‘의도’를 살펴보기 위해 온라인상의 데이터를 분석하는 썸트렌드 프로그램을 활용해 심층 분석했다. 뉴스 기사를 비롯해 트위터·인스타그램 등 SNS 및 주요 온라인 커뮤니티에 게시된 글을 분석해 세 후보와 함께 사용된 긍·부정어 비율을 따져본 결과, 모두 부정어 비율이 50%를 넘는 것으로 나타났다. 대선 기간 이들의 부정어 비율이 50% 아래로 내려간 적은 한 번도 없었다. 최근 3개월간 긍·부정 비율은 윤 후보가 75.9%로 가장 높았고, 이 후보 71.3%, 안 후보 52.8% 순이었다.

공식 선거운동을 시작한 최근 한 달로 기간을 좁히면 이 후보(67.6%)와 윤 후보(71.2%) 모두 부정어 비율이 소폭 낮아졌다. 이는 온라인상에서 각 지지자들의 결집도가 높아진 영향으로 분석된다. 그러나 각 후보와 함께 쓰이는 부정어 사용의 절대량과 강도는 대선이 임박할수록 더욱 강해지는 경향을 보이고 있다.

구글 트렌드는 국내 점유율이 낮고 여론을 종합적으로 수렴하지 못한다는 한계를 갖고 있다. 이를 보완하기 위해 해당 기간 국내 언론과 SNS상에서 각 후보와 자주 사용돼온 연관어들을 추가로 도출했다. 최근 3개월, 이 후보의 주요 연관어는 ‘장남(도박 의혹)’ ‘조카(살인 변호)’ ‘이재선(친형)’ 등 가족 리스크와 관련한 것들이 다수를 이뤘다. 대장동 등 성남시장 시절 의혹을 연상케 하는 ‘도시개발공사’ ‘성남FC(후원금 의혹)’도 포함됐다. 같은 기간 윤 후보는 ‘양평(처가 부동산 투기 의혹)’ ‘처가’ ‘도이치모터스(김건희씨 주가조작 의혹)’ 등 처가 리스크와 관련한 연관어들이 주로 따라붙었다. 지난해 12월 윤 후보 측근 권성동 의원의 강원도 성희롱 의혹과 관련해 ‘권성동’ ‘강원도’도 포함됐고, ‘술’도 자주 함께 거론됐다.

최근 한 달, 이 후보의 연관어는 ‘비서실’ ‘소고기’ ‘자택’ ‘대리(대리처방)’ ‘심부름’ 등 대부분 김혜경씨 과잉 의전 의혹과 관련한 것들로 채워졌다. 대장동과 관련한 연관어는 갈수록 감소하는 추세를 보였다. 한편 윤 후보의 경우 검찰과 관련한 단어들이 대선 레이스 초반보다 오히려 증가했다. 2월9일 문재인 정부 적폐 수사 발언과 이후 검찰 권한을 강화하는 공약 발표를 기점으로 ‘검찰 수사’ ‘중앙지검장(문재인 정부에서 임명)’ 등이 연관어로 부상했다. 이와 더불어, 과거 소가죽을 벗기는 건진법사의 굿판에 윤 후보 부부 이름이 쓰인 연등이 달려있었다는 의혹이 불거지면서 ‘소’ ‘김의겸(해당 의혹을 제기한 민주당 의원)’ 등도 함께 쓰였다.

안 후보의 경우 최근 3개월과 최근 한 달의 결과가 서로 유사하게 나타났다. 2월 들어 단일화 제안 기자회견과 유세차 사망 사고가 그간 안 후보와 관련한 이슈들을 압도하는 현상을 보인 탓이다. ‘일산화탄소’ ‘운전기사’ ‘사망사고’ 등 유세차 사고와 관련한 연관어가 최근 가장 많은 비중을 차지했으며, 단일화와 관련해 ‘단일 후보’ ‘국민경선’ 등의 연관어도 따라붙었다.

세 후보가 해소해야 할 리스크를 분명히 드러내고 있다. 이 후보는 김혜경씨 의혹, 윤 후보는 검찰공화국·정치보복에 대한 우려를 불식시키길 요구받고 있다. 안 후보는 모든 정책과 이슈를 집어삼키는 지난한 단일화 논쟁을 매듭지어야 할 것으로 보인다. 남은 기간 각자에게 놓인 리스크를 어떻게 관리하느냐에 따라 끝까지 박빙 대결 상태를 보이는 선거의 성적표가 갈릴 것으로 예상된다. 데이터가 더 이상 결과를 알려주는 정답지가 될 순 없어도, 지금 어느 리스크에 매몰돼 있는지를 가늠케 하는 참고서임엔 분명하다.

관련기사
이 기사에 댓글쓰기펼치기