송민 교수팀 “보안 피해 일일이 수작업으로”[페이스북 분석]
  • 김현지·공성윤·조해수 기자 (metaxy@sisajournal.com)
  • 승인 2022.11.28 10:05
  • 호수 1728
이 기사를 공유합니다

[인터뷰] 송민 연세대 교수, 4개월간 페이스북 데이터 수집·분석해
“연구·공익 목적 데이터 수집 길 열어둬야”
11월 10일 서울 서대문구 연세대학교 학술정보원에서  만난 송민(우) 문헌정보학과 교수와 남동인(가운데) 연구원, 고영수(좌) 연구원. 시사저널 이종현
11월 10일 서울 서대문구 연세대학교 학술정보원에서 만난 송민(우) 문헌정보학과 교수와 남동인(가운데) 연구원, 고영수(좌) 연구원. 시사저널 이종현

“페이스북은 정쟁(政爭)의 무대일까.” 이 짧은 가설을 증명하기 위해 시사저널은 지난 4개월 동안 송민 교수 연구팀과 함께 정치인 16명의 2년 치 페이스북 게시물을 낱낱이 끌어 모았다. 그 끝에 평균 이상 퍼진 게시물 608건 중 284건(46.7%)이 외집단, 즉 적대시하는 집단의 연관어를 포함하고 있다는 사실을 밝혀냈다. (※ 11월21일자 “여론 찢는 페이스북...국힘 39%·민주 51% '적' 공격했다” 기사 참조)

연세대 문헌정보학과장을 역임한 송민 교수는 현재 연세대 학술문화처장을 맡고 있다. 세계적 권위를 인정받는 국제학술논문 데이터베이스 SCI와 SSCI에 등재된 학술지에 게재한 논문은 총 93건에 이른다. 글로벌 연구 성과를 인정받아 ‘연세대 언더우드 특훈교수’로 두 번 선정됐다. 현재 정부∙산업체 지원 과제 39개를 수행 완료했거나 수행 중이다.

연구팀 고영수 연구원은 공황장애·수면장애·자살을 주제로 한 딥러닝, 머신러닝 관련 다수의 논문을 출품했다. 소셜헬스 분야 등 관련 연구를 이어왔다. 남동인 연구원은 사회과학, 자연과학기술 및 융복합 분야의 약물중독 연구에 대해 비교 분석하는 등 관련 연구를 진행해왔다. 송민 교수와 고영수·남동인 연구원을 11월10일 서울 서대문구 연세대에서 만나 노고를 들어봤다. 아래는 연구팀과의 일문일답이다.

페이스북 데이터 수집을 어떻게 했는가.

고영수 연구원(이하 고) “(분산된 정보를 자동 수집하는 기술인) 크롤링은 2018년 전까지 페이스북에서 가능했다. 현재는 페이스북 보안 정책상 크롤링이 쉽지 않았다. 다른 방법인 API, 코드 등도 어려웠다. 고민 끝에 HTML 자체를 다운받았다. 다운을 받으려면 스크롤을 내려서 전체 데이터를 계속 보이게끔 해야 한다. 게다가 중간에 페이스북 게시물이 ‘더보기’라는 이름으로 숨겨졌다. 이에 ‘더보기’를 클릭하면서 스크롤을 밑으로 내리는 작업을 진행했다. 양이 너무 많으면 작업이 멈춘다. 중간마다 데이터를 다운로드 받고, 다시 작업하는 일을 반복했다.”

수집 과정이 쉽지 않았을 것 같다.

고 “물론 데이터를 자동으로 내려 받는 방법도 있었다. 두 번 가량 이 방법을 시도했다. 그런데 페이스북이 이를 막았다. 우리가 사용하던 계정이 정지된 것이다. 결국 연구팀이 직접 수작업을 했다. 데이터를 다운받으면 (정치인이 파일로 올린) 그림 등도 모두 저장된 파일이 생긴다. 우리는 그 파일을 코드로 읽었다. 문제는 파일이 난수, 즉 특정한 규칙이 없는 임의의 숫자로 구조화 돼 있었다는 점이었다. 난수 때문에 우리가 찾으려는 글을 쉽게 찾을 수 없었다. 어렵게 난수를 해석하여 페이스북 게시물을 하나씩 수집하는 코드를 작성했다.”

남동인 연구원(이하 남) “페이스북 보안이 강화됐다. 그래서 우리가 찾은 난수도 기간이 지나면 구조 등이 바뀌었다. 불과 한 달 전에 작동했던 코드가 오늘은 안 되는 식이었다. 이 때문에 새로운 구조를 다시 파악해야 했다. 정치인별로 데이터의 양도 굉장히 다르다. 그러다보니 개개인의 정치인을 비교 분석하는 것은 다소 어려웠다.”

데이터를 수집하면서 페이스북의 보안 정책에 부딪혔던 것 같다.

송민 교수(이하 송) “보안 정책의 목적은 개인의 프라이버시(privacy) 문제를 해결하기 위함이다. 이는 ‘양날의 검’과도 같다. 다른 SNS인 트위터, 레딧 등은 데이터를 공유한다. 공익이나 연구 목적을 가진 사람들이 데이터를 합당한 방법으로 받을 수 있는 API를 제공하는 방식이다. 페이스북과 구글은 이를 막았다. 두 곳은 데이터가 자산이기 때문에 데이터를 공유하지 않는다는 의식이 강한 것 같다. 그러나 연구·공익 목적에 한해 데이터를 합법적으로 수집하는 길은 열어둬야 한다.”

페이스북이 유해 게시물을 방치한다는 논란도 있었다. 알고리즘 문제로 봐야 할까?

송 “이는 게시물 추천 알고리즘과 관련된 것으로 보인다. 게시물 추천의 기본 작동 원리는 기호나 성향이 비슷한 사람들을 군집화하고, 서로에게 관심사를 추천한다. 현재 페이스북은 참여도가 높은 게시물을 사람들에게 강하게 추천한다. 이 때문에 여론을 주도하는 특정 세력이 있다면, 그 세력에 (관심도) 쏠림 현상이 나타날 수밖에 없다. 문제는 반복 작업을 하는 자동화 프로그램 ‘매크로’를 돌렸을 때다. 매크로를 거쳐 게시물 참여도가 올라가면 조작이 된다. 이를 제어하거나 걸러내지 못하는 것이 페이스북 알고리즘의 문제다.”

앞서 영국의 정치 컨설팅 회사인 케임브리지 애널리티카가 2016년 미국 대선을 앞두고 페이스북 이용자 8700만여명의 데이터를 수집해 정치 광고에 활용해 물의를 빚었다. 빅데이터의 중요성이 커지고 이를 수집·활용할 수 있는 기술이 발달할수록, 이러한 문제가 불거질 수 있을 것 같다.

송 “문제는 크게 두 가지다. 개인의 정보 제공 동의를 받지 않았다는 점이다. 무엇보다 이러한 정보를 사익에 사용한 부분은 문제가 매우 크다. 정치적인 목적의 선전에 데이터를 사용하는 것, 이는 선거를 왜곡시킬 수 있다. 다만, ‘정보 동의’라는 영역은 굉장히 모호하다. 어디까지 정보 동의를 받아야 하느냐다. 이를 감안하고 본다면, 개인의 건강 정보 등은 일일이 동의를 받아야 한다. 그러나 개인이 일상적인 이야기를 누구나 볼 수 있도록 SNS에 올린 경우는 ‘그레이 에어리어(어느 곳에도 속하지 않는 중간 영역·Grey Area)’다. 데이터의 익명성만 보장된다면 데이터를 수집할 수 있도록 해야 한다.”

이번 연구에서 중점을 둔 부분은?

고 “‘토픽 모델링(Topic Modeling)’이다. 이는 각 게시물의 주제(토픽)를 추출하는 방법이다. 잠재 디레클레 할당 확률법(LDA)을 기반으로, (시계열 자료도 넣고 같이 진행하는) DMR분석을 진행하였고 이를 통해 여러 주제를 확률적으로 뽑아냈다. 게시물에서 ① 단어들을 추출하고 ② 단어들을 바탕으로 여러 군집을 만들고 ③ 군집 안에 있는 단어가 특정 주제에 속하는 확률을 계산하고 ④ 단어들이 포함된 특정 문장이 특정 주제와 맞는지 등을 확률로 계산하는 방법이다. 정치 분야의 경우 고유명사가 많았다. 사전(Dictionary) 작업 없이 그대로 추출하면 국민의힘은 ‘국민’과 ‘힘’으로 나온다. 그래서 여러 고유명사가 제대로 나올 수 있도록 이용자 사전(User Dictionary) 작업을 따로 진행했다. 모델의 Perflexity(혼란도) 와 Topic Coherence(주제 적합도)를 고려하여 최적 주제 개수는 40개로 선정하였다.”

남 “‘동시 출현 분석’도 진행했다. 개별 텍스트 게시물을 단어별로 쪼갠 후에, 동시에 출현하는 단어 쌍의 빈도수를 본다. 일정 기준 이상으로 같이 출현한 단어는 주제적으로 연관이 있다고 가정한다. 단어들의 동시 출현을 토대로 단어 간에 연결성을 시각화했다. 시각화 작업에는 데이터 시각화 프로그램 ‘게피(Gephi)’를 활용했다. 네트워크 상에서 단어들의 중요도를 의미하는 ‘중심성’이 높은 단어도 볼 수 있도록 했다. 같은 색상으로 표현되어 있는 한 군집에 속한 단어들은 같은 경향을 보이는 단어라고 이해하면 된다.”

연구팀의 향후 계획, 연구 방향을 알려달라.

송 “빅데이터의 사용 범위는 무궁무진하다. 자살, 우울증 등 심리적 문제의 전조증상도 빅데이터에서 파악할 수 있다. 학자로서 좋은 자료를 내는 것도 당연한 일이다. 아울러 우리의 연구가 사회에 적용돼, 더 좋은 사회를 만드는 데 도움이 됐으면 한다.”

※ 본 기획물은 정부광고 수수료로 조성된 언론진흥기금의 지원을 받았습니다.

관련기사
이 기사에 댓글쓰기펼치기