챗GPT, 신기루 아닌 신기원 되려면… [권상집의 논전(論戰)]

우려와 희망 공존하는 챗GPT 혁명
학술논문 등 양질의 데이터 더 많이 학습시켜야

최근 어디를 가든지 ChatGPT(이하 챗GPT) 얘기뿐이다. 오픈 소스로 공개돼 인터넷을 통해 누구라도 접할 수 있기에 인공지능(AI)이 얼마나 우리 곁에 높은 수준으로 다가왔는지 체감할 수 있게 됐다. 필자도 챗GPT를 사용해본 결과 간단한 시와 작문 실력은 웬만한 대학생을 능가한다는 점을 확인할 수 있었다. 다른 세상 얘기 같던 AI가 이제 우리 삶에 그리고 우리 일상에 보다 깊숙이 침투하는 순간이다.

대화형 AI인 챗GPT 열풍이 최근 전 세계를 휩쓸고 있다. 사진은 서울 종로구 교보문고의 챗GPT 코너 ⓒ시사저널 최준필

챗GPT 전성시대 도래하다

과학잡지뿐 아니라 문화 콘텐츠 관련 잡지에서도 챗GPT 특집기사가 최근 몇 달간 쏟아져 나왔다. 잡지 기획안을 직접 챗GPT로 작성하거나 여성 모델 그림을 AI로 그렸는데 사진과 구별이 안 될 정도로 높은 수준이라는 것이다. 상반기 대졸 신입사원 면접에서도 챗GPT에 대한 전망과 미래 등이 단골 예상 면접 문제로 거론될 만큼 챗GPT는 현재 전 세계에서 최고의 전성기를 맞이하고 있다. 이른바 챗GPT의 리즈 시절 도래다.

챗GPT는 GPT 3.5라는 언어모델을 토대로 사용자와 대화를 주고받으며 질문에 답하는 대화형 AI 서비스를 의미한다. 해당 서비스는 출시 두 달 만에 월 이용자가 1억 명을 돌파할 정도로 글로벌 메가히트를 기록했다. 국내에서도 대한상공회의소가 지난 2월 20~60대 성인을 대상으로 조사한 결과, 전체 응답자의 35.8%가 챗GPT를 사용했다고 답했다. 연말이면 전 세계 모든 이가 챗GPT를 사용할 것이란 전망도 나온다.

챗GPT를 내놓아 업계에 충격과 공포 그 이상을 선사한 Open AI사는 현재 구글을 따돌리고 AI에 관한 혁신 트렌드를 주도하고 있다. 챗GPT는 사용자와 대화를 나누며 대화 내용을 학습·축적한 후 사용자의 질문을 듣고 더욱 최적화된 답변을 내놓는 강화학습(Reinforcement Learning) 알고리즘을 탑재했다. 1750억 개의 매개변수를 토대로 전 세계 수억 명의 사용자가 공개하는 텍스트를 실시간으로 학습하는 괴물이다. 즉, 사용자가 더 많이 활용할수록 챗GPT의 지능이 더 높게 올라간다는 의미다. 특히 지난달 Open AI사는 새로운 인공지능 모델 ‘GPT-4’를 출시했다. 이전 GPT-3 모델이 미국 변호사 시험에서 하위 10%에 그쳐 언론의 조롱을 받았던 쇼크를 만회라도 하려는 듯 GPT-4는 미국 변호사 시험에서 상위 10%의 성적을 올리며 초격차 학습 역량을 과시했다. 이제 특정 시험은 AI의 역량을 평가하기에 부족한 느낌이다.

막강한 역량을 과시하는 챗GPT를 우리는 생성형 AI라고 부른다. 쉽게 말하면 무수히 많은 데이터를 단기간에 분류해 학습한 후 최적의 결과물을 내놓는 머신이다. 인터넷에 공개된 모든 정보를 축적하며 학습하기에 챗GPT의 용도는 실로 무궁무진하다. 챗GPT는 기자와 시인, 작곡가로 변신할 수 있고 검색 사이트 플랫폼을 대체할 수도 있다. 단순 정보 처리에 머물던 AI가 5년 만에 창의력 바로 앞 단계까지 도달한 셈이다.

이쯤에서 AI 열풍을 주도한 구글의 입장을 살펴볼 필요가 있다. 사실 구글은 2017년 챗GPT가 나오기도 전에 트랜스포머(Transformer)라는 모델을 공개하며 AI 업계를 선도해 왔다. 구글은 ‘사람처럼 의식을 갖고 있는 AI’ 개발에 가장 가까이 도달한 기업으로도 유명하다. 대화형 AI, 생성형 AI에서 압도적인 기술력과 역량을 보이고 있는 구글은 챗GPT가 열풍을 주도하는 이 순간에도 여전히 AI의 한계를 지적하고 있다. 구글은 AI를 신기루가 아닌 신기원을 열 수 있는 연결고리로 생각하는 기업이다. 이를 위해서는 가장 중요한 조건이 선결돼야 한다. 즉, AI가 좀 더 양질의 고급 데이터에 접근할 수 있어야 한다. 지금의 챗GPT 등 다수의 AI는 끊임없이 학습하는 탁월한 역량을 지녔지만 어떤 정보가 타당하고 어떤 정보가 틀렸는지에 대한 판단을 하지 못한다. 그렇다 보니 챗GPT 역시 사용자의 질문과 요청에 종종 동문서답을 내놓는다.

인터넷에 공개된 모든 데이터를 학습하는 건 시간을 소모하는 어리석은 공부법이다. 모범생은 시험에 나올 만한 핵심 포인트 그리고 타당한 정보만 학습해 암기하고 이해한다. 아직 AI는 이 정도 수준에 도달하지 못한다. 인터넷 데이터가 부정확하기 때문이고 더 나아가 실제로 AI가 미래를 해결하는 데 필요한 학술논문 등 고급 데이터를 학습하지 못하기 때문이다. 양질의 데이터 공개는 생성형 AI의 성장 조건이다.

예컨대, 지금의 챗GPT 등 생성형 AI는 텍스트와 기초적인 그림 이미지는 쉽게 이해하고 학습하지만 학술논문에서 연구자들이 활용하는 복잡한 수식과 그래프는 이해하지 못한다. 암과 난치병에 맞서기 위해 연구자들이 분석했던 MRI 및 CT 데이터 그리고 결과 해석은 AI가 해내기 어렵다. 챗GPT에게 직접 물어봤더니 간단한 시각자료 이외에 복잡한 그래프나 데이터 결과는 아직 이해하지 못한다는 진솔한(?) 답변이 돌아왔다.

양질의 데이터가 더 많이 공개되지 않으면 챗GPT는 신기루에 그칠 수 있다. 연구자들이 읽고 쓰는 학술논문 사이트는 저작권을 주로 학술지와 저자만 공유한다. 참고로, 전 세계 학술지의 72%는 유료다. 연구자가 공개하고 인정한 데이터와 콘텐츠를 학습해야 챗GPT 등 생성형 AI가 인류의 문제를 해결하는 데 더 많이 활용될 수 있다. 저작권 문제로 학술논문이 벽을 쌓는 한 AI는 암 등 난치병 해결에 이용될 수 없다.

AI에 대한 학술논문 빗장도 풀어야

구글은 지금까지 나온 AI 모델은 그 유형을 막론하고 인터넷에 나온 텍스트와 그림을 학습하다 보니 부적절한 데이터에 지나치게 의존해 품질과 정확도가 떨어지는 문제가 있다고 지적한다. 부적절한 데이터를 학습하면 결국 혐오와 편 가르기에 악용될 수 있고 잘못된 정보를 광범위하게 퍼트려 사이버 보안 이슈만 크게 키울 수 있다. 구글이 인터넷 데이터로만 학습한 AI는 인류에 도움이 되지 않는다고 단언하는 이유다.

챗GPT가 인류의 신기원이 되기 위해서는 생성형 AI에게 더 많은 양질의 데이터를 학습시키고 이를 토대로 인류의 문제를 풀 수 있도록 각 분야 연구자들이 AI에게 빗장을 풀고 연구 결과를 공유해야 한다. 구글은 지난해 자사 AI 프로그램을 통해 2억 개가 넘는 단백질 구조를 예측하는 데 성공했다. AI를 효과적으로 활용한 극적인 사례다. 챗GPT가 아닌 인류를 위해서라도 AI에게 학술논문 데이터의 문을 열어야 한다.

권상집 한성대 사회과학부 교수 다른기사 보기

대기업 ‘평균 연봉 1억원 시대’…2억원 넘는 곳 보니 권도형, 몬테네그로 경찰에 “도피 중 세계 곳곳서 VIP 대접받아” 교촌치킨 가격 올린다…‘교촌 오리지날’ 1만9000원으로 넷플릭스 K콘텐츠, 봉인 풀리니 ‘승승장구’ 푸틴의 또 다른 전쟁범죄, ‘우크라이나 아동 납치’의 실상 日 원전 오염수 이대로? 한·일 관계 진짜 ‘뇌관’은 6월에? 불법 청약 브로커에 ‘수사무마’ 대가 3500만원 받은 경찰 쉬어도 그대로인 ‘만성피로’…의외의 해법 있다? 잠 적게 자면 ‘뇌 청소’ 기능 떨어져 치매 위험 커진다 등산, 그냥 갔다간 큰코 다친다…안전 위한 요령 3

이 기사에 댓글쓰기펼치기