똑똑해진 ‘음성 인식’이 IT 미래를 바꾼다

낮은 인식률과 오작동 등 기술적 한계 극복해 다시 주목 스마트폰 대중화하면서 수요도 급증해

올해 독일 베를린에서 열린 ‘2011 가전 멀티미디어 박람회(IFA)’에서는 전과 다른 풍경이 연출되었다. 그동안 IFA에 참가해온 대다수 업체가 가전업체들이었는데 이번에는 자동차 관련 업체들이 눈에 띄었다. 자동차업계에 부는 IT 열풍이 고스란히 옮아온 것이다.

포드는 소형차 두 대를 전시하고 자사의 음성 인식 기술 ‘싱크’를 선보였다. 싱크는 포드와 마이크로소프트가 손을 잡고 만든 차세대 인포테인먼트 시스템으로 차량 내 온도 조절, 전자 지도 조작 등 인포테인먼트와 관련된 모든 것을 음성으로 조작하는 기술이다. 행사에 참가한 포드 관계자는 “차량 내 IT·엔터테인먼트 부문이 중요해지면서 IFA 전시회에 참가하게 되었다. 특히 음성 인식 기술에 대한 유럽 소비자들의 관심이 높아 이에 대응하기 위해 참가했다”라고 말했다.

국내에서도 연 47% 성장 전망

음성 인식 기술에 대한 연구는 지난 2000년대 초 휴대전화가 본격적으로 보급되기 시작하면서 각광을 받았다. 그러나 인식률이 낮고 오작동을 일으키는 등 기술적인 한계에 부딪히면서 주춤하는 듯이 보였다. 한때 영화배우 김혜수씨가 운전을 하며 “우리~집”을 외쳤던 휴대전화 광고를 기억하는가? 경량화·소형화에 열을 올리고 있던 당시, 음성으로 전화를 걸 수 있다는 획기적인 아이디어를 세상에 내놓은 순간이었다. 그러나 현실은 달랐다. ‘우리 집’을 외쳤는데 ‘아버지’에게 전화가 걸리기도 하고, 엉뚱한 이름이 검색되는 경우가 다반사였다. 음성 인식 기술은 음성을 정확히 분석해 시스템에 적용시키는 것이 핵심이다. 현저히 떨어지는 음성 인식률은 기술의 존재 가치 자체를 퇴색시킬 수밖에 없다. 그런데 최근 들어 음성 인식 기술이 재조명받고 있다. 컴퓨팅 기술과 네트워크가 발달하면서 음성 기록을 축적하고 정교화할 수 있는 역량이 획기적으로 개선되었기 때문이다.

여기에 스마트폰이 대중화되면서 ‘말’로써 기기를 작동·제어하려는 음성 인식 기술에 대한 수요가 급증하고 있다. 현재 구글 안드로이드 마켓과 애플 앱스토어에 등록되어 있는 음성 인식 어플리케이션의 개수만 총 2천5백여 개에 달한다. 세계 음성 인식 시장 규모 역시 해마다 커지고 있다. 지난 2005년 11억 달러 규모였던 음성 인식 시장은 2010년 30억 달러로 세 배 가까이 성장했고, 2013년에는 약 54억 달러까지 성장할 전망이다. 국내만 보더라도 2010년 1천8백억원에서 2012년 3천9백억원으로 연 47%에 가까운 성장세를 보일 것으로 전망되고 있다.

IT업계, 음성 기술 업체 인수·제휴 활발

▲ 구글은 2008년 모바일 음성 검색 기술을 스마트폰을 통해 선보였다. ⓒ구글코리아

IT업계에서는 구글·애플·마이크로소프트(MS) 등 세계적인 기업들이 최근 음성 기술 업체를 인수하거나 해당 업체와 제휴하는 사례가 늘어나고 있다. 기술을 확보하거나 개발하는 것에서 나아가 제품이나 서비스에 적용시키면서 본격적인 경쟁에 시동을 건 것이다.

일례로 구글은 지난 2008년 모바일 음성 검색 기술을 선보이며 음성 인식 시장에 발을 들여놓았다. 미국에서 첫선을 보인 이래로 중국, 일본, 프랑스, 독일 등에서도 성공적으로 안착하며 음성 인식 기술의 재도약에 힘을 실었다. 그 후 2010년에는 영국의 음성 합성 업체인 포네틱 아츠를 인수하며 기술을 다듬었다. 포네틱 아츠는 컴퓨터 게임 등에서 음성을 실제 음성처럼 표현하며 문서를 자연스러운 발음으로 읽어주는 기능을 제공하는 기술을 가진 회사이다. 구글은 이 기술을 음성사서함이나 글자 읽어주기 등 구글의 서비스와 제품에 통합시키면서 음성 출력을 개선하고자 했다. 현재 활발히 이용되고 있는 구글의 번역 서비스 역시 포네틱 아츠의 기술을 통해 더욱 정교해졌다.

음성 인식 기술에 대한 구글의 고집은 올해에도 이어졌다. 올해 초 구글은 음성 메시지 개발 플랫폼 벤처업체인 미국의 세이나우를 인수하며 사업 확장에 나섰다. 세이나우의 플랫폼은 1 대 1 대화용 음성 메시지 서비스에 이용된다. 페이스북, 트위터, 마이스페이스 등과 통합되어 소셜 네트워킹 그룹 통화 기능까지 갖추고 있음은 물론이고, 안드로이드폰·아이폰까지 지원하며 스마트폰 시대에 최적화된 서비스 기술을 보유하고 있다. 게다가 음성 어플리케이션을 통해 이미 1천5백만명 이상의 사용자를 확보하고 있었으니 구글로서는 놓칠 수 없는 기회였다.

노키아와 함께 스마트폰 생산량 1위를 다투고 있는 애플 역시 음성 기술 업체와의 협력에 총력을 기울이고 있다. 애플은 지난해 미국의 음성 인식 모바일 검색 회사 시리(Siri)를 인수한 데 이어 올해에는 세계적으로 인정받고 있는 음성 인식 기술 업체 뉘앙스 커뮤니케이션(이하 뉘앙스)과 기술 제휴를 맺었다. 뉘앙스는 해당 기술 분야에서 전세계 점유율 69%를 차지하고 있는 부동의 1위 업체이다. 보유하고 있는 소프트웨어로만 한 해에 1조5천억원에 가까운 매출을 올리고 있다. 특허 역시 1천개 이상을 가지고 있다.

애플로서는 구글이 선도하고 있는 음성 인식 시장을 두고 볼 수만은 없는 상황이었다. 국내 시장 형편만 보아도 애플의 설 자리는 좁았다. 그동안 한국어 음성 인식은 구글과 국내 포털 업체 다음커뮤니케이션즈의 대결에 초점이 맞추어져 있었다. 애플의 아이폰이 국내를 휩쓸고 있었지만 음성 인식 경쟁에서만큼은 이렇다 할 존재감을 나타내지 못했던 것이다. 그런데 뉘앙스와 제휴를 맺은 후 뉘앙스가 아이폰용 음성 인식 어플리케이션 ‘드래곤’을 내놓으면서 판도 변화를 예고하고 있다. 스코트 김 뉘앙스 한국지사장은 “뉘앙스가 아이폰을 통해 앱을 출시하는 것은 가장 많은 사용자를 확보할 수 있는 플랫폼이기 때문이다”라고 말했다.

비IT 분야까지…음성 인식 기술의 ‘무한도전’

음성 인식 기술에 대한 수요는 스마트폰에서 그치지 않는다. 음성은 곧 ‘말’이다. 굳이 키보드나 키패드를 찾아 누르고 터치하지 않아도 말 한마디면 원하는 작업을 수행할 수 있다. 속도와 편리함 두 마리 토끼가 한꺼번에 잡히는 셈이다. IT업계를 비롯해 자동차·보안·의료 등 비IT 분야에서도 음성 인식 기술에 주목하는 이유가 여기에 있다.

자동차 업계에서는 2015년까지 전세계에서 출시되는 자동차의 47% 이상이 음성 인식 기능을 갖출 것으로 전망되고 있다. 자동차에서 쓰이는 음성 인식 기술은 대부분 차량 내의 멀티미디어 기기나 내비게이션 작동에서 시작한다. 기아자동차의 ‘UVO(‘Your Voice’의 약자)’ 시스템은 운전자의 음성으로 오디오·미디어 기기 등이 작동하는 특성을 반영했으며, 마이크로소프트가 개발한 음성 인식 제어 엔진이 최초로 적용되었다. 기아차 관계자는 “기아차는 차량 IT를 미래 경쟁력으로 삼고 이 분야의 선도 기업으로 성장하기 위해 더욱 노력할 것이다”라고 말했다.

의료 및 보안 분야에서도 음성 기술 사용은 증가하는 추세이다. 지난 2010년 미국에서는 의사 15만명이 음성으로 환자의 의료 관련 정보를 입력할 수 있는 음성 인식 전자 의무 기록(EHR) 시스템을 사용하고 있는 것으로 나타났다. 또 보안 및 금융 분야에서는 이용자의 음성으로 신원이나 감정·심리 상태를 파악해 본인 인증에 사용하거나 신용평가에 활용하는 서비스가 제공될 예정이다. 러시아의 국영 은행 스베르뱅크는 올해 음성에 기반한 신용평가를 시험적으로 도입했는데, 이 시스템에서는 고객은 은행 업무 자동화 기기(ATM)의 질문에 제대로 답변해야만 거래를 할 수 있다.

이 밖에도 가전 분야에서는 현재에도 사용되고 있는 형광등 켜기·끄기와 같은 단순한 명령에서부터 냉장고의 식품 관리에 이르기까지 음성 인식을 광범위하게 활용하고 있다. 게임 분야에서도 역시 복잡하고 다양한 명령 키가 음성으로 전환되는 추세에 있다. 최은정 삼성경제연구소 연구원은 “현재 국내 음성 인식 시장은 스마트 기기나 콜센터 등을 위주로 형성되어 있지만, 의료·물류·보안 산업까지 고려할 필요가 있다. 그러려면 무엇보다도 빠르게 성장하고 있는 음성 인식 시장을 겨냥해 음성 인식 알고리즘을 개발하고 대용량 음성 데이터를 확보하는 것이 중요하다”라고 말했다.

구글은 지난 2007년 9월 ‘GOOG-114’라는 이름으로 음성 검색 서비스를 처음 선보였다. 그리고 2010년 6월 영어, 중국어, 일본어 등에 이어 여덟 번째로 한국어 서비스를 제공하며 국내 시장에 발을 내디뎠다. 국내의 대표적인 포털 업체인 네이버와 다음이 음성 인식을 활용한 서비스를 제공했지만 구글의 만족도에는 미치지 못했다. PC 검색 점유율에서는 네이버와 다음에 밀려 5% 미만의 저조한 성적을 보이고 있었지만, 모바일에서는 유독 강세를 보였다. 비결이 무엇이었을까?

음성 검색의 핵심은 음성 인식의 정확도에 있다. 음성 검색의 정확도를 높이려면 음성 검색 데이터를 되도록 많이 확보하고 있어야 한다. 마이크 슈스터 구글 음성 인식 연구원은 “음성 인식이 성공하려면 정확하고 신속해야 하는데 음성 검색 데이터가 늘어나면서 정확도가 개선되고 그에 따라 사용자가 늘어나는 선순환 구조가 이루어지고 있다”라고 말했다. 축적된 데이터가 많아야 음성의 각기 다른 억양이나 발음을 파악해 제대로 된 검색 결과를 제공할 수 있다는 뜻이다.

여기에 또 한 가지, 95%의 인식률을 자랑하는 구글의 음성 인식 기술의 비결은 클라우드 서버에 있다. 슈스터 연구원이 언급한 음성 검색 데이터가 저장되는 곳이 바로 클라우드 서버이다. 클라우드 서버는 인터넷상의 서버 여러 대가 마치 하나인 것처럼 동작하는 일종의 온라인 데이터 창고이다. 구글은 이 클라우드 서버에 성별·연령별, 사투리 등으로 구분된 총 2천3백억 개의 영어 단어를 음성 데이터로 저장하고 있다. 음성 검색은 스마트폰을 통해 입력되는 음성 데이터를 클라우드 서버로 전송해 음성을 인식하고 그 결과를 단말기로 재전송해주는 것뿐이다. 구글코리아 관계자는 “스마트폰의 폭발적인 성장세에 힘입어 구글 모바일 트래픽은 단 6개월 동안 10배가량 증가했다. 특히 한국어 음성 검색은 그동안 출시되었던 여러 언어의 음성 검색 서비스 경험을 통해 축적된 기술을 바탕으로 한 것으로, 그 정확도나 로딩 속도에 자신이 있다”라고 말했다.

김세희 기자 다른기사 보기

이 기사에 댓글쓰기펼치기