글로벌 ‘스마트 스피커’ 시장 동향 분석…한국어 자연어처리 수준은 최하위

최근 미국 기술 산업 뉴스의 온라인 출판사인 테크크런치(TechCrunch)에서 현재 미국 성인인구의 20%인 4천 730만 명이 스마트 스피커, 즉 음성인식 비서를 사용 중이라고 보도했다. 미국에서는 우리나라 전체에 달하는 인구가 스마트스피커를 사용하고 있다는 것이다. 이를 통해 스마트 스피커 시장이 어느 정도 규모까지 성장했는지를 알 수 있다. 

스마트 스피커는 일반적인 IT 기기와 달리 '특정언어 인공지능'이 필요하다. '특정언어 인공지능'은 단순히 언어 번역뿐 아니라, 그 언어가 작동하는 문화, 그 지역의 주요 사건들을 파악해 대화의 맥락을 파악할 수 있어야 한다. 미국은 아마존을 비롯한 구글, 애플에서 ‘특정언어 인공지능 시스템’을 탑재한 스마트 스피커가 출시되고 있다. 그에 반해 국내 스마트 스피커 수준은 그에 비해 성능이 확연히 떨어진다는 평이다. 이는 스마트 스피커에 필요한 ‘특정언어 인공지능’에 대한 한국어 자연어 처리 수준이 턱없이 부족하다.

■ 글로벌 IT기업 아마존, 구글, MS 등 연이은 스마트 스피커 출시

스마트 스피커란 음성인식 인공지능 구현을 위한 CPU, 마이크, 소리를 내기 위한 스피커 등으로 구성되어있다. 탑재된 인공지능 알고리즘을 바탕으로 사람의 목소리를 알아듣고 그 명령을 수행하는 스피커로써 와이파이, 블루투스 등 무선으로 인터넷에 접속해 다양한 기능을 수행할 수 있는 기기를 말한다.

글로벌 IT기업인 아마존은 스마트 스피커개발에 가장먼저 뛰어든 기업이다. 아마존은 2014년 말 ‘에코’라는 스마트 스피커를 출시했다. 이어 2016년 말부터 주요 IT회사들이 스마트 스피커를 출시하기 시작했다. 최근에는 인공지능을 보유한 주요 IT회사들까지 스마트 스피커 개발 경쟁에 참여하고 있다.

아마존의 스마트 스피커 시장의 진입이유는 이러하다. 일상에서는 데크트탑 컴퓨터와의 상호 작용이 필요한 순간이 많지 않다. 따라서 음악 감상, 독서, 뉴스, 라디오 등 지속적인 수요가 발생할 수 있는 것이 스피커라고 판단되어 스마트 스피커를 개발하기 시작했다. 아마존은 ‘에코’를 스피커로 지칭하고 자사의 주요 서비스와 연계하는데 주력했다. 

2014년 11월 아마존 ‘에코’가 출시되어 2015년 6월부터 판매되기 시작한 것을 기점으로 2016년 구글의 ‘홈’, 2017년 MS의 ‘인보크’, 애플의 ‘홈팟’까지 커다란 IT 공룡기업들이 자사 스마트 스피커를 출시해 판매하기 시작했다. 구글의 ‘홈’은 스마트폰, 사물인터넷, 구글 크롬캐스트 등 구글 서비스와 연계해 이를 제어하는 기능에 중점을 두었다. 또한 자사의 검색 서비스를 이용해 고객에게 최적의 서비스와 정보를 제공하기도 한다. 

MS는 오디오 업체 하만카돈과 협력해 ‘인보크’를 개발, 자사의 서비스인 스카이프를 통해 무료 통화기능을 제공하고 있다. 애플의 ‘홈팟’은 가격을 아마존과 구글의 두 배 가량으로 책정했다. 높은 가격만큼 고음질의 스피커를 탑재하고, 여러 개의 센서를 적용해 홈팟이 놓인 공간에 최적화된 소리를 제공한다. 

최근 페이스북은 15인치 화면을 탑재한 스마트 스피커를 2018년 출시할 예정이라고 밝혔다. 페이스북은 자사 메신저의 챗봇 기술을 적용할 예정이다. 페이스북의 챗봇 기술을 적극 활용한다면 금융권 상담 등의 상황에서 페이스북의 스마트 스피커가 다양한 사용방안을 마련할 수 있을 것으로 기대된다.

2018년 3월 기준 글로벌 시가총액 1위는 애플, 2~4위는 각각 알파벳, 아마존, MS이 각각 차지하고 있다. 페이스북은 8위에 머무르고 있다. 

▲ 사진 왼쪽부터, 아마존 에코, 구글홈, 애플 홈팟.

■ 글로벌 스마트 스피커 매년 50%이상의 성장률 보일 것으로 전망

2016년 스마트 스피커의 시장규모가 전 세계적으로 4억 달러를 넘어섰다. 현시점에서 스마트 스피커의 한계는 언어의 장벽이다. 스마트 스피커가 시장에 출시된 지 상당한 시간이 흘렀지만 여전히 영어 및 독일어권의 언어정도만 원활하게 사용할 수 있는 수준이다. 각 나라별 언어의 자연어 처리뿐만 아니라 그 지역의 문화 및 주요사건을 파악해 사용자의 대화 맥락을 도출해 내는 것 또한 스마트 스피커가 해결해 나가야할 문제이다. 

하지만 일본어 및 주요국가의 자연어 처리가 급격히 증가하고 있으며, 장기적으로는 인공지능의 발전이 언어의 장벽을 넘어서는 순간 스마트 스피커의 성장률이 급격히 증가할 것으로 예상된다. 아직 스마트 스피커의 시장 추세는 언어권별로 나뉘어져 있다. 인공지능이 언어의 장벽을 넘어설 때 급속히 주요 플레이어 중심으로 시장이 통합될 것으로 전망된다. 시장조사 기관 GMI(Global Market Insight)는 2024년에 스마트 스피커의 시장전망을 110억 달러를 넘어설 것으로 전망했다.

스마트 스피커는 언어의 장벽을 넘어섬과 동시에 스마트 스피커의 화면부착 및 휴대성에 적합한 개발을 통해 다양한 기능을 더 쉽게 사용할 수 있는 ‘스마트 비서’로 발전할 수 있다. 이는 가정용 컴퓨터를 대체할 수 있을 뿐만 아니라 스마트 기기의 이동성과 안정성을 겸비한 스마트 기기의 복합체가 될 수 있다는 점이다.

▲ 사진 왼쪽부터 SKT 누구, KT 기가지니, LG전자 씽큐허브, 네이버 웨이브, 카카오 미니.

■ 한국, 스마트 스피커 잇따라 출시…본질적인 자연어 처리 부족

SK텔레콤은 2016년 9월 국내 최초 스마트 스피커 ‘누구(NUGU)’를 출시했다. 한국 사람 특유의 목소리 톤과 억양 및 사투리를 구분하기 위해 자연어 처리 엔진을 자체 개발했다. ‘누구(NUGU)’는 출시된 지 7개월 만에 2017년 5월 기준 누적판매량이 10만대를 넘어서는 기염을 토했다. 

SK텔레콤을 이어 KT는 2017년 1월 스마트 스피커 ‘기가 지니(GIGA Genie)’를 출시했다. KT의 차별화된 점은 ‘누구(NUGU)’와 다르게 스마트 스피커 내에 카메라를 내장해 Full HD급 영상 통화와 홈캠이 가능하고 TV와 연동해 사용자와 소통하는 ‘커뮤니케이션 서비스’를 제공하고 있다. KT는 기자간담회를 통해 자연어 처리의 정확도는 89~90%이며 음성인식 정확도는 자체평가 95% 라고 밝혔다.

SK텔레콤과 KT 이외에도 LG전자, 네이버, 카카오 등이 스마트 스피커 시장에 뛰어들었다. LG전자는 2017년 11월 네이버의 인공지능 플랫폼 ‘클로바(clova)’를 탑재시킨 ‘씽큐허브(ThinQ Hub)’를 출시했으며, 네이버 또한 ‘클로바(clova)’를 탑재시켜 네이버 뮤직을 통해 라인과 공동 개발한 ‘웨이브(WAVE)’, ‘프렌즈(Friends)’를 2017년 8월에 출시했다. 카카오는 자사에서 개발한 인공지능 플랫폼 ‘카카오 I’의 음성형 엔진(음성인식, 합성기술), 자연어처리 기술, 빅데이터 및 머신러닝 기반 기술을 탑재한 ‘카카오 미니(Kakao Mini)’를 2017년 7월에 출시했다.

2018년 2월 기준 한국의 스마트 스피커 누적 판매량은 100만대를 돌파했다. 2018년 2월 기준 SK텔레콤 ‘누구(NUGU)’ 약 40만대, KT ‘기가지니(GIGA Genie)’ 약 50만대, 네이버 및 카카오 각각 약 15만대 판매 등이다.

하지만 아직까지 미국의 스마트 스피커 사용자 수에 비하면 턱없이 부족한 숫자이며, 아직까지 글로벌 스마트 스피커 시장의 규모에 미치지 못하고 있다. 그만큼 사용자들의 요구에 부응하지 못한다는 의미이기도 하다.

김들풀 IT News 편집장이자 IT애널리스트는 “국내 스마트 스피커의 문제점은 다양한 기능을 탑재한 국내 스마트 스피커가 출시되고 있지만 ‘특정언어 인공지능’에 필요한 한국어 자연어 처리가 부족하기 때문이다”며, “국내 스마트 스피커는 겉은 휘황찬란하지만 속은 텅텅 비었다”라고 말했다. 이어 “심지어 구글 홈은 최대 6명까지 사용자 음성을 인식한다. 음성인식도 최대 6명까지 인식한다. 구글 홈에 탑재된 구글 어시스턴트(Google Assistant)가 사용자의 목소리를 구별할 수 있는 능력을 갖추게 된 것”이라고 설명했다.

■ 국립국어원 한국어 자연어처리 위함 국어 정보화 사업 계획 추진

국립국어원은 인공지능의 핵심기술인 한국어 자연어 처리를 위해 2018년부터 2022년까지 총 155억 어절의 말뭉치를 구축하는 국어 정보화 사업 계획을 마련했다. 

이 사업은 국립국어원이 1998~2007년 10년간 추진한 '21세기 세종계획'의 후속 사업으로 5년 동안 총 175억 원의 예산을 투입한다. 2차 세종계획 안은 평가용 말뭉치 6천만 어절과 번역·사전편찬 등에 활용하기 위한 한국어-외국어 대역 말뭉치 4종 (몽골어·베트남어·인도네시아어·태국어) 각 10만 어절을 구축·보급하는 내용 등이다. 

현재 인공지능에서 자연어 처리는 말뭉치(corpus)가 얼마나 많은 데이터베이스(DB)로 구축되어 있느냐에 따라 음성인식과 텍스트 분석, 통번역 등 언어처리 인공지능의 정확도가 달라진다. 현재 전 세계 말뭉치 현황은 영어가 약 2,000억 어절, 일본어는 100억 어절 이상의 말뭉치를 확보했다. 또한, 구글이나 아마존 등 영어 음성인식이 한국어보다 뛰어난 이유도 5000시간이 넘는 영어 음성 말뭉치가 확보되어 있기 때문이다. 

그에 비한 한국어의 말뭉치는 약 2억 어절. 1998년 1차 세종계획 10년 동안 기초자료인 현대국어 말뭉치, 현대국어 분석 말뭉치, 북한/해외한국어 말뭉치, 옛문헌/방언/구비문학 말뭉치, 대역(한국어-외국어) 말뭉치 등을 6억 5500만 어절 구축한다고 계획했다. 하지만 실태는 약 2억 어절뿐이다. 1998년부터 10년간 추진해 2007년에 마무리된 1차 '21세기 세종계획'은 “투입된 돈에 비교해 거의 쓸모가 없을 정도로 초라했다.” 라는 평가를 받았다. 심지어 2007년 감리보고서에선 “향후 재활용 어렵다”라고 까지 결론지었다.

국립국어원은 2차 세종계획에서 계획한 155억 어절의 말뭉치를 하루빨리 구축해야 할 것이다. 미국뿐만 아니라 세계적으로 100억 어절 이상의 말뭉치를 구축하고 있는 현황에서 한국어 말뭉치 2억 어절 구축이라는 것은 IT강대국이라 자부할 수 있는 한국의 명성에 전혀 걸맞지 않은 숫자다. 

한국어 말뭉치가 빠른 시일 내 100억 어절 이상 구축된다면 머지않아 대한민국 국민의 20%인 1,000만 명이 국내 기술력으로 개발된 스마트 스피커를 사용할 수 있을 것으로 예상한다. 덧붙여 한 가구당 2개 이상의 스마트 스피커를 사용하게 된다면 대한민국이 스마트 스피커의 시장 점유율에 한 몫 기여할 것으로 전망한다.

또한 미국 모닝컨설트의 조사에 따르면 스마트 스피커 구입 시, 가장 중요한 기능은 무엇인지에 대해 조사했다. 그 결과 1위는 ‘가격(30%)’으로 꼽혔고, 그 다음은 ‘음성인식 기능의 정확도(14%)’였다. 덧붙이자면, 국내 IT중소기업이 국내 공룡기업보다 합리적인 가격으로 독자적인 스마트 스피커를 출시한다면 충분히 국내 스마트 스피커 시장에서 살아남을 경쟁력을 갖출 수 있을 것으로 예상된다.


[서정욱 기자, itnews@itnews.or.kr]