가짜뉴스를 찾아라!…’AI챌린저 장관상’ 남서울대 연구팀 수상

가짜 같은 일이 현실이 되었다. 자연어 처리 기술과 인공 지능이 만나 가짜뉴스를 찾아낸다.

지난 12월 12일 대한민국 인공지능 역사에 커다란 획을 긋는 ‘국제 컨퍼런스’가 드래곤시키호텔(서울 용산)에서 열렸다. 이 분야에 세계적인 권위자인 톰 미첼(Tom Mitchell) 카네기멜론대학(CMU) 교수 등이 참석한 ‘인공지능 R&D 챌린지’의 최고상인 장관상은 강장묵, 이충형, 김성준 등 남서울대학교 빅데이터 산업보안학과 교수진들이 거머쥐었다. 

1
▲ 세계 수준의 석학, 톰 미첼 교수(좌)와 가짜뉴스 찾기 챌린지를 통해 국내 인공지능 분야 최고 연구자로 소개된 남서울대 강장묵(중앙) 교수, 이충형(우) 교수
인공지능 R&D 챌린지는 국내 과학기술의 요람인 과학기술정보통신부, 정보통신기술진흥센터, 지능정보산업협회, 인텔, 위키트리, 한국정보과학회 등 과학 분야에 최고 기관이 지혜를 모아, 경쟁자들의 규모와 수준에 상관없이 모두가 치열한 경쟁을 6개월 동안 치루는 방식으로 이루어졌다. 

이번 경진대회는 미국의 방위고등연구계획국(DARPA)이 개최하는 ‘그랜드 챌린지’방식으로 치루어 졌다. 개인, 기업, 학교, 연구소 등 누구니 참여할 수 있는 ‘오직 실력으로 겨루는 강호의 진검 승부’ 형태다. 상금도 올 첫해 4.5억 원~6.5억 원, 다음해 15억 원을 내걸고 치뤄졌다.   

이번 챌린지의 임무는 진짜뉴스와 가짜뉴스를 인공지능으로 가려내는 것이었다. 참가자들은 수많은 워크숍과 테스트 등을 통해 ‘뉴스 제목과 내용의 불일치(미션 1)’, ‘뉴스 맥락과 관계없는 뉴스 내용 검출(미션 2)’에서 진검승부를 겨뤘다. 

특히 눈길을 끄는 것은 국내 과학계의 산실인 카이스트, 서울대학교, 고려대학교, 서강대학교 등 최고 수준의 대학팀을 이기고 본선에서 장관상을 받은 남서울대학교 빅데이터보안학과 팀의 성과였다. 

2
▲ KTV 방송 2017년 인공지능 R&D 챌린지 영상(출처: http://airndchallenge.com)

이에 기자는 먼저 본 챌린지의 총괄책임으로 참여한 강장묵 교수로부터 이번 성과에 대한 의미를 들어봤다. 

“이번 연구를 통해 평소 위선과 거짓이 판치는 가짜뉴스로 인해 경제적, 정치적 손실이 크다는 사실을 실감했다. 130만건의 뉴스 기사를 기계학습 했는데, 뉴스의 어감을 분별하는 문제가 어려웠다. 

특히 카인즈(www.bigkinds.or.kr, 한국 언론 재단이 구축한 기사 검색 서비스) 등 국내에 개방된 뉴스 데이터가 빅데이터 분석과 인공지능 기계학습을 시킬 수 없는 수준의 데이터란 사실에 놀랐다. 아마도 기계학습 또는 도메인 데이터가 어떻게 활용 돼야 하는지를 DB관점에서 이해하고 설계한 전문가가 없었던 건 아닌가 싶다. 앞으로 이런 점이 개선된다면, 고신문(한성순보, 독립신문 등)으로부터 시계열로 변천된 뉴스의 어감과 어휘 변화를 사전으로 구축하고 싶다. 

또한 가짜뉴스에 적용된 인공지능 기술은 인간 생활에서 적용할 분야가 많다. 예를 들면 우리는 만인에 대한 만인의 적이다. 기자와 만난 나에게 오늘 예의바르게 인사 나누었지만, 기자분이 돌아서면서 “어떤 흉을 할지 모른다”. 우수갯 소리로 여럿이 이야기 나누다가 화장실을 못간다는 말이 있다. 화장실 간 사이에 뒷 말을 나누는 경우가 비일비재하기 때문이다. 

이처럼 우리 문화는 왜곡된 경쟁을 어려서부터 강요당해서 만인을 우리의 경쟁자, 갈등관계로만 보는 경향이 있다. 그런 이중성을 줄이는데, 인공지능 기술을 자연어에서 음성인식 엔진 등과 결합하여 처리하는 서비스가 실제 가능하다. 많은 관심과 지원을 바란다.”

인공지능은 기계학습을 통해 체스와 바둑을 이겼다. 그러나 기자를 이길 수는 있을까? 

언론고시를 통해 입사한 언론인은 대표적인 지식인이고 이들이 가지는 자부심은 글 속에 고스란히 녹아있다. 그 글은 기사이자 논설이다. 이런 글을 통해 사실관계를 파악하는 것은 어떻게 가능할까. 단순히 단어, 문장, 문단을 분석한다고 문맥과 의미가 해석되는 것일까. 놀랍지만 제한적인 환경에서의 문제였다고 할지라도, 기술적으로 충분히 가능하다는 사실을 이번 챌린저를 통해 보여줬다. 

앞으로 전문가의 영역 역시 철밥통에서 인공지능에게 자리를 내주어야할지도 모른다. 이를 위해서 가장 필요한 것이 무엇인지, 공동 참여한 남서울대학교 빅데이터 산업보안 학과장인 김성준 교수에게 들었다. 

“초연결 사회에 가짜뉴스 판단을 넘어 기자를 대신하기 위해서는 빅데이터가 필요하다. 기계학습을 위해 빅데이터를 활용할 필요성이 높다. 현재 우리나라는 빅데이터를 활용할 수 있는 정제가 잘 된 데이터가 없다. 즉 쌀밥을 지어 먹을려는데 아직 겨를 벗기지 않은 벼를 가지채로 준다면 이를 다시 정미소에 보내야지, 바로 밥통에 쌀을 지어 먹을 수 없다. 마찬가지다. 빅데이터 시대가 왔지만 정형 데이터 조차 활용하려고 살펴보면 데이터로서 쓸 수가 없는 것이 태반이다. 

이를 확인하고자 한다면 공공 데이터의 호(call, 데이터를 사용하기 위해서 호출한 횟수)가 많은지 데이터를 올린 건수가 많은지를 비교하면 되는데, 우리나라는 공공데이터의 활용이 많이 떨어진다. 그 이유는 쓸 수 있는 데이터를 기술자 관점에서 잘 만들어 올리지 않고 ‘위에서 시키니까’ 어쩔 수 없이 만들어 낸 느낌의 활용도가 부족한 데이터가 많다. 

이런 상황에서 개인정보 등을 고려하면 쓸 수 있는 데이터는 없다고 보는 것이 맞다. 시민단체 역시 기술을 모르면서 개인정보보호만을 강조하다보니 결국은 데이터 활용도 보호도 안 되는 모두가 망하는 부정적인 상황이 된 것 같다.”  

3
▲ 장관상 수상자 사진(오지훈 개발자, 연구소장 이영준, 아이와즈 대표 양중식)와 남서울대 강장묵 교수, 이충형 교수(왼편부터)
이번 챌린저에 다수의 자문을 한 이충형 교수는 인공지능에 대해 다음과 같이 이야기 했다. 이충형 교수는 주식회사 요타를 통해 기업 CEO와 정부 관계자에게 컨설팅을 오래 동안 수행해왔다. 

“데이터를 중심으로 사회가 움직여야 한다. 그러나 결정적인 순간에는 기업 CEO와 정부 관계자가 ‘감’에 의한 의사결정을 하는 모습을 여러 차례 목격했다. 데이터 과학은 위기의 순간에 빛이 난다. 아직도 우리의 문화는 위기의 순간에 리더의 ‘감’에 의존하는 경향이 있다. 이를 극복하기 위해 더 많은 빅 데이터가 활용되어야 하고 이를 인공지능이 자체 학습해야 한다. 

특히, 기계에 의한 데이터 생성(훈련 데이터)이 기계학습에 최신 경향이다. 기계가 정제된 데이터를 학습하고 어느 정도 숙련된 기계가 다시 새로운 데이터를 생성하도록 하는 데이터 선순환체계가 구축되도록 관계 기관의 노력이 필요하다.”

이번 ‘인공지능 R&D 챌린지’에서 장관상을 받은 강장묵 교수 연구팀은 200만원 상금과 부상으로 연구개발비 4억 5000만원을 2018년에 국가로부터 지원받는다. 뿐만 아니라, 2019년에 추가 연구비로 15억원 연구 개발비를 지원받는 기회를 얻었다. 강장묵 교수는 "국내외 AI 최고 전문가를 만나 더 많은 통찰과 조언을 듣고 연구 개발에 집중할 계획이다"고 말했다.

[김한비 기자  ebiz@itnews.or.kr]