[기획] AI 핵심기술 ‘한국어 자연어 처리’ 세종계획 3

- 4차산업 혁명은 과거 언어정보처리와는 달라 지적 능력 고도화와 인간과 인터페이스를 더 자연스러운 환경 구현해야

해외 기업들의  한국어 자연어 처리 기술도 시시각각 진화하고 있다. 

최근 구글은 AI 포럼을 통해 음성인식 기술과 자연어처리(NLP) 기술을 머신 러닝, 딥 러닝 등을 활용하고, 음성 합성 기술 ‘웨이브’를 통해 고음질 음성을 확보하는 데도 성공했다고 설명했다. 

구글 본사 전산언어학자인 최현정 박사는 "구글은 언어별 모델이 아닌, 언어를 하나로 뭉쳐 영어 자연어 처리를 기준으로 다른 언어로 확장하는 범언어적인 시스템을 만들고 있다"고 밝혔다. 특히, 한국어는 구어나 문어에 따라 전체 맥락이 다른 언어 양상이 달라지는데 운율 정보를 담는 기술을 연구 중이다.

최근 인공지능(AI) 신경망이 병렬말뭉치들(Parallel Texts) 없이도 번역을 학습할 수 있다고 밝힌 논문이 두 편 발표됐다. 이는 인간이 개입해 학습시키지 않아도 스스로 2개 국어를 능수능란하게 구사하는 '바이링구얼(bilingual)'이 될 수 있다는 뜻이다.

미켈 아르테체(Mikel Artetxe) 스페인 바스크대학교(UPV) 컴퓨터공학 박사와 조경현 뉴욕대 교수 등이 발표한  UPV 시스템과, 페이스북 기욤 램플(Guillaume Lample) 컴퓨터공학 박사팀이 발표한 '비지도(Unsupervised) 머신러닝' 기법의 논문은 두 편은 아직 실증에서는 성능이 떨어지지만, 다양한 언어로 작성된 문서들에 대한 접근성을 향상시킬 수 있는 기술의 놀라운 진보다.

이러한 세계적 자연어 처리 기술의 발달로 인해 국어 정보화의 주도권이 해외 굴지의 IT기업에 예속될 가능성마저 점쳐지고 있는 시점이다. 

IMG_1407
▲ 구글 AI 포럼 AI혁신과 자연어 처리 행사에서 최현정 구글 연구원(전산언어학자)가 구글 어시스턴트에 적용된 자연어 처리 기술에 대해서 설명하고 있다.

그렇다면, 국립국어원이 새로 시작하는 제 2차 국어 정보화 사업을 성공하려면 어떻게 해야 하는가? 

먼저 여기에 참여하는 국어학자들 자신이 4차산업 혁명에서 언어처리가 어떤 의미를 가지고 어떤 기술들이 영어를 비롯한 몇 언어에서 성공을 이룰 수 있었는지에 대한 분석과 평가, 그리고 기술 자체를 이해하는 융·복합 능력을 향상시켜야 한다. 

현재 진행되고 4차산업 혁명은 과거의 언어정보처리와는 사뭇 다른 양상을 가지고 있다. 그것은 인공지능이 가지는 지적 능력을 고도화하고 인간과의 인터페이스를 더 자연스러운 환경에서 구현해야 한다는 것이다. 

과거라면 음성 기술과 텍스트 기술이 따로따로 개발되어도 상관이 없지만, 지금은 이것을 통합하지 않는다면 무용지물인 셈인 것이다. 게다가 이제는 기술의 난이도 또한 높아져서 웬만한 말뭉치 규모로는 영어를 기반으로 한 기술과 상대가 되지 않는다. 

세종계획 이후 우리가 멈춰있는 사이에 구글이나 IBM 같은 거대 기업들은 끈질기게 말뭉치를 확장시키고 응용 기술을 발전시켜 왔다.

‘왓슨’의 예를 들어 보자. ‘왓슨’은 음성 인터페이스를 통해 미국의 퀴즈쇼에서 우승을 차지했다. 이것은 사실 알파고보다 더 뛰어난 능력으로 평가할 수 있다. 기계가 사람의 말을 알아듣고 자신이 가진 빅 데이터로부터 주어진 문제를 분석하여 탐색하는 절차를 사람보다 우수하게 실행했다는 뜻이다. 따라서 말뭉치 자체보다는 빅 데이터라는 개념이 중요해진 것이다. 그렇지만 ‘왓슨’이 이러한 언어처리 능력을 갖추기 위해서는 방대한 말뭉치가 필요했던 것만큼은 사실이다. 

하지만, 그 말뭉치가 어떻게 빅 데이터의 개념에 통합되고 ‘왓슨’은 이를 통해 어떻게 인간보다 더 뛰어난 추론 능력을 갖추게 된 것일까? 

다년간 한국어 자연어처리 연구를 하는 고창수 교수는 “결국 단순한 말뭉치가 아닌 지식베이스로서 빅 데이터 구축이 중요하다는 것을 의미한다. 말뭉치에 단순히 그동안의 문법 지식을 태깅하는 수준의 세종계획 말뭉치로서는 어림없는 일”이라며, “제 2차 국어정보화 사업이 단순히 세종계획의 양적 확대만을 의미한다면 또다시 거액을 들여 쓸모없는 데이터를 만들 뿐”이라고 지적했다.

이어 고창수 교수는 “‘왓슨’이나 ‘알렉사’와 같이 기계가 인간과 자연스럽게 대화하기 위해서는 일단 문어 말뭉치보다 구어 말뭉치 구축이 우선되어야 한다. 그래서 인간의 대화가 어떤 흐름의 패턴을 인식해야 한다. ‘왓슨’이 실용적으로 사용되는 의학 분야(예를 들어 암 진단과 같은 분야)에 적용하기 위해서는 전문 지식의 분야별 말뭉치들이 수집되어야 한다”라며, 이런 말뭉치를 수집하는 방법은 사실 간단하다. 인터넷 검색으로 찾을 수 있는 수많은 분야별 텍스트들을 그냥 가지고 오기만 하면 된다. 즉 말뭉치 구축 방법보다는 어떻게 국내의 한국어 빅 데이터들을 통합할 수 있는지에 대한 법적 사용권 문제만 해결된다면 말뭉치의 어휘 규모에 대한 여러 문제들은 간단히 해결된다”라고 말했다.

따라서 수집된 말뭉치가 제대로 기능하기 위해서는 전문용어에 대한 개체명 인식 기술을 발전시켜 용어를 분류하고 각 용어들의 의미적 위계를 전자사전으로 구현해야 한다. ‘왓슨’이 암 진단에서 인간보다 우수한 실력을 갖출 수 있는 것은 어떤 인간도 ‘왓슨’보다 많은 문헌을 순간적으로 읽을 수 없기 때문이다. 

이런 의미에서 국어 정보화는 결국 수많은 텍스트들로 이루어진 빅 데이터를 인간이 읽어서 지식을 축적하고 추론 가능한 데이터 형태로 변환할 수 있는 기술의 확보를 일차적으로 고려해야 한다.

이미 늦었지만 서두르는 것이 능사는 아니다. 과거 세종계획의 실패를 철저히 성찰하고, 현재 기술 수준에 맞는 정보화 사업을 기획하는 데도 최소 1년 이상 많은 학자들의 집단 지성을 활용해야 할 것이다. 과거의 실패를 거울삼지 않는다면 2차 사업 역시 끼리끼리의 연구 집단이 적당히 연구비를 나누어 가지는 그저 돈 잔치에 지나지 않을 것으로 보인다.   

 

관련기사 

[기획] AI 핵심기술 ‘한국어 자연어 처리’ 세종계획 1
– 국립국어원, 한국어 자연어처리 위한 2차 ‘세종계획’ 5년간 말뭉치 155억 어절 구축 추진

[기획] AI 핵심기술 ‘한국어 자연어 처리’ 세종계획 2
– 문제점 투성인 1차 '21세기 세종계획', 2007년 감리보고서 “향후 재활용 어렵다” 결론

[김들풀 기자  itnews@itnews.or.kr]