구글, 자연어처리 약점 ‘의역’ 극복 데이터 셋 공개

자연어처리(NLP) 알고리즘은 단어의 순서와 구문 구조는 문장의 의미에 큰 영향을 미친다. 이 문제를 극복하기 위해 구글이 새로운 데이터 세트를 공개했다. 

이 데이터 세트에서 훈련을 실시하면, 기계학습 모델의 텍스트 분류 정확도가 50%에서 80%까지 향상해 준다.

구글은 기계번역과 음성인식에서 자연어처리를 적용하고 있다. 하지만, 자연어처리에서 단어순서가 하나만 바뀌어도 해석이 완전히 다를 수 있다.

첨단 알고리즘에서도 “뉴욕에서 플로리다로 비행(Flights from New York to Florida)” “뉴욕에서 출발하는 플로리다 행 항공권(Flights to Florida from New York)” “플로리다에서 뉴욕 행 항공편(Flights from Florida to New York)”라는 문장의 차이를 인식할 수 없다. 기존 알고리즘의 약점이 ‘의역’에 있다는 것은 이전부터 연구자들이 지적해 왔다.

구글은 이 문제를 해결하기 위해 2일(현지 시각) PAWS(Paraphrase Adversaries from Word Scrambling)‘라는 이름의 말뭉치(Corpus)를 공개했다. 말뭉치란 언어 연구를 위해 텍스트를 컴퓨터가 읽을 수 있는 형태로 모아 놓은 언어 자료를 말한다.

PAWS는 프랑스어, 스페인어, 독일어, 한국어, 중국어, 일본어에 대응한 ‘PAWS-X’도 공개됐다. 

▲PAWS 모음 생성 워크 플로 [구글 블로그]

구글은 공식 블로그를 통해 “최신 모델의 훈련 데이터에 새로운 쌍을 포함 시키면 PAWS와 PAWS-X 알고리즘이 단어순서와 구조 파악 정확성이 50%에서 85~89%로 증가한다”고 밝혔다.

PAWS 데이터 세트는 QQP(Quora Question Pairs)이나 위키피디아(Wikipedia)에서 제공되는 영어로 된 사람들이 이름 붙인 10만 8,463쌍의 단어가 포함되어 있다. PAWS-X는 사람이 번역한 PAWS 데이터 2만 3,659쌍과 기계번역 교육에 의한 29만 6,406쌍을 포함한다.

구글 연구원인 장위엔(Yuan Zhang)과 소프트웨어 엔지니어 양윈페이(Yinfei Yang)는 블로그를 통해 “비록 복잡한 맥락의 문장을 이해하는 기계학습 모델에도 특정 문장 패턴을 배우는 것은 어렵다며”, “새로운 데이터 세트는 기계학습 모델이 가진 단어의 순서와 구조에 대한 민감도를 측정하기 위한 효과적인 수단을 제공한다”라고 말했다.

두 사람은 자연어처리의 정확성에 대한 코퍼스의 영향을 조사하기 위해 연구자가 여러 모델에 대해 교육을 했다. 특히 BERT 모델과 DIIN 모델의 두 기준과 비교해 현저하게 개선됐다. 원래 BERT의 분류 정확도는 33.5%이었지만, PAWS와 PAWS-X에 의해 정확도가 83.1%까지 높아졌다.

이들은 “우리의 희망은 이 데이터 세트가 문장 구조 및 문맥의 추출 또는 쌍 비교 등을 개선하고 다국어 모델 연구에 유용하게 쓰이길 바란다”고 말했다.

김들풀 기자 itnews@