SWRC) CNN-Based Distant Supervision Relation Extraction Model with Multi-Sense Word Embedding 논문 요약.

<CNN-Based Distant Supervision Relation Extraction Model with Multi-Sense Word Embedding.>

Abstract
- 원격 지도 학습은 방대한 코퍼스와 지식베이스간 주석 데이터 생성, 자동으로 기계 학습에 필요한 training data 생성.
- 기존 연구에서는 모델 학습의 input으로 사용되는 word embedding에서 동형이의어 성질이 반영x.
- 다중-어의 단어 임베딩 학습하기 위해 어의 중의성 해소 모듈 사용, RE에는 CNN과 PCNN 활용.

Introduction
- RE란, 문장 내 나타난 두 entity 사이의 relation을 알아내는 작업. (ex) Founder(페이스북, 마크 저커버그)
- 원격 지도 방식: 두 개의 entity가 지식베이스에서 특정 관계로 연결되어 있고, 이 두 개체가 함께 포함된 문장들을 말뭉치에서 수집시킬 때, 수집된 문장들은 두 개체간 특정 관계를 설명할 것이다를 가정.
- 자동으로 주석 데이터(labeled data)를 수집하는 원격 지도 방식은 대용량 corpus, 대규모 지식베이스간 학습 데이터를 자동으로 생성해준다는 점은 장점이나 품질이 항상 좋지 않다는 것은 단점.
- 전통적 NLP에서 사용된 특징들은 에러 발생 -> Word embedding, DNN 사용.
- 그 중 PCNN에 position vector를 사용하여 문장의 어휘 위치 정보를 삽입한 논문이 높은 퍼포먼스를 보여줌.
- 기존의 RE에는 다중-어의 단어 임베팅 사용 x. 본 연구에서는 다중-어의 단어 임베딩 사용.
- 본 연구에서는 RE model의 입력으로 단어, 형태소, 단어 의미 번호를 token화하여 진행, 단어 단위 임베딩, 형태소 단위 임베딩을 추가 학습함.

Related Works
Word Embedding Skip-Gram model
J(θ)= ∑_((W_t,C_t)∈D_+)▒∑_(c∈C_t)▒log⁡〖P(D=1|v(〗  W_t),v(c))+ ∑_((W_t,C ́_t)∈D_-)▒∑_(c ́∈C ́_t)▒log⁡〖P(D=0|v(〗  W_t),v(c ́)), C ́_t는 negative sampling.

PCNN RE Model
- Word Embedding 과정에 position vector, 즉 어휘의 상대적 위치 정보를 추가

- PCNN은 CNN에서 사용하는 single max pooling layer를 piecewise max pooling layer로 확장
- 두 어휘의 관계를 학습할 때, 해당하는 두 어휘를 기준으로 문장을 3등분하여 max-pooling 진행.
Methodology


Word Embedding: NLP에서, input 말뭉치를 token화 한 후, 연관성 높은 token을 유사한 실수 값으로 매칭.
- 한국어에서는 형태소 단위 때문에 띄워 쓰기가 아니라 단어의 품사태그를 같이 사용.
- 허나 어의 중의성 문제가 대두됨. 이를 위해 WSD 모듈 사용.
- 여러 단어로 이루어진 개체를 하나의 토큰으로 묶는 개체-반영 단어 임베딩 학습 진행.

RE model 
- 먼저, 코퍼스를 입력으로 받아 어의 중의성 해소(WSD) 수행, 이 때 unsupervised based MRF WSD module 사용.
- 그 후, Tokenizer 수행 (Twitter 형태소 분석기 사용), 개체-반영 토큰화 수행하여 여러 단어로 구성된 개체를 하나의 토큰으로 인정.
- Skip-gram model로 다중-어의 단어 임베딩 학습
- KB와 corpus간 Distant Supervision 수행, 수집된 문장 token화
- 이 labeled data를 두 그룹으로 나누어 학습/평가로 사용
- RE model은 CNN과 PCNN 사용, 두 모델 모두 weight matrix 3개 사용


Experiment
Data
- Wikipedia corpus 6,941,760 문장, DBpedia 기반의 K-Box 사용.
- 클래스별 데이터가 적으면 학습 원할 x, 각 관계별 수집 데이터 개수가 1000개 이상인 것만 사용.

Result
- CNN과 WSD를 결합한 model의 performance가 가장 좋았으며, Precision 0.5921, Recall 0.5039, F1-Score 0.5443을 기록.
- PCNN보다 CNN 성능이 높은 이유는 한국어의 두 개체 위치가 문장의 첫 번째에 있거나 연접해 있는 경우가 많기 때문.


댓글

가장 많이 본 글