SWRC) Application of Word Vector with Korean Specific Feature to Bi-LSTM model for Named Entity Recognition 논문 요약

<Application of Word Vector with Korean Specific Feature to Bi-LSTM model for Named Entity Recognition.>

Abstract
-           - 기존의 연구들은 영어권 개체명 인식, but 영어와 한국어의 특질은 많이 다름.
-           -  논문에서는 접사의 동사형이 보존된 word embedding 이용하여 한국어의 특질에 보다 적합한 데이터를 딥러닝에 적용.


Introduction
-           - 개체명 인식(Named Entity Recognition) 문서로부터 개체명 추출하고, 추출된 개체명의 종류를 분류하는 분야.
-           - 본래는 시간, 수식 표현까지 포함하나, 인명, 지명, 기관명, 숫자, 시간등으로 한정.
-           -  분야는 BIO 태깅(B 개체명의 시작, I 개체명이 이어지는 경우, O 개체명이 아닌 경우)으로 통일되어 개발되어 .
-           - 최근엔 Deep Learning 기술의 발전으로 word embedding, deep learning 결합 아키텍쳐 기술의 발달.
-           - 하지만 한국어는 영어와의 언어적 특질이 달라 기술을 그대로 적용하는데 어려움.
-           -  논문에서는 다음과 같은 모델의 추가로 한국어 특질 고려
o    하다접사의 동사형이 보존된 단어 임베딩 사용
o    한국어 개체명의 특징을 담은 one-hot vector 추가
o    평가 데이터 오류 수정

개체명 학습 모델

-           - Bi-LSTM 기반으로 CRF 방식을 결합함.
o    개체명 인식은 POS(품사)태깅이 데이터를 대상으로 하여 단어를 word-embedding one-hot vector 합친 vector 변환.
o    학습데이터의 vector Bi-LSTM 통해 학습, 이후 softmax function 사용.
-           - 하다접사의 동사형이 보존된 word embedding 사용
o    한국어 위키피디아를 대상으로, skip-gram model word2vec 사용.
o    기존의 연구는 출생/NNG + /XSV 였지만, 출생하/VV 변환해 embedding vector 생성.
o    Word embedding corpus 없을 경우, 임의의 값이나 zero vector 사용.
-           - 한글 one-hot vector
o    영어의 경우, 대문자, 품사 태그 정보 포함시 퍼포먼스의 향상.
o    따라서 한국어 특질을 담은 one-hot vector 생성 결정.
(ex) , , , , 같은 경우 LC 정보를 담고 있는 경우가 많음.
o    선택된 특징은 다음과 같다.
§   글자 수가 이상
§   한글이 아닌 숫자로 이루어진 경우
§   지나’, ‘올해 같은 어휘 포함
§   으로 끝난다 등등
o    또한 품사태그 정보를 확인하여 일반명사 NNG 의존명사 NNB 묶는 , 11차원의 one-hot vector 생성
-           - Bi-LSTM 사용 (Tensorflow)
-           - CRF
o    개체명 인식을 실제로 사용하기 위해선 각각의 형태소를 태깅하는 것만으론 부족
o    하나의 개체명으로 인식하기 위한 작업 위해 CRF ++ Tool 사용

성능 평가 분석
-           - 성능 평가: Dataset 2016 국어 정보 처리 경진대회의 dataset 사용
o    방식은 2가지이며, 각각의 형태소에 대해 개체명 태깅이 맞는지, 찾아낸 개체명과 정답 dataset 비교해 개체명을 정확히 찾아냈는지 F1-Score 평가
o    대체적으로 6% 가량 performance 좋음.
o    Word embedding corpus 없는 단어에 대해 zero vector대체 방법이 높은 performance.
o    CRF 추가가 확실한 효과가 있음.




댓글

가장 많이 본 글