SWRC) Application of Word Vector with Korean Specific Feature to Bi-LSTM model for Named Entity Recognition 논문 요약
<Application
of Word Vector with Korean Specific Feature to Bi-LSTM model for Named Entity
Recognition.>
Abstract
- - 기존의 연구들은 영어권 개체명 인식, but 영어와 한국어의 특질은 많이 다름.
- - 본 논문에서는 접사의 동사형이 보존된 word
embedding 이용하여 한국어의 특질에 보다
적합한 데이터를 딥러닝에 적용.
Introduction
- - 개체명 인식(Named Entity Recognition)은 문서로부터 개체명 추출하고, 추출된 개체명의 종류를 분류하는 분야.
- - 본래는 시간, 수식 표현까지 포함하나, 인명, 지명, 기관명, 숫자, 시간등으로 한정.
- - 이 분야는 BIO 태깅(B는 개체명의 시작, I는 개체명이 이어지는 경우, O는 개체명이 아닌 경우)으로 통일되어 개발되어 옴.
- - 최근엔 Deep
Learning 기술의 발전으로 word embedding, deep learning의 결합 아키텍쳐 기술의 발달.
- - 하지만 한국어는 영어와의 언어적 특질이 달라 기술을 그대로 적용하는데 어려움.
- - 본 논문에서는 다음과 같은 모델의 추가로 한국어 특질 고려
o
“하다” 접사의 동사형이 보존된 단어 임베딩 사용
o
한국어 개체명의 특징을 담은 one-hot
vector 추가
o
평가 데이터 오류 수정
개체명 학습 모델
- - Bi-LSTM을 기반으로 CRF 방식을 결합함.
o
개체명 인식은 POS(품사)태깅이 된 데이터를 대상으로 하여 각 단어를 word-embedding과 one-hot
vector를
합친 vector로 변환.
o
학습데이터의 vector를 Bi-LSTM을 통해 학습, 이후 softmax
function 사용.
- - “하다”접사의 동사형이 보존된 word
embedding 사용
o
한국어 위키피디아를 대상으로, skip-gram model의 word2vec 사용.
o
기존의 연구는 출생/NNG + 하/XSV 였지만, 출생하/VV로 변환해 embedding
vector 생성.
o
Word embedding
corpus에
없을 경우, 임의의 값이나 zero
vector 사용.
- - 한글 one-hot
vector
o
영어의 경우, 대문자, 품사 태그 정보 포함시 퍼포먼스의 향상.
o
따라서 한국어 특질을 담은 one-hot
vector 생성
결정.
(ex) 국, 동, 시, 구, 도 같은 경우 LC 정보를 담고 있는 경우가 많음.
o
선택된 특징은 다음과 같다.
§ 글자 수가 셋 이상
§ 한글이 아닌 숫자로 이루어진 경우
§ ‘지나’, ‘올해’와 같은 어휘 포함
§ ‘국’으로 끝난다 등등
o
또한 품사태그 정보를 확인하여 일반명사 NNG와 의존명사 NNB를 묶는 등, 총 11차원의 one-hot
vector 생성
- - Bi-LSTM 사용 (Tensorflow)
- - CRF
o
개체명 인식을 실제로 사용하기 위해선 각각의 형태소를 태깅하는 것만으론 부족
o
하나의 개체명으로 인식하기 위한 작업 위해 CRF ++
Tool 사용
성능 평가 및 분석
- - 성능 평가: Dataset은 2016 국어 정보 처리 경진대회의 dataset 사용
o
방식은 총 2가지이며, 각각의 형태소에 대해 개체명 태깅이 맞는지, 찾아낸 개체명과 정답 dataset을 비교해 개체명을 정확히 찾아냈는지 F1-Score로 평가
o
대체적으로 6% 가량 performance가 좋음.
o
Word embedding
corpus가
없는 단어에 대해 zero
vector대체
방법이 더 높은 performance.
o
CRF의 추가가 확실한 효과가 있음.
댓글
댓글 쓰기