SWRC) A Non-morphological Approach for DBpedia URI spotting within Korean Text 논문 요약.

<A Non-morphological Approach for DBpedia URI spotting within Korean Text.>

Abstract
-           - URI Spotting (URI 탐지) 문제는 텍스트에 있는 단어열 중에서 URI 대표되는 개체를 탐지하는 .
-           - 어느 단어열이 URI 해당하는 개체인가를 탐지하는 문제, 개체 중의 해소 문제로 가지 문제 존재.
-           - 개체명 인식 문제와 비슷하나, URI 매핑되는 개체로 한정.
-           - 한국어 텍스트를 대상으로 SVM 이용하는 개체 경계 인식 방법
-           - 의미모호성 문제는 LDA 활용.

Introduction
-           - LOD (linked open data) 개체를 자동으로 인식할 있는 능력은 상의 비정형 데이터를 링크드 데이터와 연결하여 지식베이스를 넓히는 중요.
-           - DBpedia URI 탐지 과정은 단계로 이루어짐
o    개체 경계 인식: text 속에서 DBpedia 개체에 해당하는 단어열 검출
o    개체 중의성 해소: 검출한 단어열이 각각 어떤 DBpedia 연결되는지.
o    한국어처럼 개체명이 짧은 경우, 단순 문자열 알고리즘은 불리 -> SVM 사용.
o    LDB 토픽 모델로 개체 중의성 해소 문제 해결 시도.

Related Works
-           - DBpedia URI 탐지는 개체명 인식과는 다름. 개체명 인식은 장소, 단체같은 class 부여가 목적, URI 관련 어휘들을 태그해야함
문제 정의
-           - 데이터 집합: Wikipedia Extractor 한국어 위키피디아 덤프 사용.
-           - 개체 정의: 한국어 디비피디아로 한정 짓고, 리다이렉션, 동음이의어와 같은 특수 URI 제외.
-           - 개체 경계 인식의 범위: 데이터 집합 내의 모든 링크의 단어열로 구성된 사전 제작, 사전 포함된 단어열만을 개체가 가질 있는 단어열의 범위로 제한.

개체 경계 인식 실험
-            - 한국어는 개체의 대부분의 글자 수가 짧기 때문에 서로 위치상으로 겹치는 개체가 굉장히 많음.
o    간단한 해결책은 청킹을 실행하는 것이나 한국어의 접두사, 접미사와 같은 특징 때문에 좋지는 않음.
o    개체라고 생각되는 경계들의 부분 집합을 만든 가장 경계를 사용.

-           - 개체 판별 알고리즘
o    베이스라인: 후보자들 내의 모든 경계를 개체로 인정함.
o    어절 기반: 후보자들 경계 단어열의 바로 앞과 공백, 특수문자가 있는 경계만.
o    접두와 접미 기반: 경계 바로 문자가 공백 뿐만 아니라 접미사 포함.
o    품사 기반: 최신 한국어 품사 태거로 전체 단어열을 품사 단위로 쪼갬.
o    SVM 기반: SVM 여러 커널들을 이용하여 정답 집합 일부가지고 학습.
-           - 성능 평가와 실험 결과
o    CoNLL-2003 showed task 성능 측정 방식, 5-fold cross validation 진행.
o    실험 결과는 SVM-4에서 F-Score 80.91 전반적으로 좋아짐.


개체 중의성 해소 실험
-           - 개체 경계 인식과정에서 생긴 오류는 모두 개체 중의성 과정으로 전파됨. 이를 통해 성능을 높이기 위해선 경계의 단어열이 해당 문제에서 가지는 의미 파악 중요.

-           - 개체 중의성 해소 알고리즘
o    무작위 베이스라인: 후보자들중 무작위 선택  | 빈도 베이스라인:   많이 링크된 URI 선택
o    TF*ICF: 문서 유사도를 통해 후보자들 단어열을 가진 문서와 평균적으로 가장 유사한 URI 선택, Bag of Words 통해 모든 연속된 명사구를 만드는 방식은 noun, 개체 경계 인식 과정을 통해 만드는 방식은 surface
o    LDF: TF*ICF 유사하나 한국어 위키피디아 전체에 대해 실행하며, 역시 방식에 따라 noun, surface. KL-Divergence 계산 이용.

-           - 5-fold cross validation 이용하요, LDA 알고리즘이 제일 좋은 performance.

댓글

가장 많이 본 글