seunjeon(mecab 자바버전)에 사용자 사전 추가하기

(https://bitbucket.org/eunjeon/seunjeon/overview) 프로젝트 참고

(고유명사) 추가의 필요성

아래의 소스와 같이 ‘네네치킨을 먹습니다.’를 형태소 분석하면, 네네치킨에 대한 정의가 없기 때문에 원하지 않는 결과로 해석하게 된다.

 

결과

 

사용자사전 추가하기

소스 폴더에 ‘user-dict.csv’라는 파일을 만들고 다음과 같이 저장한다.

뒤의 숫자 값은 cost 값인데, 숫자가 낮을수록 채택될 확률이 높아진다. 우선순위를 높이고 싶다면 낮은 값을 사용하자

 

결과

 

사용자 사전에  추가하고나면 네네치킨을 NNG(일반명사)로 구분하기 시작한다. NNP(고유명사)로 구분하는 것이 맞으나… seunjeon 프로젝트에서는 아직 수준으로 사용자 사전을 지원하지는 않는 것 같다.

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다