elasticsearch+fscrawler 설정하기

fscrawler

https://github.com/dadoonet/fscrawler

 

es 5.4를 설치했기때문에, 2.4를 설치하기로 했다.
https://repo1.maven.org/maven2/fr/pilato/elasticsearch/crawler/fscrawler/2.4/

설치는 무척 간단하다. es를 localhost의 9200포트로 띄워 놓고…

위와 같이 실행하면, c:\fscralwer-2.4\config  이하에 설정파일이 생성된다.

 

먼저, fscrawler 설정

일단, config/fs_index/_settings.json   을 열어서, fs.url 의 속성을 내가 검색할 폴더명으로 설정한다.

"url" : "c:\\temp\\fscrawler",

임시로 만들어놓은 c:\temp\fscrawler 폴더로 정한다.

 

fscrawler와 연계된 elasticsearch index 설정

config/default/  이하에 가면 elasticsearch 버전별 폴더가 있다. 5.4를 이용하므로,  config/default/5  이하의 설정을 보면 된다.

하고자 하는 것은 fscrawler로 색인하려하는 docx, pdf등의 파일의 컨텐츠를 색인할때, 형태소 분석기를 통해서 색인하는것이다.

위와같이 analyzer와 tokenizer를 설정한다.

그 이후에 mapping 이하의 content(파일의 컨텐츠가 이곳에 저장됨)에 korean analyzer를 적용한다.

위와같은 pptx 파일이 존재할때, 아래와 같이 검색해도 검색이 된다.

 

설정파일 :  fscrawler-config

이제 할 일은…

fscrawler가 주기적으로 갱신되는 pdf나 docx, pptx같은 파일들의 색인을 최신상태로 유지하게 하는것.