elasticsearch 활용하기

검색하기

https://www.elastic.co/guide/en/elasticsearch/reference/5.4/search.html

 

쿼리하기

https://www.elastic.co/guide/en/elasticsearch/reference/5.4/query-filter-context.html

 

페이징하기

https://www.elastic.co/guide/en/elasticsearch/reference/5.4/search-request-from-size.html

 

플러그인

web front-end : head

https://github.com/mobz/elasticsearch-head

 

참고 사이트

http://working.zzugg.com/es-logaggregation.html

elasticsearch+fscrawler 설정하기

fscrawler

https://github.com/dadoonet/fscrawler

 

es 5.4를 설치했기때문에, 2.4를 설치하기로 했다.
https://repo1.maven.org/maven2/fr/pilato/elasticsearch/crawler/fscrawler/2.4/

설치는 무척 간단하다. es를 localhost의 9200포트로 띄워 놓고…

위와 같이 실행하면, c:\fscralwer-2.4\config  이하에 설정파일이 생성된다.

 

먼저, fscrawler 설정

일단, config/fs_index/_settings.json   을 열어서, fs.url 의 속성을 내가 검색할 폴더명으로 설정한다.

"url" : "c:\\temp\\fscrawler",

임시로 만들어놓은 c:\temp\fscrawler 폴더로 정한다.

 

fscrawler와 연계된 elasticsearch index 설정

config/default/  이하에 가면 elasticsearch 버전별 폴더가 있다. 5.4를 이용하므로,  config/default/5  이하의 설정을 보면 된다.

하고자 하는 것은 fscrawler로 색인하려하는 docx, pdf등의 파일의 컨텐츠를 색인할때, 형태소 분석기를 통해서 색인하는것이다.

위와같이 analyzer와 tokenizer를 설정한다.

그 이후에 mapping 이하의 content(파일의 컨텐츠가 이곳에 저장됨)에 korean analyzer를 적용한다.

위와같은 pptx 파일이 존재할때, 아래와 같이 검색해도 검색이 된다.

 

설정파일 :  fscrawler-config

이제 할 일은…

fscrawler가 주기적으로 갱신되는 pdf나 docx, pptx같은 파일들의 색인을 최신상태로 유지하게 하는것.

 

elasticsearch와 은전한닢 형태소분석기 연동(한글 검색)

다운로드 하기

플러그인 등이 동작하지 않을 수 있으니, 과거 버전으로 해보자. 아직 익숙하지 않은 상황에서 최신버전으로 하게되면 관련 자료를 찾기 어려운 경우가 많기 때문이다.

es의 버전은 5.4.1 로 결정

https://www.elastic.co/downloads/past-releases/elasticsearch-5-4-1

위에서 zip으로 다운로드 하여, c:\에 압축을 푼다.

 

es의 한글형태소 분석기인 seunjeon plugin다운로드

https://oss.sonatype.org/service/local/repositories/releases/content/org/bitbucket/eunjeon/elasticsearch-analysis-seunjeon/5.4.1.1/elasticsearch-analysis-seunjeon-5.4.1.1.zip

플러그인 설치하기

 

인덱스 생성하기

 

문장을 하나 저장한다.

 

조사를 제외하고 검색해본다.

 

 

참고자료