웹브라우저 별 url encoding 방식

오래전에 알고 있었는데, 세월가니까 다 까먹는다.

chrome, firefox는 url에 한글이 들어가면 utf-8의 한글 형식을 기본으로,  이걸 percent encoding을 한다. 간단히 hex값을 %붙여서 표시하는것이다.

ie(구버전)은 euc-kr 문자열을 기보능로 percent encoding을 한다.

그래서 브라우저에 따라서 한글 주소의 encoding된 결과물이 다르다.

elasticsearch 활용하기

검색하기

https://www.elastic.co/guide/en/elasticsearch/reference/5.4/search.html

 

쿼리하기

https://www.elastic.co/guide/en/elasticsearch/reference/5.4/query-filter-context.html

 

페이징하기

https://www.elastic.co/guide/en/elasticsearch/reference/5.4/search-request-from-size.html

 

플러그인

web front-end : head

https://github.com/mobz/elasticsearch-head

 

참고 사이트

http://working.zzugg.com/es-logaggregation.html

elasticsearch+fscrawler 설정하기

fscrawler

https://github.com/dadoonet/fscrawler

 

es 5.4를 설치했기때문에, 2.4를 설치하기로 했다.
https://repo1.maven.org/maven2/fr/pilato/elasticsearch/crawler/fscrawler/2.4/

설치는 무척 간단하다. es를 localhost의 9200포트로 띄워 놓고…

위와 같이 실행하면, c:\fscralwer-2.4\config  이하에 설정파일이 생성된다.

 

먼저, fscrawler 설정

일단, config/fs_index/_settings.json   을 열어서, fs.url 의 속성을 내가 검색할 폴더명으로 설정한다.

"url" : "c:\\temp\\fscrawler",

임시로 만들어놓은 c:\temp\fscrawler 폴더로 정한다.

 

fscrawler와 연계된 elasticsearch index 설정

config/default/  이하에 가면 elasticsearch 버전별 폴더가 있다. 5.4를 이용하므로,  config/default/5  이하의 설정을 보면 된다.

하고자 하는 것은 fscrawler로 색인하려하는 docx, pdf등의 파일의 컨텐츠를 색인할때, 형태소 분석기를 통해서 색인하는것이다.

위와같이 analyzer와 tokenizer를 설정한다.

그 이후에 mapping 이하의 content(파일의 컨텐츠가 이곳에 저장됨)에 korean analyzer를 적용한다.

위와같은 pptx 파일이 존재할때, 아래와 같이 검색해도 검색이 된다.

 

설정파일 :  fscrawler-config

이제 할 일은…

fscrawler가 주기적으로 갱신되는 pdf나 docx, pptx같은 파일들의 색인을 최신상태로 유지하게 하는것.