논문
- Distributed Representations of Sentences and Documents
- Doc2Vec을 통한 문서에 대한 벡터 임베딩 논문
- 장문의 위키 문서들을 벡터로 표현하는 것이 잘 되지 않아서 읽어보았다.
- 논문은 크게 두가지 샘플로 테스트 하였는데, 1. 한문장의 벡터화, 2. 한 문단의 벡터화
- 결과는 성공적이었다고 평가하고 있다. 직관적으로 느끼기에 문단까지는 벡터화가 가능할 것으로 상상된다.
- 문단 내의 키워드간의 유사성이 존재한다고 가정할때 문서의 벡터화가 의미있을 것이다.
- Neural Network-based Language Model for Conversational Telephone Speech Recognition
- http://word2vec Parameter Learning Explained
- word2vec 설명 논문
- word2vec 관련 이론 정리 : 한글로된 문서인데 위의 논문 내용이 한글로 정리되어 있다.
- Efficient Estimation of Word Representations in Vector Space
- Mikolov 가 word2vec 초기버전을 소개한 논문
아티클
- https://www.analyticsvidhya.com/blog/2017/01/sentiment-analysis-of-twitter-posts-on-chennai-floods-using-python/ : 트위터 포스팅 센티멘털 분석
- http://linanqiu.github.io/2015/10/07/word2vec-sentiment/ :영화평점 센티멘털 분석
- https://github.com/roboreport/doc2vec-api : doc2vec 으로 위키 문서 분석
- From Word Embeddings To Document Distances : From Word Embeddings To Document Distances
- https://brunch.co.kr/@goodvc78/16
- https://tensorflowkorea.gitbooks.io/tensorflow-kr/content/g3doc/tutorials/word2vec/
- http://newsight.tistory.com/212
- http://blog.theeluwin.kr/post/146591096133/%ED%95%9C%EA%B5%AD%EC%96%B4-word2vec : 먼저 보자
- http://mccormickml.com/2016/04/19/word2vec-tutorial-the-skip-gram-model/
- http://www.moreagile.net/2014/11/word2vec.html : 자연어 기계학습의 혁명적 진화 – Word2Vec에 대하여
- https://rare-technologies.com/word2vec-tutorial/ : word2vec 튜토리얼
- http://konlpy.org/ko/latest/ : 한국어 형태소 분석기
- http://yujuwon.tistory.com/301 : word2vec 으로 영화 추천하기
- http://egloos.zum.com/Agbird/v/6112491 : item2vec
- http://rhkdgns2008.blog.me/220893534991 : 텍스트 분석에 관심있는 블로그
- https://www.datascienceschool.net/view-notebook/6927b0906f884a67b0da9310d3a581ee/ : 단어 임베딩의 원리와 gensim.word2vec 사용법
- https://medium.com/@klintcho/doc2vec-tutorial-using-gensim-ab3ac03d3a1 : doc2vec 튜토리얼
- https://medium.com/kifi-engineering/from-word2vec-to-doc2vec-an-approach-driven-by-chinese-restaurant-process-93d3602eaa31 : From Word2Vec To Doc2Vec
프로젝트
- https://github.com/muik/tag2vec : 인스타그램 태그와 word2vec
- https://www.buzzvil.com/2016/06/16/word2vec_content_clustering/ : 컨텐츠 클러스터링
- http://blog.naver.com/wpdls6012/220795972603 : 한국어 처리 관련 팁
- http://blog.naver.com/2feelus/220384206922 : 데이터마이닝 및 유사도 분석
- http://kugancity.tistory.com/entry/%ED%95%9C%EA%B5%AD%EC%96%B4-%EB%89%B4%EC%8A%A4-%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%A1%9C-%EB%94%A5%EB%9F%AC%EB%8B%9D-%EC%8B%9C%EC%9E%91%ED%95%98%EA%B8%B0-5-%ED%95%9C%EA%B5%AD%EC%96%B4-word2vec-%EB%8D%B0%EB%AA%A8-%EC%82%AC%EC%9D%B4%ED%8A%B8-%EB%A7%8C%EB%93%A4%EA%B8%B0 : 한귝어 뉴스데이터로 딥러닝
유용한 자료
- word2vec에 어떤 형태로 문장을 넣어야 하는가? : https://datascience.stackexchange.com/questions/8753/what-is-a-better-input-for-word2vec
- 이미 학습된 모델에 새로운 문장으로 추가 학습이 가능한가?
- https://iksinc.wordpress.com/tag/continuous-bag-of-words-cbow/ : word2vec 해부 설명서
- http://web.stanford.edu/class/cs224n/syllabus.html : 스탠포드 대학 강의
- 학습 차원의 크기
일반적으로 100-300을 사용한다. 최소한의 정확도를 얻기 위해서는 50차원 이상은 사용해야한다고 생각한다. 만약 적은 차원을 선택하면 많은 차원에서 얻을 수 있는 특성들을 잃게될 수 있다. 훈련시간이 크게 중요하지 않다면 200차원을 권한다. 최상의 정확도는 300차원에서 얻어진다. 300차원 이상이면 학습시간이 늘어나는 것에 비해서 얻어지는 향상은 미미하다.
https://stackoverflow.com/questions/26569299/word2vec-number-of-dimensions - https://gist.github.com/lampts/026a4d6400b1efac9a13a3296f16e655