elasticsearh에 형태소 분석기 테스트를 위한 샘플 데이터를 찾다가 

위키피디아에서 제공 하는 dump로 작업 하는것이 보여서 정리한다.


OS 환경 : CentOS 7


위키피디아  dump

위키백과:데이터베이스 다운로드

pages-articles.xml.bz2 - 일반 문서의 최신 버전만이 묶여 있고, 전체 편집 역사는 들어있지 않습니다. 대부분의 이용자는 이 파일을 이용하면 됩니다.


curl -LOk https://dumps.wikimedia.org/kowiki/20180601/kowiki-20180601-pages-articles.xml.bz2


XML을  JSON으로 변환하자

https://github.com/cemsbr/wikipedia2json

python3 환경에서 실행되는데  파이썬은 hello world만 해본적이 있어서 구글링으로 삽질 후에 실행에 성공했다.


기본 설치 패키지

yum -y install https://centos7.iuscommunity.org/ius-release.rpm

yum -y install python36u bzip2

환경 구성 및 실행

cd wikipedia2json

python3.6 -m venv venv

source venv/bin/activate

cp scripts/w2j.py .

bzcat kowiki-*.xml.bz2 | ./w2j.py >kowiki.json

deactivate


배포된 버전의 zip파일을 풀어서 수정하는 방법 알려져 있으나 직접 빌드 해보고 싶다면 다음과 같이 진행을 한다.


git, java, maven은 설치되어 있다고 가정한다.


소스를 다운로드 받고


git clone https://bitbucket.org/eunjeon/mecab-ko-lucene-analyzer.git


다음의 세파일의 elasticsearch 버전을 필요한 버전으로 수정을 한다.



mecab-ko-lucene-analyzer/pom.xml

    <dependency>
      <groupId>org.elasticsearch</groupId>
      <artifactId>elasticsearch</artifactId>
      <version>5.5.2</version>
    </dependency>


mecab-ko-lucene-analyzer/elasticsearch-analysis-mecab-ko/pom.xml


  <version>5.5.2.0-SNAPSHOT</version>

mecab-ko-lucene-analyzer/elasticsearch-analysis-mecab-ko/plugin-descriptor.properties

version=5.5.2.0
elasticsearch.version=5.5.2


메이븐 빌드


mvn package -Dmaven.test.skip=true


패키징
./make-package.sh


정상적으로 완료가 되면

elasticsearch-analysis-mecab-ko-5.5.2.0.zip


파일이 생성된다.


  • 2018.01.02 15:10

    비밀댓글입니다