elasticsearh에 형태소 분석기 테스트를 위한 샘플 데이터를 찾다가 

위키피디아에서 제공 하는 dump로 작업 하는것이 보여서 정리한다.


OS 환경 : CentOS 7


위키피디아  dump

위키백과:데이터베이스 다운로드

pages-articles.xml.bz2 - 일반 문서의 최신 버전만이 묶여 있고, 전체 편집 역사는 들어있지 않습니다. 대부분의 이용자는 이 파일을 이용하면 됩니다.


curl -LOk https://dumps.wikimedia.org/kowiki/20180601/kowiki-20180601-pages-articles.xml.bz2


XML을  JSON으로 변환하자

https://github.com/cemsbr/wikipedia2json

python3 환경에서 실행되는데  파이썬은 hello world만 해본적이 있어서 구글링으로 삽질 후에 실행에 성공했다.


기본 설치 패키지

yum -y install https://centos7.iuscommunity.org/ius-release.rpm

yum -y install python36u bzip2

환경 구성 및 실행

cd wikipedia2json

python3.6 -m venv venv

source venv/bin/activate

cp scripts/w2j.py .

bzcat kowiki-*.xml.bz2 | ./w2j.py >kowiki.json

deactivate