elasticsearh에 형태소 분석기 테스트를 위한 샘플 데이터를 찾다가 

위키피디아에서 제공 하는 dump로 작업 하는것이 보여서 정리한다.


OS 환경 : CentOS 7


위키피디아  dump

위키백과:데이터베이스 다운로드

pages-articles.xml.bz2 - 일반 문서의 최신 버전만이 묶여 있고, 전체 편집 역사는 들어있지 않습니다. 대부분의 이용자는 이 파일을 이용하면 됩니다.


curl -LOk https://dumps.wikimedia.org/kowiki/20180601/kowiki-20180601-pages-articles.xml.bz2


XML을  JSON으로 변환하자

https://github.com/cemsbr/wikipedia2json

python3 환경에서 실행되는데  파이썬은 hello world만 해본적이 있어서 구글링으로 삽질 후에 실행에 성공했다.


기본 설치 패키지

yum -y install https://centos7.iuscommunity.org/ius-release.rpm

yum -y install python36u bzip2

환경 구성 및 실행

cd wikipedia2json

python3.6 -m venv venv

source venv/bin/activate

cp scripts/w2j.py .

bzcat kowiki-*.xml.bz2 | ./w2j.py >kowiki.json

deactivate



60버전 이상에서 기능 지원함


주소창에 about:config 입력

검색 network.trr

network.trr.bootstrapAddress : 1.1.1.1

내 경우엔 1.1.1.1이 접속이 되지 않아 1.0.0.1 사용

network.trr.mode : 3

3 :DOH만 사용

2: DOH 실패시 기존대로 다시 시도

network.trr.uri  : https://cloudflare-dns.com/dns-query

다른 주소도 있는것 같은데 1.1.1.1 과 같은 서비스 주소를 사용하는편이 좋겠다 생각함



'지식창고 > 프로그램' 카테고리의 다른 글

firefox Dns over HTTPS (DOH) 적용 하기  (0) 2018.05.17
nginx post 405 not allow 문제  (0) 2016.11.24
크롬 마우스 제스쳐 확장  (0) 2016.09.21
ConEmu 설정  (0) 2016.08.31
Laravel - 기본 라우팅  (0) 2015.05.19
Laravel - 홈스테드 설치와 기본 설정  (0) 2015.05.19

none에서 oxygen 으로 업그레이드 방식으로 업그레이드 했으나 삐걱 거려서

oxygen으로 새로 설치 하고서 설치한 플러그인 목록을 기록 차원에서 남긴다.


BuildShip : gradle build

https://projects.eclipse.org/projects/tools.buildship


Darkest Dark Theme with DevStyle : 테마 관리

https://www.genuitec.com/products/devstyle/


Minimalist Gradle Editor : build.gradle 에디터

Properties Editor : 프로퍼티 에디터 한글지원

grep console : console 로그 메시지 지원


oxygen 장점

mac에서  한글 입력 문제가 발생하지 않는다.