환경 CentOS 7, yum   설치

에러 메시지
Error code EACCES: Insufficient permissions for extracting the browser archive. Make sure the Kibana data directory (path.data) is owned by the same user that is running Kibana.


디렉토리 생성이 안되어 kibana 프로세스가 계속 재구동 되는 문제 발생

해결
mkdir /usr/share/kibana/data
chown kibana:kibana /usr/share/kibana/data

elasticsearh에 형태소 분석기 테스트를 위한 샘플 데이터를 찾다가 

위키피디아에서 제공 하는 dump로 작업 하는것이 보여서 정리한다.


OS 환경 : CentOS 7


위키피디아  dump

위키백과:데이터베이스 다운로드

pages-articles.xml.bz2 - 일반 문서의 최신 버전만이 묶여 있고, 전체 편집 역사는 들어있지 않습니다. 대부분의 이용자는 이 파일을 이용하면 됩니다.


curl -LOk https://dumps.wikimedia.org/kowiki/20180601/kowiki-20180601-pages-articles.xml.bz2


XML을  JSON으로 변환하자

https://github.com/cemsbr/wikipedia2json

python3 환경에서 실행되는데  파이썬은 hello world만 해본적이 있어서 구글링으로 삽질 후에 실행에 성공했다.


기본 설치 패키지

yum -y install https://centos7.iuscommunity.org/ius-release.rpm

yum -y install python36u bzip2

환경 구성 및 실행

cd wikipedia2json

python3.6 -m venv venv

source venv/bin/activate

cp scripts/w2j.py .

bzcat kowiki-*.xml.bz2 | ./w2j.py >kowiki.json

deactivate


배포된 버전의 zip파일을 풀어서 수정하는 방법 알려져 있으나 직접 빌드 해보고 싶다면 다음과 같이 진행을 한다.


git, java, maven은 설치되어 있다고 가정한다.


소스를 다운로드 받고


git clone https://bitbucket.org/eunjeon/mecab-ko-lucene-analyzer.git


다음의 세파일의 elasticsearch 버전을 필요한 버전으로 수정을 한다.



mecab-ko-lucene-analyzer/pom.xml

    <dependency>
      <groupId>org.elasticsearch</groupId>
      <artifactId>elasticsearch</artifactId>
      <version>5.5.2</version>
    </dependency>


mecab-ko-lucene-analyzer/elasticsearch-analysis-mecab-ko/pom.xml


  <version>5.5.2.0-SNAPSHOT</version>

mecab-ko-lucene-analyzer/elasticsearch-analysis-mecab-ko/plugin-descriptor.properties

version=5.5.2.0
elasticsearch.version=5.5.2


메이븐 빌드


mvn package -Dmaven.test.skip=true


패키징
./make-package.sh


정상적으로 완료가 되면

elasticsearch-analysis-mecab-ko-5.5.2.0.zip


파일이 생성된다.


  • 2018.01.02 15:10

    비밀댓글입니다