项目作者: vochicong

项目描述 :
word2vec, doc2vec testing for Japanese, using Ansible/Docker. See https://github.com/vochicong/datalab-nlp for a Datalab version.
高级语言: Jupyter Notebook
项目地址: git://github.com/vochicong/doc2vec.git
创建时间: 2017-06-06T02:41:44Z
项目社区:https://github.com/vochicong/doc2vec

开源协议:

下载


日本語文書処理の実験

日本語に対してword2vec, doc2vec等をやってみる。

実験ノート

計算環境

以下くらいの環境を想定

  • GCP VM: n1-highmem-2 (2 vCPUs, 13 GB memory)
  • Disk: 256 GB
  • OS: Ubuntu Linux 16.04

内容

インストールされるもの

  • Ubuntu 16.04
  • vim, wget, git, nkf
  • g++
  • Python2, Python3, pip, Cython
  • gensim (word2vec, doc2vec), pattern
  • MeCab
  • JUMAN, JUMAN++, KNP
  • fastText

  • Python3だとgensimがslow modeになり、patternはエラー

git clone

  1. git clone git@github.com:vochicong/doc2vec.git
  2. cd doc2vec

以下、3つの方法が選べる。

  • build済みのDocker imageを利用
  • Docker imageを手元でbuild
  • DockerではなくVMにインストール

build済みのDocker imageを利用

build済みのDocker imageをpullして、containerを起動

必要なもの

  • docker, docker-compose

実行

  1. docker-compose up

Docker内でコマンドを打つなら

  1. docker-compose exec nlp-doc2vec bash

Build Docker image using ansible-container

手元でansible-containerを使ってDocker imageをbuildする。

必要なもの

  • docker, docker-compose
  • ansible-container

実行

buildしてvochicong/nlp-doc2vecへpush

  1. ansible-container build
  2. docker tag nlp-doc2vec:latest vochicong/nlp-doc2vec:latest
  3. ansible-container push --push-to docker
  4. docker push vochicong/nlp-doc2vec:latest # push tag latest

Build Docker image using docker-compose

手元でdocker-composeを使ってDocker imageをbuildする。

必要なもの

  • docker, docker-compose

実行

buildしてvochicong/nlp-doc2vecへpush

  1. docker-compose build
  2. docker-compose push

VMにインストール

Dockerではなく、VM(Ubuntu 16.04想定)に環境をインストールする。

必要なもの

  • ansible

実行

初回、データダウンロードを含めて実行

  1. sudo mkdir -p /workspace/download
  2. sudo chown -R `whoami` /workspace
  3. ansible-playbook ansible-playbook.yml --skip-tags="clean"

2回目以降は、データダウンロードが不要

  1. ansible-playbook ansible-playbook.yml --skip-tags="download,clean"

ダウロードしたデータを削除する場合

  1. ansible-playbook ansible-playbook.yml --tags="clean"
  2. rm -Rf /workspace/download/*