Upgrade to Pro — share decks privately, control downloads, hide ads and more …

JUMAN++で分かち書きをしたかった...

なごみそ
May 24, 2017
36

 JUMAN++で分かち書きをしたかった...

@Kawasaki.rb #48

なごみそ

May 24, 2017
Tweet

Transcript

  1. JUMAN++ いま流行りの深層学習 (RNN) でモデルを作った 形態素解析器 nagomiso $ jumanpp <<< 'なのは完売'

    なのは なのは なのは 名詞 6 人名 5 * 0 * 0 "自動獲得:Wikipedia Wikipedia人名 Wikipedia名 Wikipedia多義" 完売 かんばい 完売 名詞 6 サ変名詞 2 * 0 * 0 "代表表記:完売/かんばい カテゴリ:抽象物 ドメイン:ビジネス" EOS PyKNP JUMAN++ を開発した京大・黒橋研謹製の JUMAN/KNP の Python バインディング ※JUMAN++ も使える Word2Vec 単語を Vector 表現化して次元圧縮する手法及びそのモデル 自然言語が扱いやすい形式になるため前処理としてよく使われる
  2. だめだった理由 PyKNP の実装の問題 JUMAN++ に半角スペースを入力すると nagomiso $ jumanpp <<< '

    ' \ \ \ \ \ \ 未定義語 15 その他 1 * 0 * 0 "品詞推定:名詞" EOS のようになる PyKNP は jumanpp コマンドを subprocess で呼び出し 標準出力を半角スペースで区切ろうとするので 要素数がずれてエラーになる JUMAN++ が糞重い なごみその Zenbook ちゃんが動かなくなるぐらい重い (もしかしたら変な文字が入って暴走していたのかも…)
  3. まとめ • JUMAN++ で分かち書きをしようとしたが だめだった • 原因は PyKNP と jumanpp

    コマンドの問題 • でかいテキストを形態素解析するなら やっぱり MeCab が速くていいね (SentencePiece も試してみたい)