Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
JUMAN++で分かち書きをしたかった...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
なごみそ
May 24, 2017
89
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
JUMAN++で分かち書きをしたかった...
@Kawasaki.rb #48
なごみそ
May 24, 2017
More Decks by なごみそ
See All by なごみそ
デレマス呼称表から見える アイドルの関係(?)
nagomiso
1
1.3k
ネットワーク分析してみた
nagomiso
2
530
ちょっとかしこく生きよう
nagomiso
0
640
さよなら Storm
nagomiso
0
46
ここが変だよ Apache Storm
nagomiso
0
26
Featured
See All Featured
Mind Mapping
helmedeiros
PRO
1
240
HTML-Aware ERB: The Path to Reactive Rendering @ RubyCon 2026, Rimini, Italy
marcoroth
1
170
Designing Powerful Visuals for Engaging Learning
tmiket
1
400
Writing Fast Ruby
sferik
630
63k
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.7k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
162
16k
Building Better People: How to give real-time feedback that sticks.
wjessup
370
20k
The Pragmatic Product Professional
lauravandoore
37
7.3k
Reality Check: Gamification 10 Years Later
codingconduct
0
2.2k
Taking LLMs out of the black box: A practical guide to human-in-the-loop distillation
inesmontani
PRO
3
2.3k
AI: The stuff that nobody shows you
jnunemaker
PRO
8
700
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
21
1.5k
Transcript
JUMAN++で分かち書き をしたかった… 2017.5.24 なごみそ@kawasaki.rb
なにがしたかったか PyKNP 経由で JUMANN++ を使って Wikipediaの記事を分かち書きにして 日本語の Word2Vec を作りたかった
JUMAN++ いま流行りの深層学習 (RNN) でモデルを作った 形態素解析器 nagomiso $ jumanpp <<< 'なのは完売'
なのは なのは なのは 名詞 6 人名 5 * 0 * 0 "自動獲得:Wikipedia Wikipedia人名 Wikipedia名 Wikipedia多義" 完売 かんばい 完売 名詞 6 サ変名詞 2 * 0 * 0 "代表表記:完売/かんばい カテゴリ:抽象物 ドメイン:ビジネス" EOS PyKNP JUMAN++ を開発した京大・黒橋研謹製の JUMAN/KNP の Python バインディング ※JUMAN++ も使える Word2Vec 単語を Vector 表現化して次元圧縮する手法及びそのモデル 自然言語が扱いやすい形式になるため前処理としてよく使われる
結論 だめでした
だめだった理由 PyKNP の実装の問題 JUMAN++ に半角スペースを入力すると nagomiso $ jumanpp <<< '
' \ \ \ \ \ \ 未定義語 15 その他 1 * 0 * 0 "品詞推定:名詞" EOS のようになる PyKNP は jumanpp コマンドを subprocess で呼び出し 標準出力を半角スペースで区切ろうとするので 要素数がずれてエラーになる JUMAN++ が糞重い なごみその Zenbook ちゃんが動かなくなるぐらい重い (もしかしたら変な文字が入って暴走していたのかも…)
まとめ • JUMAN++ で分かち書きをしようとしたが だめだった • 原因は PyKNP と jumanpp
コマンドの問題 • でかいテキストを形態素解析するなら やっぱり MeCab が速くていいね (SentencePiece も試してみたい)