Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
第一回ゼミ(スライド)
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
miyanishi
January 10, 2013
120
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
第一回ゼミ(スライド)
進捗報告。
miyanishi
January 10, 2013
More Decks by miyanishi
See All by miyanishi
平成27年度最終ゼミ
miyanishi
0
91
文献紹介1月
miyanishi
0
200
文献紹介12月
miyanishi
0
260
文献紹介11月
miyanishi
0
260
文献紹介10月
miyanishi
0
200
文献紹介(2015/09)
miyanishi
0
230
文献紹介8月(PPDB)
miyanishi
0
340
文献紹介15年08月
miyanishi
0
240
15年7月文献紹介
miyanishi
0
270
Featured
See All Featured
The Mindset for Success: Future Career Progression
greggifford
PRO
0
360
SEO for Brand Visibility & Recognition
aleyda
0
4.6k
The SEO identity crisis: Don't let AI make you average
varn
0
490
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
360
30k
Organizational Design Perspectives: An Ontology of Organizational Design Elements
kimpetersen
PRO
1
720
Statistics for Hackers
jakevdp
799
230k
Deep Space Network (abreviated)
tonyrice
0
170
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.7k
Data-driven link building: lessons from a $708K investment (BrightonSEO talk)
szymonslowik
1
1.1k
Jess Joyce - The Pitfalls of Following Frameworks
techseoconnect
PRO
1
160
Getting science done with accelerated Python computing platforms
jacobtomlinson
2
220
Visual Storytelling: How to be a Superhuman Communicator
reverentgeek
2
550
Transcript
1月10日 第1回 B3ゼミ Miyanishi Yuuki 宮西 由貴
課題について • 形態素解析器を比較(3種類) ◦ ChaSen か MeCab ・・・辞書を2種類 ◦ JUMAN •
着目する点 ◦ 解析器による区切り方の違い ◦ 人間の感覚との違い • 比較方法・形式など ◦ 自由 ・・・マンパワー、プログラム など
解析器について • 使用した解析器 ◦ ChaSen ▪ IPADic ▪ UniDic ◦
JUMAN ▪ JUMAN辞書 解析器 MeCab ChaSen JUMAN 解析モデル bi-gram マルコフモデル 可変長 マルコフモデル bi-gram マルコフモデル コスト推定 コーパス学習 コーパス学習 人手
これまでに行ったこと(1) • ChaSen(IPADic)での解析 ◦ 研究室のサーバ(kumamoto)を使用 ◦ nkfで文字コードの問題を解消 ▪ ファイルからchasen ・・・EUC-JP ▪
chasenからファイル ・・・UTF-8 ◦ オプションを用いて出力形式を変更 ▪ chasen -F "%m\n" ・・・形態素ごとに改行 弁護 人 内藤 隆
これまでに行ったこと(2) • JUMANでの解析 ◦ 研究室のサーバ(kumamoto)を使用 ◦ nkfで文字コードの問題を解消 ▪ ChaSenと同様 ◦
オプションを用いて出力形式を変更 ▪ -b ・・・後方一致の解を一つだけ出力 ▪ -c ・・・形態素情報をコードで表示(空白区切り) ◦ 出力データの形式を変更 弁護人 べんごにん 弁護人 6 1 0 0 内藤 ないとう 内藤 6 5 0 0 隆 たかし 隆 6 5 0 0
これまでに行ったこと(3) • ChaSen(UniDic)での解析 ◦ 自分のパソコンを使用 ◦ バージョン ▪ ChaSen ・・・2.4.4 ▪
UniDic ・・・1.3.9(パッケージ版) ◦ ChaSenのオプションで文字コードの問題を解消 ▪ −i w ・・・辞書がUTF-8でも正しく解析 ◦ 出力データの形式を変更 <cha:W1 orth="弁護" kana="ベンゴ" pron="ベンゴ" pos="名 詞-普通名詞-サ変可能" orthBase="弁護" kanaBase="ベンゴ" pronBase="ベンゴ" lForm="ベンゴ" lemma="弁護" form="ベン ゴ" aType="1" aConType="C1" goshu="漢">弁護</cha:W1>
これまでに行ったこと(4) • プログラムを作成(1) ◦ 仕様 ▪ 出力はHTML ▪ 1つ以上の解析器が違う区切り方をした部分:赤色 ▪
JUMANとChaSen(IPADic)のEOS区切りで出力 ▪ 形態素の区切りで | を表示
これまでに行ったこと(5) • プログラムを作成(2) ◦ アルゴリズム ▪ それぞれのデータを1行読み込み ▪ 読み込んだ形態素の長さを比較 •
同じ ・・・またそれぞれのデータを1行読み込む • 違う ・・・短い方のデータを読み込み ◦ 出力例 ▪ A:私|の|妹|は|それ|は|それ|は|かわ いい ▪ B:私|の|妹|は|それはそれは|かわいい
結果(1) • 使用した文章の種類 ◦ 判例文 ▪ 難解な表現が多い文章 ◦ 新聞記事 ▪
堅いけど分かりやすい文章 • 使用した文章 ◦ 平成3年(あ)476(平成10年04月23日@最高裁判所)の判決理由 ◦ 高2自殺:(以下略)(平成25年01月08日:毎日新聞)
結果(2) • それぞれの解析器に通して解析 • プログラムに通して結果を出力 ↪結果はこちら
None
考察(1) • 語尾変化の区切り方が違う! ◦ ChaSen ・・・語尾変化の部分を分ける ▪ ChaSenはどちらの辞書でも統一 ◦ JUMAN ・・・語尾変化の部分を分けない ▪
個別に辞書に入っている? ChaSen: | 恋人 | を | 引き離し | た | 上 | 、 | JUMAN: | 恋人 | を | 引き離した | 上 | 、 |
考察(2) • 数字の表記が違う! ◦ ChaSen:数字1文字=1つの形態素 ◦ JUMAN:繋がっている複数の数字=1つの形態素 ◦ 英語の場合も同じ ▪
今回の例文ではなかった ChaSen: | 1 | 1 | 年 | 9月 | JUMAN: | 11 | 年 | 9 | 月 | ChaSen: | 第 | 一 | 一 | 九 | 号 | JUMAN: | 第 | 一一九 | 号 |
考察(3) • 名詞の区切りが違う! ◦ 略語の区切りの違い ◦ 例 ・・・市教委、最高裁、刑訴法 など ◦ 難しい名詞の区切りの違い ▪
名詞で違いが多かったのは判例文 ◦ 名前の区切りの違い ChaSen: | 弁護 | 人 | 内藤 | 隆 | JUMAN:| 弁護人 | 内藤 | 隆 | ChaSen(IPADic)&JUMAN: | 最高裁 | ChaSen(UniDic): | 最高 | 裁 |
期限までにやるべきこと(1) • 人間の感覚との違いをまとめる ◦ 今回は「解析器の比較」を行った ◦ 今回用いた文章を使うか?変えるか? ▪ 口語文を入れたほうが面白そう ◦
どうやって違いを見つけるか? ▪ 自分で形態素ごとに区切ってみる ▪ 赤字の部分を見てどの解析がいいかを選ぶ
期限までにやるべきこと(2) • 解析する文章を増やす ◦ 書き言葉均衡コーパス(BCCWJ) ▪ http://www.ninjal.ac.jp/corpus_center/bccwj/ ◦ 青空文庫 ・・・小説は表現の幅が広い? ▪
http://www.aozora.gr.jp/ ◦ 新聞記事のコーパス ▪ 山本研のファイルサーバにあるらしい
期限までにやれたらいいこと • MeCabも試してみる ◦ 述語の語尾変化や英数字 ▪ モデルの違い? ▪ 作者の意向の違い? •
モデルの違いを論文で確認 ◦ bi-gramマルコフモデル ◦ 可変長マルコフモデル • 出力を見やすくする
まとめ • 解析器の区切りが異なる部分を区別できた ◦ 述語の語尾変化と英数字 ・・・ChaSenは統一? ◦ 名詞 ・・・辞書による違い? • 今後のこと ◦
解析する文章を増やす ・・・コーパス使いたい ◦ 人間の感覚と比較する