Upgrade to Pro — share decks privately, control downloads, hide ads and more …

第一回ゼミ(スライド)

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for miyanishi miyanishi
January 10, 2013
120

 第一回ゼミ(スライド)

進捗報告。

Avatar for miyanishi

miyanishi

January 10, 2013

Transcript

  1. 課題について • 形態素解析器を比較(3種類) ◦ ChaSen か MeCab ・・・辞書を2種類 ◦ JUMAN •

    着目する点 ◦ 解析器による区切り方の違い ◦ 人間の感覚との違い • 比較方法・形式など ◦ 自由 ・・・マンパワー、プログラム など
  2. 解析器について • 使用した解析器 ◦ ChaSen ▪ IPADic ▪ UniDic ◦

    JUMAN ▪ JUMAN辞書 解析器 MeCab ChaSen JUMAN 解析モデル bi-gram マルコフモデル 可変長 マルコフモデル bi-gram マルコフモデル コスト推定 コーパス学習 コーパス学習 人手
  3. これまでに行ったこと(1) • ChaSen(IPADic)での解析 ◦ 研究室のサーバ(kumamoto)を使用 ◦ nkfで文字コードの問題を解消 ▪ ファイルからchasen ・・・EUC-JP ▪

    chasenからファイル ・・・UTF-8 ◦ オプションを用いて出力形式を変更 ▪ chasen -F "%m\n" ・・・形態素ごとに改行 弁護 人 内藤 隆
  4. これまでに行ったこと(2) • JUMANでの解析 ◦ 研究室のサーバ(kumamoto)を使用 ◦ nkfで文字コードの問題を解消 ▪ ChaSenと同様 ◦

    オプションを用いて出力形式を変更 ▪ -b ・・・後方一致の解を一つだけ出力 ▪ -c ・・・形態素情報をコードで表示(空白区切り) ◦ 出力データの形式を変更 弁護人 べんごにん 弁護人 6 1 0 0 内藤 ないとう 内藤 6 5 0 0 隆 たかし 隆 6 5 0 0
  5. これまでに行ったこと(3) • ChaSen(UniDic)での解析 ◦ 自分のパソコンを使用 ◦ バージョン ▪ ChaSen ・・・2.4.4 ▪

    UniDic ・・・1.3.9(パッケージ版) ◦ ChaSenのオプションで文字コードの問題を解消 ▪ −i w ・・・辞書がUTF-8でも正しく解析 ◦ 出力データの形式を変更 <cha:W1 orth="弁護" kana="ベンゴ" pron="ベンゴ" pos="名 詞-普通名詞-サ変可能" orthBase="弁護" kanaBase="ベンゴ" pronBase="ベンゴ" lForm="ベンゴ" lemma="弁護" form="ベン ゴ" aType="1" aConType="C1" goshu="漢">弁護</cha:W1>
  6. これまでに行ったこと(5) • プログラムを作成(2) ◦ アルゴリズム ▪ それぞれのデータを1行読み込み ▪ 読み込んだ形態素の長さを比較 •

    同じ ・・・またそれぞれのデータを1行読み込む • 違う ・・・短い方のデータを読み込み ◦ 出力例 ▪ A:私|の|妹|は|それ|は|それ|は|かわ いい ▪ B:私|の|妹|は|それはそれは|かわいい
  7. 結果(1) • 使用した文章の種類 ◦ 判例文  ▪ 難解な表現が多い文章 ◦ 新聞記事  ▪

    堅いけど分かりやすい文章 • 使用した文章 ◦ 平成3年(あ)476(平成10年04月23日@最高裁判所)の判決理由 ◦ 高2自殺:(以下略)(平成25年01月08日:毎日新聞)
  8. 考察(1) • 語尾変化の区切り方が違う! ◦ ChaSen ・・・語尾変化の部分を分ける ▪ ChaSenはどちらの辞書でも統一 ◦ JUMAN ・・・語尾変化の部分を分けない ▪

    個別に辞書に入っている? ChaSen: | 恋人 | を | 引き離し | た | 上 | 、 | JUMAN: | 恋人 | を | 引き離した | 上 | 、 |
  9. 考察(2) • 数字の表記が違う! ◦ ChaSen:数字1文字=1つの形態素 ◦ JUMAN:繋がっている複数の数字=1つの形態素 ◦ 英語の場合も同じ ▪

    今回の例文ではなかった ChaSen: | 1 | 1 | 年 | 9月 | JUMAN: | 11 | 年 | 9 | 月 | ChaSen: | 第 | 一 | 一 | 九 | 号 | JUMAN: | 第 | 一一九 | 号 |
  10. 考察(3) • 名詞の区切りが違う! ◦ 略語の区切りの違い ◦ 例 ・・・市教委、最高裁、刑訴法 など ◦ 難しい名詞の区切りの違い ▪

    名詞で違いが多かったのは判例文 ◦ 名前の区切りの違い ChaSen: | 弁護 | 人 | 内藤 | 隆 | JUMAN:| 弁護人 | 内藤 | 隆 | ChaSen(IPADic)&JUMAN: | 最高裁 | ChaSen(UniDic): | 最高 | 裁 |
  11. 期限までにやれたらいいこと • MeCabも試してみる ◦ 述語の語尾変化や英数字 ▪ モデルの違い? ▪ 作者の意向の違い? •

    モデルの違いを論文で確認 ◦ bi-gramマルコフモデル ◦ 可変長マルコフモデル • 出力を見やすくする