Upgrade to Pro — share decks privately, control downloads, hide ads and more …

第一回ゼミ(スライド)

miyanishi
January 10, 2013
63

 第一回ゼミ(スライド)

進捗報告。

miyanishi

January 10, 2013
Tweet

Transcript

  1. 課題について • 形態素解析器を比較(3種類) ◦ ChaSen か MeCab ・・・辞書を2種類 ◦ JUMAN •

    着目する点 ◦ 解析器による区切り方の違い ◦ 人間の感覚との違い • 比較方法・形式など ◦ 自由 ・・・マンパワー、プログラム など
  2. 解析器について • 使用した解析器 ◦ ChaSen ▪ IPADic ▪ UniDic ◦

    JUMAN ▪ JUMAN辞書 解析器 MeCab ChaSen JUMAN 解析モデル bi-gram マルコフモデル 可変長 マルコフモデル bi-gram マルコフモデル コスト推定 コーパス学習 コーパス学習 人手
  3. これまでに行ったこと(1) • ChaSen(IPADic)での解析 ◦ 研究室のサーバ(kumamoto)を使用 ◦ nkfで文字コードの問題を解消 ▪ ファイルからchasen ・・・EUC-JP ▪

    chasenからファイル ・・・UTF-8 ◦ オプションを用いて出力形式を変更 ▪ chasen -F "%m\n" ・・・形態素ごとに改行 弁護 人 内藤 隆
  4. これまでに行ったこと(2) • JUMANでの解析 ◦ 研究室のサーバ(kumamoto)を使用 ◦ nkfで文字コードの問題を解消 ▪ ChaSenと同様 ◦

    オプションを用いて出力形式を変更 ▪ -b ・・・後方一致の解を一つだけ出力 ▪ -c ・・・形態素情報をコードで表示(空白区切り) ◦ 出力データの形式を変更 弁護人 べんごにん 弁護人 6 1 0 0 内藤 ないとう 内藤 6 5 0 0 隆 たかし 隆 6 5 0 0
  5. これまでに行ったこと(3) • ChaSen(UniDic)での解析 ◦ 自分のパソコンを使用 ◦ バージョン ▪ ChaSen ・・・2.4.4 ▪

    UniDic ・・・1.3.9(パッケージ版) ◦ ChaSenのオプションで文字コードの問題を解消 ▪ −i w ・・・辞書がUTF-8でも正しく解析 ◦ 出力データの形式を変更 <cha:W1 orth="弁護" kana="ベンゴ" pron="ベンゴ" pos="名 詞-普通名詞-サ変可能" orthBase="弁護" kanaBase="ベンゴ" pronBase="ベンゴ" lForm="ベンゴ" lemma="弁護" form="ベン ゴ" aType="1" aConType="C1" goshu="漢">弁護</cha:W1>
  6. これまでに行ったこと(5) • プログラムを作成(2) ◦ アルゴリズム ▪ それぞれのデータを1行読み込み ▪ 読み込んだ形態素の長さを比較 •

    同じ ・・・またそれぞれのデータを1行読み込む • 違う ・・・短い方のデータを読み込み ◦ 出力例 ▪ A:私|の|妹|は|それ|は|それ|は|かわ いい ▪ B:私|の|妹|は|それはそれは|かわいい
  7. 結果(1) • 使用した文章の種類 ◦ 判例文  ▪ 難解な表現が多い文章 ◦ 新聞記事  ▪

    堅いけど分かりやすい文章 • 使用した文章 ◦ 平成3年(あ)476(平成10年04月23日@最高裁判所)の判決理由 ◦ 高2自殺:(以下略)(平成25年01月08日:毎日新聞)
  8. 考察(1) • 語尾変化の区切り方が違う! ◦ ChaSen ・・・語尾変化の部分を分ける ▪ ChaSenはどちらの辞書でも統一 ◦ JUMAN ・・・語尾変化の部分を分けない ▪

    個別に辞書に入っている? ChaSen: | 恋人 | を | 引き離し | た | 上 | 、 | JUMAN: | 恋人 | を | 引き離した | 上 | 、 |
  9. 考察(2) • 数字の表記が違う! ◦ ChaSen:数字1文字=1つの形態素 ◦ JUMAN:繋がっている複数の数字=1つの形態素 ◦ 英語の場合も同じ ▪

    今回の例文ではなかった ChaSen: | 1 | 1 | 年 | 9月 | JUMAN: | 11 | 年 | 9 | 月 | ChaSen: | 第 | 一 | 一 | 九 | 号 | JUMAN: | 第 | 一一九 | 号 |
  10. 考察(3) • 名詞の区切りが違う! ◦ 略語の区切りの違い ◦ 例 ・・・市教委、最高裁、刑訴法 など ◦ 難しい名詞の区切りの違い ▪

    名詞で違いが多かったのは判例文 ◦ 名前の区切りの違い ChaSen: | 弁護 | 人 | 内藤 | 隆 | JUMAN:| 弁護人 | 内藤 | 隆 | ChaSen(IPADic)&JUMAN: | 最高裁 | ChaSen(UniDic): | 最高 | 裁 |
  11. 期限までにやれたらいいこと • MeCabも試してみる ◦ 述語の語尾変化や英数字 ▪ モデルの違い? ▪ 作者の意向の違い? •

    モデルの違いを論文で確認 ◦ bi-gramマルコフモデル ◦ 可変長マルコフモデル • 出力を見やすくする