Upgrade to Pro — share decks privately, control downloads, hide ads and more …

B3勉強会(2015年1月9日)辞書とコーパスについて

MIKAMI-YUKI
January 09, 2015

 B3勉強会(2015年1月9日)辞書とコーパスについて

MIKAMI-YUKI

January 09, 2015
Tweet

More Decks by MIKAMI-YUKI

Other Decks in Education

Transcript

  1. 長岡技術科学大学 B3 三上侑城
    B3勉強会 2015年1月9日
    辞書とコーパスについて
    自然言語処理研究室

    View Slide

  2. 辞書
    人間が言語を読み書きする際、その言
    語に関する様々な知識を利用する。

    コンピュータが言語を処理するには、その
    言語の知識が必要。

    言語に関する知識である「辞書」を使う。

    View Slide

  3. 単語辞書
    単語辞書には形態情報と意味情報が
    記述されている。
    形態情報には「読み」「品詞」「活用
    形」が含まれる。
    意味情報には「単語の意味」「格フレー
    ム」が含まれる。

    View Slide

  4. シソーラス
    単語や概念を、木構造の階層に体
    系的に分類した辞書。
    単語間の類似度を計算する上で重
    要な役割をはたす。

    View Slide

  5. シソーラス
    抽象的 もの 行動 ・・・・・
    ・・・・・ ・・・・・
    人工物
    ・・・・・ ・・・・・
    乗り物
    陸上の乗り物 海上の乗り物
    空中の乗り物
    飛行機 ・・
    ヘリコプタ バイク 鉄道
    自動車 船 ・・・
    ヨット
    シソーラスのイメージ図

    View Slide

  6. シソーラス 類似度の計算
    調べたい2つの単語を

    として、
    シソーラス中での根からの深さをそれ
    ぞれ
    ,
    、2つの共通の上位語の
    根からの深さを
    とした時、式は以下
    のようになる。
    sim(
    ,
    ) =
    ×
    +
    ※ 0 ≦ sim(
    ,
    ) ≦ 1

    View Slide

  7. シソーラス 類似度の計算
     「船」と「ヨット」は、それぞれ
    根から5の深さがあるため、

    = ,
    =5 にする。
     お互いの共通する一番最初の語
    は「海上の乗り物」であり、
    根から4の深さがあるため、

    = 4 にする。
     先ほどの式に代入すると、
    sim(船,ヨット) =
    ×
    +
    =
    ×
    +
    = 0.8
    抽象的 もの 行動 ・・・・・
    ・・・・・ ・・・・・
    人工物
    ・・・・・ ・・・・・
    乗り物
    陸上の乗り物 海上の乗り物
    空中の乗り物
    飛行機 ・・
    ヘリコプタ バイク 鉄道
    自動車 船 ・・・
    ヨット
    左図のシソーラスにおいて「船」と「ヨット」の類似度を求める
    1
    2
    3
    4
    5

    View Slide

  8. コーパス
     言語データの蓄積物を
    「コーパス(corpus)」という。
     収集したままの状態で、
    何も情報を付加していないコーパスを
    「生コーパス(raw corpus)」という。
     何らかの情報を付加したコーパスを
    「タグ付きコーパス(tagged corpus)」
    という。

    View Slide

  9. タグ付きコーパス
     タグ付きコーパスは、
    「品詞」 「構文構造」
    「語義」 「テキスト構造」
    の、4つの情報が付加されているものが多
    い。
     言語処理ではこのタグ付きコーパスを使用
    する。

    View Slide

  10. 言語の統計
     文字がある条件下で現れる確率を計算
    することで、その文章や、その国の言語の
    傾向がわかる。
     あるワード(−1
    )の次にワード(
    )が来る
    確率の計算は次で求まる。
    P(
    |−
    ) = C(− ,
    )
    C(−
    )
    ※ 0 ≦ P(
    |−1
    ) ≦ 1

    View Slide

  11. 言語の統計 確率計算
     以下の文章でP(N|Det)を求めてみる。
    A/Det cat/N sat/V on/P the/Det mat/N.
    A/Det girl/N read/V a/Det book/N.
    A/Det dog/N chased/V a/Det cat/N.
    P(N|Det) = C(Det,N)
    C(Det)
    = 6
    6
    = 1

    View Slide

  12. 機械学習
    タグ付きコーパスを訓練データとして、
    機械学習の手法である教師あり学習
    を行なうことで、分類器を学習させる。
    分類器はデータを入れると、データの
    所属するクラスを出力する。

    View Slide

  13. 機械学習
    教師あり学習のプロセス図
    クラス
    ラベル
    データ
    訓練データ
    データ
    テストデータ
    機械学習
    アルゴリズム
    分類器
    クラス
    ラベル

    View Slide

  14. まとめ
    辞書やコーパスなどの、あらかじめ整
    理された文字データを使うことで、生
    データを処理することができる。
    類似度や確率の計算を行うことで、
    そのデータの評価をおこなったり、傾向
    を見ることができる。

    View Slide

  15. ご静聴ありがとうございました
    参考文献
    自然言語処理の基礎
    著:奥村学 コロナ社 2010年10月

    View Slide