Upgrade to Pro — share decks privately, control downloads, hide ads and more …

データサイエンス13_解析.pdf

 データサイエンス13_解析.pdf

More Decks by 自然言語処理研究室

Other Decks in Education

Transcript

  1. 編集距離:例「ていし」と「さいかい」 ていし さいし (「て」を「さ」に置換) さいか (「し」を「か」に置換) さいかい (末尾に「い」を挿入) ていし ていしい

    (末尾に「い」を挿入) ていかい (「し」を「か」に置換) さいかい (「て」を「さ」に置換)  無駄な操作を繰り返すことは可能 だが、最短のものを編集距離と呼 ぶ。  一般に同一の編集距離でも複数 の編集方法(編集手順)が存在す る。  編集距離には対称性がある。
  2. 編集距離の用途  スペルチェック  aquire, hight, lisence, guage, … 

    表記ゆれの検出  バイオリンとヴァイオリン  コンピュータとコンピューター  受付と受付け  (?) メタノールとエタノール
  3. 相関係数(ピアソンの積率相関係数) 相関係数  =  = 1 σ − (−)

    1 σ − 2 1 σ − 2  = σ − σ 2−2 σ 2−2  ここで、  は と の共分散  は の標準偏差  は の標準偏差  はデータ数  は の平均値  は の平均値
  4. 順位相関係数 スペアマンの順位相関係数  =  = 1 σ − (−)

    1 σ − 2 1 σ − 2  = σ − σ 2−2 σ 2−2 ここで、  σ = σ = (+1) 2  σ 2 = σ 2 = (+1)(2+1) 6  = = 2  2 = 2 = (+1)2 4 であることを使って変形する。
  5. 順位相関係数 結局、  = 1 − 6 (2−1) σ( −

    )2 となり、順位差の二乗和を計算する ことで求めることができる。  ノンパラメトリックな指標  正規分布を仮定する必要がな い  それぞれの値でなく順位のみ分かる ような場合に使われる。  社会的調査
  6. 自己相互情報量(pointwise mutual information, PMI)  , = log (,) ()

    = log (|) () = log (|) ()  二つの事象がどの程度同時に起こるかを表現  例:(テキスト分析では)ある2単語が共起(同じ文に出現)するかどうか
  7. 相互情報量(mutual information, MI)  相互情報量は自己相互情報量の平均である。  , = σ, (,

    ) log (,) ()  相互情報量が0であれば確率変数が独立である  相関係数が0であっても確率変数が独立とは限らない  相関係数は直線的関係しか考慮できないが、相互情報量はより柔軟に 「相関」を考慮できる。