データサイエンス13_解析.pdf

今日の内容  テキストの重要度  類似度  相関  相互情報量

Importance metrics of text

テキストの重要度のモデル化  テキストを単語の集合と考える。これを bag-of-words と呼ぶ。  つまりテキストは単語という構成要素に分解することができる、と考える。  各単語の並び順(文脈)や、テキスト全体での意味は無視 
これで実際にテキストが理解できるという主張ではなく、あくまでも計算機処理のための近似である。

単語の重要度：TFとIDF 単語 t の文書 d、文書集合をDとすると、  TF (term frequency)
 DF (document frequency)  IDF (inverse document frequency)

単語の重要度：TFIDF  TFIDF  TFIDFの意味  重要な単語は頻出する：TF値として反映  重要な単語は文書ごとに異なる：IDF値として反映 
TFIDF値も簡便でゆるい近似であって、一部は直感と一致しない

文の重要度  基本的には単語の重要度(TFIDF値など)を用いて算出する。  各単語の重要度の総和  課題：文が長くなればなるほど有利  各単語の重要度の平均 
課題：長い文は一般的に不利  ではそうすればいいのか？  アイデア募集中

similarity

集合の類似度  Jaccard 係数  Simpson 係数  Dice 係数

どう使い分けるのか？

表記の類似度  文字列を文字の集合と考えて類似度(重複の多さ)を計算する。  例えば、Jaccard係数で文字類似度を計算すると

表記の類似度２  ただ、必ずしもこれではうまくいかない。  このため、別の考え方で表記の類似度を計算する必要がある。

表記の類似度３  編集距離(edit distance)：単語１を単語２に変換するのに何回の編集操作が必要かを数値化  削除：ある１文字を削除する  挿入：ある１文字を挿入する 
置換：ある１文字を別の１文字に置き換える

編集距離：例「ていし」と「さいかい」ていしさいし（「て」を「さ」に置換）さいか（「し」を「か」に置換）さいかい（末尾に「い」を挿入）ていしていしい
（末尾に「い」を挿入）ていかい（「し」を「か」に置換）さいかい（「て」を「さ」に置換）  無駄な操作を繰り返すことは可能だが、最短のものを編集距離と呼ぶ。  一般に同一の編集距離でも複数の編集方法(編集手順)が存在する。  編集距離には対称性がある。

編集距離の用途  スペルチェック  aquire, hight, lisence, guage, … 
表記ゆれの検出  バイオリンとヴァイオリン  コンピュータとコンピューター  受付と受付け  (?) メタノールとエタノール

correlation

相関係数(ピアソンの積率相関係数) 相関係数  =  = 1 σ − (−)
1 σ − 2 1 σ − 2  = σ − σ 2−2 σ 2−2  ここで、  はとの共分散  はの標準偏差  はの標準偏差  はデータ数  はの平均値  はの平均値

https://ja.wikipedia.org/wiki/%E7%9B%B8%E9%96%A2%E4%BF%82%E6%95%B0

順位相関係数スペアマンの順位相関係数  =  = 1 σ − (−)
1 σ − 2 1 σ − 2  = σ − σ 2−2 σ 2−2 ここで、  σ = σ = (+1) 2  σ 2 = σ 2 = (+1)(2+1) 6  = = 2  2 = 2 = (+1)2 4 であることを使って変形する。

順位相関係数結局、  = 1 − 6 (2−1) σ( −
)2 となり、順位差の二乗和を計算することで求めることができる。  ノンパラメトリックな指標  正規分布を仮定する必要がない  それぞれの値でなく順位のみ分かるような場合に使われる。  社会的調査

要注意の相関  アイスクリームの売り上げと溺死者数  潜在変数(気温)を介して両者が関係している  交通事故防止の看板数と交通事故件数  方向性が逆 
音楽CD売り上げとサバの漁獲量  (おそらく)偶然  降水量と電車利用者数  大都市にのみ限定される

https://about.yahoo.co.jp/info/bigdata/special/2017/02/

相関と因果関係  仮に相関が高くても、因果関係があるのかをよく考える必要がある。  因果関係があれば相関があるが、相関があるからと言って因果関係があるとはならない。  相関係数では因果関係の有無は分からない！

おかしな論理関係  「アイスクリームが多く売れると溺死者が多い。よって溺死者を減らすためにアイクリームの販売を制限すべきだ」  「看板が多くある地域は交通事故が多い。よって看板を減らせば交通事故が減る」  「就職内定者を観察すると、ほとんどの内定者は雨の日に傘をさしていた。よって雨の日に傘をさしている人は就職内定者である」

mutual information

自己相互情報量(pointwise mutual information, PMI)  , = log (,) ()
= log (|) () = log (|) ()  二つの事象がどの程度同時に起こるかを表現  例：(テキスト分析では)ある2単語が共起(同じ文に出現)するかどうか

相互情報量(mutual information, MI)  相互情報量は自己相互情報量の平均である。  , = σ, (,
) log (,) ()  相互情報量が0であれば確率変数が独立である  相関係数が0であっても確率変数が独立とは限らない  相関係数は直線的関係しか考慮できないが、相互情報量はより柔軟に「相関」を考慮できる。

データサイエンス13_解析.pdf

データサイエンス13_解析.pdf

自然言語処理研究室

More Decks by 自然言語処理研究室

Other Decks in Education

Featured

Transcript

今日の内容  テキストの重要度  類似度  相関  相互情報量

Importance metrics of text

単語の重要度：TFとIDF 単語 t の文書 d、文書集合をDとすると、  TF (term frequency)

単語の重要度：TFIDF  TFIDF  TFIDFの意味  重要な単語は頻出する：TF値として反映  重要な単語は文書ごとに異なる：IDF値として反映 

文の重要度  基本的には単語の重要度(TFIDF値など)を用いて算出する。  各単語の重要度の総和  課題：文が長くなればなるほど有利  各単語の重要度の平均 

similarity

集合の類似度  Jaccard 係数  Simpson 係数  Dice 係数

どう使い分けるのか？

表記の類似度  文字列を文字の集合と考えて類似度(重複の多さ)を計算する。  例えば、Jaccard係数で文字類似度を計算すると

表記の類似度２  ただ、必ずしもこれではうまくいかない。  このため、別の考え方で表記の類似度を計算する必要がある。

表記の類似度３  編集距離(edit distance)：単語１を単語２に変換するのに何回の編集操作が必要かを数値化  削除：ある１文字を削除する  挿入：ある１文字を挿入する 

編集距離：例「ていし」と「さいかい」ていしさいし（「て」を「さ」に置換）さいか（「し」を「か」に置換）さいかい（末尾に「い」を挿入）ていしていしい

編集距離の用途  スペルチェック  aquire, hight, lisence, guage, … 

correlation

相関係数(ピアソンの積率相関係数) 相関係数  =  = 1 σ − (−)

https://ja.wikipedia.org/wiki/%E7%9B%B8%E9%96%A2%E4%BF%82%E6%95%B0

順位相関係数スペアマンの順位相関係数  =  = 1 σ − (−)

順位相関係数結局、  = 1 − 6 (2−1) σ( −

要注意の相関  アイスクリームの売り上げと溺死者数  潜在変数(気温)を介して両者が関係している  交通事故防止の看板数と交通事故件数  方向性が逆 

https://about.yahoo.co.jp/info/bigdata/special/2017/02/

mutual information

自己相互情報量(pointwise mutual information, PMI)  , = log (,) ()

相互情報量(mutual information, MI)  相互情報量は自己相互情報量の平均である。  , = σ, (,