Upgrade to Pro — share decks privately, control downloads, hide ads and more …

データサイエンス13_解析.pdf

 データサイエンス13_解析.pdf

More Decks by 自然言語処理研究室

Other Decks in Education

Transcript

  1. View Slide

  2. 今日の内容
     テキストの重要度
     類似度
     相関
     相互情報量

    View Slide

  3. Importance metrics of text

    View Slide

  4. テキストの重要度のモデル化
     テキストを単語の集合と考える。これを bag-of-words と呼ぶ。
     つまりテキストは単語という構成要素に分解することができる、と考える。
     各単語の並び順(文脈)や、テキスト全体での意味は無視
     これで実際にテキストが理解できるという主張ではなく、あくまでも計算機
    処理のための近似である。

    View Slide

  5. 単語の重要度:TFとIDF
    単語 t の文書 d、文書集合をDとす
    ると、
     TF (term frequency)
     DF (document frequency)
     IDF (inverse document
    frequency)

    View Slide

  6. 単語の重要度:TFIDF
     TFIDF
     TFIDFの意味
     重要な単語は頻出する:TF値として反映
     重要な単語は文書ごとに異なる:IDF値として反映
     TFIDF値も簡便でゆるい近似であって、一部は直感と一致しない

    View Slide

  7. 文の重要度
     基本的には単語の重要度(TFIDF値など)を用いて算出する。
     各単語の重要度の総和
     課題:文が長くなればなるほど有利
     各単語の重要度の平均
     課題:長い文は一般的に不利
     ではそうすればいいのか?
     アイデア募集中

    View Slide

  8. similarity

    View Slide

  9. 集合の類似度
     Jaccard 係数
     Simpson 係数
     Dice 係数

    View Slide

  10. どう使い分けるのか?

    View Slide

  11. 表記の類似度
     文字列を文字の集合と考えて類似度(重複の多さ)を計算する。
     例えば、Jaccard係数で文字類似度を計算すると

    View Slide

  12. 表記の類似度2
     ただ、必ずしもこれではうまくいかない。
     このため、別の考え方で表記の類似度を計算する必要がある。

    View Slide

  13. 表記の類似度3
     編集距離(edit distance):単語1を単語2に変換するのに何回の編
    集操作が必要かを数値化
     削除:ある1文字を削除する
     挿入:ある1文字を挿入する
     置換:ある1文字を別の1文字に置き換える

    View Slide

  14. 編集距離:例「ていし」と「さいかい」
    ていし
    さいし (「て」を「さ」に置換)
    さいか (「し」を「か」に置換)
    さいかい (末尾に「い」を挿入)
    ていし
    ていしい (末尾に「い」を挿入)
    ていかい (「し」を「か」に置換)
    さいかい (「て」を「さ」に置換)
     無駄な操作を繰り返すことは可能
    だが、最短のものを編集距離と呼
    ぶ。
     一般に同一の編集距離でも複数
    の編集方法(編集手順)が存在す
    る。
     編集距離には対称性がある。

    View Slide

  15. 編集距離の用途
     スペルチェック
     aquire, hight, lisence, guage, …
     表記ゆれの検出
     バイオリンとヴァイオリン
     コンピュータとコンピューター
     受付と受付け
     (?) メタノールとエタノール

    View Slide

  16. correlation

    View Slide

  17. 相関係数(ピアソンの積率相関係数)
    相関係数

    =

     =
    1

    σ − (−)
    1

    σ − 2 1

    σ − 2
     = σ −
    σ
    2−2 σ
    2−2
     ここで、

    は と の共分散

    は の標準偏差

    は の標準偏差
     はデータ数
     は の平均値
     は の平均値

    View Slide

  18. https://ja.wikipedia.org/wiki/%E7%9B%B8%E9%96%A2%E4%BF%82%E6%95%B0

    View Slide

  19. 順位相関係数
    スペアマンの順位相関係数

    =

     =
    1

    σ − (−)
    1

    σ − 2 1

    σ − 2
     = σ −
    σ
    2−2 σ
    2−2
    ここで、
     σ
    = σ
    = (+1)
    2
     σ
    2 = σ
    2 = (+1)(2+1)
    6
     = =
    2
     2 = 2 = (+1)2
    4
    であることを使って変形する。

    View Slide

  20. 順位相関係数
    結局、

    = 1 − 6
    (2−1)
    σ(

    )2
    となり、順位差の二乗和を計算する
    ことで求めることができる。
     ノンパラメトリックな指標
     正規分布を仮定する必要がな

     それぞれの値でなく順位のみ分かる
    ような場合に使われる。
     社会的調査

    View Slide

  21. 要注意の相関
     アイスクリームの売り上げと溺死者数
     潜在変数(気温)を介して両者が関係している
     交通事故防止の看板数と交通事故件数
     方向性が逆
     音楽CD売り上げとサバの漁獲量
     (おそらく)偶然
     降水量と電車利用者数
     大都市にのみ限定される

    View Slide

  22. https://about.yahoo.co.jp/info/bigdata/special/2017/02/

    View Slide

  23. 相関と因果関係
     仮に相関が高くても、因果関係があるのかをよく考える必要がある。
     因果関係があれば相関があるが、相関があるからと言って因果関係があると
    はならない。
     相関係数では因果関係の有無は分からない!

    View Slide

  24. おかしな論理関係
     「アイスクリームが多く売れると溺死者が多い。よって溺死者を減らすためにア
    イクリームの販売を制限すべきだ」
     「看板が多くある地域は交通事故が多い。よって看板を減らせば交通事故
    が減る」
     「就職内定者を観察すると、ほとんどの内定者は雨の日に傘をさしていた。
    よって雨の日に傘をさしている人は就職内定者である」

    View Slide

  25. View Slide

  26. mutual information

    View Slide

  27. 自己相互情報量(pointwise mutual information, PMI)
     , = log (,)
    ()
    = log (|)
    ()
    = log (|)
    ()
     二つの事象がどの程度同時に起こるかを表現
     例:(テキスト分析では)ある2単語が共起(同じ文に出現)するかどうか

    View Slide

  28. 相互情報量(mutual information, MI)
     相互情報量は自己相互情報量の平均である。
     , = σ,
    (, ) log (,)
    ()
     相互情報量が0であれば確率変数が独立である
     相関係数が0であっても確率変数が独立とは限らない
     相関係数は直線的関係しか考慮できないが、相互情報量はより柔軟に
    「相関」を考慮できる。

    View Slide