×
Copy
Open
Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
No content
Slide 2
Slide 2 text
今日の内容 テキストの重要度 類似度 相関 相互情報量
Slide 3
Slide 3 text
Importance metrics of text
Slide 4
Slide 4 text
テキストの重要度のモデル化 テキストを単語の集合と考える。これを bag-of-words と呼ぶ。 つまりテキストは単語という構成要素に分解することができる、と考える。 各単語の並び順(文脈)や、テキスト全体での意味は無視 これで実際にテキストが理解できるという主張ではなく、あくまでも計算機 処理のための近似である。
Slide 5
Slide 5 text
単語の重要度:TFとIDF 単語 t の文書 d、文書集合をDとす ると、 TF (term frequency) DF (document frequency) IDF (inverse document frequency)
Slide 6
Slide 6 text
単語の重要度:TFIDF TFIDF TFIDFの意味 重要な単語は頻出する:TF値として反映 重要な単語は文書ごとに異なる:IDF値として反映 TFIDF値も簡便でゆるい近似であって、一部は直感と一致しない
Slide 7
Slide 7 text
文の重要度 基本的には単語の重要度(TFIDF値など)を用いて算出する。 各単語の重要度の総和 課題:文が長くなればなるほど有利 各単語の重要度の平均 課題:長い文は一般的に不利 ではそうすればいいのか? アイデア募集中
Slide 8
Slide 8 text
similarity
Slide 9
Slide 9 text
集合の類似度 Jaccard 係数 Simpson 係数 Dice 係数
Slide 10
Slide 10 text
どう使い分けるのか?
Slide 11
Slide 11 text
表記の類似度 文字列を文字の集合と考えて類似度(重複の多さ)を計算する。 例えば、Jaccard係数で文字類似度を計算すると
Slide 12
Slide 12 text
表記の類似度2 ただ、必ずしもこれではうまくいかない。 このため、別の考え方で表記の類似度を計算する必要がある。
Slide 13
Slide 13 text
表記の類似度3 編集距離(edit distance):単語1を単語2に変換するのに何回の編 集操作が必要かを数値化 削除:ある1文字を削除する 挿入:ある1文字を挿入する 置換:ある1文字を別の1文字に置き換える
Slide 14
Slide 14 text
編集距離:例「ていし」と「さいかい」 ていし さいし (「て」を「さ」に置換) さいか (「し」を「か」に置換) さいかい (末尾に「い」を挿入) ていし ていしい (末尾に「い」を挿入) ていかい (「し」を「か」に置換) さいかい (「て」を「さ」に置換) 無駄な操作を繰り返すことは可能 だが、最短のものを編集距離と呼 ぶ。 一般に同一の編集距離でも複数 の編集方法(編集手順)が存在す る。 編集距離には対称性がある。
Slide 15
Slide 15 text
編集距離の用途 スペルチェック aquire, hight, lisence, guage, … 表記ゆれの検出 バイオリンとヴァイオリン コンピュータとコンピューター 受付と受付け (?) メタノールとエタノール
Slide 16
Slide 16 text
correlation
Slide 17
Slide 17 text
相関係数(ピアソンの積率相関係数) 相関係数 = = 1 σ − (−) 1 σ − 2 1 σ − 2 = σ − σ 2−2 σ 2−2 ここで、 は と の共分散 は の標準偏差 は の標準偏差 はデータ数 は の平均値 は の平均値
Slide 18
Slide 18 text
https://ja.wikipedia.org/wiki/%E7%9B%B8%E9%96%A2%E4%BF%82%E6%95%B0
Slide 19
Slide 19 text
順位相関係数 スペアマンの順位相関係数 = = 1 σ − (−) 1 σ − 2 1 σ − 2 = σ − σ 2−2 σ 2−2 ここで、 σ = σ = (+1) 2 σ 2 = σ 2 = (+1)(2+1) 6 = = 2 2 = 2 = (+1)2 4 であることを使って変形する。
Slide 20
Slide 20 text
順位相関係数 結局、 = 1 − 6 (2−1) σ( − )2 となり、順位差の二乗和を計算する ことで求めることができる。 ノンパラメトリックな指標 正規分布を仮定する必要がな い それぞれの値でなく順位のみ分かる ような場合に使われる。 社会的調査
Slide 21
Slide 21 text
要注意の相関 アイスクリームの売り上げと溺死者数 潜在変数(気温)を介して両者が関係している 交通事故防止の看板数と交通事故件数 方向性が逆 音楽CD売り上げとサバの漁獲量 (おそらく)偶然 降水量と電車利用者数 大都市にのみ限定される
Slide 22
Slide 22 text
https://about.yahoo.co.jp/info/bigdata/special/2017/02/
Slide 23
Slide 23 text
相関と因果関係 仮に相関が高くても、因果関係があるのかをよく考える必要がある。 因果関係があれば相関があるが、相関があるからと言って因果関係があると はならない。 相関係数では因果関係の有無は分からない!
Slide 24
Slide 24 text
おかしな論理関係 「アイスクリームが多く売れると溺死者が多い。よって溺死者を減らすためにア イクリームの販売を制限すべきだ」 「看板が多くある地域は交通事故が多い。よって看板を減らせば交通事故 が減る」 「就職内定者を観察すると、ほとんどの内定者は雨の日に傘をさしていた。 よって雨の日に傘をさしている人は就職内定者である」
Slide 25
Slide 25 text
No content
Slide 26
Slide 26 text
mutual information
Slide 27
Slide 27 text
自己相互情報量(pointwise mutual information, PMI) , = log (,) () = log (|) () = log (|) () 二つの事象がどの程度同時に起こるかを表現 例:(テキスト分析では)ある2単語が共起(同じ文に出現)するかどうか
Slide 28
Slide 28 text
相互情報量(mutual information, MI) 相互情報量は自己相互情報量の平均である。 , = σ, (, ) log (,) () 相互情報量が0であれば確率変数が独立である 相関係数が0であっても確率変数が独立とは限らない 相関係数は直線的関係しか考慮できないが、相互情報量はより柔軟に 「相関」を考慮できる。