Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データサイエンス13_解析.pdf
Search
自然言語処理研究室
July 09, 2018
Education
0
510
データサイエンス13_解析.pdf
自然言語処理研究室
July 09, 2018
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
400
データサイエンス12_分類.pdf
jnlp
0
360
データサイエンス11_前処理.pdf
jnlp
0
480
Recurrent neural network based language model
jnlp
0
140
自然言語処理研究室 研究概要(2012年)
jnlp
0
150
自然言語処理研究室 研究概要(2013年)
jnlp
0
110
自然言語処理研究室 研究概要(2014年)
jnlp
0
140
自然言語処理研究室 研究概要(2015年)
jnlp
0
220
自然言語処理研究室 研究概要(2016年)
jnlp
0
210
Other Decks in Education
See All in Education
Measuring your measuring
jonoalderson
0
320
The World That Saved Me: A Story of Community and Gratitude
_hashimo2
3
490
コマンドラインを見直そう(1995年からタイムリープ)
sapi_kawahara
0
640
✅ レポート採点基準 / How Your Reports Are Assessed
yasslab
PRO
0
270
ロータリー国際大会について~国際大会に参加しよう~:古賀 真由美 会員(2720 Japan O.K. ロータリーEクラブ・(有)誠邦産業 取締役)
2720japanoke
1
760
アジャイルの知見から新卒研修作り、そして組織作り
pokotyamu
0
140
XML and Related Technologies - Lecture 7 - Web Technologies (1019888BNR)
signer
PRO
0
3.2k
The browser strikes back
jonoalderson
0
330
RGBでも蛍光を!? / RayTracingCamp11
kugimasa
2
340
令和エンジニアの学習法 〜 生成AIを使って挫折を回避する 〜
moriga_yuduru
0
230
SJRC 2526
cbtlibrary
0
180
生成AIとの付き合い方 / Generative AI and us
kaityo256
PRO
13
6.9k
Featured
See All Featured
Technical Leadership for Architectural Decision Making
baasie
1
220
DevOps and Value Stream Thinking: Enabling flow, efficiency and business value
helenjbeal
1
85
A Guide to Academic Writing Using Generative AI - A Workshop
ks91
PRO
0
180
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
12
1k
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.5k
Why Your Marketing Sucks and What You Can Do About It - Sophie Logan
marketingsoph
0
62
SEO in 2025: How to Prepare for the Future of Search
ipullrank
3
3.3k
The Limits of Empathy - UXLibs8
cassininazir
1
200
The Language of Interfaces
destraynor
162
26k
Building a Scalable Design System with Sketch
lauravandoore
463
34k
Digital Ethics as a Driver of Design Innovation
axbom
PRO
1
150
Java REST API Framework Comparison - PWX 2021
mraible
34
9.1k
Transcript
None
今日の内容 テキストの重要度 類似度 相関 相互情報量
Importance metrics of text
テキストの重要度のモデル化 テキストを単語の集合と考える。これを bag-of-words と呼ぶ。 つまりテキストは単語という構成要素に分解することができる、と考える。 各単語の並び順(文脈)や、テキスト全体での意味は無視
これで実際にテキストが理解できるという主張ではなく、あくまでも計算機 処理のための近似である。
単語の重要度:TFとIDF 単語 t の文書 d、文書集合をDとす ると、 TF (term frequency)
DF (document frequency) IDF (inverse document frequency)
単語の重要度:TFIDF TFIDF TFIDFの意味 重要な単語は頻出する:TF値として反映 重要な単語は文書ごとに異なる:IDF値として反映
TFIDF値も簡便でゆるい近似であって、一部は直感と一致しない
文の重要度 基本的には単語の重要度(TFIDF値など)を用いて算出する。 各単語の重要度の総和 課題:文が長くなればなるほど有利 各単語の重要度の平均
課題:長い文は一般的に不利 ではそうすればいいのか? アイデア募集中
similarity
集合の類似度 Jaccard 係数 Simpson 係数 Dice 係数
どう使い分けるのか?
表記の類似度 文字列を文字の集合と考えて類似度(重複の多さ)を計算する。 例えば、Jaccard係数で文字類似度を計算すると
表記の類似度2 ただ、必ずしもこれではうまくいかない。 このため、別の考え方で表記の類似度を計算する必要がある。
表記の類似度3 編集距離(edit distance):単語1を単語2に変換するのに何回の編 集操作が必要かを数値化 削除:ある1文字を削除する 挿入:ある1文字を挿入する
置換:ある1文字を別の1文字に置き換える
編集距離:例「ていし」と「さいかい」 ていし さいし (「て」を「さ」に置換) さいか (「し」を「か」に置換) さいかい (末尾に「い」を挿入) ていし ていしい
(末尾に「い」を挿入) ていかい (「し」を「か」に置換) さいかい (「て」を「さ」に置換) 無駄な操作を繰り返すことは可能 だが、最短のものを編集距離と呼 ぶ。 一般に同一の編集距離でも複数 の編集方法(編集手順)が存在す る。 編集距離には対称性がある。
編集距離の用途 スペルチェック aquire, hight, lisence, guage, …
表記ゆれの検出 バイオリンとヴァイオリン コンピュータとコンピューター 受付と受付け (?) メタノールとエタノール
correlation
相関係数(ピアソンの積率相関係数) 相関係数 = = 1 σ − (−)
1 σ − 2 1 σ − 2 = σ − σ 2−2 σ 2−2 ここで、 は と の共分散 は の標準偏差 は の標準偏差 はデータ数 は の平均値 は の平均値
https://ja.wikipedia.org/wiki/%E7%9B%B8%E9%96%A2%E4%BF%82%E6%95%B0
順位相関係数 スペアマンの順位相関係数 = = 1 σ − (−)
1 σ − 2 1 σ − 2 = σ − σ 2−2 σ 2−2 ここで、 σ = σ = (+1) 2 σ 2 = σ 2 = (+1)(2+1) 6 = = 2 2 = 2 = (+1)2 4 であることを使って変形する。
順位相関係数 結局、 = 1 − 6 (2−1) σ( −
)2 となり、順位差の二乗和を計算する ことで求めることができる。 ノンパラメトリックな指標 正規分布を仮定する必要がな い それぞれの値でなく順位のみ分かる ような場合に使われる。 社会的調査
要注意の相関 アイスクリームの売り上げと溺死者数 潜在変数(気温)を介して両者が関係している 交通事故防止の看板数と交通事故件数 方向性が逆
音楽CD売り上げとサバの漁獲量 (おそらく)偶然 降水量と電車利用者数 大都市にのみ限定される
https://about.yahoo.co.jp/info/bigdata/special/2017/02/
相関と因果関係 仮に相関が高くても、因果関係があるのかをよく考える必要がある。 因果関係があれば相関があるが、相関があるからと言って因果関係があると はならない。 相関係数では因果関係の有無は分からない!
おかしな論理関係 「アイスクリームが多く売れると溺死者が多い。よって溺死者を減らすためにア イクリームの販売を制限すべきだ」 「看板が多くある地域は交通事故が多い。よって看板を減らせば交通事故 が減る」 「就職内定者を観察すると、ほとんどの内定者は雨の日に傘をさしていた。 よって雨の日に傘をさしている人は就職内定者である」
None
mutual information
自己相互情報量(pointwise mutual information, PMI) , = log (,) ()
= log (|) () = log (|) () 二つの事象がどの程度同時に起こるかを表現 例:(テキスト分析では)ある2単語が共起(同じ文に出現)するかどうか
相互情報量(mutual information, MI) 相互情報量は自己相互情報量の平均である。 , = σ, (,
) log (,) () 相互情報量が0であれば確率変数が独立である 相関係数が0であっても確率変数が独立とは限らない 相関係数は直線的関係しか考慮できないが、相互情報量はより柔軟に 「相関」を考慮できる。