Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データサイエンス13_解析.pdf
Search
自然言語処理研究室
July 09, 2018
Education
0
480
データサイエンス13_解析.pdf
自然言語処理研究室
July 09, 2018
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
380
データサイエンス12_分類.pdf
jnlp
0
330
データサイエンス11_前処理.pdf
jnlp
0
460
Recurrent neural network based language model
jnlp
0
130
自然言語処理研究室 研究概要(2012年)
jnlp
0
130
自然言語処理研究室 研究概要(2013年)
jnlp
0
93
自然言語処理研究室 研究概要(2014年)
jnlp
0
110
自然言語処理研究室 研究概要(2015年)
jnlp
0
180
自然言語処理研究室 研究概要(2016年)
jnlp
0
190
Other Decks in Education
See All in Education
Tangible, Embedded and Embodied Interaction - Lecture 7 - Next Generation User Interfaces (4018166FNR)
signer
PRO
0
1.7k
Course Review - Lecture 12 - Next Generation User Interfaces (4018166FNR)
signer
PRO
0
1.7k
OpenSourceSummitJapanを運営してみた話
kujiraitakahiro
0
720
仮説の取扱説明書/User_Guide_to_a_Hypothesis
florets1
4
320
ARアプリを活用した防災まち歩きデータ作成ハンズオン
nro2daisuke
0
100
Gamified Interventions for Composting Behavior: A Case Study Using the Gamiflow Framework in a Workplace Setting
ezefranca
1
140
『会社を知ってもらう』から『安心して活躍してもらう』までの プロセスとフロー
sasakendayo
0
230
Info Session MSc Computer Science & MSc Applied Informatics
signer
PRO
0
190
2025年度春学期 統計学 第5回 分布をまとめるー記述統計量(平均・分散など) (2025. 5. 8)
akiraasano
PRO
0
120
(キラキラ)人事教育担当のつらみ~教育担当として知っておくポイント~
masakiokuda
0
110
JOAI2025講評 / joai2025-review
upura
0
170
登壇未経験者のための登壇戦略~LTは設計が9割!!!~
masakiokuda
3
550
Featured
See All Featured
Gamification - CAS2011
davidbonilla
81
5.4k
Unsuck your backbone
ammeep
671
58k
Why You Should Never Use an ORM
jnunemaker
PRO
58
9.4k
Building a Modern Day E-commerce SEO Strategy
aleyda
42
7.4k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
8
690
A Modern Web Designer's Workflow
chriscoyier
695
190k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
32
2.4k
We Have a Design System, Now What?
morganepeng
53
7.7k
GitHub's CSS Performance
jonrohan
1031
460k
The Straight Up "How To Draw Better" Workshop
denniskardys
234
140k
Building Applications with DynamoDB
mza
95
6.5k
Into the Great Unknown - MozCon
thekraken
40
1.9k
Transcript
None
今日の内容 テキストの重要度 類似度 相関 相互情報量
Importance metrics of text
テキストの重要度のモデル化 テキストを単語の集合と考える。これを bag-of-words と呼ぶ。 つまりテキストは単語という構成要素に分解することができる、と考える。 各単語の並び順(文脈)や、テキスト全体での意味は無視
これで実際にテキストが理解できるという主張ではなく、あくまでも計算機 処理のための近似である。
単語の重要度:TFとIDF 単語 t の文書 d、文書集合をDとす ると、 TF (term frequency)
DF (document frequency) IDF (inverse document frequency)
単語の重要度:TFIDF TFIDF TFIDFの意味 重要な単語は頻出する:TF値として反映 重要な単語は文書ごとに異なる:IDF値として反映
TFIDF値も簡便でゆるい近似であって、一部は直感と一致しない
文の重要度 基本的には単語の重要度(TFIDF値など)を用いて算出する。 各単語の重要度の総和 課題:文が長くなればなるほど有利 各単語の重要度の平均
課題:長い文は一般的に不利 ではそうすればいいのか? アイデア募集中
similarity
集合の類似度 Jaccard 係数 Simpson 係数 Dice 係数
どう使い分けるのか?
表記の類似度 文字列を文字の集合と考えて類似度(重複の多さ)を計算する。 例えば、Jaccard係数で文字類似度を計算すると
表記の類似度2 ただ、必ずしもこれではうまくいかない。 このため、別の考え方で表記の類似度を計算する必要がある。
表記の類似度3 編集距離(edit distance):単語1を単語2に変換するのに何回の編 集操作が必要かを数値化 削除:ある1文字を削除する 挿入:ある1文字を挿入する
置換:ある1文字を別の1文字に置き換える
編集距離:例「ていし」と「さいかい」 ていし さいし (「て」を「さ」に置換) さいか (「し」を「か」に置換) さいかい (末尾に「い」を挿入) ていし ていしい
(末尾に「い」を挿入) ていかい (「し」を「か」に置換) さいかい (「て」を「さ」に置換) 無駄な操作を繰り返すことは可能 だが、最短のものを編集距離と呼 ぶ。 一般に同一の編集距離でも複数 の編集方法(編集手順)が存在す る。 編集距離には対称性がある。
編集距離の用途 スペルチェック aquire, hight, lisence, guage, …
表記ゆれの検出 バイオリンとヴァイオリン コンピュータとコンピューター 受付と受付け (?) メタノールとエタノール
correlation
相関係数(ピアソンの積率相関係数) 相関係数 = = 1 σ − (−)
1 σ − 2 1 σ − 2 = σ − σ 2−2 σ 2−2 ここで、 は と の共分散 は の標準偏差 は の標準偏差 はデータ数 は の平均値 は の平均値
https://ja.wikipedia.org/wiki/%E7%9B%B8%E9%96%A2%E4%BF%82%E6%95%B0
順位相関係数 スペアマンの順位相関係数 = = 1 σ − (−)
1 σ − 2 1 σ − 2 = σ − σ 2−2 σ 2−2 ここで、 σ = σ = (+1) 2 σ 2 = σ 2 = (+1)(2+1) 6 = = 2 2 = 2 = (+1)2 4 であることを使って変形する。
順位相関係数 結局、 = 1 − 6 (2−1) σ( −
)2 となり、順位差の二乗和を計算する ことで求めることができる。 ノンパラメトリックな指標 正規分布を仮定する必要がな い それぞれの値でなく順位のみ分かる ような場合に使われる。 社会的調査
要注意の相関 アイスクリームの売り上げと溺死者数 潜在変数(気温)を介して両者が関係している 交通事故防止の看板数と交通事故件数 方向性が逆
音楽CD売り上げとサバの漁獲量 (おそらく)偶然 降水量と電車利用者数 大都市にのみ限定される
https://about.yahoo.co.jp/info/bigdata/special/2017/02/
相関と因果関係 仮に相関が高くても、因果関係があるのかをよく考える必要がある。 因果関係があれば相関があるが、相関があるからと言って因果関係があると はならない。 相関係数では因果関係の有無は分からない!
おかしな論理関係 「アイスクリームが多く売れると溺死者が多い。よって溺死者を減らすためにア イクリームの販売を制限すべきだ」 「看板が多くある地域は交通事故が多い。よって看板を減らせば交通事故 が減る」 「就職内定者を観察すると、ほとんどの内定者は雨の日に傘をさしていた。 よって雨の日に傘をさしている人は就職内定者である」
None
mutual information
自己相互情報量(pointwise mutual information, PMI) , = log (,) ()
= log (|) () = log (|) () 二つの事象がどの程度同時に起こるかを表現 例:(テキスト分析では)ある2単語が共起(同じ文に出現)するかどうか
相互情報量(mutual information, MI) 相互情報量は自己相互情報量の平均である。 , = σ, (,
) log (,) () 相互情報量が0であれば確率変数が独立である 相関係数が0であっても確率変数が独立とは限らない 相関係数は直線的関係しか考慮できないが、相互情報量はより柔軟に 「相関」を考慮できる。