Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
共起の強さを測るJaccard係数とは
Search
HIGUCHI Koichi
May 03, 2024
0
190
共起の強さを測るJaccard係数とは
HIGUCHI Koichi
May 03, 2024
Tweet
Share
More Decks by HIGUCHI Koichi
See All by HIGUCHI Koichi
KH Coder Tutorial
koichih
0
7.9k
KH Coderチュートリアル(スライド版)
koichih
1
14k
Featured
See All Featured
Six Lessons from altMBA
skipperchong
26
3.3k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
663
120k
GraphQLの誤解/rethinking-graphql
sonatard
65
9.8k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
88
16k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
190
16k
Building Your Own Lightsaber
phodgson
101
6k
Teambox: Starting and Learning
jrom
131
8.7k
Learning to Love Humans: Emotional Interface Design
aarron
270
40k
Atom: Resistance is Futile
akmur
261
25k
From Idea to $5000 a Month in 5 Months
shpigford
378
46k
Designing the Hi-DPI Web
ddemaree
278
34k
4 Signs Your Business is Dying
shpigford
179
21k
Transcript
Jaccard係数の計算式(1) KH CoderではJaccard係数を多用しています。たと えば語Aと語Bの共起の程度をJaccard係数で測る計 算式は以下のようになります。 「語Aを含み」なおかつ「語Bを含む」文書の数 「語Aを含む」か「語Bを含む」か1方でも当てはまる文書の数 図解にするとより分かりやすく→
語Aを含む文書 語Bを含む文書
(a) 「語Aを含み」なおかつ「語Bを含む」文書 語Aを含む文書 語Bを含む文書
(b) 「語Aを含む」か「語Bを含む」か1方でも当てはまる文書 (a) 「語Aを含み」なおかつ「語Bを含む」文書 語Aを含む文書 語Bを含む文書
(b) 「語Aを含む」か「語Bを含む」か1方でも当てはまる文書 (a) 「語Aを含み」なおかつ「語Bを含む」文書 語Aを含む文書 語Bを含む文書 (b)の中での(a)の割合 = (a)÷(b) がJaccard係数!
もし単純に数をかぞえると? 語Cを含む文書 • 単純に共起する数をかぞえると、語Aの有無に関係 なくどこにでも多く出現する語Cが上位に。 • Jaccard係数では割合を見るので、語Cは下位になり、 語Aがある時に特によく出てくる共起語が上位に 語Aを含む文書
それでも、ある程度は数も必要 語Dを含む文書 • 語Dはほぼすべて語Aと共起しているが、数が少ない ので「語Aが出てくるときには語Dもよく出てくる」 とは言えない • Jaccard係数では割合を見るので語Dも下位に → 語CやDを取り除きつつ共起語を探すのがJaccard係数
語Aを含む文書
どちらも含まない文書は無視 • 一部の係数は、(c) 語Aも語Bも含まない文書がたく さんあると、語Aと語Bの類似度が高いと見なす • 計量テキスト分析では、(c)の文書は常に大量に存在 するので、(c)を無視するJaccard係数を採用 語Aを含む文書 語Bを含む文書
すべての文書 (c) 語Aも語Bも含まない文書
ところで「文書」ってなに? • 設定を変えなければ(デフォルトでは) – Excel・CSVデータの場合は、1つのセルが1つの「文書」 – テキストデータの場合は、1つの段落(改行で区切れられ た部分)が1つの「文書」 • 分析時に「集計単位」の設定を「文」に変更すれば、
1つの文を1つの「文書」と見なせる • KH CoderではH1からH5による見出しを加えることで、 節・章・部など様々な単位での分析が可能