Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
共起の強さを測るJaccard係数とは
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
HIGUCHI Koichi
May 03, 2024
0
1.3k
共起の強さを測るJaccard係数とは
HIGUCHI Koichi
May 03, 2024
Tweet
Share
More Decks by HIGUCHI Koichi
See All by HIGUCHI Koichi
KH Coderチュートリアル(スライド版)
koichih
1
59k
共起ネットワークの位置調整(KH Coder)
koichih
0
30k
KH Coder Tutorial
koichih
0
37k
Featured
See All Featured
Bootstrapping a Software Product
garrettdimon
PRO
307
120k
Marketing to machines
jonoalderson
1
5k
<Decoding/> the Language of Devs - We Love SEO 2024
nikkihalliwell
1
150
Taking LLMs out of the black box: A practical guide to human-in-the-loop distillation
inesmontani
PRO
3
2.1k
Joys of Absence: A Defence of Solitary Play
codingconduct
1
300
Understanding Cognitive Biases in Performance Measurement
bluesmoon
32
2.8k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
249
1.3M
Balancing Empowerment & Direction
lara
5
930
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
21
1.4k
The innovator’s Mindset - Leading Through an Era of Exponential Change - McGill University 2025
jdejongh
PRO
1
120
Building the Perfect Custom Keyboard
takai
2
710
Unsuck your backbone
ammeep
672
58k
Transcript
Jaccard係数の計算式(1) KH CoderではJaccard係数を多用しています。たと えば語Aと語Bの共起の程度をJaccard係数で測る計 算式は以下のようになります。 「語Aを含み」なおかつ「語Bを含む」文書の数 「語Aを含む」か「語Bを含む」か1方でも当てはまる文書の数 図解にするとより分かりやすく→
語Aを含む文書 語Bを含む文書
(a) 「語Aを含み」なおかつ「語Bを含む」文書 語Aを含む文書 語Bを含む文書
(b) 「語Aを含む」か「語Bを含む」か1方でも当てはまる文書 (a) 「語Aを含み」なおかつ「語Bを含む」文書 語Aを含む文書 語Bを含む文書
(b) 「語Aを含む」か「語Bを含む」か1方でも当てはまる文書 (a) 「語Aを含み」なおかつ「語Bを含む」文書 語Aを含む文書 語Bを含む文書 (b)の中での(a)の割合 = (a)÷(b) がJaccard係数!
もし単純に数をかぞえると? 語Cを含む文書 • 単純に共起する数をかぞえると、語Aの有無に関係 なくどこにでも多く出現する語Cが上位に。 • Jaccard係数では割合を見るので、語Cは下位になり、 語Aがある時に特によく出てくる共起語が上位に 語Aを含む文書
それでも、ある程度は数も必要 語Dを含む文書 • 語Dはほぼすべて語Aと共起しているが、数が少ない ので「語Aが出てくるときには語Dもよく出てくる」 とは言えない • Jaccard係数では割合を見るので語Dも下位に → 語CやDを取り除きつつ共起語を探すのがJaccard係数
語Aを含む文書
どちらも含まない文書は無視 • 一部の係数は、(c) 語Aも語Bも含まない文書がたく さんあると、語Aと語Bの類似度が高いと見なす • 計量テキスト分析では、(c)の文書は常に大量に存在 するので、(c)を無視するJaccard係数を採用 語Aを含む文書 語Bを含む文書
すべての文書 (c) 語Aも語Bも含まない文書
ところで「文書」ってなに? • 設定を変えなければ(デフォルトでは) – Excel・CSVデータの場合は、1つのセルが1つの「文書」 – テキストデータの場合は、1つの段落(改行で区切れられ た部分)が1つの「文書」 • 分析時に「集計単位」の設定を「文」に変更すれば、
1つの文を1つの「文書」と見なせる • KH CoderではH1からH5による見出しを加えることで、 節・章・部など様々な単位での分析が可能