Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
共起の強さを測るJaccard係数とは
Search
HIGUCHI Koichi
May 03, 2024
1.4k
0
Share
共起の強さを測るJaccard係数とは
HIGUCHI Koichi
May 03, 2024
More Decks by HIGUCHI Koichi
See All by HIGUCHI Koichi
KH Coderチュートリアル(スライド版)
koichih
1
60k
共起ネットワークの位置調整(KH Coder)
koichih
0
31k
KH Coder Tutorial
koichih
0
39k
Featured
See All Featured
Product Roadmaps are Hard
iamctodd
PRO
55
12k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.7k
The Organizational Zoo: Understanding Human Behavior Agility Through Metaphoric Constructive Conversations (based on the works of Arthur Shelley, Ph.D)
kimpetersen
PRO
0
300
Amusing Abliteration
ianozsvald
1
150
Leveraging LLMs for student feedback in introductory data science courses - posit::conf(2025)
minecr
1
220
Leveraging Curiosity to Care for An Aging Population
cassininazir
1
210
Design of three-dimensional binary manipulators for pick-and-place task avoiding obstacles (IECON2024)
konakalab
0
390
How to train your dragon (web standard)
notwaldorf
97
6.6k
Agile that works and the tools we love
rasmusluckow
331
21k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
27
3.4k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
31
10k
Darren the Foodie - Storyboard
khoart
PRO
3
3.1k
Transcript
Jaccard係数の計算式(1) KH CoderではJaccard係数を多用しています。たと えば語Aと語Bの共起の程度をJaccard係数で測る計 算式は以下のようになります。 「語Aを含み」なおかつ「語Bを含む」文書の数 「語Aを含む」か「語Bを含む」か1方でも当てはまる文書の数 図解にするとより分かりやすく→
語Aを含む文書 語Bを含む文書
(a) 「語Aを含み」なおかつ「語Bを含む」文書 語Aを含む文書 語Bを含む文書
(b) 「語Aを含む」か「語Bを含む」か1方でも当てはまる文書 (a) 「語Aを含み」なおかつ「語Bを含む」文書 語Aを含む文書 語Bを含む文書
(b) 「語Aを含む」か「語Bを含む」か1方でも当てはまる文書 (a) 「語Aを含み」なおかつ「語Bを含む」文書 語Aを含む文書 語Bを含む文書 (b)の中での(a)の割合 = (a)÷(b) がJaccard係数!
もし単純に数をかぞえると? 語Cを含む文書 • 単純に共起する数をかぞえると、語Aの有無に関係 なくどこにでも多く出現する語Cが上位に。 • Jaccard係数では割合を見るので、語Cは下位になり、 語Aがある時に特によく出てくる共起語が上位に 語Aを含む文書
それでも、ある程度は数も必要 語Dを含む文書 • 語Dはほぼすべて語Aと共起しているが、数が少ない ので「語Aが出てくるときには語Dもよく出てくる」 とは言えない • Jaccard係数では割合を見るので語Dも下位に → 語CやDを取り除きつつ共起語を探すのがJaccard係数
語Aを含む文書
どちらも含まない文書は無視 • 一部の係数は、(c) 語Aも語Bも含まない文書がたく さんあると、語Aと語Bの類似度が高いと見なす • 計量テキスト分析では、(c)の文書は常に大量に存在 するので、(c)を無視するJaccard係数を採用 語Aを含む文書 語Bを含む文書
すべての文書 (c) 語Aも語Bも含まない文書
ところで「文書」ってなに? • 設定を変えなければ(デフォルトでは) – Excel・CSVデータの場合は、1つのセルが1つの「文書」 – テキストデータの場合は、1つの段落(改行で区切れられ た部分)が1つの「文書」 • 分析時に「集計単位」の設定を「文」に変更すれば、
1つの文を1つの「文書」と見なせる • KH CoderではH1からH5による見出しを加えることで、 節・章・部など様々な単位での分析が可能