Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
TokyoR#60 クラスタ分析におけるクラスタ数の決め方
Search
bob3bob3
January 12, 2022
Programming
0
400
TokyoR#60 クラスタ分析におけるクラスタ数の決め方
クラスタ分析におけるクラスタ数の決め方。
2017年4月。
bob3bob3
January 12, 2022
Tweet
Share
More Decks by bob3bob3
See All by bob3bob3
RでPSM分析
bob3bob3
1
190
Rでコンジョイント分析 2024年版
bob3bob3
0
770
『改訂新版前処理大全』の話と Apache Parquet の話 #TokyoR
bob3bob3
0
680
R言語の環境構築と基礎 Tokyo.R 112
bob3bob3
0
470
『データ可視化学入門』をPythonからRに翻訳した話(増強版)
bob3bob3
0
410
『データ可視化学入門』を PythonからRに翻訳した話
bob3bob3
1
500
qeMLパッケージの紹介
bob3bob3
0
1.6k
「国と音楽」 ~spotifyrを用いて~ #muana
bob3bob3
2
480
パーマーステーションのペンギンたち#3 探索的データ分析(EDA)編
bob3bob3
1
600
Other Decks in Programming
See All in Programming
「今のプロジェクトいろいろ大変なんですよ、app/services とかもあって……」/After Kaigi on Rails 2024 LT Night
junk0612
5
2.2k
ヤプリ新卒SREの オンボーディング
masaki12
0
130
cmp.Or に感動した
otakakot
3
230
[Do iOS '24] Ship your app on a Friday...and enjoy your weekend!
polpielladev
0
110
Jakarta EE meets AI
ivargrimstad
0
270
React への依存を最小にするフロントエンド設計
takonda
12
3.2k
as(型アサーション)を書く前にできること
marokanatani
10
2.7k
Click-free releases & the making of a CLI app
oheyadam
2
120
NSOutlineView何もわからん:( 前編 / I Don't Understand About NSOutlineView :( Pt. 1
usagimaru
0
340
Micro Frontends Unmasked Opportunities, Challenges, Alternatives
manfredsteyer
PRO
0
110
色々なIaCツールを実際に触って比較してみる
iriikeita
0
340
3 Effective Rules for Using Signals in Angular
manfredsteyer
PRO
0
100
Featured
See All Featured
GraphQLとの向き合い方2022年版
quramy
43
13k
Learning to Love Humans: Emotional Interface Design
aarron
273
40k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
131
33k
How to Think Like a Performance Engineer
csswizardry
20
1.1k
Ruby is Unlike a Banana
tanoku
97
11k
5 minutes of I Can Smell Your CMS
philhawksworth
202
19k
Optimizing for Happiness
mojombo
376
70k
Practical Orchestrator
shlominoach
186
10k
Embracing the Ebb and Flow
colly
84
4.5k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
27
840
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
159
15k
10 Git Anti Patterns You Should be Aware of
lemiorhan
655
59k
Transcript
クラスタ分析における クラスタ数の決め方 @bob3bob3 Tokyo.R #60
クラスタ分析におけるクラスタ数の決め方 • クラスタ分析を行う際、クラスタ数をいくつにするべきかという のは非常に悩ましい問題。 • 目的や分野によっても考え方が異なるでしょう。 • 原則として、分析者が意思を持って決めるべき、というのが結 論ではある。 •
ただ、それを支援する、より適切と思われるクラスタ数を示唆 してくれる指標(cluster index)がいくつかRで提供されている。
パッケージと関数 • 今回は3つのパッケージと関数をご紹介。 ◦ {cclust} パッケージの clusterIndex() ◦ {vegan} パッケージの
cascadeKM() ◦ {clusterSim} パッケージの cluster.Sim()
{cclust}パッケージのclustIndex() • clustIndex() は cclust() でクラスタリングした結果に対して指標値を返す。 • 15種の指標を返すが、calinski(疑似F統計量)がおすすめ。 library(cclust) DAT
<- as.matrix(iris[,-5]) MAX <- 10 res <- data.frame(matrix(0,MAX,15)) for (i in 2:MAX){ clust <- cclust(DAT, i) temp <- clustIndex(clust, DAT) if(i==2) colnames(res) <- names(temp) res[i,] <- temp } plot(res$calinski, type="b")
{vegan} パッケージの cascadeKM() • cascadeKM() は calinski に基づいて最適と考えられるクラスタリング結果を返す。 library(vegan) #
試行するクラスタ数の最小数と最大数を与える # デフォルトは calinski だが ssi も使える res <- cascadeKM(iris[,-5], 2, 10) best <- plot(res) best$x[,best$best.grps]
{clusterSim} パッケージの cluster.Sim() • cluster.Sim()は複数の標準化手法、距離、クラスタリング手法を組み合わせて最 適なクラスタリングを探索する。引数の指定が独特なのでヘルプからたどれる clusterSim_details.pdf を見ながら設定すること。 library(clusterSim) cluster.Sim(iris[,-5],
p=1, min=2, max=10, "G1", outputHtml="results.iris") # これで3,312通りのクラスタリングが試される。 # 非力なマシンでは非常に時間がかかるので注意。
最後に • クラスタの数は分析者が意思を持って決めるべきという結論 は変わらないのですが、これらの指標を使うことで検討にかか る負担を大きく減らし、考察に時間を使うことができます。 • また、GIGOなのは変わらないので、これらの指標を使っても 元データがダメだとどうにもなりません。本当の肝はどんな データをクラスタリングに利用するかという部分ですが、その 話はまたこんど。