TokyoR#60 クラスタ分析におけるクラスタ数の決め方

クラスタ分析におけるクラスタ数の決め方 @bob3bob3 Tokyo.R #60

クラスタ分析におけるクラスタ数の決め方 • クラスタ分析を行う際、クラスタ数をいくつにするべきかというのは非常に悩ましい問題。 • 目的や分野によっても考え方が異なるでしょう。 • 原則として、分析者が意思を持って決めるべき、というのが結論ではある。 •
ただ、それを支援する、より適切と思われるクラスタ数を示唆してくれる指標(cluster index)がいくつかRで提供されている。

パッケージと関数 • 今回は３つのパッケージと関数をご紹介。 ◦ {cclust} パッケージの clusterIndex() ◦ {vegan} パッケージの
cascadeKM() ◦ {clusterSim} パッケージの cluster.Sim()

{cclust}パッケージのclustIndex() • clustIndex() は cclust() でクラスタリングした結果に対して指標値を返す。 • 15種の指標を返すが、calinski（疑似F統計量）がおすすめ。 library(cclust) DAT
<- as.matrix(iris[,-5]) MAX <- 10 res <- data.frame(matrix(0,MAX,15)) for (i in 2:MAX){ clust <- cclust(DAT, i) temp <- clustIndex(clust, DAT) if(i==2) colnames(res) <- names(temp) res[i,] <- temp } plot(res$calinski, type="b")

{vegan} パッケージの cascadeKM() • cascadeKM() は calinski に基づいて最適と考えられるクラスタリング結果を返す。 library(vegan) #
試行するクラスタ数の最小数と最大数を与える # デフォルトは calinski だが ssi も使える res <- cascadeKM(iris[,-5], 2, 10) best <- plot(res) best$x[,best$best.grps]

{clusterSim} パッケージの cluster.Sim() • cluster.Sim()は複数の標準化手法、距離、クラスタリング手法を組み合わせて最適なクラスタリングを探索する。引数の指定が独特なのでヘルプからたどれる clusterSim_details.pdf を見ながら設定すること。 library(clusterSim) cluster.Sim(iris[,-5],
p=1, min=2, max=10, "G1", outputHtml="results.iris") # これで3,312通りのクラスタリングが試される。 # 非力なマシンでは非常に時間がかかるので注意。

最後に • クラスタの数は分析者が意思を持って決めるべきという結論は変わらないのですが、これらの指標を使うことで検討にかかる負担を大きく減らし、考察に時間を使うことができます。 • また、GIGOなのは変わらないので、これらの指標を使っても元データがダメだとどうにもなりません。本当の肝はどんなデータをクラスタリングに利用するかという部分ですが、その話はまたこんど。

TokyoR#60 クラスタ分析におけるクラスタ数の決め方

TokyoR#60 クラスタ分析におけるクラスタ数の決め方

bob3bob3

More Decks by bob3bob3

Other Decks in Programming

Featured

Transcript

クラスタ分析におけるクラスタ数の決め方 @bob3bob3 Tokyo.R #60

パッケージと関数 • 今回は３つのパッケージと関数をご紹介。 ◦ {cclust} パッケージの clusterIndex() ◦ {vegan} パッケージの

{cclust}パッケージのclustIndex() • clustIndex() は cclust() でクラスタリングした結果に対して指標値を返す。 • 15種の指標を返すが、calinski（疑似F統計量）がおすすめ。 library(cclust) DAT

{vegan} パッケージの cascadeKM() • cascadeKM() は calinski に基づいて最適と考えられるクラスタリング結果を返す。 library(vegan) #