TokyoR#54 コサイン距離を用いたクラスタリング

Slide 1

Slide 1 text

コサイン類似度を用いたクラスタリング @bob3bob3 Tokyo.R #54 2016/06/19

Slide 2

Slide 2 text

お伝えしたいこと ● いわゆるビッグデータによくあるスパースな行列のクラスタリングにはコサイン類似度を使うといい感じだよ。 ● コサイン類似度を用いたクラスタリングは skmeansパッケージで実行できるよ。 ● このLTの内容は『マーケティング・サイエンスのトップランナーたち』の第２章「商品市場を細分化するビッグデータ適合型クラスター分析の活用」がネタ元だよ。

Slide 3

Slide 3 text

同じような購買傾向の消費者をグループ化したいケース１ビールワイン日本酒焼酎ウイスキー Aさん 1 1 Bさん 1 ケース２ビールワイン日本酒焼酎ウイスキー Cさん 1 1 1 Dさん 1 1 1 1 この二人は別々のグループにしたいこの二人は同じグループにしたい

Slide 4

Slide 4 text

K-means法で使用されるユークリッド距離だとケース１ビールワイン日本酒焼酎ウイスキー Aさん 1 1 Bさん 1 ケース１ビールワイン日本酒焼酎ウイスキー Aさん 1 1 1 Bさん 1 1 1 1 ユークリッド距離：1.732 ユークリッド距離：1.732

Slide 5

Slide 5 text

1-コサイン類似度だとケース１ビールワイン日本酒焼酎ウイスキー Aさん 1 1 Bさん 1 ケース１ビールワイン日本酒焼酎ウイスキー Aさん 1 1 1 Bさん 1 1 1 1 １−コサイン類似度：1.000 １−コサイン類似度：0.423

Slide 6

Slide 6 text

skmeansパッケージを使ってみる # 関連規則のパッケージに入っているサンプルデータを使う library(arules) # transactions形式のサンプルデータ data(Groceries) # スパースなデータを扱いやすくするパッケージ。圧倒的に処理が早い。 library(slam) # transactions形式からmatrix形式に Groceries.mat <- as(Groceries,"matrix") # 真偽値を0/1に変換 Groceries.mat <- ifelse(Groceries.mat==TRUE,1,0) # matrix形式からstm形式へ Groceries.stm <- as.simple_triplet_matrix(Groceries.mat)

Slide 7

Slide 7 text

skmeansパッケージを使ってみる # コサイン距離を使ったkmeans library(skmeans) set.seed(1234) #再現性のための乱数種設定 res <- skmeans(Groceries.stm, k=05) table(res$cluster) #各クラスタのサイズ aggregate(Groceries.mat, by=list(res$cluster), mean)

Slide 8

Slide 8 text

Enjoy!