TokyoR#54 コサイン距離を用いたクラスタリング

コサイン類似度を用いたクラスタリング @bob3bob3 Tokyo.R #54 2016/06/19

お伝えしたいこと • いわゆるビッグデータによくあるスパースな行列のクラスタリングにはコサイン類似度を使うといい感じだよ。 • コサイン類似度を用いたクラスタリングは skmeansパッケージで実行できるよ。 • このLTの内容は『マーケティング・サイエ
ンスのトップランナーたち』の第２章「商品市場を細分化するビッグデータ適合型クラスター分析の活用」がネタ元だよ。

同じような購買傾向の消費者をグループ化したいケース１ビールワイン日本酒焼酎ウイスキー Aさん 1
1 Bさん 1 ケース２ビールワイン日本酒焼酎ウイスキー Cさん 1 1 1 Dさん 1 1 1 1 この二人は別々のグループにしたいこの二人は同じグループにしたい

K-means法で使用されるユークリッド距離だとケース１ビールワイン日本酒焼酎ウイスキー Aさん 1
1 Bさん 1 ケース１ビールワイン日本酒焼酎ウイスキー Aさん 1 1 1 Bさん 1 1 1 1 ユークリッド距離：1.732 ユークリッド距離：1.732

1-コサイン類似度だとケース１ビールワイン日本酒焼酎ウイスキー Aさん 1 1
Bさん 1 ケース１ビールワイン日本酒焼酎ウイスキー Aさん 1 1 1 Bさん 1 1 1 1 １−コサイン類似度：1.000 １−コサイン類似度：0.423

skmeansパッケージを使ってみる # 関連規則のパッケージに入っているサンプルデータを使う library(arules) # transactions形式のサンプルデータ data(Groceries) # スパースなデータを扱いやすくするパッケージ。圧倒的に処理が早い。 library(slam)
# transactions形式からmatrix形式に Groceries.mat <- as(Groceries,"matrix") # 真偽値を0/1に変換 Groceries.mat <- ifelse(Groceries.mat==TRUE,1,0) # matrix形式からstm形式へ Groceries.stm <- as.simple_triplet_matrix(Groceries.mat)

skmeansパッケージを使ってみる # コサイン距離を使ったkmeans library(skmeans) set.seed(1234) #再現性のための乱数種設定 res <- skmeans(Groceries.stm, k=05)
table(res$cluster) #各クラスタのサイズ aggregate(Groceries.mat, by=list(res$cluster), mean)

Enjoy!

TokyoR#54 コサイン距離を用いたクラスタリング

TokyoR#54 コサイン距離を用いたクラスタリング

bob3bob3

More Decks by bob3bob3

Other Decks in Programming

Featured

Transcript

コサイン類似度を用いたクラスタリング @bob3bob3 Tokyo.R #54 2016/06/19

同じような購買傾向の消費者をグループ化したいケース１ビールワイン日本酒焼酎ウイスキー Aさん 1

K-means法で使用されるユークリッド距離だとケース１ビールワイン日本酒焼酎ウイスキー Aさん 1

1-コサイン類似度だとケース１ビールワイン日本酒焼酎ウイスキー Aさん 1 1

skmeansパッケージを使ってみる # コサイン距離を使ったkmeans library(skmeans) set.seed(1234) #再現性のための乱数種設定 res <- skmeans(Groceries.stm, k=05)

Enjoy!