Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
JOI夏季セミナー2014
Search
shirase1827
September 01, 2014
0
160
JOI夏季セミナー2014
shirase1827
September 01, 2014
Tweet
Share
Featured
See All Featured
How to Get Subject Matter Experts Bought In and Actively Contributing to SEO & PR Initiatives.
livdayseo
0
67
The Anti-SEO Checklist Checklist. Pubcon Cyber Week
ryanjones
0
69
BBQ
matthewcrist
89
10k
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
Producing Creativity
orderedlist
PRO
348
40k
WCS-LA-2024
lcolladotor
0
450
SEO in 2025: How to Prepare for the Future of Search
ipullrank
3
3.3k
Digital Ethics as a Driver of Design Innovation
axbom
PRO
1
180
We Are The Robots
honzajavorek
0
170
How to Ace a Technical Interview
jacobian
281
24k
Mobile First: as difficult as doing things right
swwweet
225
10k
Unlocking the hidden potential of vector embeddings in international SEO
frankvandijk
0
170
Transcript
集合知プログラミング shirase1827
クラスタリング ・k平均法によるクラスタリング ・階層的クラスタリング
k平均法 k個のクラスタを作るときに便利 初期値としてkを決めないといけない
k平均法 1.ランダムにk個の重心をおきます(k=2)
k平均法 2.アイテムを一番、近い重心に割りあてます
k平均法 3.重心を割りあてられたアイテムの平均の場 所へ移動します
k平均法 4.再びアイテムを一番、近い重心に割り当て ます
k平均法 5.再び重心を割りあてられたアイテムの平均 の場所へ移動します
k平均法 6.重心が安定するまで割り当てと移動(2~3) を行います
k平均法 7.k個のクラスタが完成します(k=2)
階層的クラスタリング ツリー形式にできる グループをまとめる時にグループごとの距離 をだすので大きなデータには向いていない
階層的クラスタリング 2つのグループを近いもの同士でまとめる
階層的クラスタリング 2つのグループを近いもの同士でまとめる
階層的クラスタリング 2つのグループを近いもの同士でまとめる
階層的クラスタリング 2つのグループを近いもの同士でまとめる
階層的クラスタリング 階層的クラスタリングを可視化したものが デンドログラム 実際にTwitterからのデータをもとにデンドロ グラムをつくってみました
Twitter 夏季セミナー参加者の最近の500ツイートを 収集 ツイートを単語に分割して同じ単語をいって いるアカウント同士でクラスタリングしていき ます
Twitter それでは実際に作ってみよう!
Twitter
Twitter とてもクラスタリングに偏りがでてしまった
Twitter 原因 ・リプライやRTのツイートをカウントしてしまっ ている ・見て分かるようにaskの影響をうけている
Twitter askとは? Ask.fm(アスク・エフエム)とは、利用者同士が質 問や回答が出来るQ&Aサイトである。(wikipedia 引用) Twitter上では 「質問ー回答 (URL)」 このような形でツイートされてしまい、質問文の単語 をカウントしてしまう
Twitter 解決策 @からはじまるツイートを省く RTがふくまれるツイートを省く askのツイートを省く
Twitter 再び作成!
Twitter
Twitter 問題点 ・500ツイートしていないアカウントの情報量が 少ない ・askのツイートを省いてしまうと極端に情報 量が減るアカウントがあった ・競プロ界隈の造語をカウントしてくれない
Twitter 原因 夏季セミナー参加者のアカウントを選んでし まったこと
最後に
Twitter(おまけ) いろいろとツイートの単語を見てみると おもしろいものがみつかったので紹介します
Twitter(おまけ) 還暦 12ツイート つぶれろ 12ツイート 女の子 12ツイート ポテトチップス 12ツイート ガチ 9ツイート にゃ 10ツイート Haskell 12ツイート 負け 14ツイート しょうが 11ツイート
Twitter(おまけ) TopCoder 9ツイート コーディング 8ツイート 藤原 10ツイート TL 9ツイート 精進 14ツイート 解く 14ツイート 徹夜 8ツイート ファッ 7ツイート
Twitter(おまけ) 他にもいろいろとおもしろい単語がありますが 作成時間が間に合わないので省きます
ご清聴ありがとうございます