Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
JOI夏季セミナー2014
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
shirase1827
September 01, 2014
0
160
JOI夏季セミナー2014
shirase1827
September 01, 2014
Tweet
Share
Featured
See All Featured
Crafting Experiences
bethany
1
49
Mobile First: as difficult as doing things right
swwweet
225
10k
First, design no harm
axbom
PRO
2
1.1k
Chasing Engaging Ingredients in Design
codingconduct
0
110
Jess Joyce - The Pitfalls of Following Frameworks
techseoconnect
PRO
1
67
The AI Revolution Will Not Be Monopolized: How open-source beats economies of scale, even for LLMs
inesmontani
PRO
3
3k
Code Reviewing Like a Champion
maltzj
527
40k
A designer walks into a library…
pauljervisheath
210
24k
The Curse of the Amulet
leimatthew05
1
8.7k
Reflections from 52 weeks, 52 projects
jeffersonlam
356
21k
The State of eCommerce SEO: How to Win in Today's Products SERPs - #SEOweek
aleyda
2
9.6k
Exploring anti-patterns in Rails
aemeredith
2
250
Transcript
集合知プログラミング shirase1827
クラスタリング ・k平均法によるクラスタリング ・階層的クラスタリング
k平均法 k個のクラスタを作るときに便利 初期値としてkを決めないといけない
k平均法 1.ランダムにk個の重心をおきます(k=2)
k平均法 2.アイテムを一番、近い重心に割りあてます
k平均法 3.重心を割りあてられたアイテムの平均の場 所へ移動します
k平均法 4.再びアイテムを一番、近い重心に割り当て ます
k平均法 5.再び重心を割りあてられたアイテムの平均 の場所へ移動します
k平均法 6.重心が安定するまで割り当てと移動(2~3) を行います
k平均法 7.k個のクラスタが完成します(k=2)
階層的クラスタリング ツリー形式にできる グループをまとめる時にグループごとの距離 をだすので大きなデータには向いていない
階層的クラスタリング 2つのグループを近いもの同士でまとめる
階層的クラスタリング 2つのグループを近いもの同士でまとめる
階層的クラスタリング 2つのグループを近いもの同士でまとめる
階層的クラスタリング 2つのグループを近いもの同士でまとめる
階層的クラスタリング 階層的クラスタリングを可視化したものが デンドログラム 実際にTwitterからのデータをもとにデンドロ グラムをつくってみました
Twitter 夏季セミナー参加者の最近の500ツイートを 収集 ツイートを単語に分割して同じ単語をいって いるアカウント同士でクラスタリングしていき ます
Twitter それでは実際に作ってみよう!
Twitter
Twitter とてもクラスタリングに偏りがでてしまった
Twitter 原因 ・リプライやRTのツイートをカウントしてしまっ ている ・見て分かるようにaskの影響をうけている
Twitter askとは? Ask.fm(アスク・エフエム)とは、利用者同士が質 問や回答が出来るQ&Aサイトである。(wikipedia 引用) Twitter上では 「質問ー回答 (URL)」 このような形でツイートされてしまい、質問文の単語 をカウントしてしまう
Twitter 解決策 @からはじまるツイートを省く RTがふくまれるツイートを省く askのツイートを省く
Twitter 再び作成!
Twitter
Twitter 問題点 ・500ツイートしていないアカウントの情報量が 少ない ・askのツイートを省いてしまうと極端に情報 量が減るアカウントがあった ・競プロ界隈の造語をカウントしてくれない
Twitter 原因 夏季セミナー参加者のアカウントを選んでし まったこと
最後に
Twitter(おまけ) いろいろとツイートの単語を見てみると おもしろいものがみつかったので紹介します
Twitter(おまけ) 還暦 12ツイート つぶれろ 12ツイート 女の子 12ツイート ポテトチップス 12ツイート ガチ 9ツイート にゃ 10ツイート Haskell 12ツイート 負け 14ツイート しょうが 11ツイート
Twitter(おまけ) TopCoder 9ツイート コーディング 8ツイート 藤原 10ツイート TL 9ツイート 精進 14ツイート 解く 14ツイート 徹夜 8ツイート ファッ 7ツイート
Twitter(おまけ) 他にもいろいろとおもしろい単語がありますが 作成時間が間に合わないので省きます
ご清聴ありがとうございます