Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
自然言語処理研究室_3rd_week.pdf
Search
takegue
January 20, 2014
0
22
自然言語処理研究室_3rd_week.pdf
takegue
January 20, 2014
Tweet
Share
More Decks by takegue
See All by takegue
不自然言語の自然言語処理: コード補完を支える最新技術
takegue
1
830
つかわれるプラットフォーム 〜デザイン編〜@DPM#2
takegue
2
12k
カルチャーとエンジニアリングをつなぐ データプラットフォーム
takegue
4
6.3k
toC企業でのデータ活用 (PyData.Okinawa + PythonBeginners沖縄 合同勉強会 2019)
takegue
4
1k
Rettyにおけるデータ活用について
takegue
0
870
Sparse Overcomplete Word Vector Representations
takegue
0
200
Aligning Sentences from Standard Wikipedia to Simple Wikipedia
takegue
0
200
High-Order Low-Rank Tensors for Semantic Role Labeling
takegue
0
120
Dependency-based empty category detection via phrase structure trees
takegue
0
71
Featured
See All Featured
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
45
9.4k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
49
2.3k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
33
2.8k
Imperfection Machines: The Place of Print at Facebook
scottboms
267
13k
For a Future-Friendly Web
brad_frost
176
9.6k
Building Better People: How to give real-time feedback that sticks.
wjessup
367
19k
How to train your dragon (web standard)
notwaldorf
91
5.9k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
356
29k
Bash Introduction
62gerente
611
210k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
507
140k
Measuring & Analyzing Core Web Vitals
bluesmoon
6
250
Producing Creativity
orderedlist
PRO
344
40k
Transcript
自然言語処理研究室 B3 Seminar 2013 年度 第3週 ~機械学習について Part2 ~ クラスタリング
長岡技術科学大学 B3 竹野 峻輔
• 機械学習とは? – データから規則性や法則性を見出し – それ自身をアルゴリズムに反映させること • 機械学習の種類(教師有学習、教師無学習) • 教師有学習
– ナイーブベイズ分類器(尤もらしいものと予想する) – SVM(ベクトルの境界面を計算⇒2値で分類) • 教師なし学習 – クラスタリング 2014/1/21 自然言語処理研究室 2013年度 B3コアタイム 第3週 前回までの復習 –機械学習と自然言語処理について-
• 機械学習とは? – データから規則性や法則性を見出し – それ自身をアルゴリズムに反映させること • 機械学習の種類(教師有学習、教師無学習) • 教師有学習
– ナイーブベイズ分類器(尤もらしいものと予想する) – SVM(ベクトルの境界面を計算⇒2値で分類) • 教師なし学習 – クラスタリング ⇐ 本日はこれについて 2014/1/21 自然言語処理研究室 2013年度 B3コアタイム 第3週 前回までの復習 –機械学習と自然言語処理について-
• 似ているもの同士を機械的にまとめる。 – どんな塊りになるかはわからない・・・ • 人間の感覚(クラス分類)v.s. 計算機の分け方(クラスタリング) • 擬集型クラスタリング(ボトムアップクラスタリング) •
k-平均法(k-means法) • 混合正規分布によるクラスタリング 2014/1/21 自然言語処理研究室 2013年度 B3コアタイム 第3週 クラスタリング
− 2 2 = ∑ − 2 − ∞ =
max | − | ∙ • 階層的クラスタリング(Hierarchical clustering) – 近いものから順々に結合 – クラスタは階層構造になる。 近さ(点)の定義 ・ユークリッド, マンハッタン距離 ・最大距離(無限ノルム) ・マハラノビス距離 ・余弦類似度 近さ(クラスタ)の定義 ・最大距離, 最小距離, 重心距離, 最小エネルギー 2014/1/21 自然言語処理研究室 2013年度 B3コアタイム 第3週 擬集型クラスタリング(ボトムアップクラスタリング)
• クラスタ数kを決める。 • 適当にk個に分ける • 重心(代表ベクトル)を計算 – 一番近い代表ベクトルに合併。 – 重心移動:代表ベクトルの再計算
以上繰り返し 考えるよりも 実際に見てみましょう。 てっく煮:k-means びじゅあらいず http://tech.nitoyon.com/ja/blog/2009/04/09/kmeans-visualise/ 2014/1/21 自然言語処理研究室 2013年度 B3コアタイム 第3週 K-平均法(K-means )
• EMアルゴリズムの一種 • クラスタリングの判定が確率的 • 分布は正規分布 – 代表ベクトルからの距離が長いほど確率が低くなる。 2014/1/21 自然言語処理研究室
2013年度 B3コアタイム 第3週 混合正規分布(Gaussian Mixture) によるクラスタリング ; ) = |; ( ; ) = | ∑ ( )( |; ) 代表ベクトルはP(c|xi )の 重み付き平均で更新される。
2014/1/21 自然言語処理研究室 2013年度 B3コアタイム 第3週
• クラスタリングで似たもの通しで、一つに集める。 – どのようなかたまりにしたいか、考える必要がある。 • 一番の問題点となるのが、クラスタ数。 – 最小記述原理 等があるが結局は地道に調べるしかない •
計算量が大きい( O(n2)~ O(n3) ) – 反復処理であるた数値誤差が溜まりやすい – 対数を利用(longsumexp法による工夫必要) • 獲得したクラスタに対する評価が難しい – 他のタスクに役立つか否かで評価する 2014/1/21 自然言語処理研究室 2013年度 B3コアタイム 第3週 クラスタリングにおける問題点および注意点