Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
自然言語処理研究室B3ゼミ_03rdWeek
Search
takegue
January 19, 2014
Technology
0
180
自然言語処理研究室B3ゼミ_03rdWeek
機械学習について引き続き
takegue
January 19, 2014
Tweet
Share
More Decks by takegue
See All by takegue
不自然言語の自然言語処理: コード補完を支える最新技術
takegue
1
830
つかわれるプラットフォーム 〜デザイン編〜@DPM#2
takegue
2
12k
カルチャーとエンジニアリングをつなぐ データプラットフォーム
takegue
4
6.3k
toC企業でのデータ活用 (PyData.Okinawa + PythonBeginners沖縄 合同勉強会 2019)
takegue
4
1k
Rettyにおけるデータ活用について
takegue
0
870
Sparse Overcomplete Word Vector Representations
takegue
0
200
Aligning Sentences from Standard Wikipedia to Simple Wikipedia
takegue
0
210
High-Order Low-Rank Tensors for Semantic Role Labeling
takegue
0
120
Dependency-based empty category detection via phrase structure trees
takegue
0
72
Other Decks in Technology
See All in Technology
スキルだけでは満たせない、 “組織全体に”なじむオンボーディング/Onboarding that fits “throughout the organization” and cannot be satisfied by skills alone
bitkey
0
180
Snowflake ML モデルを dbt データパイプラインに組み込む
estie
0
100
Share my, our lessons from the road to re:Invent
naospon
0
140
Pwned Labsのすゝめ
ken5scal
2
430
AIエージェント元年@日本生成AIユーザ会
shukob
1
210
生成AI×財務経理:PoCで挑むSlack AI Bot開発と現場巻き込みのリアル
pohdccoe
1
690
日経のデータベース事業とElasticsearch
hinatades
PRO
0
230
組織におけるCCoEの役割とAWS活用事例
nrinetcom
PRO
4
130
【詳説】コンテンツ配信 システムの複数機能 基盤への拡張
hatena
0
230
コンピュータビジョンの社会実装について考えていたらゲームを作っていた話
takmin
1
600
RemoveだらけのPHPUnit 12に備えよう
cocoeyes02
0
290
入門 PEAK Threat Hunting @SECCON
odorusatoshi
0
150
Featured
See All Featured
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
46
2.3k
Building Your Own Lightsaber
phodgson
104
6.2k
The Straight Up "How To Draw Better" Workshop
denniskardys
232
140k
Navigating Team Friction
lara
183
15k
GraphQLの誤解/rethinking-graphql
sonatard
68
10k
Designing on Purpose - Digital PM Summit 2013
jponch
117
7.1k
Optimising Largest Contentful Paint
csswizardry
34
3.1k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
10
1.3k
Into the Great Unknown - MozCon
thekraken
35
1.6k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
10
510
A better future with KSS
kneath
238
17k
A Philosophy of Restraint
colly
203
16k
Transcript
自然言語処理研究室 B3 Seminar 2013 年度 第3週 ~機械学習について Part2 ~ クラスタリング
長岡技術科学大学 B3 竹野 峻輔
• 機械学習とは? – データから規則性や法則性を見出し – それ自身をアルゴリズムに反映させること • 機械学習の種類(教師有学習、教師無学習) • 教師有学習
– ナイーブベイズ分類器(尤もらしいものと予想する) – SVM(ベクトルの境界面を計算⇒2値で分類) • 教師なし学習 – クラスタリング 2014/1/22 自然言語処理研究室 2013年度 B3コアタイム 第3週 前回までの復習 –機械学習と自然言語処理について-
• 機械学習とは? – データから規則性や法則性を見出し – それ自身をアルゴリズムに反映させること • 機械学習の種類(教師有学習、教師無学習) • 教師有学習
– ナイーブベイズ分類器(尤もらしいものと予想する) – SVM(ベクトルの境界面を計算⇒2値で分類) • 教師なし学習 – クラスタリング ⇐ 本日はこれについて 2014/1/22 自然言語処理研究室 2013年度 B3コアタイム 第3週 前回までの復習 –機械学習と自然言語処理について-
• 似ているもの同士を機械的にまとめる。 – どんな塊りになるかはわからない・・・ • 人間の感覚(クラス分類)v.s. 計算機の分け方(クラスタリング) • 擬集型クラスタリング(ボトムアップクラスタリング) •
k-平均法(k-means法) • 混合正規分布によるクラスタリング 2014/1/22 自然言語処理研究室 2013年度 B3コアタイム 第3週 クラスタリング
− 2 2 = ∑ − 2 − ∞ =
max | − | ∙ • 階層的クラスタリング(Hierarchical clustering) – 近いものから順々に結合 – クラスタは階層構造になる。 近さ(点)の定義 ・ユークリッド, マンハッタン距離 ・最大距離(無限ノルム) ・マハラノビス距離 ・余弦類似度 近さ(クラスタ)の定義 ・最大距離, 最小距離, 重心距離, 最小エネルギー 2014/1/22 自然言語処理研究室 2013年度 B3コアタイム 第3週 擬集型クラスタリング(ボトムアップクラスタリング)
• クラスタ数kを決める。 • 適当にk個に分ける • 重心(代表ベクトル)を計算 – 一番近い代表ベクトルに合併。 – 重心移動:代表ベクトルの再計算
以上繰り返し 考えるよりも 実際に見てみましょう。 てっく煮:k-means びじゅあらいず http://tech.nitoyon.com/ja/blog/2009/04/09/kmeans-visualise/ 2014/1/22 自然言語処理研究室 2013年度 B3コアタイム 第3週 K-平均法(K-means )
• EMアルゴリズムの一種 • クラスタリングの判定が確率的 • 分布は正規分布 – 代表ベクトルからの距離が長いほど確率が低くなる。 2014/1/22 自然言語処理研究室
2013年度 B3コアタイム 第3週 混合正規分布(Gaussian Mixture) によるクラスタリング ; ) = |; ( ; ) = | ∑ ( )( |; ) 代表ベクトルはP(c|xi )の 重み付き平均で更新される。
2014/1/22 自然言語処理研究室 2013年度 B3コアタイム 第3週
• クラスタリングで似たもの通しで、一つに集める。 – どのようなかたまりにしたいか、考える必要がある。 • 一番の問題点となるのが、クラスタ数。 – 最小記述原理 等があるが結局は地道に調べるしかない •
計算量が大きい( O(n2)~ O(n3) ) – 反復処理であるた数値誤差が溜まりやすい – 対数を利用(longsumexp法による工夫必要) • 獲得したクラスタに対する評価が難しい – 他のタスクに役立つか否かで評価する 2014/1/22 自然言語処理研究室 2013年度 B3コアタイム 第3週 クラスタリングにおける問題点および注意点