Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
自然言語処理研究室B3ゼミ_03rdWeek
Search
takegue
January 19, 2014
Technology
0
180
自然言語処理研究室B3ゼミ_03rdWeek
機械学習について引き続き
takegue
January 19, 2014
Tweet
Share
More Decks by takegue
See All by takegue
不自然言語の自然言語処理: コード補完を支える最新技術
takegue
1
880
つかわれるプラットフォーム 〜デザイン編〜@DPM#2
takegue
2
12k
カルチャーとエンジニアリングをつなぐ データプラットフォーム
takegue
4
6.5k
toC企業でのデータ活用 (PyData.Okinawa + PythonBeginners沖縄 合同勉強会 2019)
takegue
4
1.1k
Rettyにおけるデータ活用について
takegue
0
920
Sparse Overcomplete Word Vector Representations
takegue
0
240
Aligning Sentences from Standard Wikipedia to Simple Wikipedia
takegue
0
230
High-Order Low-Rank Tensors for Semantic Role Labeling
takegue
0
130
Dependency-based empty category detection via phrase structure trees
takegue
0
90
Other Decks in Technology
See All in Technology
フィッシュボウルのやり方 / How to do a fishbowl
pauli
2
430
会社紹介資料 / Sansan Company Profile
sansan33
PRO
11
390k
アプリにAIを正しく組み込むための アーキテクチャ── 国産LLMの現実と実践
kohju
1
260
20251219 OpenIDファウンデーション・ジャパン紹介 / OpenID Foundation Japan Intro
oidfj
0
600
技術選定、下から見るか?横から見るか?
masakiokuda
0
170
投資戦略を量産せよ 2 - マケデコセミナー(2025/12/26)
gamella
0
540
"人"が頑張るAI駆動開発
yokomachi
1
660
20251222_サンフランシスコサバイバル術
ponponmikankan
2
150
Authlete で実装する MCP OAuth 認可サーバー #CIMD の実装を添えて
watahani
0
300
MySQLのSpatial(GIS)機能をもっと充実させたい ~ MyNA望年会2025LT
sakaik
0
170
2025-12-27 Claude CodeでPRレビュー対応を効率化する@機械学習社会実装勉強会第54回
nakamasato
4
1.3k
LayerX QA Night#1
koyaman2
0
290
Featured
See All Featured
Bridging the Design Gap: How Collaborative Modelling removes blockers to flow between stakeholders and teams @FastFlow conf
baasie
0
410
So, you think you're a good person
axbom
PRO
0
1.9k
Scaling GitHub
holman
464
140k
GraphQLの誤解/rethinking-graphql
sonatard
74
11k
Have SEOs Ruined the Internet? - User Awareness of SEO in 2025
akashhashmi
0
210
Building a Scalable Design System with Sketch
lauravandoore
463
34k
Bioeconomy Workshop: Dr. Julius Ecuru, Opportunities for a Bioeconomy in West Africa
akademiya2063
PRO
0
34
Navigating Algorithm Shifts & AI Overviews - #SMXNext
aleyda
0
1k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
25
1.7k
Navigating Team Friction
lara
191
16k
AI Search: Implications for SEO and How to Move Forward - #ShenzhenSEOConference
aleyda
1
1k
What Being in a Rock Band Can Teach Us About Real World SEO
427marketing
0
150
Transcript
自然言語処理研究室 B3 Seminar 2013 年度 第3週 ~機械学習について Part2 ~ クラスタリング
長岡技術科学大学 B3 竹野 峻輔
• 機械学習とは? – データから規則性や法則性を見出し – それ自身をアルゴリズムに反映させること • 機械学習の種類(教師有学習、教師無学習) • 教師有学習
– ナイーブベイズ分類器(尤もらしいものと予想する) – SVM(ベクトルの境界面を計算⇒2値で分類) • 教師なし学習 – クラスタリング 2014/1/22 自然言語処理研究室 2013年度 B3コアタイム 第3週 前回までの復習 –機械学習と自然言語処理について-
• 機械学習とは? – データから規則性や法則性を見出し – それ自身をアルゴリズムに反映させること • 機械学習の種類(教師有学習、教師無学習) • 教師有学習
– ナイーブベイズ分類器(尤もらしいものと予想する) – SVM(ベクトルの境界面を計算⇒2値で分類) • 教師なし学習 – クラスタリング ⇐ 本日はこれについて 2014/1/22 自然言語処理研究室 2013年度 B3コアタイム 第3週 前回までの復習 –機械学習と自然言語処理について-
• 似ているもの同士を機械的にまとめる。 – どんな塊りになるかはわからない・・・ • 人間の感覚(クラス分類)v.s. 計算機の分け方(クラスタリング) • 擬集型クラスタリング(ボトムアップクラスタリング) •
k-平均法(k-means法) • 混合正規分布によるクラスタリング 2014/1/22 自然言語処理研究室 2013年度 B3コアタイム 第3週 クラスタリング
− 2 2 = ∑ − 2 − ∞ =
max | − | ∙ • 階層的クラスタリング(Hierarchical clustering) – 近いものから順々に結合 – クラスタは階層構造になる。 近さ(点)の定義 ・ユークリッド, マンハッタン距離 ・最大距離(無限ノルム) ・マハラノビス距離 ・余弦類似度 近さ(クラスタ)の定義 ・最大距離, 最小距離, 重心距離, 最小エネルギー 2014/1/22 自然言語処理研究室 2013年度 B3コアタイム 第3週 擬集型クラスタリング(ボトムアップクラスタリング)
• クラスタ数kを決める。 • 適当にk個に分ける • 重心(代表ベクトル)を計算 – 一番近い代表ベクトルに合併。 – 重心移動:代表ベクトルの再計算
以上繰り返し 考えるよりも 実際に見てみましょう。 てっく煮:k-means びじゅあらいず http://tech.nitoyon.com/ja/blog/2009/04/09/kmeans-visualise/ 2014/1/22 自然言語処理研究室 2013年度 B3コアタイム 第3週 K-平均法(K-means )
• EMアルゴリズムの一種 • クラスタリングの判定が確率的 • 分布は正規分布 – 代表ベクトルからの距離が長いほど確率が低くなる。 2014/1/22 自然言語処理研究室
2013年度 B3コアタイム 第3週 混合正規分布(Gaussian Mixture) によるクラスタリング ; ) = |; ( ; ) = | ∑ ( )( |; ) 代表ベクトルはP(c|xi )の 重み付き平均で更新される。
2014/1/22 自然言語処理研究室 2013年度 B3コアタイム 第3週
• クラスタリングで似たもの通しで、一つに集める。 – どのようなかたまりにしたいか、考える必要がある。 • 一番の問題点となるのが、クラスタ数。 – 最小記述原理 等があるが結局は地道に調べるしかない •
計算量が大きい( O(n2)~ O(n3) ) – 反復処理であるた数値誤差が溜まりやすい – 対数を利用(longsumexp法による工夫必要) • 獲得したクラスタに対する評価が難しい – 他のタスクに役立つか否かで評価する 2014/1/22 自然言語処理研究室 2013年度 B3コアタイム 第3週 クラスタリングにおける問題点および注意点