Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
自然言語処理研究室B3ゼミ_03rdWeek
Search
takegue
January 19, 2014
Technology
0
180
自然言語処理研究室B3ゼミ_03rdWeek
機械学習について引き続き
takegue
January 19, 2014
Tweet
Share
More Decks by takegue
See All by takegue
不自然言語の自然言語処理: コード補完を支える最新技術
takegue
1
900
つかわれるプラットフォーム 〜デザイン編〜@DPM#2
takegue
2
12k
カルチャーとエンジニアリングをつなぐ データプラットフォーム
takegue
4
6.5k
toC企業でのデータ活用 (PyData.Okinawa + PythonBeginners沖縄 合同勉強会 2019)
takegue
4
1.1k
Rettyにおけるデータ活用について
takegue
0
930
Sparse Overcomplete Word Vector Representations
takegue
0
260
Aligning Sentences from Standard Wikipedia to Simple Wikipedia
takegue
0
240
High-Order Low-Rank Tensors for Semantic Role Labeling
takegue
0
140
Dependency-based empty category detection via phrase structure trees
takegue
0
100
Other Decks in Technology
See All in Technology
複数クラスタ運用と検索の高度化:ビズリーチにおけるElastic活用事例 / ElasticON Tokyo2026
visional_engineering_and_design
0
170
猫でもわかるKiro CLI(AI 駆動開発への道編)
kentapapa
0
260
組織全体で実現する標準監視設計
yuobayashi
3
500
Lambda Web AdapterでLambdaをWEBフレームワーク利用する
sahou909
0
170
AI時代の「本当の」ハイブリッドクラウド — エージェントが実現した、あの頃の夢
ebibibi
0
150
It’s “Time” to use Temporal
sajikix
3
220
プラットフォームエンジニアリングはAI時代の開発者をどう救うのか
jacopen
7
3.8k
僕、S3 シンプルって名前だけど全然シンプルじゃありません よろしくお願いします
yama3133
1
230
システム標準化PMOから ガバメントクラウドCoEへ
techniczna
1
140
Keycloak を使った SSO で CockroachDB にログインする / CockroachDB SSO with Keycloak
kota2and3kan
0
160
OpenClaw を Amazon Lightsail で動かす理由
uechishingo
0
190
内製AIチャットボットで学んだDatadog LLM Observability活用術
mkdev10
0
130
Featured
See All Featured
VelocityConf: Rendering Performance Case Studies
addyosmani
333
24k
Mozcon NYC 2025: Stop Losing SEO Traffic
samtorres
0
180
The Spectacular Lies of Maps
axbom
PRO
1
630
Kristin Tynski - Automating Marketing Tasks With AI
techseoconnect
PRO
0
200
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
31
3.1k
Large-scale JavaScript Application Architecture
addyosmani
515
110k
Product Roadmaps are Hard
iamctodd
PRO
55
12k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
508
140k
Pawsitive SEO: Lessons from My Dog (and Many Mistakes) on Thriving as a Consultant in the Age of AI
davidcarrasco
0
89
Lightning talk: Run Django tests with GitHub Actions
sabderemane
0
150
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
659
61k
The SEO Collaboration Effect
kristinabergwall1
0
400
Transcript
自然言語処理研究室 B3 Seminar 2013 年度 第3週 ~機械学習について Part2 ~ クラスタリング
長岡技術科学大学 B3 竹野 峻輔
• 機械学習とは? – データから規則性や法則性を見出し – それ自身をアルゴリズムに反映させること • 機械学習の種類(教師有学習、教師無学習) • 教師有学習
– ナイーブベイズ分類器(尤もらしいものと予想する) – SVM(ベクトルの境界面を計算⇒2値で分類) • 教師なし学習 – クラスタリング 2014/1/22 自然言語処理研究室 2013年度 B3コアタイム 第3週 前回までの復習 –機械学習と自然言語処理について-
• 機械学習とは? – データから規則性や法則性を見出し – それ自身をアルゴリズムに反映させること • 機械学習の種類(教師有学習、教師無学習) • 教師有学習
– ナイーブベイズ分類器(尤もらしいものと予想する) – SVM(ベクトルの境界面を計算⇒2値で分類) • 教師なし学習 – クラスタリング ⇐ 本日はこれについて 2014/1/22 自然言語処理研究室 2013年度 B3コアタイム 第3週 前回までの復習 –機械学習と自然言語処理について-
• 似ているもの同士を機械的にまとめる。 – どんな塊りになるかはわからない・・・ • 人間の感覚(クラス分類)v.s. 計算機の分け方(クラスタリング) • 擬集型クラスタリング(ボトムアップクラスタリング) •
k-平均法(k-means法) • 混合正規分布によるクラスタリング 2014/1/22 自然言語処理研究室 2013年度 B3コアタイム 第3週 クラスタリング
− 2 2 = ∑ − 2 − ∞ =
max | − | ∙ • 階層的クラスタリング(Hierarchical clustering) – 近いものから順々に結合 – クラスタは階層構造になる。 近さ(点)の定義 ・ユークリッド, マンハッタン距離 ・最大距離(無限ノルム) ・マハラノビス距離 ・余弦類似度 近さ(クラスタ)の定義 ・最大距離, 最小距離, 重心距離, 最小エネルギー 2014/1/22 自然言語処理研究室 2013年度 B3コアタイム 第3週 擬集型クラスタリング(ボトムアップクラスタリング)
• クラスタ数kを決める。 • 適当にk個に分ける • 重心(代表ベクトル)を計算 – 一番近い代表ベクトルに合併。 – 重心移動:代表ベクトルの再計算
以上繰り返し 考えるよりも 実際に見てみましょう。 てっく煮:k-means びじゅあらいず http://tech.nitoyon.com/ja/blog/2009/04/09/kmeans-visualise/ 2014/1/22 自然言語処理研究室 2013年度 B3コアタイム 第3週 K-平均法(K-means )
• EMアルゴリズムの一種 • クラスタリングの判定が確率的 • 分布は正規分布 – 代表ベクトルからの距離が長いほど確率が低くなる。 2014/1/22 自然言語処理研究室
2013年度 B3コアタイム 第3週 混合正規分布(Gaussian Mixture) によるクラスタリング ; ) = |; ( ; ) = | ∑ ( )( |; ) 代表ベクトルはP(c|xi )の 重み付き平均で更新される。
2014/1/22 自然言語処理研究室 2013年度 B3コアタイム 第3週
• クラスタリングで似たもの通しで、一つに集める。 – どのようなかたまりにしたいか、考える必要がある。 • 一番の問題点となるのが、クラスタ数。 – 最小記述原理 等があるが結局は地道に調べるしかない •
計算量が大きい( O(n2)~ O(n3) ) – 反復処理であるた数値誤差が溜まりやすい – 対数を利用(longsumexp法による工夫必要) • 獲得したクラスタに対する評価が難しい – 他のタスクに役立つか否かで評価する 2014/1/22 自然言語処理研究室 2013年度 B3コアタイム 第3週 クラスタリングにおける問題点および注意点