Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
自然言語処理研究室B3ゼミ_03rdWeek
Search
takegue
January 19, 2014
Technology
0
170
自然言語処理研究室B3ゼミ_03rdWeek
機械学習について引き続き
takegue
January 19, 2014
Tweet
Share
More Decks by takegue
See All by takegue
不自然言語の自然言語処理: コード補完を支える最新技術
takegue
1
800
つかわれるプラットフォーム 〜デザイン編〜@DPM#2
takegue
2
11k
カルチャーとエンジニアリングをつなぐ データプラットフォーム
takegue
4
6.1k
toC企業でのデータ活用 (PyData.Okinawa + PythonBeginners沖縄 合同勉強会 2019)
takegue
4
940
Rettyにおけるデータ活用について
takegue
0
820
Sparse Overcomplete Word Vector Representations
takegue
0
180
Aligning Sentences from Standard Wikipedia to Simple Wikipedia
takegue
0
190
High-Order Low-Rank Tensors for Semantic Role Labeling
takegue
0
98
Dependency-based empty category detection via phrase structure trees
takegue
0
62
Other Decks in Technology
See All in Technology
Google Cloud Next '24 Recap(Cloud Run/k8s)
mokocm
0
260
Kernel MemoryでAzure OpenAI Serviceとお手軽データソース連携
mitsuzono
1
260
Python と Snowflake はズッ友だょ!~ Snowflake の Python 関連機能をふりかえる ~
__allllllllez__
1
130
VS CodeでAWSを操作しよう
smt7174
8
1.8k
FrontDoorとWebAppsを組み合わせた際のリダイレクト処理の注意点
kenichirokimura
1
640
TechFeed Experts Night#27 〜 フロントエンドフレームワーク最前線 (Svelte)
baseballyama
1
550
LLM開発・活用の舞台裏@2024.04.25
yushin_n
3
940
Gitlab本から学んだこと - そーだいなるプレイバック / gitlab-book
soudai
5
800
EM完全に理解した と思ったけど、 やっぱり何も分からなかった話 / EM Night Fukuoka #1
hirutas
0
110
R3のコードから見る実践LINQ実装最適化・コンカレントプログラミング実例
neuecc
2
980
EMとして2023年度に頑張ったこと / What we did well in FY2023 as a EM
pauli
1
180
ExaDB-D dbaascli で出来ること
oracle4engineer
PRO
0
2.1k
Featured
See All Featured
4 Signs Your Business is Dying
shpigford
175
21k
Optimising Largest Contentful Paint
csswizardry
8
2.4k
Being A Developer After 40
akosma
62
580k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
14
1.5k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
116
18k
Intergalactic Javascript Robots from Outer Space
tanoku
266
26k
The Illustrated Children's Guide to Kubernetes
chrisshort
31
46k
Documentation Writing (for coders)
carmenintech
60
3.9k
For a Future-Friendly Web
brad_frost
172
9k
Principles of Awesome APIs and How to Build Them.
keavy
121
16k
Side Projects
sachag
451
41k
Into the Great Unknown - MozCon
thekraken
10
1k
Transcript
自然言語処理研究室 B3 Seminar 2013 年度 第3週 ~機械学習について Part2 ~ クラスタリング
長岡技術科学大学 B3 竹野 峻輔
• 機械学習とは? – データから規則性や法則性を見出し – それ自身をアルゴリズムに反映させること • 機械学習の種類(教師有学習、教師無学習) • 教師有学習
– ナイーブベイズ分類器(尤もらしいものと予想する) – SVM(ベクトルの境界面を計算⇒2値で分類) • 教師なし学習 – クラスタリング 2014/1/22 自然言語処理研究室 2013年度 B3コアタイム 第3週 前回までの復習 –機械学習と自然言語処理について-
• 機械学習とは? – データから規則性や法則性を見出し – それ自身をアルゴリズムに反映させること • 機械学習の種類(教師有学習、教師無学習) • 教師有学習
– ナイーブベイズ分類器(尤もらしいものと予想する) – SVM(ベクトルの境界面を計算⇒2値で分類) • 教師なし学習 – クラスタリング ⇐ 本日はこれについて 2014/1/22 自然言語処理研究室 2013年度 B3コアタイム 第3週 前回までの復習 –機械学習と自然言語処理について-
• 似ているもの同士を機械的にまとめる。 – どんな塊りになるかはわからない・・・ • 人間の感覚(クラス分類)v.s. 計算機の分け方(クラスタリング) • 擬集型クラスタリング(ボトムアップクラスタリング) •
k-平均法(k-means法) • 混合正規分布によるクラスタリング 2014/1/22 自然言語処理研究室 2013年度 B3コアタイム 第3週 クラスタリング
− 2 2 = ∑ − 2 − ∞ =
max | − | ∙ • 階層的クラスタリング(Hierarchical clustering) – 近いものから順々に結合 – クラスタは階層構造になる。 近さ(点)の定義 ・ユークリッド, マンハッタン距離 ・最大距離(無限ノルム) ・マハラノビス距離 ・余弦類似度 近さ(クラスタ)の定義 ・最大距離, 最小距離, 重心距離, 最小エネルギー 2014/1/22 自然言語処理研究室 2013年度 B3コアタイム 第3週 擬集型クラスタリング(ボトムアップクラスタリング)
• クラスタ数kを決める。 • 適当にk個に分ける • 重心(代表ベクトル)を計算 – 一番近い代表ベクトルに合併。 – 重心移動:代表ベクトルの再計算
以上繰り返し 考えるよりも 実際に見てみましょう。 てっく煮:k-means びじゅあらいず http://tech.nitoyon.com/ja/blog/2009/04/09/kmeans-visualise/ 2014/1/22 自然言語処理研究室 2013年度 B3コアタイム 第3週 K-平均法(K-means )
• EMアルゴリズムの一種 • クラスタリングの判定が確率的 • 分布は正規分布 – 代表ベクトルからの距離が長いほど確率が低くなる。 2014/1/22 自然言語処理研究室
2013年度 B3コアタイム 第3週 混合正規分布(Gaussian Mixture) によるクラスタリング ; ) = |; ( ; ) = | ∑ ( )( |; ) 代表ベクトルはP(c|xi )の 重み付き平均で更新される。
2014/1/22 自然言語処理研究室 2013年度 B3コアタイム 第3週
• クラスタリングで似たもの通しで、一つに集める。 – どのようなかたまりにしたいか、考える必要がある。 • 一番の問題点となるのが、クラスタ数。 – 最小記述原理 等があるが結局は地道に調べるしかない •
計算量が大きい( O(n2)~ O(n3) ) – 反復処理であるた数値誤差が溜まりやすい – 対数を利用(longsumexp法による工夫必要) • 獲得したクラスタに対する評価が難しい – 他のタスクに役立つか否かで評価する 2014/1/22 自然言語処理研究室 2013年度 B3コアタイム 第3週 クラスタリングにおける問題点および注意点