Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データサイエンス12_分類.pdf
Search
自然言語処理研究室
July 02, 2018
Education
0
300
データサイエンス12_分類.pdf
自然言語処理研究室
July 02, 2018
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
340
データサイエンス13_解析.pdf
jnlp
0
390
データサイエンス11_前処理.pdf
jnlp
0
410
Recurrent neural network based language model
jnlp
0
110
自然言語処理研究室 研究概要(2012年)
jnlp
0
100
自然言語処理研究室 研究概要(2013年)
jnlp
0
73
自然言語処理研究室 研究概要(2014年)
jnlp
0
75
自然言語処理研究室 研究概要(2015年)
jnlp
0
130
自然言語処理研究室 研究概要(2016年)
jnlp
0
140
Other Decks in Education
See All in Education
Human-AI Interaction - Lecture 11 - Next Generation User Interfaces (4018166FNR)
signer
PRO
0
110
AGU情報社会論 2024 #03 "CC BY-SA"
fullfull
0
140
week2@tcue2024
nonxxxizm
0
940
Materiales para Marketing Digital
navarromorales
0
1.5k
Ch9_-_Partie_2.pdf
bernhardsvt
0
110
Слайды блока№1 к мини-курсу "Разговорные фразы" по "Минифразу Гуннемарка" арабского языка
jameela
0
190
小・中・高等学校における情報教育の体系的な学習を目指したカリキュラムモデル案/curriculum model
codeforeveryone
0
240
Matz に頼られたので張り切って2時間ほどドイツと日本の互いの Ruby 学習事情についてディスカッションした話
yasulab
1
320
CULTURA I VALORS
cumclavis
PRO
1
170
2023年度「生成AI100校プロジェクト」 実践報告書/The 2023 "Generative AI 100 Schools Project" Practical Report
codeforeveryone
0
1.1k
2024年度春学期 統計学 第6回 データの関係を知る(1) ー 相関関係 (2024. 5. 16)
akiraasano
PRO
0
150
Case Studies and Course Review - Lecture 12 - Information Visualisation (4019538FNR)
signer
PRO
1
1.4k
Featured
See All Featured
Robots, Beer and Maslow
schacon
PRO
157
8.1k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
149
45k
From Idea to $5000 a Month in 5 Months
shpigford
377
46k
Typedesign – Prime Four
hannesfritz
37
2.2k
Why Our Code Smells
bkeepers
PRO
332
56k
Infographics Made Easy
chrislema
238
18k
Building Applications with DynamoDB
mza
89
5.8k
Java REST API Framework Comparison - PWX 2021
mraible
PRO
20
7.2k
Documentation Writing (for coders)
carmenintech
63
4.2k
Agile that works and the tools we love
rasmusluckow
325
20k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
44
4.7k
Designing on Purpose - Digital PM Summit 2013
jponch
113
6.6k
Transcript
Data Science
今日の内容 機械学習とは データ分類手法 決定木 最近傍法
SVM
machine learning
機械学習とは データを解析して、そこから何らかの規則性や知識など、有益な情報を獲得 するアルゴリズムの総称 データは大量にあることが前提 以前からある技術だが、データの整備、計算機の性能向上など、複数の要 因が近年に重なって一気に普及した。
「ビッグデータ」時代 AIブーム 人工知能の中心的技術ではあるが、機械学習のみが人工知能ではない。
教師あり学習と教師なし学習 教師あり学習 「教師データ」(正解)を付与したデータに基づく機械学習 例:ある人にとってある本が面白いかどうかのデータ。このデータを用いて未 知の本に対して面白いかどうか(=おすすめ本)を自動判別する。 一般に高コスト、ただし手作業での情報付与とは限らない
教師なし学習 「教師データ」が付与されていないデータに基づく機械学習 (教師あり学習と比較して)データは大規模だが低精度
分類と回帰 「教師データ」も2種類に分けることができる。 分類 いくつかの選択肢の中の一つ 例:スパムメール 回帰
ある値 例:明日の最高気温
その他の機械学習 半教師あり学習 教師ありと教師なしの中間 一部のデータにのみ正解が付与されている 強化学習
正解は付与されていない アルゴリズムの出力結果がどの程度正しそうかという情報「報酬」を得ること ができる
data classification
データを分類する 分類(classification) 未知の事例に対して、予め定義されたクラスのどれに所属するかを判断する処 理 クラス数は所与 教師あり学習
クラスタリング(clustering, クラスタ分析) 事例集合に対して、何らかの基準で類似するいくつかのクラスに分類する処理 クラス数は所与または自動決定 教師なし学習
決定木(けっていぎ, Decision Tree) データを木構造の形式で分類したもの エントロピー(乱雑さ)を分類基準に考える 解釈が容易
過学習しやすい=分類性能が(それほど)高くない これへの対処もいくつか検討されている
https://tokoname.mallkyujin.jp/contents/text/c106/
https://tokoname.mallkyujin.jp/contents/text/c106/ ファッ ション グッズ グル メ 美容 サービ ス 初対面の人とてもなんとなく話せる
〇 〇 〇 × × 好きなものから先に食べる × 〇 〇 〇 〇 お気に入りのお店は友達にも… × 〇 × × 〇 実は働きたくない 〇 〇 〇 〇 〇 ショッピングは色々比較してから… 〇 〇 × × 〇 一人よりも仲間とみんなでいる… × 〇 〇 〇 × 恋人とはLINEより電話で話したい 〇 〇 × × × 大勢の前でも緊張はしない 〇 × 〇 〇 × 自分のこだわりポイントは… 〇 × × × × ドタキャンされても気にしないほうだ × × 〇 〇 〇
最近傍法(k近傍法, k-nearest neighbor method) 「一番近いk個のサンプルを参考にクラスを決める」クラス分類法 最も lazy な機械学習手法
kの値によって結果が変わることがある
https://www.researchgate.net/figure/K-nearest-neighbor-algorithm-illustration-The-green-circle-is-the-sample-which-is-to-be_fig14_267953942
SVM(Support Vector Machine) N次元のベクトル(数値データ)を二値分類するための手法 決定木とは違って数値データのみが対象 マージン最大化
最も類似した項目(=サポートベクトル)をできるだけ明確に分類する仕組 み これはすなわち、SVMが統計的な分類手法ではないことも意味する カーネルトリック 分類しやすくするためにベクトルを高次元化するテクニック
http://www.bogotobogo.com/python/scikit-learn/scikit_machine_learning_Support_Vector_Machines_SVM.php
http://www.bogotobogo.com/python/scikit-learn/scikit_machine_learning_Support_Vector_Machines_SVM.php
https://towardsdatascience.com/understanding-the-kernel-trick-e0bc6112ef78
SVMで多値分類 one-vs-rest 法 one-vs-one 法
clustering
ハード/ソフトなクラスタリング ハードなクラスタリング 各事例はただ一つのクラスに属する ソフトなクラスタリング 各事例が複数のクラスに属することが許されている
クラスタリングの分類 凝集型(agglomerative) 事例数=クラス数が初期状態 だんだん凝集することでクラス数が減少していく 分割型(divisive)
初期状態は全事例が同一のクラスに所属する だんだん分割することでクラス数が増加していく
K-means (k平均法)アルゴリズム シンプルで効率的なクラスタリングアルゴリズム 初期シードを与え、収束するまで反復処理を繰り返す(次ページ)。 O(kn) (k:クラス数、n:事例数)の類似度比較を行う。通常、収束するま での反復処理の回数は非常に少ない。
問題:初期シードの与え方によって一般に結果が異なる。 対策1:シードを変えていろいろやってみる。 対策2:シードの与え方を少しまじめに考える。
https://rindalog.blogspot.com/2016/08/k-means.html
階層的凝集クラスタリング 初期化:すべての事例を異なったクラスに割り当てる 反復処理:最も類似度が高い2クラスを求め、それらを併合(1クラス 化)する。これを繰り返す。 終了条件:すべてが一つのクラスになるまで。 併合履歴はそのまま二分木になる
階層的凝集クラスタリング(続き) 類似度計算方法: 単一リンク:各事例対の類似度の中の最大値 完全リンク:各事例対の類似度の中の最小値 平均リンク:各事例対の類似度の平均値
重心:クラスの中心間の類似度
類似度とは何? ユークリッド距離:空間上の2点間の距離 , = ( − )2
コサイン類似度:ベクトルの角度(のコサイン値)