Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
B3勉強会(2015年2月5日)機械学習とその手法
Search
MIKAMI-YUKI
February 05, 2015
Education
1
56
B3勉強会(2015年2月5日)機械学習とその手法
MIKAMI-YUKI
February 05, 2015
Tweet
Share
More Decks by MIKAMI-YUKI
See All by MIKAMI-YUKI
2016年_年次大会_発表資料
mikamiy
0
120
文献紹介_10_意味的類似性と多義解消を用いた文書検索手法
mikamiy
0
290
文献紹介_9_コーパスに基づく動詞の多義解消
mikamiy
0
110
文献紹介_8_単語単位による日本語言語モデルの検討
mikamiy
0
83
文献紹介_7_自動獲得した未知語の読み・文脈情報による仮名漢字変換
mikamiy
0
90
文献紹介_6_複数の言語的特徴を用いた日本語述部の同義判定
mikamiy
0
99
文献紹介_5_マイクロブログにおける感情・コミュニケーション・動作タイプの推定に基づく顔文字の推薦
mikamiy
0
120
文献紹介_4_結合価パターンを用いた仮名漢字変換候補の選択
mikamiy
0
390
文献紹介_3_絵本のテキストを対象とした形態素解析
mikamiy
1
410
Other Decks in Education
See All in Education
Introduction - Lecture 1 - Advanced Topics in Big Data (4023256FNR)
signer
PRO
1
1.7k
AWS Well-Architected Labを活用してつよつよAWSエンジニアになろう!!! #jawsug_tokyo
masakiokuda
0
310
Information Architectures - Lecture 2 - Next Generation User Interfaces (4018166FNR)
signer
PRO
0
1.4k
Flinga
matleenalaakso
2
14k
(説明資料)オンラインゆっくり相談室
ytapples613
PRO
0
250
1127
cbtlibrary
0
190
いにしえの国産データベース~桐~って知っていますか?
masakiokuda
2
110
Sähköiset kyselyt, kokeet ja arviointi
matleenalaakso
1
18k
オンラインゆっくり相談室ってなに?
ytapples613
PRO
0
320
1216
cbtlibrary
0
280
地図を活用した関西シビックテック事例紹介
barsaka2
0
180
Nodiレクチャー 「CGと数学」講義資料 2024/11/19
masatatsu
1
310
Featured
See All Featured
A Philosophy of Restraint
colly
203
16k
Site-Speed That Sticks
csswizardry
4
420
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
30
4.6k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
227
22k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
366
25k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
507
140k
Imperfection Machines: The Place of Print at Facebook
scottboms
267
13k
Statistics for Hackers
jakevdp
797
220k
Designing for Performance
lara
605
68k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
251
21k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
13
1k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
656
59k
Transcript
長岡技術科学大学 B3 三上侑城 3年勉強会 2015年2月5日 機械学習とその手法 自然言語処理研究室 1
機械学習とは? 機械に学習させ、人間の代わりに作業を やってもらう。 答えが決まっている問題を解くことを目的 としている。 2
なぜ機械に学習させるか 人間にも解き方がわからないものは、その 問題を解くプログラムを書くことは困難。 機械学習のアプローチとして ・学習用のデータを大量に用意 ・データから学習するプログラムを作成 ・認識の部分をコンピュータに任せる 3
二値分類 機械学習において、最も基本的なタスク。 入力に対して2つの値のどちらかを出力 する問題。 このようなプログラムを「識別器」、または 「分類器」と言う。 4
二値分類での学習データ 先ほどの「識別器」「分類器」のプログラム を「classify」という関数とする。 入力xと出力yの組の教師データを用意。 例:(x 1 ,y 1 ) ,
(x 2 ,y 2 ) x i に対してclassifyが返した結果とy i が 一致する回数を増やすことが目標 5
データをベクトルに変換 入力となるデータをベクトルデータにする 方法として、「bag of words」と呼ばれ る手法が有る。 この方法では、文章を単語に区切って含 まれる単語の数を数え、それぞれの単語 に対応する次元に単語の出現回数を設 定する。
6
bag of words 「This is a pen」という文 章においてベクトルに変換 すると、 「This」「is」「a」「pen」に
対応するベクトルの次元は 「3」「4」「9」「2」であったと した時、2,3,4,9の次元だ け1であり、他の次元は全 て0になります。 7 次元 回数 1 0 2 1 3 1 4 1 5 0 6 0 7 0 8 0 9 1 10 0 n x
bag of words 単純な方法ではあるが、多くの処理はこ の方法で上手くいく。 単語に対応する次元を単語IDと呼ぶ。 変換後のベクトルの次元は最も大きな単 語IDと等しくなるため、ベクトルは数万~ 数十万次元となる。 8
線形識別器 各ベクトルに重みをつけることで、その文 章を識別することができる。 式は x・ω と表され、内積となる。 (x:入力ベクトル ω:重みベクトル) このような判別器を線形識別器と呼ぶ。 9
線形識別器のメカニズム 例として「スパムメール判別」を考える。 メールの内容をxとして、「無料」や「限 定」といったワードの重みωを大きくする。 ↓ 内積がある一定以上の値になったらスパ ムメールと判断する。 10
パーセプトロン 線形識別器として有名であるものに、 「パーセプトロン」というものがある。 学習方法として全てのデータに対し、 ・うまく識別できているか試す。 ・識別出来ない場合は、ωにyxを足す。 11
パーセプトロン 例 例として、 「今だけ限定無料」というスパムメールの 学習データを用意する。 ここでは内積の値が「3」以上になったら スパムメールだと判断する。 12 x(入力) ω(学習前)
y(内積) ω(学習後) y(内積) 今だけ 1 1 1 → +yx 2 4 限定 1 0 1 無料 1 0 1
パーセプトロン パーセプトロンのメリット ・実装が簡単 ・処理が簡単 パーセプトロンのデメリット ・他の手法に比べて制度が劣ることが多い 13
SVM SVM(サポートベクターマシン)はパーセプ トロンと同じく線形識別器の一つ 高精度な分類がおこなえ、ノイズ耐性に 強く安定しているため、現在でもよく使わ れている。 14
SVMにおける学習の目標 SVMでは学習方法のやり方自体は定 義しない。 その代わりに目的関数という関数が与え られ、この関数の値を最小化することを 最適化といい、これが学習の目的となる。 15
SVMの目的関数 目的関数はパラメータとデータを引数に とって実数を返す関数。 パラメータを変化させると目的関数の値 が変わるため、SVMの場合にはそれを最 小化することが目的となる。 16
次回 次回の発表ではSVMの続き、 詳細を発表します。 17
ご視聴ありがとうございました 参考文献 日本語入力を支える技術 著:徳永拓之 技術評論社 2012年3月 18