Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
B3勉強会(2015年2月5日)機械学習とその手法
Search
MIKAMI-YUKI
February 05, 2015
Education
1
55
B3勉強会(2015年2月5日)機械学習とその手法
MIKAMI-YUKI
February 05, 2015
Tweet
Share
More Decks by MIKAMI-YUKI
See All by MIKAMI-YUKI
2016年_年次大会_発表資料
mikamiy
0
120
文献紹介_10_意味的類似性と多義解消を用いた文書検索手法
mikamiy
0
280
文献紹介_9_コーパスに基づく動詞の多義解消
mikamiy
0
110
文献紹介_8_単語単位による日本語言語モデルの検討
mikamiy
0
82
文献紹介_7_自動獲得した未知語の読み・文脈情報による仮名漢字変換
mikamiy
0
88
文献紹介_6_複数の言語的特徴を用いた日本語述部の同義判定
mikamiy
0
97
文献紹介_5_マイクロブログにおける感情・コミュニケーション・動作タイプの推定に基づく顔文字の推薦
mikamiy
0
120
文献紹介_4_結合価パターンを用いた仮名漢字変換候補の選択
mikamiy
0
390
文献紹介_3_絵本のテキストを対象とした形態素解析
mikamiy
1
410
Other Decks in Education
See All in Education
Requirements Analysis and Prototyping - Lecture 3 - Human-Computer Interaction (1023841ANR)
signer
PRO
0
850
Image compression
hachama
0
190
Kaggle 班ができるまで
abap34
1
220
LLMs for Social Simulation: Progress, Opportunities and Challenges
wingnus
1
120
自己紹介 / who-am-i
yasulab
PRO
2
4.3k
TP5_-_UV.pdf
bernhardsvt
0
120
Flinga
matleenalaakso
2
13k
ルクソールとツタンカーメン
masakamayama
1
1.1k
オープンソース防災教育ARアプリの開発と地域防災での活用
nro2daisuke
0
200
情報処理工学問題集 /infoeng_practices
kfujita
0
150
Казармы и гарнизоны
pnuslide
0
140
開発終了後こそ成長のチャンス!プロダクト運用を見送った先のアクションプラン
ohmori_yusuke
2
190
Featured
See All Featured
jQuery: Nuts, Bolts and Bling
dougneiner
61
7.5k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
48
2.2k
Designing Experiences People Love
moore
138
23k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
127
18k
Building Applications with DynamoDB
mza
91
6.1k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
29
2k
Optimizing for Happiness
mojombo
376
70k
How STYLIGHT went responsive
nonsquared
95
5.2k
Product Roadmaps are Hard
iamctodd
PRO
49
11k
The Cult of Friendly URLs
andyhume
78
6.1k
4 Signs Your Business is Dying
shpigford
181
21k
GraphQLとの向き合い方2022年版
quramy
44
13k
Transcript
長岡技術科学大学 B3 三上侑城 3年勉強会 2015年2月5日 機械学習とその手法 自然言語処理研究室 1
機械学習とは? 機械に学習させ、人間の代わりに作業を やってもらう。 答えが決まっている問題を解くことを目的 としている。 2
なぜ機械に学習させるか 人間にも解き方がわからないものは、その 問題を解くプログラムを書くことは困難。 機械学習のアプローチとして ・学習用のデータを大量に用意 ・データから学習するプログラムを作成 ・認識の部分をコンピュータに任せる 3
二値分類 機械学習において、最も基本的なタスク。 入力に対して2つの値のどちらかを出力 する問題。 このようなプログラムを「識別器」、または 「分類器」と言う。 4
二値分類での学習データ 先ほどの「識別器」「分類器」のプログラム を「classify」という関数とする。 入力xと出力yの組の教師データを用意。 例:(x 1 ,y 1 ) ,
(x 2 ,y 2 ) x i に対してclassifyが返した結果とy i が 一致する回数を増やすことが目標 5
データをベクトルに変換 入力となるデータをベクトルデータにする 方法として、「bag of words」と呼ばれ る手法が有る。 この方法では、文章を単語に区切って含 まれる単語の数を数え、それぞれの単語 に対応する次元に単語の出現回数を設 定する。
6
bag of words 「This is a pen」という文 章においてベクトルに変換 すると、 「This」「is」「a」「pen」に
対応するベクトルの次元は 「3」「4」「9」「2」であったと した時、2,3,4,9の次元だ け1であり、他の次元は全 て0になります。 7 次元 回数 1 0 2 1 3 1 4 1 5 0 6 0 7 0 8 0 9 1 10 0 n x
bag of words 単純な方法ではあるが、多くの処理はこ の方法で上手くいく。 単語に対応する次元を単語IDと呼ぶ。 変換後のベクトルの次元は最も大きな単 語IDと等しくなるため、ベクトルは数万~ 数十万次元となる。 8
線形識別器 各ベクトルに重みをつけることで、その文 章を識別することができる。 式は x・ω と表され、内積となる。 (x:入力ベクトル ω:重みベクトル) このような判別器を線形識別器と呼ぶ。 9
線形識別器のメカニズム 例として「スパムメール判別」を考える。 メールの内容をxとして、「無料」や「限 定」といったワードの重みωを大きくする。 ↓ 内積がある一定以上の値になったらスパ ムメールと判断する。 10
パーセプトロン 線形識別器として有名であるものに、 「パーセプトロン」というものがある。 学習方法として全てのデータに対し、 ・うまく識別できているか試す。 ・識別出来ない場合は、ωにyxを足す。 11
パーセプトロン 例 例として、 「今だけ限定無料」というスパムメールの 学習データを用意する。 ここでは内積の値が「3」以上になったら スパムメールだと判断する。 12 x(入力) ω(学習前)
y(内積) ω(学習後) y(内積) 今だけ 1 1 1 → +yx 2 4 限定 1 0 1 無料 1 0 1
パーセプトロン パーセプトロンのメリット ・実装が簡単 ・処理が簡単 パーセプトロンのデメリット ・他の手法に比べて制度が劣ることが多い 13
SVM SVM(サポートベクターマシン)はパーセプ トロンと同じく線形識別器の一つ 高精度な分類がおこなえ、ノイズ耐性に 強く安定しているため、現在でもよく使わ れている。 14
SVMにおける学習の目標 SVMでは学習方法のやり方自体は定 義しない。 その代わりに目的関数という関数が与え られ、この関数の値を最小化することを 最適化といい、これが学習の目的となる。 15
SVMの目的関数 目的関数はパラメータとデータを引数に とって実数を返す関数。 パラメータを変化させると目的関数の値 が変わるため、SVMの場合にはそれを最 小化することが目的となる。 16
次回 次回の発表ではSVMの続き、 詳細を発表します。 17
ご視聴ありがとうございました 参考文献 日本語入力を支える技術 著:徳永拓之 技術評論社 2012年3月 18