Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
B3勉強会(2015年2月5日)機械学習とその手法
Search
MIKAMI-YUKI
February 05, 2015
Education
1
56
B3勉強会(2015年2月5日)機械学習とその手法
MIKAMI-YUKI
February 05, 2015
Tweet
Share
More Decks by MIKAMI-YUKI
See All by MIKAMI-YUKI
2016年_年次大会_発表資料
mikamiy
0
130
文献紹介_10_意味的類似性と多義解消を用いた文書検索手法
mikamiy
0
310
文献紹介_9_コーパスに基づく動詞の多義解消
mikamiy
0
120
文献紹介_8_単語単位による日本語言語モデルの検討
mikamiy
0
88
文献紹介_7_自動獲得した未知語の読み・文脈情報による仮名漢字変換
mikamiy
0
96
文献紹介_6_複数の言語的特徴を用いた日本語述部の同義判定
mikamiy
0
100
文献紹介_5_マイクロブログにおける感情・コミュニケーション・動作タイプの推定に基づく顔文字の推薦
mikamiy
0
130
文献紹介_4_結合価パターンを用いた仮名漢字変換候補の選択
mikamiy
0
400
文献紹介_3_絵本のテキストを対象とした形態素解析
mikamiy
1
420
Other Decks in Education
See All in Education
検索/ディスプレイ/SNS
takenawa
0
5.9k
推しのコミュニティはなんぼあってもいい / Let's join a lot of communities.
kaga
2
1.7k
演習問題
takenawa
0
5.9k
Human-AI Interaction - Lecture 11 - Next Generation User Interfaces (4018166FNR)
signer
PRO
0
460
Implicit and Cross-Device Interaction - Lecture 10 - Next Generation User Interfaces (4018166FNR)
signer
PRO
2
1.7k
GitHubとAzureを使って開発者になろう
ymd65536
1
110
子どものためのプログラミング道場『CoderDojo』〜法人提携例〜 / Partnership with CoderDojo Japan
coderdojojapan
4
16k
Tangible, Embedded and Embodied Interaction - Lecture 7 - Next Generation User Interfaces (4018166FNR)
signer
PRO
0
1.7k
2025年度春学期 統計学 第2回 統計資料の収集と読み方(講義前配付用) (2025. 4. 17)
akiraasano
PRO
0
140
SkimaTalk Tutorial for Students
skimatalk
0
1.8k
小さなチャレンジが生んだチームの大きな変化 -私のふりかえり探求の原点
callas1900
0
540
登壇未経験者のための登壇戦略~LTは設計が9割!!!~
masakiokuda
3
520
Featured
See All Featured
The Cult of Friendly URLs
andyhume
79
6.5k
Learning to Love Humans: Emotional Interface Design
aarron
273
40k
Optimising Largest Contentful Paint
csswizardry
37
3.3k
Java REST API Framework Comparison - PWX 2021
mraible
31
8.7k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
26
2.9k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
32
2.4k
Facilitating Awesome Meetings
lara
54
6.4k
For a Future-Friendly Web
brad_frost
179
9.8k
How GitHub (no longer) Works
holman
314
140k
GraphQLとの向き合い方2022年版
quramy
49
14k
Imperfection Machines: The Place of Print at Facebook
scottboms
267
13k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
34
5.9k
Transcript
長岡技術科学大学 B3 三上侑城 3年勉強会 2015年2月5日 機械学習とその手法 自然言語処理研究室 1
機械学習とは? 機械に学習させ、人間の代わりに作業を やってもらう。 答えが決まっている問題を解くことを目的 としている。 2
なぜ機械に学習させるか 人間にも解き方がわからないものは、その 問題を解くプログラムを書くことは困難。 機械学習のアプローチとして ・学習用のデータを大量に用意 ・データから学習するプログラムを作成 ・認識の部分をコンピュータに任せる 3
二値分類 機械学習において、最も基本的なタスク。 入力に対して2つの値のどちらかを出力 する問題。 このようなプログラムを「識別器」、または 「分類器」と言う。 4
二値分類での学習データ 先ほどの「識別器」「分類器」のプログラム を「classify」という関数とする。 入力xと出力yの組の教師データを用意。 例:(x 1 ,y 1 ) ,
(x 2 ,y 2 ) x i に対してclassifyが返した結果とy i が 一致する回数を増やすことが目標 5
データをベクトルに変換 入力となるデータをベクトルデータにする 方法として、「bag of words」と呼ばれ る手法が有る。 この方法では、文章を単語に区切って含 まれる単語の数を数え、それぞれの単語 に対応する次元に単語の出現回数を設 定する。
6
bag of words 「This is a pen」という文 章においてベクトルに変換 すると、 「This」「is」「a」「pen」に
対応するベクトルの次元は 「3」「4」「9」「2」であったと した時、2,3,4,9の次元だ け1であり、他の次元は全 て0になります。 7 次元 回数 1 0 2 1 3 1 4 1 5 0 6 0 7 0 8 0 9 1 10 0 n x
bag of words 単純な方法ではあるが、多くの処理はこ の方法で上手くいく。 単語に対応する次元を単語IDと呼ぶ。 変換後のベクトルの次元は最も大きな単 語IDと等しくなるため、ベクトルは数万~ 数十万次元となる。 8
線形識別器 各ベクトルに重みをつけることで、その文 章を識別することができる。 式は x・ω と表され、内積となる。 (x:入力ベクトル ω:重みベクトル) このような判別器を線形識別器と呼ぶ。 9
線形識別器のメカニズム 例として「スパムメール判別」を考える。 メールの内容をxとして、「無料」や「限 定」といったワードの重みωを大きくする。 ↓ 内積がある一定以上の値になったらスパ ムメールと判断する。 10
パーセプトロン 線形識別器として有名であるものに、 「パーセプトロン」というものがある。 学習方法として全てのデータに対し、 ・うまく識別できているか試す。 ・識別出来ない場合は、ωにyxを足す。 11
パーセプトロン 例 例として、 「今だけ限定無料」というスパムメールの 学習データを用意する。 ここでは内積の値が「3」以上になったら スパムメールだと判断する。 12 x(入力) ω(学習前)
y(内積) ω(学習後) y(内積) 今だけ 1 1 1 → +yx 2 4 限定 1 0 1 無料 1 0 1
パーセプトロン パーセプトロンのメリット ・実装が簡単 ・処理が簡単 パーセプトロンのデメリット ・他の手法に比べて制度が劣ることが多い 13
SVM SVM(サポートベクターマシン)はパーセプ トロンと同じく線形識別器の一つ 高精度な分類がおこなえ、ノイズ耐性に 強く安定しているため、現在でもよく使わ れている。 14
SVMにおける学習の目標 SVMでは学習方法のやり方自体は定 義しない。 その代わりに目的関数という関数が与え られ、この関数の値を最小化することを 最適化といい、これが学習の目的となる。 15
SVMの目的関数 目的関数はパラメータとデータを引数に とって実数を返す関数。 パラメータを変化させると目的関数の値 が変わるため、SVMの場合にはそれを最 小化することが目的となる。 16
次回 次回の発表ではSVMの続き、 詳細を発表します。 17
ご視聴ありがとうございました 参考文献 日本語入力を支える技術 著:徳永拓之 技術評論社 2012年3月 18