B3勉強会(2015年2月5日)機械学習とその手法

長岡技術科学大学 B3 三上侑城 3年勉強会 2015年2月5日機械学習とその手法自然言語処理研究室 1

機械学習とは？ 機械に学習させ、人間の代わりに作業をやってもらう。 答えが決まっている問題を解くことを目的としている。 2

なぜ機械に学習させるか 人間にも解き方がわからないものは、その問題を解くプログラムを書くことは困難。 機械学習のアプローチとして・学習用のデータを大量に用意・データから学習するプログラムを作成・認識の部分をコンピュータに任せる 3

二値分類 機械学習において、最も基本的なタスク。 入力に対して２つの値のどちらかを出力する問題。 このようなプログラムを「識別器」、または「分類器」と言う。 4

二値分類での学習データ 先ほどの「識別器」「分類器」のプログラムを「classify」という関数とする。 入力xと出力yの組の教師データを用意。例：(x 1 ,y 1 ) ,
(x 2 ,y 2 ) x i に対してclassifyが返した結果とy i が一致する回数を増やすことが目標 5

データをベクトルに変換 入力となるデータをベクトルデータにする方法として、「bag of words」と呼ばれる手法が有る。 この方法では、文章を単語に区切って含まれる単語の数を数え、それぞれの単語に対応する次元に単語の出現回数を設定する。
6

bag of words 「This is a pen」という文章においてベクトルに変換すると、「This」「is」「a」「pen」に
対応するベクトルの次元は「3」「4」「9」「2」であったとした時、2,3,4,9の次元だけ１であり、他の次元は全て0になります。 7 次元回数 1 0 2 1 3 1 4 1 5 0 6 0 7 0 8 0 9 1 10 0 n x

bag of words 単純な方法ではあるが、多くの処理はこの方法で上手くいく。 単語に対応する次元を単語IDと呼ぶ。 変換後のベクトルの次元は最も大きな単語IDと等しくなるため、ベクトルは数万～数十万次元となる。 8

線形識別器 各ベクトルに重みをつけることで、その文章を識別することができる。 式は x・ω と表され、内積となる。（x:入力ベクトル ω:重みベクトル） このような判別器を線形識別器と呼ぶ。 9

線形識別器のメカニズム 例として「スパムメール判別」を考える。メールの内容をxとして、「無料」や「限定」といったワードの重みωを大きくする。 ↓ 内積がある一定以上の値になったらスパムメールと判断する。 10

パーセプトロン 線形識別器として有名であるものに、「パーセプトロン」というものがある。 学習方法として全てのデータに対し、・うまく識別できているか試す。・識別出来ない場合は、ωにyxを足す。 11

パーセプトロン例 例として、「今だけ限定無料」というスパムメールの学習データを用意する。ここでは内積の値が「３」以上になったらスパムメールだと判断する。 12 x(入力) ω(学習前)
y(内積) ω(学習後) y(内積) 今だけ 1 1 1 → ＋yx 2 4 限定 1 0 1 無料 1 0 1

パーセプトロン パーセプトロンのメリット・実装が簡単・処理が簡単 パーセプトロンのデメリット・他の手法に比べて制度が劣ることが多い 13

SVM SVM(サポートベクターマシン)はパーセプトロンと同じく線形識別器の一つ 高精度な分類がおこなえ、ノイズ耐性に強く安定しているため、現在でもよく使われている。 14

SVMにおける学習の目標 SVMでは学習方法のやり方自体は定義しない。 その代わりに目的関数という関数が与えられ、この関数の値を最小化することを最適化といい、これが学習の目的となる。 15

SVMの目的関数 目的関数はパラメータとデータを引数にとって実数を返す関数。 パラメータを変化させると目的関数の値が変わるため、SVMの場合にはそれを最小化することが目的となる。 16

次回 次回の発表ではSVMの続き、詳細を発表します。 17

ご視聴ありがとうございました参考文献日本語入力を支える技術著：徳永拓之技術評論社 2012年3月 18

B3勉強会(2015年2月5日)機械学習とその手法

B3勉強会(2015年2月5日)機械学習とその手法

MIKAMI-YUKI

More Decks by MIKAMI-YUKI

Other Decks in Education

Featured

Transcript

長岡技術科学大学 B3 三上侑城 3年勉強会 2015年2月5日機械学習とその手法自然言語処理研究室 1

機械学習とは？ 機械に学習させ、人間の代わりに作業をやってもらう。 答えが決まっている問題を解くことを目的としている。 2

二値分類 機械学習において、最も基本的なタスク。 入力に対して２つの値のどちらかを出力する問題。 このようなプログラムを「識別器」、または「分類器」と言う。 4

二値分類での学習データ 先ほどの「識別器」「分類器」のプログラムを「classify」という関数とする。 入力xと出力yの組の教師データを用意。例：(x 1 ,y 1 ) ,

bag of words 「This is a pen」という文章においてベクトルに変換すると、「This」「is」「a」「pen」に

bag of words 単純な方法ではあるが、多くの処理はこの方法で上手くいく。 単語に対応する次元を単語IDと呼ぶ。 変換後のベクトルの次元は最も大きな単語IDと等しくなるため、ベクトルは数万～数十万次元となる。 8

線形識別器 各ベクトルに重みをつけることで、その文章を識別することができる。 式は x・ω と表され、内積となる。（x:入力ベクトル ω:重みベクトル） このような判別器を線形識別器と呼ぶ。 9

線形識別器のメカニズム 例として「スパムメール判別」を考える。メールの内容をxとして、「無料」や「限定」といったワードの重みωを大きくする。 ↓ 内積がある一定以上の値になったらスパムメールと判断する。 10

パーセプトロン 線形識別器として有名であるものに、「パーセプトロン」というものがある。 学習方法として全てのデータに対し、・うまく識別できているか試す。・識別出来ない場合は、ωにyxを足す。 11

パーセプトロン例 例として、「今だけ限定無料」というスパムメールの学習データを用意する。ここでは内積の値が「３」以上になったらスパムメールだと判断する。 12 x(入力) ω(学習前)

パーセプトロン パーセプトロンのメリット・実装が簡単・処理が簡単 パーセプトロンのデメリット・他の手法に比べて制度が劣ることが多い 13

SVM SVM(サポートベクターマシン)はパーセプトロンと同じく線形識別器の一つ 高精度な分類がおこなえ、ノイズ耐性に強く安定しているため、現在でもよく使われている。 14

SVMにおける学習の目標 SVMでは学習方法のやり方自体は定義しない。 その代わりに目的関数という関数が与えられ、この関数の値を最小化することを最適化といい、これが学習の目的となる。 15

SVMの目的関数 目的関数はパラメータとデータを引数にとって実数を返す関数。 パラメータを変化させると目的関数の値が変わるため、SVMの場合にはそれを最小化することが目的となる。 16

次回 次回の発表ではSVMの続き、詳細を発表します。 17

ご視聴ありがとうございました参考文献日本語入力を支える技術著：徳永拓之技術評論社 2012年3月 18