Upgrade to Pro — share decks privately, control downloads, hide ads and more …

B3勉強会(2015年2月5日)機械学習とその手法

MIKAMI-YUKI
February 05, 2015

 B3勉強会(2015年2月5日)機械学習とその手法

MIKAMI-YUKI

February 05, 2015
Tweet

More Decks by MIKAMI-YUKI

Other Decks in Education

Transcript

  1. 長岡技術科学大学 B3 三上侑城
    3年勉強会 2015年2月5日
    機械学習とその手法
    自然言語処理研究室
    1

    View Slide

  2. 機械学習とは?
    機械に学習させ、人間の代わりに作業を
    やってもらう。
    答えが決まっている問題を解くことを目的
    としている。
    2

    View Slide

  3. なぜ機械に学習させるか
    人間にも解き方がわからないものは、その
    問題を解くプログラムを書くことは困難。
    機械学習のアプローチとして
    ・学習用のデータを大量に用意
    ・データから学習するプログラムを作成
    ・認識の部分をコンピュータに任せる
    3

    View Slide

  4. 二値分類
    機械学習において、最も基本的なタスク。
    入力に対して2つの値のどちらかを出力
    する問題。
    このようなプログラムを「識別器」、または
    「分類器」と言う。
    4

    View Slide

  5. 二値分類での学習データ
    先ほどの「識別器」「分類器」のプログラム
    を「classify」という関数とする。
    入力xと出力yの組の教師データを用意。
    例:(x
    1
    ,y
    1
    ) , (x
    2
    ,y
    2
    )
    x
    i
    に対してclassifyが返した結果とy
    i

    一致する回数を増やすことが目標
    5

    View Slide

  6. データをベクトルに変換
    入力となるデータをベクトルデータにする
    方法として、「bag of words」と呼ばれ
    る手法が有る。
    この方法では、文章を単語に区切って含
    まれる単語の数を数え、それぞれの単語
    に対応する次元に単語の出現回数を設
    定する。
    6

    View Slide

  7. bag of words
    「This is a pen」という文
    章においてベクトルに変換
    すると、
    「This」「is」「a」「pen」に
    対応するベクトルの次元は
    「3」「4」「9」「2」であったと
    した時、2,3,4,9の次元だ
    け1であり、他の次元は全
    て0になります。
    7
    次元 回数
    1 0
    2 1
    3 1
    4 1
    5 0
    6 0
    7 0
    8 0
    9 1
    10 0
    n x

    View Slide

  8. bag of words
    単純な方法ではあるが、多くの処理はこ
    の方法で上手くいく。
    単語に対応する次元を単語IDと呼ぶ。
    変換後のベクトルの次元は最も大きな単
    語IDと等しくなるため、ベクトルは数万~
    数十万次元となる。
    8

    View Slide

  9. 線形識別器
    各ベクトルに重みをつけることで、その文
    章を識別することができる。
    式は x・ω と表され、内積となる。
    (x:入力ベクトル ω:重みベクトル)
    このような判別器を線形識別器と呼ぶ。
    9

    View Slide

  10. 線形識別器のメカニズム
    例として「スパムメール判別」を考える。
    メールの内容をxとして、「無料」や「限
    定」といったワードの重みωを大きくする。

    内積がある一定以上の値になったらスパ
    ムメールと判断する。
    10

    View Slide

  11. パーセプトロン
    線形識別器として有名であるものに、
    「パーセプトロン」というものがある。
    学習方法として全てのデータに対し、
    ・うまく識別できているか試す。
    ・識別出来ない場合は、ωにyxを足す。
    11

    View Slide

  12. パーセプトロン 例
    例として、
    「今だけ限定無料」というスパムメールの
    学習データを用意する。
    ここでは内積の値が「3」以上になったら
    スパムメールだと判断する。
    12
    x(入力) ω(学習前) y(内積) ω(学習後) y(内積)
    今だけ 1 1
    1

    +yx
    2
    4
    限定 1 0 1
    無料 1 0 1

    View Slide

  13. パーセプトロン
    パーセプトロンのメリット
    ・実装が簡単
    ・処理が簡単
    パーセプトロンのデメリット
    ・他の手法に比べて制度が劣ることが多い
    13

    View Slide

  14. SVM
    SVM(サポートベクターマシン)はパーセプ
    トロンと同じく線形識別器の一つ
    高精度な分類がおこなえ、ノイズ耐性に
    強く安定しているため、現在でもよく使わ
    れている。
    14

    View Slide

  15. SVMにおける学習の目標
    SVMでは学習方法のやり方自体は定
    義しない。
    その代わりに目的関数という関数が与え
    られ、この関数の値を最小化することを
    最適化といい、これが学習の目的となる。
    15

    View Slide

  16. SVMの目的関数
    目的関数はパラメータとデータを引数に
    とって実数を返す関数。
    パラメータを変化させると目的関数の値
    が変わるため、SVMの場合にはそれを最
    小化することが目的となる。
    16

    View Slide

  17. 次回
    次回の発表ではSVMの続き、
    詳細を発表します。
    17

    View Slide

  18. ご視聴ありがとうございました
    参考文献
    日本語入力を支える技術
    著:徳永拓之 技術評論社 2012年3月
    18

    View Slide