機械学習とパラメタ調整による学習

2017/1/26 B3ゼミ機械学習とパラメタ調整による学習⻑岡技術科学⼤学⾃然⾔語処理研究室⼩川耀⼀朗 1

機械学習とは • インターネット社会の発展に伴い、コンピュータで扱うことのできるデータがインターネット上に⼤量に蓄積されるようになった • しかしこれらのデータはあまりにも⼤量すぎるため、⼈間が⼿作業でデータを閲覧しても、そのままでは役に⽴つことが少ない •
そこで、こうした⼤量のデータをコンピュータに学習させることで、単なる事実の羅列を役に⽴つ知識に変換を⾏う • このような⽅法をػցֶशと呼ぶ 2

⼈間の学習… • 学校に通って知識を⾝につけたり、物の考え⽅を教わったりする • 教えられた知識を元に、⾃ら考えることで⾃分⾃⾝を向上させる Ø 知識の増加、問題解決能⼒の向上学習とは
3

機械の学習… • ಺෦ঢ়ଶͷมԽに着⽬し、何らかの過程によって状態を変化させる挙動 Ø 機械学習とは ಺෦ঢ়ଶͷมԽΛੜͤ͡͞ΔΑ͏ͳڍಈ 学習とは 4

• Twitterの前回ログインからのできごと機能ユーザーがTwitterにログインしたとき、重要なニュースやツイートを表⽰する機能に、機械学習技術を⽤いている。 • 天気予報への応⽤膨⼤なデータから、経験則に基づく処理の⾃動化を⾏う
機械学習は有効機械学習の例 5

チェッカー（1950年代〜） • ⼈⼯知能の研究として、初期の頃から取り上げられてきた • プログラムに組み込んだ作戦を機械学習を利⽤して調整することで、⾃律的に強くなるパラメタ調整過去の⼈間同⼠の対戦結果などを参照して、ある局⾯で指した着⼿がその後の展開において良い⼿だったか
悪い⼿だったかを評価し、評価が良くなるようにパラメタを調整する機械学習の歴史(第1次⼈⼯知能ブーム) 6

エキスパートシステム（1970年代〜） • 特定分野に特化した専⾨知識のデータベースを元に推論を⾏い、その分野の専⾨家に近い判を下すことができる⼈⼯知能システム。 • 例えば、病気に関する知識がほとんどない患者が⾃分の病気を調べるためにエキスパートシステムを使う、といった、専⾨知識を持たない⼈が専⾨家の助けを借りる形での利⽤が考えられている。
• χϡʔϥϧωοτϫʔΫが注⽬される機械学習の歴史(第2次⼈⼯知能ブーム) 7

ニュートラルネットワーク • ⽣物の神経組織の挙動をモデルとして情報処理を⾏う仕組み • ⽣物の神経回路と同じように、セルとセルの間の結合から構成されている • セルは3つの層に分かれている • セルの間に結合の強さを⽰す結合荷重を与えたものをパーセプトロ
ンと⾔われる機械学習の歴史(第2次⼈⼯知能ブーム) 8 ⼊⼒出⼒刺激層連想層応答層

ディープラーニング（2000年代〜） • コンピューターの性能向上により、ニューラルネットワークの階層を4層、5層と増やし、精度の⾼い機械学習が実現可能になった • 2010年代からは、Ϗοάσʔλを扱うようになった機械学習の歴史(第3次⼈⼯知能ブーム) 9

ざっくり3種類 • 教師あり学習 • 教師なし学習 • 強化学習機械学習の種類 10

問題と答えのセットから傾向を学習し、新しいデータがどこに分類されるか予測する・分類問題・回帰問題教師あり学習 11

「出⼒すべきもの」があらかじめ決まっていないデータの背後に存在する本質的な構造を抽出するために⽤いられる・クラスタリング教師なし学習 12

• 遺伝的アルゴリズムが⽣物集団の進化をモデル化 • ⽣物が環境と相互作⽤し、⽣物の⾏動が環境に適合しているとใुを得る。 • 報酬に従って内部状態を変更し、環境に適合しようとする Ø 何かがうまくいったらその⽅法をよく使うようにする⽣物
環境⾏動報酬報酬が最⼤になるように内部状態を変更強化学習 13

実際にパラメタ調整による機械学習をやってみようインターネットを利⽤すると様々なデータを⼊⼿することができる Ø 気象庁のサイトから気象データを⼊⼿ Ø ⻑岡市の年ごとの⽇平均気温データから未来の気温を予想しようパラメタ調整による学習 14

⻑岡の気象データ(気象庁>過去の気象データ検索) 15

• 統計的⼿法において、学習データセットとして数値が与えられた時に、それらの数値を説明できるような数式を決定することを、ճؼ෼ੳという • 回帰分析の代表的な例に、࠷খೋ৐๏がある • 最⼩⼆乗法を⽤いて⼀次式の係数を求めることで、データの関係を機械学習するプログラムを考える最⼩⼆乗法による予測
16

⽤意： • 最⼩⼆乗法による⼀次式の係数を決定するプログラム：lsm.c • データから必要な⾏のみを取り出すプログラム：selectline.c • データから指定した位置の数値を取り出すプログラム：cutfield.c • ⾏番号をデータファイルに付け加えるプログラム：addnumber.c •
Webサイトからコピーした気象データ：rawdata.txt ⽇平均気温最⼩⼆乗法による予測 17

1、気象データから⽇平均気温だけを取り出す 2、X軸となる数値を付け加える 3、最⼩⼆乗法により回帰分析を⾏う最⼩⼆乗法による予測 18

1、気象データから⽇平均気温だけを取り出す ./selectline 2 < rawdata.txt | ./cutfield 5 > data.txt
2N⾏のみを抽出し、5列⽬のみを抽出。data.txtに保存最⼩⼆乗法による予測 19

2、X軸となる数値を付け加える ./addnumber 1976 < data.txt > lsmdata.txt 1976年から⾏番号を追加し、lsmdata.txtに保存最⼩⼆乗法による予測 20

3、最⼩⼆乗法により回帰分析を⾏う ./lsm < lsmdata.txt 最⼩⼆乗法による計算式の係数を決定するプログラムに気象データを挿⼊ = 12.206341 + 0.035819
最⼩⼆乗法による予測 21

10.0 10.5 11.0 11.5 12.0 12.5 13.0 13.5 14.0 14.5
15.0 1975 1985 1995 2005 2015 図⻑岡の年ごとの⽇平均気温の推移 100年後には約3.6度上昇する！？ = 12.206341 + 0.035819x 最⼩⼆乗法による予測 22

• 前年と⽐べて次の年の⽇平均気温がどうなるかについて、規則性を学習することを考える • 例えば、平均気温の低い年が続いたら次の年は気温が上がる、などの規則性を得る • 前年の気温と⽐べ、上昇してい
るなら＋、下降しているならーの記号で表す 1年⽬ 15.4 翌年 15.9 翌々年 15.4 4年⽬ 15.0 上昇：＋下降：ー下降：ー変動傾向の学習 23

⽤意： • 気温の変動を調べるプログラム：updown.c • updown.cを⽤いた年ごとの⽇平均気温データの⽐較結果：pm.txt 変動傾向の学習 24

• 過去3年間のデータ変動パターンを抽出する ⇨ 8パターン • 変動パターンが学習データセットに出現する頻度を数え上げる 2೥લ 1೥લ ౰೥
ස౓ ＋＋＋＋＋ー＋ー＋＋ーーー＋＋ー＋ーーー＋ーーー変動傾向の学習 25

前年までの変動パターンの結果から当年の変動を予測するプログラム：ml1.c • 各パターンの出現頻度を数え上げる • 2年前、1年前のパターンから当年の変動を予測する例： 2೥લ 1೥લ ౰೥
ස౓ ＋＋＋ 0 ＋＋ー 6 2೥લ 1೥લ ౰೥ ස౓ ＋ー＋ 9 ＋ーー 4 ＋、＋の後は＋にならない ⇨ ＋、＋と来たらーと予測する＋、ーの後は＋が多い ⇨ ＋、ーと来たら＋と予測する 26 変動傾向の学習

7 +65 14032 965 8-7 + 7 +65 14032 965
8-7 + 27 変動傾向の学習

7 +65 14032 965 8-7 + 7 +65 14032 965
8-7 + 2回連続で気温が低下/上昇した後の予測のように、特徴的な気温変化を⽰す場合の予測は良好 ⇨ 気温データの特徴が学習されている上昇と下降を繰り返すような場合は良い予測ができない ⇨ 気温データから注⽬するべき特徴が⾒つけられなかった 28 変動傾向の学習

• はじめての機械学習⼩⾼知宏著オーム社 • 気象庁 http://www.jma.go.jp/jma/index.html 29 参考⽂献

機械学習とパラメタ調整による学習

機械学習とパラメタ調整による学習

youichiro

More Decks by youichiro

Other Decks in Technology

Featured

Transcript

2017/1/26 B3ゼミ機械学習とパラメタ調整による学習⻑岡技術科学⼤学⾃然⾔語処理研究室⼩川耀⼀朗 1

⼈間の学習… • 学校に通って知識を⾝につけたり、物の考え⽅を教わったりする • 教えられた知識を元に、⾃ら考えることで⾃分⾃⾝を向上させる Ø 知識の増加、問題解決能⼒の向上学習とは

機械の学習… • ಺෦ঢ়ଶͷมԽに着⽬し、何らかの過程によって状態を変化させる挙動 Ø 機械学習とは ಺෦ঢ়ଶͷมԽΛੜͤ͡͞ΔΑ͏ͳڍಈ 学習とは 4

ざっくり3種類 • 教師あり学習 • 教師なし学習 • 強化学習機械学習の種類 10

問題と答えのセットから傾向を学習し、新しいデータがどこに分類されるか予測する・分類問題・回帰問題教師あり学習 11

「出⼒すべきもの」があらかじめ決まっていないデータの背後に存在する本質的な構造を抽出するために⽤いられる・クラスタリング教師なし学習 12

⻑岡の気象データ(気象庁>過去の気象データ検索) 15

1、気象データから⽇平均気温だけを取り出す 2、X軸となる数値を付け加える 3、最⼩⼆乗法により回帰分析を⾏う最⼩⼆乗法による予測 18

1、気象データから⽇平均気温だけを取り出す ./selectline 2 < rawdata.txt | ./cutfield 5 > data.txt

2、X軸となる数値を付け加える ./addnumber 1976 < data.txt > lsmdata.txt 1976年から⾏番号を追加し、lsmdata.txtに保存最⼩⼆乗法による予測 20

3、最⼩⼆乗法により回帰分析を⾏う ./lsm < lsmdata.txt 最⼩⼆乗法による計算式の係数を決定するプログラムに気象データを挿⼊ = 12.206341 + 0.035819

10.0 10.5 11.0 11.5 12.0 12.5 13.0 13.5 14.0 14.5

• 前年と⽐べて次の年の⽇平均気温がどうなるかについて、規則性を学習することを考える • 例えば、平均気温の低い年が続いたら次の年は気温が上がる、などの規則性を得る • 前年の気温と⽐べ、上昇してい

⽤意： • 気温の変動を調べるプログラム：updown.c • updown.cを⽤いた年ごとの⽇平均気温データの⽐較結果：pm.txt 変動傾向の学習 24

• 過去3年間のデータ変動パターンを抽出する ⇨ 8パターン • 変動パターンが学習データセットに出現する頻度を数え上げる 2೥લ 1೥લ ౰೥

前年までの変動パターンの結果から当年の変動を予測するプログラム：ml1.c • 各パターンの出現頻度を数え上げる • 2年前、1年前のパターンから当年の変動を予測する例： 2೥લ 1೥લ ౰೥

7 +65 14032 965 8-7 + 7 +65 14032 965

7 +65 14032 965 8-7 + 7 +65 14032 965

• はじめての機械学習⼩⾼知宏著オーム社 • 気象庁 http://www.jma.go.jp/jma/index.html 29 参考⽂献