AI・機械学習応用論2020

AI・機械学習応用論山本祐輔静岡大学情報学部講師 [email protected] 出張講座2020 2020年11月11日本スライドは，クリエイティブ・コモンズ・ライセンス国際4.0のもとで，
ライセンスされています．

講義スタイル Hands-onデモ with Python 0：00 1:30 0：30 座学デモ &
演習座学デモ & 演習座学デモ & 演習座学座学クラスタリングはじめての機械学習時系列分析 1コマの構成「各種分析⼿法を使うと何が起こるか」の体験に焦点を当てる 1日の構成上記スタイルで4つのトピックを学習 2 機械学習応用事例

講座で使⽤するもの（1/2）配布スライド（座学用） Google Colaboratory 3

講座で使⽤するもの（2/2） https://b.hontolab.org/35GxX0o 演習⽤の電⼦資料 4

データ分析技術（in データ⼯学）の⼀般的な学習トピックデータラングリング類似度・距離関数クラスタリング例外発⾒回帰・分類テキストデータグラフ (ネットワーク)
時系列データストリームデータ空間データ汎用テクニックデータ特化型マイニング … データ可視化本講座の目標・実践的 & 汎用性が高いテクニックの直感的理解・ケースに応じたデータ分析技術の選択 5 …

本講座で学ぶ4つの技術 1. K-means(K平均法) 2. 階層的クラスタリング 3. 決定木 4. 時系列分析 6

本講座で学ぶ4つの技術 1. K-means(K平均法) 2. 階層的クラスタリング 3. 決定木 4. 時系列分析 A
B D C E F G H I A B D C E F G H I N個のグループに分割類似データを指定のグループ数に強引に分割 7

本講座で学ぶ4つの技術 1. K-means(K平均法) 2. 階層的クラスタリング 3. 決定木 4. 時系列分析 A
B D C E F G H I A B D C E F G H I 徐々にデータをマージ類似データを徐々にグルーピング 8

本講座で学ぶ4つの技術 1. K-means(K平均法) 2. 階層的クラスタリング 3. 決定木 4. 時系列分析結果を予測するための分岐ルールを構築
毒柄色柄形臭いあり紫直線ありなし朱末広刺激 … … … … キノコの記録毒キノコを分類するルールを抽出臭いありなし柄の色が緑 yes no 毒あり1% 毒あり100% … 9

本講座で学ぶ4つの技術 1. K-means(K平均法) 2. 階層的クラスタリング 3. 決定木 4. 時系列分析時間に紐付いたデータからデータの
⽣成過程を分析し，将来を予測 10 時系列モデルの構築計測日購買数イベント 2020-10-1 279 無 2020-10-2 376 無 2020-10-3 677 有 … … … 商品Xの購買数時間⽉曜⽇周期性⽔⼟

本⽇の講座でやらないこと l各種データ分析技術の数学的理解 l最適化（パラメータチューニング） l分析結果の評価方法 l前処理（データラングリング） lディープラーニングの詳細解説 11

参考図書画像出典2: https://www.amazon.co.jp/dp/B07GYS3RG7/ 画像出典1: https://www.amazon.co.jp/dp/B00MWODXX8 12

1 指定されたグループ数に強引にデータを分割する K-meansクラスタリング

データを幾つかのクラスタに分割する手法何らかの条件で類似するデータの集合クラスタリングとは？ X Y 0 14

私たちはどうやってグルーピングを⾏っているか？（1/2）私たちは，直感的には何にもとづき以下のデータをグルーピングするか？ Q. X Y 0 15

私たちはどうやってグルーピングを⾏っているか？（2/2）点と点の間の距離 A. X Y 0 がある程度⼩さければ同じグループと⾒なす．近い遠い
遠い 16

クラスタリングのアプローチ 1. 距離を計算できるようにデータを表現 2. 距離を定義し，データ間の距離を計算 3. 距離をもとにあるルールでデータをまとめる鳴き声の⾼さ 0 鳴き声の⼤きさ
鳴き声の⾼さ鳴き声の⼤きさ XY平⾯上での距離が近いものをまとめる 17

クラスタリングのアプローチ 1. 距離を計算できるようにデータを表現 2. 距離を定義し，データ間の距離を計算 3. 距離をもとにあるルールでデータをまとめる鳴き声の⾼さ 0 鳴き声の⼤きさ
鳴き声の⾼さ鳴き声の⼤きさ XY平⾯上での距離が近いものをまとめるポイントクラスタリング手法の違いはデータをまとめるルールにある 18

K-meansクラスタリングの概要 A B D C E F G H I
A B D C E F G H I 入力・ベクトルの集合（表データ）・クラスタ数出力各ベクトルが所属するクラスタ利用するケースデータを決まった数のグループに分けたいとき 19 N個のグループに分割

K-meansクラスタリングの利⽤例（1/2）出典： https://mercan.mercari.com/articles/2016-06-21-160000/ 「社会⼈？」クラスタの平均傾向「主婦？」クラスタの平均傾向メルカリを使う時間帯によってメルカリユーザを9つのグループに分割 ※ ユーザは「時間帯ごとのアクセス回数の⽐率」でベクトル化 20

K-meansクラスタリングの利⽤例（2/2）画像出典：https://jp.mathworks.com/help/images/color-based-segmentation-using-k-means-clustering.html 細胞の画像を各ピクセルの色の近さを考慮して K-meansクラスタリング．細胞核とそうでない箇所に分割 21

K-meansの直感的アイデア＋＋＋⾚クラスタの重⼼が最も近いので⾚に割り当て各クラスタの重心との距離を計算し，距離が最も近いクラスタに割り当てるある点をどのクラスタに割り当てるか？ 22

K-meansのアルゴリズム（1/12）各データをランダムにクラスタに割り当て 1. 23

K-meansのアルゴリズム（2/12）各データをランダムにクラスタに割り当て 1. 24

K-meansのアルゴリズム（3/12）各クラスタの重心を計算する 2. ＋＋＋ 25

K-meansのアルゴリズム（4/12）すべての点について，先ほど計算したクラスタ重心との距離を計算し，最も距離が小さくなるクラスタに再割り当て 3. ＋＋ 26 ＋

K-meansのアルゴリズム（7/12）すべての点のクラスタ割り当てが変わらなくなるまでステップ2と3を繰り返す 4. ＋＋＋ 29

K-meansのアルゴリズム（12/12）＋＋＋すべての点のクラスタ割り当てが変わらなくなるまでステップ2と3を繰り返す 4. 34

Hands-on & 演習タイム以下のURLにアクセスして， K-meansクラスタリングを体験しましょう https://b.hontolab.org/3mL2Xn4 35

2 類似するデータを徐々にグルーピングする階層的クラスタリング

階層的クラスタリングの概要入力ベクトルの集合（表データ）出力各ベクトルが所属するクラスタ & その階層図（デンドログラム）利用するケース A B
D C E F G H I A B D C E F G H I 類似データを徐々にマージ・クラスタ数を柔軟に決めたいとき・クラスタが分かれていく様を確認したいとき 37

階層的クラスタリングの利⽤例出典：https://www.macromill.com/service/data_analysis/cluster-analysis.html 寿司ネタの選好度データから寿司ネタをクラスタリング 38

階層的クラスタリングの直感的アイデア「クラスタ距離が最も近いクラスタ同士を併合する」操作を繰り返し，徐々にクラスタを大きくする最も近いクラスタ 39

階層的クラスタリングのアルゴリズム（1/14）各データを個々のクラスタとして初期化 1. G B C D A H E
I F 40

階層的クラスタリングのアルゴリズム（2/14）各データを個々のクラスタとして初期化 1. G B C D A H E
I F 41

階層的クラスタリングのアルゴリズム（3/14） G B C D A H E I F
すべての点間の距離を計算し，最も近い点同士をクラスタとして併合 2. 42

最も近い点すべての点間の距離を計算し，最も近い点同士をクラスタとして併合 2. 43

最新のクラスタ情報にもとづき，すべてのクラスタ間の距離を計算し，最も近いクラスタ同士をクラスタとして併合 3. 44

階層的クラスタリングのアルゴリズム（6/14）最新のクラスタ情報にもとづき，すべてのクラスタ間の距離を計算し，最も近いクラスタ同士をクラスタとして併合 3. G B C D A
H E I F 最もクラスタ（点） 45

階層的クラスタリングのアルゴリズム（7/14）すべての点が1つのクラスタに併合されるまでステップ3の操作を繰り返す 4. G B C D A H
E I F 46

E I F 47

E I F 48

E I F 49

E I F 50

E I F 51

E I F 52

E I F 53

デンドログラム • クラスタが併合されていく様子を表した樹形図 • 適当な高さで木を切ることで，任意の数のクラスタを抽出可 A E H B D
G I C F 54

素朴な疑問1 クラスタ間の距離はどう計算（定義）するのか？ Q. D A H E ？ 55

クラスタ間の距離の定義（1/3）最長距離法最短距離法 B A C D E B A
C D E クラスタの要素間の最⻑距離クラスタの要素間の最短距離 ◦ 計算コストが⼩さい × クラスタ同⼠が離れやすい ◦ 計算コストが⼩さい × クラスタが鎖状になりやすい 56

クラスタ間の距離の定義（2/3）重心法（セントロイド法） B A C D E クラスタの重⼼間の距離 × 計算コストが⼤きい
× 平均化により要素の散らばり情報が失われる × × 57

クラスタ間の距離の定義（3/3） B A C D E B A F G
I H ウォード法 • 2つのクラスタを併合したと仮定したときの，クラスタ内の要素の散らばり具合 < • 計算コストは⾼いが，分類感度がよい × × 58

素朴な疑問2 データ点の距離はどう計算（定義）するのか？ Q. B A ？ 59

実数値ベクトルの距離（1/2） A B 数学：80点英語：70点数学：50点英語：90点 AさんとBさんの距離はどの程度？（どれくらい類似？） Q.
? 60

実数値ベクトルの距離（2/2）数学英語 • • A B 数学英語 •
• A B ユークリッド距離・⼀般的に使われる距離・直線的な距離コサイン類似度・ベクトルの⾓度・傾向の類似性を評価 61

カテゴリ値ベクトルの距離（1/2） B AさんとBさんの距離はどの程度？（どれくらい類似？） Q. ? A Aさんの好きな寿司ネタ Bさんの好きな寿司ネタはまち
あじたまごイクラたまごバイ貝イクラ 62

カテゴリ値ベクトルの距離（2/2）ジャカード係数 2つの集合に含まれる要素のうち共通する要素の割合たまごはまちイクラたまごあじバイ⾙イクラ
＝ 5 2 63

Hands-on & 演習タイム以下のURLにアクセスして，階層的クラスタリングを体験しましょう https://b.hontolab.org/2TJd9jh 64

クラスタリング⼿法の⽐較 K-means 階層的クラスタリングケースクラスタ数を指定してデータを分割したいデータが分割される様子を確認したいクラスタ数の指定 Yes
No 計算量 ◦ △ クラスタの形状超球状超球状（クラスタ距離の定義による）メリット良い意味で単純クラスタが作られる様子が把握できる（デンドログラム）デメリットクラスタ数の指定が必要データ数が多いと解釈が難しい 65

より性能がよいクラスタリング⼿法 K-means X-means EMアルゴリズムクラスタ数指定なし & ⾼速化 • データが複数クラスタに属してもOK •
クラスタの形状を柔軟に 66

3 結果を予測するためのルールを構築決定木から始める機械学習

AI! ⼈⼯知能! ディープラーニング!! ???? 画像出典：NHKスペシャル「AIに聞いてみたどうすんのよ!? ニッポン」画像出典：https://www.amazon.co.jp/dp/B07JYYCG1D 68

⼈⼯知能（AI）人工知能強いAI 弱いAI （Artificial Intelligence）⼈間のような⾃意識を持ち，⼈間のような知能をもって作業が可能な機械⼈間の知的処理の⼀部を模倣する特定問題解決器
・現在行われているAI研究の大半は弱いAIの研究参考：⼈⼯知能研究（https://www.ai-gakkai.or.jp/whatsai/AIresearch.html）・強いAI研究の成果（e.g. 推論）も人間の知能には遠く及ばず 69

⼈⼯知能の研究トピック人工知能推論探索機械学習知識表現 … 教師あり学習教師なし学習強化学習
・クラスタリング・データ圧縮・分類・回帰 70

分類問題画像出典：https://ja.wikipedia.org/wiki/ハタタテダイ全長が25cmくらいで，長く伸びた白いヒレ．白い体に2本の黒い帯．背びれが黄色い．この特徴がある魚は「ハタタテダイ」！対象を分類する特徴を機械にどう学習させるか？ 71

教師あり学習（1/2）ふぐブリ鯛鰹大量のラベル付データ機械学習アルゴリズム ◦◦の識別に必要となる特徴と分類ルール
画像出典: https://jp.mathworks.com/help/deeplearning/examples/visualize-features-of-a-convolutional-neural-network.html 全長が25cmくらいで，長く伸びた白いヒレ．白い体に2本の黒い帯．背びれが黄色い．これは「ハタタテダイ」大量のラベル（答え）付データを与えてラベルを分類する特徴とルールを抽出（学習）する 72

教師あり学習（2/2）ふぐブリ鯛鰹大量のラベル付データ機械学習アルゴリズム画像出典: https://jp.mathworks.com/help/deeplearning/examples/visualize-features-of-a-convolutional-neural-network.html
大量のラベル（答え）付データを与えてラベルを分類する特徴とルールを抽出（学習）する⼈間が理解できる必要はない ◦◦の識別に必要となる特徴と分類ルール 73

LINNE LENS 画像出典：https://global-square.com/blog/linne-lens_display_fish_info/ 74

教師あり学習の歴史ロジスティック回帰サポートベクタマシン With カーネルトリック ID3（決定木）パーセプトロン単純ベイズ分類器ランダムフォレスト k-近傍法
ベイジアンネットワーク深層学習 1958年 1957年 1951年 1979年 1985年 1992年 1960年代 2001年 2010年代本講座で学ぶのはコレ（初学者が勉強しやすい） 76

決定⽊の概要入力分類ラベルのついたベクトルの集合（表データ）出力ラベルを予測するためのルールを要約した⽊利用するケース予測モデルに加えて，分類ルールを確認したいとき
毒柄色柄形臭いあり紫直線ありなし朱末広刺激 … … … … キノコの記録毒キノコを分類するルールを抽出臭いありなし柄の色が緑 yes no 毒あり1% 毒あり100% … 77

決定⽊アルゴリズムの直感的アイデア分類ルールを仮適応したときにデータの不純度が最も小さくなるような特徴と閾値を選ぶ柄の⾊が緑有毒無毒データの割合有毒無毒データの割合
YES NO カサの裏にヒダ有毒無毒データの割合有毒無毒データの割合 YES NO vs. 78

決定⽊アルゴリズムの直感的アイデア分類ルールを仮適応したときにデータの不純度が最も小さくなるような特徴と閾値を選ぶ柄の⾊が緑有毒無毒データの割合有毒無毒データの割合
YES NO カサの裏にヒダ有毒無毒データの割合有毒無毒データの割合 YES NO > 分類後のデータの不純度 79

決定⽊のアルゴリズム 1. 3. ステップ2で選択したルールでデータを分割 2. 4. 5. 分割の必要がなくなったら終了全データについて，各特徴による分割パターンをすべて調査
データの不純度にもとづき，最適な分割ルールをひとつ選択分割されたデータ群に対して，上記⼿順を繰り返し適⽤ 80

予測⽊の成⻑の抑制（1/2）予測木をできるだけ汎用的にするために木の大きさを制限する（過学習の防止） • ⽊の葉っぱに含まれているデータの数 • 不純度の変化量 • ⽊の深さ •
⽊の葉っぱでの誤り率 81

予測⽊の成⻑の抑制（2/2）ここの深さまで木の深さで制限わざわざ点を分けても不純度がほとんど変化しない深すぎ不純度の変化量で制限予測木をできるだけ汎用的にするために木の大きさを制限する（過学習の防止） 82

予測⽊の成⻑の抑制（2/2）ここの深さまで木の深さで制限不純度の変化量で制限わざわざ点を分けても不純度がほとんど変化しない深すぎ予測木をできるだけ汎用的にするために木の大きさを制限する（過学習の防止） 83

Hands-on & 演習タイム以下のURLにアクセスして，決定木による教師あり学習を体験しましょう https://b.hontolab.org/3oMqm9b 84

機械学習の精度を⾼めるポイント良質なデータ学習データがゴミなら結果もゴミデータクリーニングデータには⽋損しているものや不正なものが含まれるものしばしばデータ変換データの形式，単位，散らばり具合を考慮したデータ補正が重要パラメータチューニングアルゴリズムの性能を最⼤限引き出すには，調整が必要適切な手法の選択
データの性質を考慮した適切な学習アルゴリズムを選択すべし 85

おススメの機械学習アルゴリズム（1/3）ロジスティック回帰サポートベクタマシン With カーネルトリック ID3（決定木）パーセプトロン単純ベイズ分類器ランダムフォレスト k-近傍法
ベイジアンネットワーク深層学習 1958年 1957年 1951年 1979年 1985年 1992年 1960年代 2001年 2010年代 86

おススメの機械学習アルゴリズム（2/3） Q. ある程度データがあり，⼿軽に精度よく予測したい!! A. ランダムフォレスト Q. どんな特徴量が予測に効いているのか知りたい!! A. ランダムフォレスト 87

おススメの機械学習アルゴリズム（3/3） Q. 超⼤量にデータはあり，可能な限り精度を出したい!! A. ディープラーニング（計算資源と計算時間が必要） Q. データ数が少ないが，精度よく予測したい!! A. サポートベクターマシン
（パラメータチューニングが必要）これらの方針は絶対ではないので，データ特性をふまえて手法を選択する必要あり 88

4 未来に影響する要因を明らかにする時系列分析

時刻「インフルエンザ」のページ閲覧数 2021 2022 時系列分析とは？ 90 時間経過に沿って計測したデータからデータ生成過程の構造を明らかにし，将来を予測季節周期
（= 時系列モデル）

時刻「インフルエンザ」のページ閲覧数 2021 2022 時系列分析とは？ 91 時間経過に沿って計測したデータからデータ生成過程の構造を明らかにし，将来を予測全体的に上昇傾向

時系列分析とは？ 92 時間経過に沿って計測したデータからデータ生成過程の構造を明らかにし，将来を予測時刻「インフルエンザ」のページ閲覧数 2021 2022 予測結果

時系列分析の概要入力ベクトル(表)データ with 計測時間出力時系列モデル（周期性・トレンドの有無などを表す数式）利用するケース時系列モデルの構築
・将来予測・急激な変化をした時間の検出（変化点検出） 93 ・変動要因の把握計測日購買数イベント 2020-10-1 279 無 2020-10-2 376 無 2020-10-3 677 有 … … … 商品Xの購買数時間⽉曜⽇周期性⽔⼟

応⽤例 94 エリアごとに次週の配車台数を予想 https://medium.com/@Vishwacorp/timeseries-forecasting-uber-demand-in-nyc-54dcfcdfd1f9

応⽤例 95 エリアごとに次週の配車台数を予想 https://medium.com/@Vishwacorp/timeseries-forecasting-uber-demand-in-nyc-54dcfcdfd1f9

回帰分析（1/2） 96 平均歩数/⽇寿命寿命 = a × 平均歩数 +
b 説明変数⽬的変数目的変数と説明変数の関係を示す数式を見つけるモデル

回帰分析（2/2） 97 x1 y = ! ! + "
" + ⋯ 単回帰モデル（数式の係数を求める）目的変数と説明変数の関係を示す数式を見つける x1 重回帰モデル⼀般化線形回帰モデル …

回帰分析→時系列分析？ 98 x y 時間t y 回帰分析⾮時系列データ時系列データ時間を説明変数にして回帰分析すれば
時系列分析は万事解決？

⾮系列データに対する回帰分析がやっていること（1/2） 99 寿命 (y) 平均歩数 (x1) 平均⻭磨き回数 (x2) 既知データ説明変数と目的変数
の関係を見つける

⾮系列データに対する回帰分析がやっていること（2/2） 100 … ? … … yが未知データ寿命 (y) 平均歩数
(x1) 平均⻭磨き回数 (x2) 既知データ既知既知回帰モデルを既知の説明変数に適応し，未知変数を予想「目的変数は対応する説明変数にのみ依存」と仮定

時系列データの背後にあるルール 101 株価 (y) TV出演の有無(x) 既知データ時刻(t) ある時刻の目的変数は「過去の状態」にも依存

⾃⼰相関・偏⾃⼰相関（1/2） 102 航空会社乗客数⽉
周期性があるデータは（偏）自己相関スコアに特徴あり⼀定時刻前のデータとの相関関係参考：https://stat.ethz.ch/R-manual/R-devel/library/datasets/html/AirPassengers.html

⾃⼰相関・偏⾃⼰相関（2/2） 103 ⾃⼰相関グラフ偏⾃⼰相関グラフ（⾃⼰相関から⽐較対象以外の影響を除いたもの） 1ヶ⽉前のデータと正の相関 13ヶ⽉前のデータと強い負の相関

時系列分析のアプローチ 104 株価 (y) TV出演の有無(x) 既知データ時刻(t) 説明変数＋「過去の状態」
から目的変数を予想 ? 未知データ仮設定仮設定

時系列データの構造 105 時系列データ＝周期性トレンド外因性＋＋＋
ノイズ

時系列データの構造1：トレンド（1/2） 106 航空会社乗客数
⽉全体的な上昇・下降傾向の有無

時系列データの構造1：トレンド（2/2） 107 選⼿ M 関 Wiki 閲覧
数時間（⽇）全体的な上昇・下降傾向の有無途中で傾向が変化することもOK

時系列データの構造2：周期性（1/3） 108 航空会社乗客数
⽉曜日変動や24時間変動といった繰り返しの成分

時系列データの構造2：周期性（2/3） 109 曜日変動や24時間変動といった繰り返しの成分時間（⽇）選⼿ M 関 Wiki 閲
覧数

時系列データの構造2：周期性（3/3） 110 曜日変動や24時間変動といった繰り返しの成分選⼿ M 関 Wiki 閲覧
数影響時間（⽇）

時系列データの構造3：外因性（イベント） 111 イベントの発生による影響を考慮スーパーボール（優勝決定戦）があったことを考慮選⼿ M 関 Wiki
閲覧数

時系列データの構造 112 時系列データ周期性トレンド外因性＋＋＋
ノイズ＝

時系列分析の3つのアプローチ 113 Box Jenkins法 • AR/MAモデルなどの時系列分析専⽤モデルの組合せ • ⼿順が統⼀されている • 結果の解釈が難しい
状態空間モデル • 様々な統計モデルを組み合せで現象を柔軟に表現 • 結果の解釈がしやすい • 計算コストが⾼い曲線フィッティング • データを強引に「トレンド+周期性+外因性」に分解 • 近年研究が進んでいる領域（e.g. Prophet，深層学習）

時系列分析の3つのアプローチ 114 Box Jenkins法 • AR/MAモデルなどの時系列分析専⽤モデルの組合せ • ⼿順が統⼀されている • 結果の解釈が難しい
状態空間モデル • 様々な統計モデルを組み合せで現象を柔軟に表現 • 結果の解釈がしやすい • 計算コストが⾼い曲線フィッティング • データを強引に「トレンド+周期性+外因性」に分解 • 近年研究が進んでいる領域（e.g. Prophet，深層学習）

115 Facebook謹製の時系列分析ライブラリ # Python 1 data = pd.read_csv(“data.csv”) 2 Model
= Prophet() 3 model.fit(data) • 統計の知識が乏しくても⾼品質な時系列分析が可能 • 結果の解釈がしやすい • 扱いやすいライブラリ https://facebook.github.io/prophet/

Hands-on & 演習タイム以下のURLにアクセスして，時系列分析を体験しましょう https://b.hontolab.org/3jJDoR7 116

データサイエンティストになるには? 5 騒がれているが，課題はたくさん

（再掲）21世紀に最も注⽬される職業であるデータサイエンス⼈材 https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/ 118

不⾜するビッグデータ分析⼈材 119

急ピッチで整備されるデータサイエンス教育環境 120

121 http://www.mi.u-tokyo.ac.jp/consortium/

データサイエンティストにはどんなスキル・知識が求められるか？ Q. 122

データサイエンス = 機械学習? = 統計学? = プログラミング? 123

データサイエンス = 機械学習? = 統計学? = プログラミング? = 計算機科学!! 124

データ分析に必要なデータを収集・構築するデータ構築前処理アルゴリズム適用評価・分析データ解析・活⽤のプロセスアルゴリズムを走らせるために
データをクリーニング，統合，変形種々のアルゴリズムの適用・開発構築したモデルの評価，データマイニングした知見の分析 125

• データベース • センサーネットワークデータ構築前処理アルゴリズム適用評価・分析
データサイエンスに必要となるスキル • データラングリング • 自然言語処理 • 音声・画像処理 • 機械学習 • データマイニング • 分散処理 ▪ 必ず必要となる専門スキル ▪ オプションとして必要となる専門スキル専門スキルを支えるための基本スキル • データ構造 • プログラミング • 線形代数学 • 離散数学 • 数理・統計 126

• データベース • センサーネットワークデータ構築前処理アルゴリズム適用評価・分析
データサイエンスに必要となるスキル • データラングリング • 自然言語処理 • 音声・画像処理 • 機械学習 • データマイニング • 分散処理 ▪ 必ず必要となる専門スキル ▪ オプションとして必要となる専門スキル専門スキルを支えるための基本スキル • データ構造 • プログラミング • 線形代数学 • 離散数学 • 数理・統計社会が考えるデータサイエンスはこれ 127

データ分析に必要なデータを収集・構築するデータ構築前処理アルゴリズム適用評価・分析データ解析・活⽤のプロセスアルゴリズムを走らせるために
データをクリーニング，統合，変形種々のアルゴリズムの適用・開発構築したモデルの評価，データマイニングした知見の分析データ解析の8割は「データ構築と前処理」 128

https://biz.trans-suite.jp/15958 https://jp.depositphotos.com/ https://ecotopia.earth/article-134/ 情報系学部を卒業して憧れのデータサイエンティストとして就職!! 期待の新人データサイエンティスト職場にはビッグデータ活用という概念がなく，データ分析できる
状況ではない．職場にデータがない or ゴミデータの山データサイエンスが定着しない企業の現実データ分析は勉強したが，データ収集・構築なんて習っていない 129

データサイエンスの不都合な真実 https://tjo.hatenablog.com/entry/2018/04/02/190000 o 同僚・上司からの期待感が現実とマッチしない o 社内政治が最優先される o データに関わるもの全てを扱う何でも屋扱いされる
o 他の事業から孤立したチームで働かされる 130

データサイエンスはどこにある？機械学習計算機科学データ分析の対象となる分野数学統計学データサイエンス Jeff Ulman,
“Data Science: Is It Real?”より 131

学習モデルの構築もある程度AIにお任せできる学習モデルの構築にはもはや人間は必要ない? 132

データサイエンス作業の分担と職種データサイエンティストデータエンジニア高度な数学・統計知識機械学習高度な分析技術高度なプログラミングデータベースデータパイプライン分散処理
133 https://www.oreilly.com/ideas/data-engineers-vs-data-scientists

データサイエンス作業の分担と職種 https://www.oreilly.com/ideas/data-engineers-vs-data-scientists データサイエンティストデータエンジニア高度な数学・統計知識機械学習高度な分析技術高度なプログラミングデータベースデータパイプライン
分散処理機械学習エンジニアデータラングリング機械学習の運用機械学習のチューニング 134

AI・機械学習応用論2020

AI・機械学習応用論2020

More Decks by Y. Yamamoto

Other Decks in Technology

Featured

Transcript