Slide 1

Slide 1 text

AIを使うことになった時に 知っておいたら良いこと @k_shiota

Slide 2

Slide 2 text

まずはじめに

Slide 3

Slide 3 text

AIとは AIとは 結構古くから研究されている ビックデータの活用、マシン向上(GPU)による成長 Source : https://blogs.nvidia.co.jp/2016/08/09/whats-difference-artificial-intelligence-machine-learning-deep-learning-ai/

Slide 4

Slide 4 text

実際にやったこと

Slide 5

Slide 5 text

AIで何をするか

Slide 6

Slide 6 text

何をしたい? • まずは目的を明確にする • どんなことを実現したいか • 何を予測したいか

Slide 7

Slide 7 text

記事を公開する前にPVを予測したい

Slide 8

Slide 8 text

どんな方法があるか • 機械学習?深層学習? • 教師データから予測する → 機械学習 • 回帰?分類? • PV数を予測するので回帰 • どのアルゴリズムで? • 色々ある(回帰分析、勾配ブースティングetc) • いきなりは難しい • まずはどんな傾向があるか調べる

Slide 9

Slide 9 text

傾向を探る • どんなデータ(数値)を取れるかを知る • 取得できるものは自然と絞られる • タイトル/本文の形態素解析、感情分析 • 各数値との相関があるか • PVと各数値に傾向があるか • グラフにしてみる • CSV出力して眺める(意外と重要) • 予想と結果をまとめる

Slide 10

Slide 10 text

役に立った便利なツール • Pandas • CSVやexcelを取り込んでデータ加工 • 取り込んだデータの統計量を見れる • dataframe.describe() → 統計量 • dataframe.corr() → 相関係数

Slide 11

Slide 11 text

便利なツール・その2 • scikit-learn • 機械学習ライブラリ • matplotlib,bokeh • グラフ作成

Slide 12

Slide 12 text

結果

Slide 13

Slide 13 text

現状の数値から相関は見られなかった

Slide 14

Slide 14 text

便利なAPI

Slide 15

Slide 15 text

学習済みモデルを使ったAPI • 文章解析 • Google Cloud Natural Language API • Text Classification API(A3RT) • 学習データから独自のモデルを作成できる • 文章の誤り抽出 • Yahoo! 校正支援API → CMSの本文校正 • 音声データをテキストデータにする • Google Cloud Speech API → テープ起こし

Slide 16

Slide 16 text

機械学習の民主化

Slide 17

Slide 17 text

機械学習の民主化 • Automated Machine Learning • TPOT • https://rhiever.github.io/tpot/ • データサイエンスコンペ • Kaggle • https://www.kaggle.com • 様々なデータセット

Slide 18

Slide 18 text

まとめ

Slide 19

Slide 19 text

まとめ • まずはゴールを明確にする • 便利なツールを使う • 学習済みのAPIを利用する • 難しく考えずにやってみる • とはいえ数式を読める方が良い