Upgrade to Pro — share decks privately, control downloads, hide ads and more …

GUIでやる機械学習 Azure Machine Learning Studioの紹介

rhistoba
August 18, 2018
29

GUIでやる機械学習 Azure Machine Learning Studioの紹介

rhistoba

August 18, 2018
Tweet

Transcript

  1. 自己紹介 名前: 鳥羽 隼司(とば しゅんじ) 所属: R社(新卒入社2年目ぐらい) 業務: Railsアプリケーションの開発 学生時代に音声関係の研究室に在籍していて、

    そこで機械学習を使ってたりしてました • 業務では…(´・ω・`) • 今回は学生時代に学んだことの絞りカスを使って 発表させていただきます 2 日常生活の足(VTR-F)
  2. Azure Machine Learning Studio • GUIで機械学習の実験ができるAzureのサービス ◦ 作成した実験をWebAPIとしてデプロイできる ◦ Python、R、SQLも使える

    • Azureサブスクリプション不要で無料枠が使える ◦ 実験ではすべての機能にアクセスできる ◦ 実稼働WebAPIの利用は有料枠のみ • 以下AMLSと略す 4
  3. AMLSの特徴 • 様々な機械学習のソリューションをサポート ◦ 分類、回帰、レコメンド、クラスタリング、異常検知 • コードレスで機械学習の実験が(ほぼ)できる ◦ PythonやR、SQLを使うこともできる •

    特に面倒な前処理のモジュールが充実 ◦ このあたりのコードを書かなくて済むのはうれしい ◦ 欠損値や外れ値の対応、数値の標準化、テキスト処理など ◦ テキスト処理は日本語があまりサポートされていないので、改善してもらいたい … • テーブルデータを扱うのに向いている ◦ 画像や音声を扱うのは向いてないかも 7
  4. やってみたこと • AMLSでゲームの売上数を予測 • 用いるデータ ◦ Kaggle - Video Game

    Sales ◦ https://www.kaggle.com/gregorut/videogamesales ◦ 16600 rows ◦ Columns ▪ Rank,Name,Platform,Year,Genre,Publisher,NA_Sales,EU_Sales, JP_Sales,Other_Sales,Global_Sales • Name, Genre, Platformの3つを使ってGlobal_Sales(売上本数)を予測 9
  5. データセットのインポート • https://www.kaggle.com/gregorut/videogamesales からcsvをDL • AMLSの操作 ◦ +NEW -> DATASET

    -> FROM LOCAL FILE ◦ ローカルにDLしたcsvからデータセットが生成される
  6. データの前処理(テキスト編) • テキストを数値特徴量に変換して学習しやすくする ◦ Bag of wordsというテキストの数値特徴量に変換 • このままでは扱いにくいので低次元特徴量に変換して扱いやすくする ◦

    主成分分析を使う ▪ 高次元データの特徴を保持したまま、低次元に変換できる ▪ 今回の例:1699 -> 20 mario metal monster hunter 1 mario bros 1 0 0 0 2 metal gear 0 1 0 0 3 monster hunter 0 0 1 1 Bag of wordsの例
  7. 学習データで予測モデルを学習 • 学習アルゴリズムの選択 • 予測の種類 ◦ Classification(分類) : カテゴリの予測 ◦

    Regression(回帰) : 数値の予測 • 今回は売上数を予測するので回帰 ◦ 2つのアルゴリズムを使って予測モデルを構築、性能を比較する ▪ 線形回帰 ▪ ランダムフォレスト回帰