機械学習データを BigQuery に置いて処理する with Ruby

機械学習データを BigQuery に置いて処理する with Ruby

2018/05/11 gcpug @松江オープンソースラボ

関連リンク
Ruby X Elixir 記事
https://tech-regonn.github.io/ruby/2018/05/04/ruby-conf-tw-workshop.html

デモ gist
https://gist.github.com/regonn/3f261402f7fdc4ee110b4facb71c294b

1c187c3f67507a90ced63f2c006ec4ad?s=128

regonn

May 11, 2018
Tweet

Transcript

  1. 機械学習データを BIGQUERY 機械学習データを BIGQUERY に置いて処理する WITH RUBY に置いて処理する WITH RUBY

    2018/05/11 gcpug @松江オープンソースラボ
  2. 自己紹介 自己紹介 田上健太(@regonn) SonicGarden Inc. 俳句(結社:鷹)、茶道(三斎 流) 最近触ってる技術 Julia, MXNet,

    pyQuil Kaggler, YouTuber(田中TOM)
  3. KAGGLE もくもく会やってます KAGGLE もくもく会やってます 毎週水曜日18時〜 @オープンソースラ ボ

  4. この前台湾のRUBYイベント行ってき この前台湾のRUBYイベント行ってき た た Rubyのデータフレーム(PythonだとPandasが有名) Daru が結構使える状態になっていた 普段のRubyで処理が書けるので、簡単なデータ処 理系は最近Rubyでやってる Ruby

    X Elixir Conf Taiwan 2018 Rubyデータサイエン ス最前線 - れごんのTech記事 https://bit.ly/2jQFF0w
  5. 本題 本題 機械学習のデータ取扱に困る

  6. このPCの残り容量88GB。。。 ノートPCにHD増設するなら 外部ストレージにデータ預けて処理したい

  7. ビッグデータ解析SaaS カラム型DBMS SQLライクにデータを取 得

  8. 金額も良心的 金額も良心的 データ保管 1GB あたり $0.02/月 SQL実行 従量制 1TB あたり

    $5 毎月 1TB まで無料 ※2018/05/11 現在
  9. 試しに比較的軽めのデータで挑戦 試しに比較的軽めのデータで挑戦 Titanic問 題 乗客データ(性別、年齢、客室ランク等)から生存す るかを予測する

  10. データ登録 データ登録 軽めのファイル CSVから直接ファイル選択インポート 重めのファイル Google Cloud Strageに置いてインポー ト CLI上からコマンド実行

    Log等をストリーム形式入力も可能 有料
  11. 今回は直接アップロード 今回は直接アップロード

  12. 実際にデータ処理をJUPYTER上で!!! 実際にデータ処理をJUPYTER上で!!! デモ https://bit.ly/2KamZDS

  13. 結論 結論 BigQueryを利用すると、安価に大きいファイルを 処理できる BigQueryはRubyでも使える SQL形式で一部データをローカルで試すことが可能