Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Jupyter Notebook Ops

Avatar for Atsushi Sumita Atsushi Sumita
February 26, 2021
220

Jupyter Notebook Ops

効率よくJuptyer Notebookで開発したいよねというお話

Avatar for Atsushi Sumita

Atsushi Sumita

February 26, 2021
Tweet

Transcript

  1. Copyright(C) Nowcast, Inc. All rights reserved. 4 nParametrization by Papermill

    lノートブックをパラメタ化し使い回せるようにする nCommunication by Commuter lノートブックを素早く⼿軽に共有する Jupyter Notebookによる分析や実験を効率よく運⽤・管理したい まだあるよ→
  2. Copyright(C) Nowcast, Inc. All rights reserved. 5 n ナウキャストではPOSデータやクレジットカードデータを⽤いて企業の売上予測をしています l

    証券コード毎に詳細な分析(企業,事業,商品,イベント…) l 対象とする証券コードが200個,1つのノートブックの実⾏に15分なら50時間かかってしまう l データセットはどんどん新しくなるので定期的に再実⾏する必要がある Parametrization by Papermill パラメタを⼀つのセル にまとめparameters タグをつけておく Papermillが 挿⼊したセル ノートブックをパラメタ化して並列分散処理しよう! Papermill: ノートブックにパラメタを設定し実⾏してくれるライブラリ
  3. Copyright(C) Nowcast, Inc. All rights reserved. 7 n ノートブックの共有は地味に⾯倒くさい l

    誰もが.ipynbを開けるとは限らない l ノートブックを開くたびにファイルの差分が⽣じるのでGitと相性が悪い l Githubに上げるにはファイルサイズが⼤きい l 数百のノートブックを⼿渡しするのは… n Commuter l ローカル・S3からノートブックを読み込みhtmlに変換してくれるwebサーバー l 誰でもブラウザからノートブックを閲覧出来る! Communication by Commuter
  4. Copyright(C) Nowcast, Inc. All rights reserved. 10 Notebook infrastructure example

    ブラウザから最新の ノートブック⼀覧を いつでも⾒れる! データの更新に 合わせてノートブック を定期的に更新 ワークステーションで アドホック分析 (EFSをマウント) パラメタ化+ 並列分散処理
  5. Copyright(C) Nowcast, Inc. All rights reserved. 12 We are hiring!

    資料はこちら(⼤事なことなので以下略)→