機械学習の再現性 / Enabling Reproducibility in Machine Learning Workshop

4d5544d0ea612705b35dcca4922e3864?s=47 Kon
November 03, 2018

機械学習の再現性 / Enabling Reproducibility in Machine Learning Workshop

4d5544d0ea612705b35dcca4922e3864?s=128

Kon

November 03, 2018
Tweet

Transcript

  1. 機械学習の再現性 XX for ML 論文読み会 #1 Nov 3, 2018

  2. Yu Ohori (a.k.a. Kon) NS Solutions Corporation (Apr 2017 -

    ) • Researcher • Data Science & Infrastructure Technologies • System Research & Development Center • Technology Bureau @Y_oHr_N @Y-oHr-N #SemiSupervisedLearning #AnomalyDetection #DataOps
  3. 1st Enabling Reproducibility in Machine Learning Workshop • 11 invited

    talks • 2 contributed talks • 16 posters の中から 2 本紹介 3
  4. ML-Schema: Exposing the Semantics of Machine Learning with Schemas and

    Ontologies ハイレベルな相互運用を達成するため機械学習オントロジーを提案したお話 Publio, G. C., Esteves, D., Lawrynowicz, A., Panov, P., Soldatova, L., Soru, T., Vanschoren, J., and Zafar, H. https://github.com/ML-Schema/documentation 4
  5. 機械学習あるある データとメタデータを表すための 概念化やスキーマがどれも異なる 機械学習プラットフォームが乱立していて となると解釈や相互運用が難しい 研究者または開発者 5

  6. モデル交換フォーマット http://dmg.org/pfa/docs/motivation/ 6

  7. オントロジー(ontology) AI の文脈で「概念化の明示的な記述」を指す用語 • 本来の意味は「存在論」 Gruber, T. R., "A translation

    approach to portable ontology specifications," Knowledge acquisition, 5(2), pp. 199-220, 1993. 乗り物 機能 種類 船 陸上車 飛行機 四輪車 汽車 属性 二輪車 7
  8. 8

  9. ML-Schema was released on Oct 17, 2016 9

  10. 利用例 10

  11. Terse RDF Triple Language (Turtle) による記述例 :run100241 rdf:type owl:NamedIndividual ,

    mls:Run ; mls:hasInput :credit-a ; mls:realizes :logisticRegression ; mls:hasOutput :modelEvaluation100241 ; mls:achieves :task29 ; mls:executes :wekaLogistic ; mls:hasInput :wekaLogisticMSetting29 ; mls:hasOutput :wekaLogisticModel100241 ; mls:hasInput :wekaLogisticRSetting29 . 11
  12. ML-Schema は他の機械学習オントロジーに対応付けできる 12

  13. Reproducible Research Environments with repo2docker 環境を容易に再現できるツールを開発したお話 Forde, J., Head, T.,

    Holdgraf, C., Panda, Y., Perez, F., Pacer, M., Nalvarte, G., Ragan-Kelley, B., and Sundell, E. https://github.com/jupyter/repo2docker 13
  14. 機械学習あるある いいね!早速利用してみよう 素晴らしい手法を提案しました Github にコードを公開します あれ,(環境が異なるので)結果を再現できない 研究者または開発者 研究者 14

  15. Docker アプリケーションを開発・移動・実行するプラットフォーム • Dockerfile の命令を読み込みイメージを構築 • コンテナとして実行することで環境の再現性を担保 15

  16. コードを公開している論文は 4 割に満たない 16

  17. Dockerfile を含む GitHub リポジトリは僅か 5 つしかない 17

  18. 設定ファイルを含む Github リポジトリは特に好まれる 18

  19. repo2dokcer Git リポジトリからイメージを構築する CLI ツール $ jupyter-repo2docker <path-to-repo> --ref <branch-name>/<hash-name>

    • Project Jupyter が 2017 年にリリース • setup.py などの設定ファイルを探索 • 構築後,ローカル Jupyter サーバを起動 19
  20. binder Git リポジトリから Jupyter サーバを構築するサービス https://mybinder.org/v2/gh/<org-name>/<repo-name>/<branch|tag|hash-name>?filepath=<path-to-file> • Project Jupyter が

    2016 年にリリース • 誰でも,いつでも,どこでも,環境を再現可能 • 内部で repo2docker を利用 Freeman J., and Osheroff, A., "Toward publishing reproducible computation with binder," eLife, 2016. 20