Slide 1

Slide 1 text

機械学習の再現性 XX for ML 論文読み会 #1 Nov 3, 2018

Slide 2

Slide 2 text

Yu Ohori (a.k.a. Kon) NS Solutions Corporation (Apr 2017 - ) ● Researcher ● Data Science & Infrastructure Technologies ● System Research & Development Center ● Technology Bureau @Y_oHr_N @Y-oHr-N #SemiSupervisedLearning #AnomalyDetection #DataOps

Slide 3

Slide 3 text

1st Enabling Reproducibility in Machine Learning Workshop ● 11 invited talks ● 2 contributed talks ● 16 posters の中から 2 本紹介 3

Slide 4

Slide 4 text

ML-Schema: Exposing the Semantics of Machine Learning with Schemas and Ontologies ハイレベルな相互運用を達成するため機械学習オントロジーを提案したお話 Publio, G. C., Esteves, D., Lawrynowicz, A., Panov, P., Soldatova, L., Soru, T., Vanschoren, J., and Zafar, H. https://github.com/ML-Schema/documentation 4

Slide 5

Slide 5 text

機械学習あるある データとメタデータを表すための 概念化やスキーマがどれも異なる 機械学習プラットフォームが乱立していて となると解釈や相互運用が難しい 研究者または開発者 5

Slide 6

Slide 6 text

モデル交換フォーマット http://dmg.org/pfa/docs/motivation/ 6

Slide 7

Slide 7 text

オントロジー(ontology) AI の文脈で「概念化の明示的な記述」を指す用語 ● 本来の意味は「存在論」 Gruber, T. R., "A translation approach to portable ontology specifications," Knowledge acquisition, 5(2), pp. 199-220, 1993. 乗り物 機能 種類 船 陸上車 飛行機 四輪車 汽車 属性 二輪車 7

Slide 8

Slide 8 text

8

Slide 9

Slide 9 text

ML-Schema was released on Oct 17, 2016 9

Slide 10

Slide 10 text

利用例 10

Slide 11

Slide 11 text

Terse RDF Triple Language (Turtle) による記述例 :run100241 rdf:type owl:NamedIndividual , mls:Run ; mls:hasInput :credit-a ; mls:realizes :logisticRegression ; mls:hasOutput :modelEvaluation100241 ; mls:achieves :task29 ; mls:executes :wekaLogistic ; mls:hasInput :wekaLogisticMSetting29 ; mls:hasOutput :wekaLogisticModel100241 ; mls:hasInput :wekaLogisticRSetting29 . 11

Slide 12

Slide 12 text

ML-Schema は他の機械学習オントロジーに対応付けできる 12

Slide 13

Slide 13 text

Reproducible Research Environments with repo2docker 環境を容易に再現できるツールを開発したお話 Forde, J., Head, T., Holdgraf, C., Panda, Y., Perez, F., Pacer, M., Nalvarte, G., Ragan-Kelley, B., and Sundell, E. https://github.com/jupyter/repo2docker 13

Slide 14

Slide 14 text

機械学習あるある いいね!早速利用してみよう 素晴らしい手法を提案しました Github にコードを公開します あれ,(環境が異なるので)結果を再現できない 研究者または開発者 研究者 14

Slide 15

Slide 15 text

Docker アプリケーションを開発・移動・実行するプラットフォーム ● Dockerfile の命令を読み込みイメージを構築 ● コンテナとして実行することで環境の再現性を担保 15

Slide 16

Slide 16 text

コードを公開している論文は 4 割に満たない 16

Slide 17

Slide 17 text

Dockerfile を含む GitHub リポジトリは僅か 5 つしかない 17

Slide 18

Slide 18 text

設定ファイルを含む Github リポジトリは特に好まれる 18

Slide 19

Slide 19 text

repo2dokcer Git リポジトリからイメージを構築する CLI ツール $ jupyter-repo2docker --ref / ● Project Jupyter が 2017 年にリリース ● setup.py などの設定ファイルを探索 ● 構築後,ローカル Jupyter サーバを起動 19

Slide 20

Slide 20 text

binder Git リポジトリから Jupyter サーバを構築するサービス https://mybinder.org/v2/gh///?filepath= ● Project Jupyter が 2016 年にリリース ● 誰でも,いつでも,どこでも,環境を再現可能 ● 内部で repo2docker を利用 Freeman J., and Osheroff, A., "Toward publishing reproducible computation with binder," eLife, 2016. 20