$30 off During Our Annual Pro Sale. View Details »

機械学習の再現性 / Enabling Reproducibility in Machine Learning Workshop

Kon
November 03, 2018

機械学習の再現性 / Enabling Reproducibility in Machine Learning Workshop

Kon

November 03, 2018
Tweet

More Decks by Kon

Other Decks in Science

Transcript

  1. 機械学習の再現性
    XX for ML 論文読み会 #1
    Nov 3, 2018

    View Slide

  2. Yu Ohori (a.k.a. Kon)
    NS Solutions Corporation (Apr 2017 - )
    ● Researcher
    ● Data Science & Infrastructure Technologies
    ● System Research & Development Center
    ● Technology Bureau
    @Y_oHr_N
    @Y-oHr-N
    #SemiSupervisedLearning #AnomalyDetection #DataOps

    View Slide

  3. 1st Enabling
    Reproducibility
    in Machine Learning
    Workshop
    ● 11 invited talks
    ● 2 contributed talks
    ● 16 posters
    の中から 2 本紹介
    3

    View Slide

  4. ML-Schema: Exposing the Semantics of Machine
    Learning with Schemas and Ontologies
    ハイレベルな相互運用を達成するため機械学習オントロジーを提案したお話
    Publio, G. C., Esteves, D., Lawrynowicz, A.,
    Panov, P., Soldatova, L., Soru, T.,
    Vanschoren, J., and Zafar, H.
    https://github.com/ML-Schema/documentation
    4

    View Slide

  5. 機械学習あるある
    データとメタデータを表すための
    概念化やスキーマがどれも異なる
    機械学習プラットフォームが乱立していて
    となると解釈や相互運用が難しい
    研究者または開発者
    5

    View Slide

  6. モデル交換フォーマット
    http://dmg.org/pfa/docs/motivation/
    6

    View Slide

  7. オントロジー(ontology)
    AI の文脈で「概念化の明示的な記述」を指す用語
    ● 本来の意味は「存在論」
    Gruber, T. R., "A translation approach to portable ontology specifications,"
    Knowledge acquisition, 5(2), pp. 199-220, 1993.
    乗り物
    機能
    種類

    陸上車 飛行機
    四輪車 汽車
    属性
    二輪車
    7

    View Slide

  8. 8

    View Slide

  9. ML-Schema
    was released on Oct 17, 2016
    9

    View Slide

  10. 利用例
    10

    View Slide

  11. Terse RDF Triple Language (Turtle) による記述例
    :run100241 rdf:type owl:NamedIndividual ,
    mls:Run ;
    mls:hasInput :credit-a ;
    mls:realizes :logisticRegression ;
    mls:hasOutput :modelEvaluation100241 ;
    mls:achieves :task29 ;
    mls:executes :wekaLogistic ;
    mls:hasInput :wekaLogisticMSetting29 ;
    mls:hasOutput :wekaLogisticModel100241 ;
    mls:hasInput :wekaLogisticRSetting29 .
    11

    View Slide

  12. ML-Schema は他の機械学習オントロジーに対応付けできる
    12

    View Slide

  13. Reproducible Research Environments with repo2docker
    環境を容易に再現できるツールを開発したお話
    Forde, J., Head, T., Holdgraf, C.,
    Panda, Y., Perez, F., Pacer, M.,
    Nalvarte, G., Ragan-Kelley, B., and Sundell, E.
    https://github.com/jupyter/repo2docker
    13

    View Slide

  14. 機械学習あるある
    いいね!早速利用してみよう
    素晴らしい手法を提案しました
    Github にコードを公開します
    あれ,(環境が異なるので)結果を再現できない
    研究者または開発者 研究者
    14

    View Slide

  15. Docker
    アプリケーションを開発・移動・実行するプラットフォーム
    ● Dockerfile の命令を読み込みイメージを構築
    ● コンテナとして実行することで環境の再現性を担保
    15

    View Slide

  16. コードを公開している論文は 4 割に満たない
    16

    View Slide

  17. Dockerfile を含む GitHub リポジトリは僅か 5 つしかない
    17

    View Slide

  18. 設定ファイルを含む Github リポジトリは特に好まれる
    18

    View Slide

  19. repo2dokcer
    Git リポジトリからイメージを構築する CLI ツール
    $ jupyter-repo2docker --ref /
    ● Project Jupyter が 2017 年にリリース
    ● setup.py などの設定ファイルを探索
    ● 構築後,ローカル Jupyter サーバを起動
    19

    View Slide

  20. binder
    Git リポジトリから Jupyter サーバを構築するサービス
    https://mybinder.org/v2/gh///?filepath=
    ● Project Jupyter が 2016 年にリリース
    ● 誰でも,いつでも,どこでも,環境を再現可能
    ● 内部で repo2docker を利用
    Freeman J., and Osheroff, A., "Toward publishing reproducible computation with binder," eLife, 2016.
    20

    View Slide