Upgrade to Pro — share decks privately, control downloads, hide ads and more …

機械学習エンジニアが直面する課題と その解決策 — ML@Loftで語られた 20を超える事例を通して見えてきたもの — / ML@Loft Retrospective

機械学習エンジニアが直面する課題と その解決策 — ML@Loftで語られた 20を超える事例を通して見えてきたもの — / ML@Loft Retrospective

Yoshitaka Haribara

October 04, 2019
Tweet

More Decks by Yoshitaka Haribara

Other Decks in Technology

Transcript

  1. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. T O K Y O 2 0 1 9 . 1 0 . 0 3 - 0 4
  2. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. T O K Y O 2 0 1 9 . 1 0 . 0 3 - 0 4 機械学習エンジニアが直面する課題と その解決策 — ML@Loftで語られた 20を超える事例を通して見えてきたもの — Yoshitaka Haribara, Ph.D. Startup Solutions Architect Amazon Web Services Japan K.K. F - 1
  3. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Agenda 機械学習のお悩み相談イベント ML@Loft の紹介 登壇者が語ったこと 参加者からこのような悩みが AWS Solutions Architect の目線から まとめに代えて #MLLoft
  4. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 自己紹介 針原佳貴 (はりばら よしたか) スタートアップ担当 ソリューションアーキテクト 略歴: 2018年 3月 博士 (情報理工学) 2018年 4月 から AWS
  5. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 「ML@Loft は AWS 上で機械学習ワー クロードを運用しているデベロッパー /データサイエンティストのための、 お悩み相談会です。月に1回 AWS Loft Tokyo で開催し、毎回活発な議論が行 われています。」 About the event https://ml-loft.connpass.com/ #MLLoft
  6. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 挑戦をカタチにする場所へ。 AWS Loft Tokyo #MLLoft
  7. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 普段のタイムテーブル 19時スタート (時間・人数) 前半 Lightning Talk (LT): 10分 x 4人 登壇者 (機械学習のプロダクション運用に知見のある方々) より、 自己紹介・話題提供のため10分ほどの LT を実施。 後半 Round Table (RT): 25分 x 2ターン テーブルに分かれて参加者のお悩みをシェアし、 ディスカッションしながら登壇者に答えてもらう。 (人数が多い時はパネル形式) #MLLoft
  8. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. ML@Loft 開催テーマ 参加者アンケートをもとに、 人気のテーマを選択。 1. MLOps 2. MLOps 3. Recommendation 4. Edge Deep Learning 5. NLP 6. Time Series Analysis/ Recommendation/NLP
  9. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 毎回高い満足度 イベント満足度 (1-5) サンプル数 参加者数 #1. MLOps 4.65 18 36 #2. MLOps 4.53 17 19 #3. レコメンド 4.5 30 30 #4. Edge 4.79 14 22 #5. NLP 4.33 6 25 #6. MLPP との 共催 4.46 39 51 #MLLoft
  10. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. そもそもなぜこのイベントができたか • お客さんと話していて、「デベロッパー向けの機械学習イベントをやり たいよね」という話になった • AWS の公式イベントでサービスの話とか、公開事例は色々聞ける • とはいえ結構細かいところなど色々質問したいことは他にも • この形式はもともと dely さんが開催していた Loft イベントを参考に • dely CTO 大竹さん「発表を聞いて終わり、ではなくインタラクティブにディスカッションで きるイベントがあってもいいのでは」 • 登壇社からの評判も良い #MLLoft
  11. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. ML@Loft これまでの登壇者 (所属は略称) #1. MLOps 宇都宮 聖子・針原 佳貴 (AWS)、緒方 貴紀 氏 (ABEJA) 、大竹 雅登 氏・辻 隆太郎 氏 (dely)、 吉田 勇太 氏 (ブレインパッド) #2. MLOps 西川 泰海 氏 (BEDORE)、湊 雄一郎 氏 (MDR)、藤本 敬介 氏 (ABEJA)、針原 佳貴 (AWS) #3. レコメンド 西場 正浩 氏 (エムスリー)、前田 英行 氏 (サイバーエージェント)、小澤 俊介 氏 (Gunosy)、 久保長 礼 氏 (ウォンテッドリー) #4. Edge 加藤 倫弘 氏 (ディー・エヌ・エー)、竹村 幸尚 氏 (インテル)、 三好 健文 氏 (わさらぼ/イーツリーズ・ジャパン)、岡田 真太郎 氏 (Preferred Networks) #5. NLP 野澤 哲照 氏 (コネヒト)、島岡 聖世 氏 (Studio Ousia)、舛岡 英人 氏 (レトリバ)、 榊 剛史 氏・山中 志一 氏 (ホットリンク)、藤井 美娜 氏 (GVA TECH) #6. MLPP との共催 梅田 裕平 氏 (富士通研究所)、河合 俊典 氏 (エムスリー)、押条 祐哉 氏 (ストックマーク)、 久保 隆宏 氏 (TIS) #MLLoft
  12. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. ML@Loft イベントの特徴 • AWS Loft Tokyo で開催しているが、あくまでもコミュニティイベント • 「AWS サービスの話を」という縛りはない • 実運用・プロダクションでの機械学習にフォーカス • 実際に参加者の方がお持ちの課題・お悩みを相談・解決できるように • 発表を聞くだけでなく、積極的にディスカッションに参加してもらう • 毎回「質の高い議論ができた」と参加者からも好評 https://ml-loft.connpass.com/ #MLLoft
  13. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. これまでのイベント内容 これまでのイベント内容は登壇者のスライド付きで 開催報告ブログにまとめてあります https://ml-loft.connpass.com/ • #1. MLOps Blog • #2. MLOps Blog • #3. レコメンド Blog • #4. Edge Blog • #5. NLP Blog • #6. MLPP との共催 • 参加者の方の Blog #MLLoft
  14. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. #1 MLOps • 機械学習のプロダクションデプロイは想像以上に複雑 • [Sculley, David, et al. "Hidden technical debt in machine learning systems." NIPS 2015.] #MLLoft $PQZSJHIUh "#&+" *OD"MMSJHIUTSFTFSWFE Deploying Machine Learning in production is complex than expected )JEEFO5FDIOJDBM%FCUJO.BDIJOF-FBSOJOH4ZTUFNT <4DVMMFZ /*14> "MHPSJUIN %FWFMPQNFOU )VHFTZTUFNTBOEGVODUJPOTXFOFFE JOQSPEVDUJPO https://www.slideshare.net/takanoriogata1121/190410-mlloft
  15. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. #1 MLOps • パーソナライズ前提のサービス設計の実例 • 能動的に選ぶ体験 → 受動的に受け取る体験 • それを実現するシステム “R” “ S E i p D A E D A R R e sv sv D g s f L sv n s f v 3- 2 E https://www.slideshare.net/RyutaroTsuji/startupday-loft-142053706 #MLLoft
  16. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. #1 MLOps • 適切に人の手を入れる • 精度検証のため人手のアノテーション • 人と機械の協調 (得意な方に任せる) $PQZSJHIUh "#&+" *OD"MMSJHIUTSFTFSWFE ״׶葺ְ麊欽ך׋׭ך1%$" ر٦ة 䱿锷ؚٗ 礵䏝嗚鏾ך׋׭ך 㹀劍涸ז،ظذ٦ءّٝؿٗ٦ 㹀劍涸ז礵䏝鐰⣣ 銲㔓ךⴓ匿 㹀劍涸ז㷕统 s i j d https://www.slideshare.net/takanoriogata1121/190410-mlloft https://www.slideshare.net/RyutaroTsuji/startupday-loft-142053706 #MLLoft
  17. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. #1 MLOps • B2B (受託) 機械学習プロジェクトは運用見据えた「期待値」調整が大事 • 予算取り、PoC のゴールは試作機 (Minimum Viable Product; MVP) の作製 • MVP とはいえ、PoC の時点から精度だけでなくシステム構築・運用も視野に • 関係者: • ML モデルを考える データサイエンティスト • システムエンジニア • ハードウェアエンジニア • 実際に現場でシステムを運用する人 • プロジェクト責任者 • 保守・運用と予算取りのタイミングと 開発スケジュールをすり合わせ • 士気を保てるようタイミングを見計らい 現場の作業フローを洗い出す #MLLoft MVP的プロトタイプ制作 - 関係者 - MLモデルを考えるDS - システムエンジニア - (ハードウェアエンジニア) - 実際にシステムを動かす現場 人 - プロジェクト責任者 MVPと言いつつ、すでに「小ライス大盛り」状態 しかし、上 期待を高めて予算を引き出すに ここまでがミニマム  (PJをPoC 次に繋げる) https://speakerdeck.com/ysdyt/budget-schedule-and-humanity-of-ml-system-dev-pj
  18. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. #2 MLOps • 「機械学習」を既存システム (B2B SaaS Web アプリ) に統合する際の データベースとのアナロジー • 機械学習のモデルは巨大なステートを持つ • TensorFlow Serving • [Olston, Christopher, et al. "Tensorflow-serving: Flexible, high-performance ml serving." NIPS Workshop 2017.] #MLLoft ͔ͳΓෳࡶͳػցֶशೖΓ XFC ΞϓϦ .-JO$PNQVUF T %BUBCBTF $MJFOU ࣮ࡍߦ͍ͬͯΔղܾͷ঺հ $PNQVUF UGTFSWJOH $MJFOU https://speakerdeck.com/yasuumi/ml-at-loft-number-2-system-architecture-for-machine-learning
  19. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. #2 MLOps • 量子コンピュータ運用上の課題 • セキュリティ • 大規模データの扱い • バックエンド (量子コンピュータ) への負荷 • Developer experience 量子コンピュータ 「量子力学」 原理を応用して計算 量子アニーリング・イジング 最初に値を設定して解く組合せ最適化専用マシン 量子ゲート 時間ごとに量子ゲートを変えて計算する汎用マシン 米国や中国中心 取り組み 日本やカナダ中心 取り組み 計算時間 q[0]
 q[1]
 H H H H H H X X H H X X H H 計算時間 量子ゲート 量子ビット 測定 量子ビット 相互作用Jij 縦磁場h 現在日本で話題になる2方式
 汎用計算 できる量子ゲートと、組合せ最適化問題に特化した量子アニーリング・イジングがある。 https://www.slideshare.net/mdrft/mlops #MLLoft
  20. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. #2 MLOps • 機械学習基盤は良いぞ、という話 • データ・モデル管理 • 大規模データを扱える • 潤沢な計算資源 • 仕事の引き継ぎ・再現性 • あり物を使い回すよう心掛ける • 学習済みモデルがあるなら使う • 既存のソースコードを git clone • なければ論文を読んで実装 • 論文もなければ自分でモデルを実装 $PQZSJHIUh ABEJA, Inc. All rights reserved ꅾ銲ه؎ٝز⢪ְ㔐ׇ׷׮ךכ⢪ְ㔐ׅ  HJUIVCך؝٦سד銲⟝׾弫׋ׅז׵ծ׉׸׾⢪ֲ • 傀㶷ךا٦أ؝٦س⹛ַׇ׷ה㴍׃ְ • דֹ׸ל$BFծ.BU$POW/FUծUPSDI׮ • 醱꧟ז圓䧭ך傀㶷؝٦س • ⢽ִלծIUUQTHJUIVCDPNUFOTPSPXNPEFMT طحزٙ٦ؙ׮ծדֹ׸ל傀㶷ך暟׾⢪ְ㔐ׅ • ⢽ִלծ㷕统幥׫3FT/FU ٗأꟼ侧זו https://www.slideshare.net/FujimotoKeisuke/mlloft-145253865 $PQZSJHIUh ABEJA, Inc. All rights reserved 堣唒㷕统㛇湍♳דך㷕统ך䗳銲䚍 • ر٦ةװ堣唒㷕统ٌرٕך盖椚 • 㣐鋉垷זر٦ة׾䪔ֲ • 㷕统׾㔐ׅ情尶ז؎ٝؿٓ • 㺁僒ח➬✲׾䒷ֹ竰ֺծⱄ植〳腉ז橆㞮׾⥂㶷  ٗ٦ٕؕ橆㞮׌ה⿑׃ְ #MLLoft
  21. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. #2 MLOps • マネージドサービスを使う • 機械学習プラットフォームは Amazon SageMaker • ワークフロー構築は AWS StepFunctions • Kubernetes/Kubeflow は EKS+EC2+ECR © 2019, Amazon Web Services, Inc. or its Affiliates. Amazon SageMaker =341,;/5.,; 2:$!%$" ,;% )@$6&  ?/ -<0>(  ,; %# (HPO) ,;8*   97 "# 8*  " "# 8*  +'97 Amazon EC2 P3 Instances Amazon SageMaker RL Amazon SageMaker Ground Truth Amazon Elastic Inference AWS Marketplace for Machine Learning Amazon SageMaker Neo © 2019, Amazon Web Services, Inc. or its Affiliates. %&#   !   )" %     ($' https://speakerdeck.com/hariby/ml-at-loft-number-2 #MLLoft
  22. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. MLOps まとめ 案外みんな同じようなことを言っている • 機械学習は運用負荷が高い • 運用のことを初めから意識 • サービスに価値を与えるようにシステム設計 • 自動化しつつも人間を挟む • 機械学習 (教師あり学習) だと人手のアノテーションは必須 • 人間が得意な部分は人間に流す • 生産性を高めるためにあり物を使う • モデルは必要に迫られるまで極力自分で作らない • 機械学習プラットフォームはマネージドサービス #MLLoft
  23. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. #3 レコメンド • お医者さん向けニュース記事推薦 • User-Item Interaction を2部グラフだと思って Graph Autoencoder (Graph Convolutional Encoder) にかける [Berg, Rianne van den, Thomas N. Kipf, and Max Welling. "Graph convolutional matrix completion." arXiv:1706.02263 (2017).] • RNN にユーザーのコンテキスト情報を追加してレコメンド (Latent Cross) [Beutel, Alex, et al. “Latent cross: Making use of context in recurrent recommender systems.” WSDM 2018.] GCNモデル 紹介 • ユーザー × アイテム 2部グラフ • message passingを利用 ◦ 他 方法として下記 2つもメジャー(?) ▪ random walk ▪ graph Fourier transform • 属性データ ◦ Latent cross的なアイデアで統合 • 各ノード embeddingを学習 ◦ o_user ← clickしたitem_embedding 平均 ◦ o_item ← clickしたuser_embedding 平均 ◦ (次で詳しく) (e0, e1, e2,...) 属性データ (v0, v1, v2,...) 属性データ モデルをもう少し詳しく(正確で ない) • {e} trainable variables • u1がi1をclickする確率 ◦ cos(average(e_i1, e_i3), average(e_u1, e_u3)) • 新しいアイテムも多少 クリックがあれ 評価できる。 e_u1 e_u2 e_u3 e_u4 e_i1 e_i2 e_i3 https://speakerdeck.com/nishiba/graph-convolutional-networkswoshi-tuta-tui-jian-sisutemu #MLLoft
  24. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. #3 レコメンド • インターネットテレビのコンテンツ推薦 • 2段階: 推薦候補生成 (番組の類似度) とリランキング (ユーザーとの関連スコア) • メリット: 計算時間の削減とパーソナライズされた高精度な推薦、疎結合 "CFNB57ס䫟詞بتطّ ˝ חס⭚杼־׼啶䡗 ˝ 䫟詞⠮遨榟䡗⭚杼 ˝ ◄⯥מ銶畀׈׿ג樑磝ס걉⛍䈱מ㓹ט׀⠮遨؅礓׾ ˝ ٛٚ٤؞٤ء⭚杼 ˝ 䫟詞⠮遨榟䡗⭚杼ך榟䡗׈׿ג䫟詞⠮遨־׼ٗ٭ا٭כס꞊ 鵽䈱تؤؓ؅♀┙׊䫟詞磵冽؅┾צ僀ֻ׾ https://speakerdeck.com/cyberagentdevelopers/abematv-recommendation-system ⪒⛮بتطّ㍲ 1BUSJPU ظ٭ذ⭚杼㓹泅  ;FSP تعٛ٭ّ⭚杼ؙ٤ة٤ 䫟詞⠮遨榟䡗⭚杼 ٛٚ٤؞٤ء⭚杼 #MLLoft
  25. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. #3 レコメンド • ニュース推薦に求められる要件 • 話題が変化してもユーザーの興味を捉えられる • ニュース価値の時間減衰を考慮 • リアルタイムのレスポンス (50ms or die) https://www.slideshare.net/shunsukekozawa5/gunosy-152302982 #MLLoft
  26. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. #3 レコメンド • レコメンデーションにおけるターゲット設定 • 測定値 (View, DateTime, # of Clicks) から Metric (CTR, DAU/MAU, MRR/AUC/Precision/NDCG) と、ビジネス上の KPI (エンゲージメントスコア, ARPU, Retention) を計算 • ユーザーのエンゲージメントをどう測るか • エンゲージメント (愛着) = Stickiness (高頻度・長時間のサービス利用) ©2019 Wantedly, Inc. ϢʔβΤϯήʔδϝϯτείΞ αʔϏεʹର͢ΔѪணΛද͢είΞ ɾϢʔβɺΞΠςϜ͝ͱʹɺϢʔβΤϯήʔδϝϯτΛͲͷ͘Β͍ߴΊΒΕΔ͔දͨ͠είΞ Ϣʔβମݧͷ࣭Λఆٛ͢Δࢦඪ ɾΑ͘ΫϦοΫ͞ΕΔɺΑ͘Ԡื͞ΕΔɺ௕͘࢖ͬͯ͘ΕΔɺසൟʹ࢖ͬͯ͘ΕΔͳͲ λʔήοτ͸Τϯήʔδϝϯτʹ૬͕ؔ͋Δ਺ ɾΫϦοΫ͞ΕΔ͜ͱʹΑͬͯɺΤϯήʔδϝϯτ͕ඞͣ͠΋ߴ͘ͳΔΘ͚Ͱ͸ͳ͍ #MLLoft https://speakerdeck.com/reikubonaga/ml-loft-3 ©2019 Wantedly, Inc. Ϩίϝϯσʔγϣϯʹ͓͚Δλʔήοτ λʔήοτͱ͸ͳʹ͔ ɾϥϯΩϯά͕Ϣʔβʔʹͱͬͯྑ͔͔ͬͨѱ͔͔ͬͨΛ൑அ͢ΔͨΊͷ਺ࣈ λʔήοτͷઃఆͷ೉͠͞ ɾΫϦοΫͯ͠΋ίϯςϯπΛݟͯͳ͍͔΋͠Εͳ͍ ɾϒοΫϚʔΫ΍Ԡืͩͱใु͕ͳׂ͍߹͕૿͑Δ ɾͨ͘͞Μݟ͗͢Δͱ͍͏͜ͱ͸ɺٯʹѱ͍ମݧ͔΋͠Εͳ͍ ɾPCͱΞϓϦͰϢʔβͷಈ͖͸ҟͳΔ VisitͰ͸ɺϢʔβΤϯήʔδϝϯτʹ૬͕ؔ͋Δ਺ࣈΛλʔήοτͱͯ͠ઃఆ
  27. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. #6 レコメンド • 医師向け論文レコメンド • お医者さんの興味ワード群から Elasticsearch の Weak AND (WAND) 検索 • Triplet Loss で Citation 情報をもとに埋め 込み、クエリ論文と近いものをランキン グ [Bhagavatula, Chandra, et al. “Content-based citation recommendation.” NAACL-HLT 2018.] • リランク: 論文メタデータを PageRank で スコア化 • 初期評価は編集部の目視と Altmetrics で。 論文間の相関は引用数の遷移から。評価 は既存の PageView データを使って CTR/MRR/MAP を算出 #MLLoft https://speakerdeck.com/vaaaaanquish/ml-at-loft-number-6-serohesukarafalselun-wen-rekomentosisutemufalsegou-zhu レコメンドエンジンの作成 WAND検索 Content-Based Citation Recommendation Rerank Model ・Journal Page Rank ・Author Page Rank ・Affiliation Page Rank ・Co-occurrence 興味ワード群 Top k paper • Proceedings of NAACL-HLT 2018 https://www.aclweb.org/anthology/N18-1022 • >>> Phase1 triplet lossで文章のcitation情報に応じて埋め込み >>> Phase2 title, abstract, author, journal, keyword, text intersectionを追加してquery論文と 近い論文をランキングして top N • 外部データのメタデータなしで ある論文に情報が近い論文を出す仕組み # Content-Based Citation Recommendation レコメンドエンジンの作成 WAND検索 Content-Based Citation Recommendation Rerank Model ・Journal Page Rank ・Author Page Rank ・Affiliation Page Rank ・Co-occurrence 興味ワード群 Top k paper • コールドスタートを考慮して論文情報から取得できる ジャーナル名、所属名、著者名を citationからスコア化 • ユーザの興味ある単語に紐付く論文      + 過去に医師が書いた、クリックした論文に近い論文 を単純なPage Rankスコアとクリックによる Co-occurrence matrixでランキングを生成して Top k # Rerank
  28. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. #6 レコメンド • ユーザーベクトル • 球面 k-means でクラスタリングし、 記事数が多いクラスタのセントロイド • Amazon DynamoDB に保存 • 記事ベクトル • 記事タイトルとイントロ名詞の数単語を fastText でベクトル化 • Amazon Elasticsearch Serviceに保存 #MLLoft https://speakerdeck.com/reikubonaga/ml-loft-3 Amazon Elasticsearch Service Amazon DynamoDB Amazon RDS Web App 機械学習API 機械学習バッチ アプリケーション オンライン処理 バッチ処理 Amazon ECS AWS Elastic Beanstalk 21
  29. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. レコメンドまとめ こんなに短いまとめだと何も伝わらない気がするが、、、 • 手法の話が多かった • グラフや時系列を使うなど • 推薦候補生成とリランキング • ユーザーの興味関心・コンテンツの賞味期限も考慮 • ビジネス KPI と結びついた評価指標をいかに設計するかが肝 #MLLoft
  30. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. #4 Edge • エッジでの制約を考えてモデルの軽量化とフレームワークの選定 • プログラミング言語もデバイスに合わせて移植 (C/C++, Rust など) • デバイスを含んだ ML パイプラインを構築してテストを行う #MLLoft https://docs.google.com/presentation/d/13SJwaiWmw5ESm0_m-sqAGMulV3xJfwevhYuNvKH02pA/
  31. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. #4 Edge • プロセッサの選択肢と様々な規模の FPGA • Intel OpenVINO によるモデル最適化 • 量子化 NN による組み込み Deep Learning も Programmable Solutions Group 3 インテル® FPGA ポートフォリオ 性能 低コスト ミッドレンジ ハイエンド 機能 ▪ 2 ~ 50KLE ▪ 不揮発性メモリー ▪ デュアル・コンフィグ レーション ▪ アナログハード IP ▪ DDR3 メモリー ▪ Nios II ソフト CPU • 25 ~ 300KLE • 3/6Gbps SERDES • 12Mb エンベデッド・ メモリー • DDR3/L メモリー • PCIe Gen2 x4 • ARM HPS または Nios® II ソフト CPU • 560 個のユーザー I/O • 160 ~ 1,150KLE • 25Gbps SERDES • 53Mb エンベデッド・メ モリー • DDR4 メモリー・ コントローラー • PCIe Gen3 x8 (4) • ハード FP DSP • ARM HPS または Nios II ソフト CPU • 768 個のユーザー I/O • 378 ~ 5,510KLE • GHz コア・ファブリック • 28/56Gbps SERDES • 137Mb エンベデッド・ メモリ • DDR4 メモリー • PCIe Gen3 x16 (6) • HBM DRAM • ハード FP DSP • ARM HPS または Nios II ソフト CPU • 1,640 個のユーザー I/O • 85 ~ 220KLE • 12.5Gbps SERDES • 11Mb エンベデッド・ メモリー • DDR3/L メモリー・ コントローラー • PCIe Gen2 x4 • ハード FP DSP • Nios II ソフト CPU • 284 個のユーザー I/O ▪ 6 ~ 120KLE ▪ 528 個のユーザー I/O ▪ Nios II® ソフト CPU 16 © 2019 Intel Corporation. 無断での引用、転載を禁じます。 Award-Winning* Edge AI Solution by LeapMind 1-bit Quantization and Compression Technology and Tool Chain for Embedded Deep Learning • Real-time Response, Low Latency • Lower Power, Small Footprint • No Internet Connection Required Application Example: • Food Inspection • PCB Soldering Inspection • Human Detection • Powerline Inspection by Autonomous Drone *Leapmind’s DeLTA family received ET Technology Award 2018 in Tokyo https://www.slideshare.net/yukitakatakemura/fpgaedge-ai #MLLoft
  32. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. #4 Edge • エッジで推論、クラウドと連携 • 電源管理・計算資源不足に FPGA のメリット バッテリに関する話 - 組み込み向け電源管理 バッテリー/ 電気二重層コンデンサ エネルギー源 太陽光パネルとか タスクリスト 動作条件 実装・実験中 https://www.slideshare.net/miyox/misc-for-edgedeviceswithfpga システムに潜むあれこれ エッジデバイス エッジデバイス エッジデバイス 電源管理 バッテリートラブル 通信トラブル 計算資源 不足 計算資源 不足 本物? 管理コスト キーワード FPGA #MLLoft
  33. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. #4 Edge • まずは画像サイズを小さくして簡単な方法で計算量削減 • Convolution のチャネル数を減らすと計算量が減る • チップメーカーが出しているフレームワークを検討 • Intel GPU は割と速い (OpenVINO が使える) https://speakerdeck.com/okdshin/ml-loft-4-etuzitui-lun #MLLoft INPUT INPUT INPUT 計算量 0.7倍 計算量 半分! モデルそ まま タテ・ヨコ 0.7倍 するだけで 入力画像サイズ モデル モデル モデルまとめ モデル Conv チャンネル数を減らすと 計算量が減る 重たいConv Chainer-computational-costで調 べられる 入力画像サイズ 調整と比べると労力が かかる
  34. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Edge まとめ • モデル軽量化の手法と NN の計算量を削減するための考え方 • エッジで動かすことを考慮した言語・フレームワークの選定 • FPGA の使い所も多い • エッジで完結せずクラウドとも連携 #MLLoft
  35. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. #5 NLP • コミュニティーサービスでの治安を守る NLP • AWS のサービス (AWS StepFunctions, AWS Glue, AWS Fargate, Amazon SageMaker) を組み合わせて「心理的安全性の高い」ML フローを構築 #MLLoft ೔ຊޠͷࣗવݴޠॲཧͬͯ l΍Δ͜ͱzଟ͘ͳ͍Ͱ͔͢ʁ!   https://speakerdeck.com/takapy/mamaxiang-kekomiyuniteisabisuwozhi-erunlp ˙ΞʔΩςΫνϟɿ&5-ͱલॲཧ   Fargate S3 RDS Glue StepFunctions Preprocessing Task train.tsv train.tsv w2v model  ෼͔ͪॻ͖ .FDBC   ඼ࢺ੍ݶ<໊ࢺ ಈࢺ ܗ༰ࢺ>  ਖ਼نԽ  ετοϓϫʔυܭࢉআڈ  ࣙॻͷ࡞੒  &NCFEEJOH.BUSJYͷ࡞੒  ςΩετσʔλΛγʔέϯεԽ  σʔλΛUSBJO UFTUʹ෼ׂ セッション G-5
  36. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. #5 NLP • B2B QAシステムでの NLP • Amazon SageMaker を導入して劇的なインフラ改善 • 本日14時から Edocco Studio (B1F) で Studio Ousia 山田さん・島岡さんのセッション! (満席) #MLLoft セッション F-5 SageMaker ① 周辺的な処理を任せられる 機械学習に関連する周辺的な処理は、SageMakerがマネージしてくれる SageMakerの魅力 • 学習 • 推論 • 学習ジョブ起動、状態確認 • 推論インスタンス起動、更新 • モニタリング、スケーリング • etc... 本質的な処理 周辺的な処理 ② 機械学習モデルをDockerイメージとして作成 • 任意の言語、フレームワークを利用可能 • SageMakerからみれば、モデルは要件を満たすブラックボックス 任意の機械学習モデル SageMaker Dockerイメージ参照 SageMakerの魅力 https://www.slideshare.net/SonseShimaoka/aws-sagemaker
  37. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. #5 NLP • 短期間の PoC やアノテーションデータが少ない場合の対処法 • データ精査・特徴抽出を丁寧に行う、Pretrained のモデルを使う • 教師なし学習でやる、タスクを細分化する • 分類根拠の可視化で特徴抽出がうまくいっているか確認 #MLLoft 課題と対策: 機械学習の視点から © 2019, Retrieva, Inc. All rights reserved. 13 少ないannotationデータ Pretrain タスクの 細分化 • 表現方法による差異 • 補正方法 • 外部データの活用 • 「納得しやすい」 解釈方法 教師なし • ラベルの偏り補正 • Un-labelの扱い 短いPoC 検証 データ 整備 • 独立したアルゴ リズム開発 • 開発・検証の 高速化 課 題 対 策 Predictor:機能(分類根拠可視化) © 2019, Retrieva, Inc. All rights reserved. • 可視化することで特徴抽出がうまくいってるかを確認 個別データの分類根拠 分類軸別の分類根拠 色の意味 青色がポジティブな影響 赤色がネガティブな影響 赤色、青色の大小の意味 ポジティブ/ネガティブの影響度の大小 特徴学習結果を各分類への影響度順に表示 【best】ポジティブな影響度 【worst】ネガティブな影響度 18 https://www.slideshare.net/HidetoMasuoka/20190827awsloftlt
  38. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. #5 NLP • SNS (Twitter) における NLP • 「【悲報】TwitterのNLPがマジやばたにえんの無理茶漬けwwwww」 • Twitter に見られる文書の特徴 • 意味のない煽り文句「【悲報】」 • コミュニティに特化した略語「NLP」 • 全角の中に突如現れる突然の半角「マジ」 • 絵文字「」 • 謎の慣用句「やばたにえんの無理茶漬け」 • その慣用句の中に絵文字「」 • 長さが不安定な草「wwwww」 • これらに対する前処理・辞書・解析器の工夫 #MLLoft {hOs!Pc#NS  '%# "(#   G),*H  # D z  https://speakerdeck.com/hottolink_rd/20190827-aws-ml-at-loft-number-5-by-hottolink
  39. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. #5 NLP • 契約書・法律文書の NLP • 言語学においては「分野ごとに語彙も文型も異なる」ことが知られている • 品詞構成と頻出語彙から両者の特徴を分析 ĘƎİÝÒ:ęª; ) E E275 Y a ! ! V . 5 0 :426 2M# 8 D y E • P c . P e c y l • x l c y . • x n n y y P x “ . n . y x l c E275 V . 5 0 :426 2M# 8 D https://speakerdeck.com/mimihub/20190827-aws-mlloft-lt5 #MLLoft
  40. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. #6 NLP • 企業の環境・社会・ガバナンスに対する取り組みを評価するための NLP • AWS Lambda, Amazon SQS で文書データ取得 • AWS Glue を使って前処理、 Amazon S3 に置いたデータに Amazon Athena で SQL クエリを投げる #MLLoft Copyright © TIS Inc. All rights reserved. 12 自然言語処理による支援 自然言語処理による支援として、以下3点を実施する。 „ 文書データの収集 „ 評価対象となる文・段落の絞り込み „ 自動評価 支援アプローチの全体像 CSR/統合報告書 有価証券報告書等 文書データの 収集 文書データの 整形・整理 テキスト・データ項目の抽出 PDFのテキスト化等 自然言語処理 モデル 文書データと、フィー ドバックから学習 +ルール 評価担当者からの フィードバック Copyright © TIS Inc. All rights reserved. 4 ESG投資とは (1/4) „ E: Environment „ S: Social „ G: Governance 年金積立金管理運用独立行政法人: ESG投資より 売上や利益だけでなく、ESG(=環境/社会/ガバナンス)に関する取り組み を評価する投資。 https://www.slideshare.net/takahirokubo7792/esg-174140900
  41. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. NLP まとめ • それぞれのドメインごとに、文書の特徴をよく理解する必要がある • コミュニティサービスでの治安を守る NLP • B2B QAシステムでの NLP • SNS, Twitter における NLP • 契約書・法律文書の NLP • 企業の環境・社会・ガバナンスに対する取り組みを評価するための NLP #MLLoft
  42. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. #6 時系列解析 • カオス理論による時系列データの埋め込みと、 アトラクターのトポロジカルな構造を用いた分類について • Topological Data Analysis (TDA) • [Chazal, Frédéric, et al. "Optimal rates of convergence for persistence diagrams in Topological Data Analysis." arXiv preprint arXiv:1305.6239 (2013).] #MLLoft https://drive.google.com/file/d/1_lquq3VhYL0XWlzTP3H7zbozgiU1WIKn/view?usp=sharing https://www.fujitsu.com/jp/documents/about/resources/publications/magazine/backnumber/vol69-4/paper15.pdf
  43. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. いくつか議論の的をざっくりまとめると • MLOps でも他の回でも、ML エンジニアの守備範囲について • レコメンドは手法と評価指標の設計について • Edge は効率的な開発プロセス・ツールとデバイス選定について • NLP は適応分野ごとの特性理解とドメイン知識をどう取り入れるか #MLLoft
  44. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Q: インフラエンジニアと データサイエンティストは分けるべきか? • 会社によって様々 • 一般的に、会社の規模が大きくなると分業が進んでいく傾向に • 分けていない、という会社も • AI リサーチャーとインフラエンジニアのコミュニケーションを つなぐため ML エンジニアが雇われるケースも • 全員がモデリングからデプロイまでする会社もいくつか • 完全分業の会社も #MLLoft
  45. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Q: レコメンドの評価指標は? • レコメンドの精度向上がビジネス KPI の向上につながるように • 定量的な KPI に落とし込むところは データサイエンティストの腕の見せ所 #MLLoft
  46. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Q: Edge で機械学習を始めるには? • 本当に必要になってから手を付ける • 最近は高位合成、クラウドでの FPGA 利用など、始めやすくなっている • デバイス選定を早めにやっておく • モデルの小型化・計算量の削減に工夫が必要な場合も #MLLoft
  47. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Q: テストどうしてる? • これも会社によって様々 • ニューラルネットワークの場合は、モデルの精度検証ができていれば 普通の意味でのコードのテストはそれほどシビアではないのでは、 との意見も • ただし精度検証が難しい #MLLoft
  48. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. MLOps の課題に関して • 機械学習基盤にマネージドサービスの Amazon SageMaker を使うと多くの問題が解決する • 環境構築・インフラ管理・実験管理・再現性・運用 • Amazon S3 にデータを置いて、Python のトレーニングスクリプトを書く • Docker コンテナの持ち込みも可能 • 小型化のためモデルのコンパイル機能も提供 (SageMaker Neo) • 最近は MLOps や機械学習ワークフロー構築の相談が増えてきた • 運用負荷・推論費用の削減は深刻な問題 • AWS StepFunctions (マネージド) や Apache Airflow で • 機械学習が生み出している価値に向き合うことが大事 #MLLoft
  49. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. レコメンドの課題に関して • ビジネス KPI との紐付きが重要 • 定量化するためには、良いデータサイエンティストを雇う • 良い、というのはサービスのこともよく理解していて、分析も得意 (好き) な人 • 自社のビジネスに向き合う・理解することが大事 • マネージドサービスを使うなら Amazon Personalize • AutoML で HRNN などのアルゴリズム (「レシピ」) を使える • 結果の取得 (Amazon Personalize Runtime) • GetRecommendations API • GetPersonalizedRanking API #MLLoft
  50. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. NLP の課題に関して • 自社のデータに向き合うことが大事 • ドメインによって的確な手法の選定が必要 • 日本語自然言語処理の事例・サンプル実装が少ないとたまに言われるが、 日本語 NLP をされてる方々も結構 AWS を使ってくれている • コネヒトさん、Studio Ousia さんも今回の DevDay で話されます #MLLoft
  51. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. まとめに代えて • 機械学習のワークロードを実運用の中で最適化できているか、 継続的な見直しが必要です。 • 色々悩むことや、他社でどうやっているのか具体的な事例とともに話を 聞きたい方のために、ML@Loft のイベントは引き続き継続します。 • イベント参加だけでなく、登壇や運営に興味がある方も連絡下さい。 • AWS Solutions Architect (スタートアップ担当) の立場としては、 日本のスタートアップに出来るだけ大きく伸びてほしいと思って 日々仕事をしています。 • ML@Loft のようなコミュニティ支援や、 他にも何か必要なこと・協力できることがあれば教えてください。 • 令和の日本を盛り上げていきましょう
  52. Thank you! © 2019, Amazon Web Services, Inc. or its

    affiliates. All rights reserved. これまでに ML@Loft にご参加頂いた皆様 ありがとうございました (次回は10/23予定) Yoshitaka Haribara @_hariby
  53. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Related breakouts Friday, October 4, 2019 Amazon SageMaker を利用した ML のための CI/CD パイプライン 12:00 – 12:45 | Edocco Studio (B1F) Friday, October 4, 2019 自然言語処理の開発現場でのAWS活用術ーリサーチからデプロイまでー 14:00 – 14:45 | Edocco Studio (B1F) Friday, October 4, 2019 DRIVE CHARTにおけるSageMaker migration 15:00 – 15:45 | 神田明神ホール (2F)
  54. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. http://bit.ly/amzn-fp Amazon Forecast&Personalize ハンズオン 2019 年 10 ⽉ 31 ⽇(⽊)13:00〜17:00 (開場12:00) ハンズオン + スタートアップ事例登壇3社 モノオク株式会社 / 株式会社アイデミー / 株式会社プレイド 場所: アマゾンジャパン合同会社 〒153-0064 東京都 ⽬⿊区下⽬⿊1-8-1 ARCO TOWER ANNEX 12F ※アマゾン⽬⿊オフィス (⽬⿊セントラルスクエア) では ございませんのでご注意ください。
  55. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon SageMaker 事例祭り • AWSの機械学習サービス概要とAmazon SageMakerの基礎 • Amazon SageMaker Ground Truth • お客様事例 • パイオニア株式会社 システムアーキテクト担当 ⼭内 ⿓之介 様 「リアルタイム画像配信システムのプライバシーフィルタAI開発におけるSageMaker活⽤例」 ⽇時︓ 2019 年 10 ⽉ 30 ⽇(⽔) 場所︓ アマゾン新⽬⿊オフィス ⽬⿊セントラルスクエア21F 参加費︓ 無料 対象︓ 機械学習の基礎知識とPythonによる機械学習プログラミング経験のある⽅ 主催︓ アマゾン ウェブ サービス ジャパン株式会社
  56. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. アンケートご協⼒のお願い お⼿持ちの受講票のアンケート⽤QRコードから アンケートにお答えいただくと、記念品を差し上げております。 ※イメージです プレゼントの引き換えは、神⽥明神の会場出⼝付近(屋外)までお越しください IT情報安全守護
  57. 2019 年 10 ⽉ 1 ⽇ 〜 11 ⽉ 5

    ⽇開催 amzn.to/AWSInnovateJP 申し込み受付中 AWS 最新アップデート / コンテナ / AIML / AWS アンチパターン / 認定試験対策講座など 60セッション オンラインで参加できるカンファレンス、全 60 セッション 10/9, 10/15 ライブ配信 AWS エキスパートへの Q&A 修了証明書の発⾏ 業務時間に視聴