Slide 1

Slide 1 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. T O K Y O 2 0 1 9 . 1 0 . 0 3 - 0 4

Slide 2

Slide 2 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. T O K Y O 2 0 1 9 . 1 0 . 0 3 - 0 4 機械学習エンジニアが直面する課題と その解決策 — ML@Loftで語られた 20を超える事例を通して見えてきたもの — Yoshitaka Haribara, Ph.D. Startup Solutions Architect Amazon Web Services Japan K.K. F - 1

Slide 3

Slide 3 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. Agenda 機械学習のお悩み相談イベント ML@Loft の紹介 登壇者が語ったこと 参加者からこのような悩みが AWS Solutions Architect の目線から まとめに代えて #MLLoft

Slide 4

Slide 4 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. 自己紹介 針原佳貴 (はりばら よしたか) スタートアップ担当 ソリューションアーキテクト 略歴: 2018年 3月 博士 (情報理工学) 2018年 4月 から AWS

Slide 5

Slide 5 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. #MLLoft

Slide 6

Slide 6 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. 「ML@Loft は AWS 上で機械学習ワー クロードを運用しているデベロッパー /データサイエンティストのための、 お悩み相談会です。月に1回 AWS Loft Tokyo で開催し、毎回活発な議論が行 われています。」 About the event https://ml-loft.connpass.com/ #MLLoft

Slide 7

Slide 7 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. 挑戦をカタチにする場所へ。 AWS Loft Tokyo #MLLoft

Slide 8

Slide 8 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. 普段のタイムテーブル 19時スタート (時間・人数) 前半 Lightning Talk (LT): 10分 x 4人 登壇者 (機械学習のプロダクション運用に知見のある方々) より、 自己紹介・話題提供のため10分ほどの LT を実施。 後半 Round Table (RT): 25分 x 2ターン テーブルに分かれて参加者のお悩みをシェアし、 ディスカッションしながら登壇者に答えてもらう。 (人数が多い時はパネル形式) #MLLoft

Slide 9

Slide 9 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. ML@Loft 開催テーマ 参加者アンケートをもとに、 人気のテーマを選択。 1. MLOps 2. MLOps 3. Recommendation 4. Edge Deep Learning 5. NLP 6. Time Series Analysis/ Recommendation/NLP

Slide 10

Slide 10 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. 毎回高い満足度 イベント満足度 (1-5) サンプル数 参加者数 #1. MLOps 4.65 18 36 #2. MLOps 4.53 17 19 #3. レコメンド 4.5 30 30 #4. Edge 4.79 14 22 #5. NLP 4.33 6 25 #6. MLPP との 共催 4.46 39 51 #MLLoft

Slide 11

Slide 11 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. そもそもなぜこのイベントができたか • お客さんと話していて、「デベロッパー向けの機械学習イベントをやり たいよね」という話になった • AWS の公式イベントでサービスの話とか、公開事例は色々聞ける • とはいえ結構細かいところなど色々質問したいことは他にも • この形式はもともと dely さんが開催していた Loft イベントを参考に • dely CTO 大竹さん「発表を聞いて終わり、ではなくインタラクティブにディスカッションで きるイベントがあってもいいのでは」 • 登壇社からの評判も良い #MLLoft

Slide 12

Slide 12 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. ML@Loft これまでの登壇者 (所属は略称) #1. MLOps 宇都宮 聖子・針原 佳貴 (AWS)、緒方 貴紀 氏 (ABEJA) 、大竹 雅登 氏・辻 隆太郎 氏 (dely)、 吉田 勇太 氏 (ブレインパッド) #2. MLOps 西川 泰海 氏 (BEDORE)、湊 雄一郎 氏 (MDR)、藤本 敬介 氏 (ABEJA)、針原 佳貴 (AWS) #3. レコメンド 西場 正浩 氏 (エムスリー)、前田 英行 氏 (サイバーエージェント)、小澤 俊介 氏 (Gunosy)、 久保長 礼 氏 (ウォンテッドリー) #4. Edge 加藤 倫弘 氏 (ディー・エヌ・エー)、竹村 幸尚 氏 (インテル)、 三好 健文 氏 (わさらぼ/イーツリーズ・ジャパン)、岡田 真太郎 氏 (Preferred Networks) #5. NLP 野澤 哲照 氏 (コネヒト)、島岡 聖世 氏 (Studio Ousia)、舛岡 英人 氏 (レトリバ)、 榊 剛史 氏・山中 志一 氏 (ホットリンク)、藤井 美娜 氏 (GVA TECH) #6. MLPP との共催 梅田 裕平 氏 (富士通研究所)、河合 俊典 氏 (エムスリー)、押条 祐哉 氏 (ストックマーク)、 久保 隆宏 氏 (TIS) #MLLoft

Slide 13

Slide 13 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. ML@Loft イベントの特徴 • AWS Loft Tokyo で開催しているが、あくまでもコミュニティイベント • 「AWS サービスの話を」という縛りはない • 実運用・プロダクションでの機械学習にフォーカス • 実際に参加者の方がお持ちの課題・お悩みを相談・解決できるように • 発表を聞くだけでなく、積極的にディスカッションに参加してもらう • 毎回「質の高い議論ができた」と参加者からも好評 https://ml-loft.connpass.com/ #MLLoft

Slide 14

Slide 14 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.

Slide 15

Slide 15 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. これまでのイベント内容 これまでのイベント内容は登壇者のスライド付きで 開催報告ブログにまとめてあります https://ml-loft.connpass.com/ • #1. MLOps Blog • #2. MLOps Blog • #3. レコメンド Blog • #4. Edge Blog • #5. NLP Blog • #6. MLPP との共催 • 参加者の方の Blog #MLLoft

Slide 16

Slide 16 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. #1 MLOps • 機械学習のプロダクションデプロイは想像以上に複雑 • [Sculley, David, et al. "Hidden technical debt in machine learning systems." NIPS 2015.] #MLLoft $PQZSJHIUh "#&+" *OD"MMSJHIUTSFTFSWFE Deploying Machine Learning in production is complex than expected )JEEFO5FDIOJDBM%FCUJO.BDIJOF-FBSOJOH4ZTUFNT <4DVMMFZ /*14> "MHPSJUIN %FWFMPQNFOU )VHFTZTUFNTBOEGVODUJPOTXFOFFE JOQSPEVDUJPO https://www.slideshare.net/takanoriogata1121/190410-mlloft

Slide 17

Slide 17 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. #1 MLOps • パーソナライズ前提のサービス設計の実例 • 能動的に選ぶ体験 → 受動的に受け取る体験 • それを実現するシステム “R” “ S E i p D A E D A R R e sv sv D g s f L sv n s f v 3- 2 E https://www.slideshare.net/RyutaroTsuji/startupday-loft-142053706 #MLLoft

Slide 18

Slide 18 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. #1 MLOps • 適切に人の手を入れる • 精度検証のため人手のアノテーション • 人と機械の協調 (得意な方に任せる) $PQZSJHIUh "#&+" *OD"MMSJHIUTSFTFSWFE ״׶葺ְ麊欽ך׋׭ך1%$" ر٦ة 䱿锷ؚٗ 礵䏝嗚鏾ך׋׭ך 㹀劍涸ז،ظذ٦ءّٝؿٗ٦ 㹀劍涸ז礵䏝鐰⣣ 銲㔓ךⴓ匿 㹀劍涸ז㷕统 s i j d https://www.slideshare.net/takanoriogata1121/190410-mlloft https://www.slideshare.net/RyutaroTsuji/startupday-loft-142053706 #MLLoft

Slide 19

Slide 19 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. #1 MLOps • B2B (受託) 機械学習プロジェクトは運用見据えた「期待値」調整が大事 • 予算取り、PoC のゴールは試作機 (Minimum Viable Product; MVP) の作製 • MVP とはいえ、PoC の時点から精度だけでなくシステム構築・運用も視野に • 関係者: • ML モデルを考える データサイエンティスト • システムエンジニア • ハードウェアエンジニア • 実際に現場でシステムを運用する人 • プロジェクト責任者 • 保守・運用と予算取りのタイミングと 開発スケジュールをすり合わせ • 士気を保てるようタイミングを見計らい 現場の作業フローを洗い出す #MLLoft MVP的プロトタイプ制作 - 関係者 - MLモデルを考えるDS - システムエンジニア - (ハードウェアエンジニア) - 実際にシステムを動かす現場 人 - プロジェクト責任者 MVPと言いつつ、すでに「小ライス大盛り」状態 しかし、上 期待を高めて予算を引き出すに ここまでがミニマム  (PJをPoC 次に繋げる) https://speakerdeck.com/ysdyt/budget-schedule-and-humanity-of-ml-system-dev-pj

Slide 20

Slide 20 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. #2 MLOps • 「機械学習」を既存システム (B2B SaaS Web アプリ) に統合する際の データベースとのアナロジー • 機械学習のモデルは巨大なステートを持つ • TensorFlow Serving • [Olston, Christopher, et al. "Tensorflow-serving: Flexible, high-performance ml serving." NIPS Workshop 2017.] #MLLoft ͔ͳΓෳࡶͳػցֶशೖΓ XFC ΞϓϦ .-JO$PNQVUF T %BUBCBTF $MJFOU ࣮ࡍߦ͍ͬͯΔղܾͷ঺հ $PNQVUF UGTFSWJOH $MJFOU https://speakerdeck.com/yasuumi/ml-at-loft-number-2-system-architecture-for-machine-learning

Slide 21

Slide 21 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. #2 MLOps • 量子コンピュータ運用上の課題 • セキュリティ • 大規模データの扱い • バックエンド (量子コンピュータ) への負荷 • Developer experience 量子コンピュータ 「量子力学」 原理を応用して計算 量子アニーリング・イジング 最初に値を設定して解く組合せ最適化専用マシン 量子ゲート 時間ごとに量子ゲートを変えて計算する汎用マシン 米国や中国中心 取り組み 日本やカナダ中心 取り組み 計算時間 q[0]
 q[1]
 H H H H H H X X H H X X H H 計算時間 量子ゲート 量子ビット 測定 量子ビット 相互作用Jij 縦磁場h 現在日本で話題になる2方式
 汎用計算 できる量子ゲートと、組合せ最適化問題に特化した量子アニーリング・イジングがある。 https://www.slideshare.net/mdrft/mlops #MLLoft

Slide 22

Slide 22 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. #2 MLOps • 機械学習基盤は良いぞ、という話 • データ・モデル管理 • 大規模データを扱える • 潤沢な計算資源 • 仕事の引き継ぎ・再現性 • あり物を使い回すよう心掛ける • 学習済みモデルがあるなら使う • 既存のソースコードを git clone • なければ論文を読んで実装 • 論文もなければ自分でモデルを実装 $PQZSJHIUh ABEJA, Inc. All rights reserved ꅾ銲ه؎ٝز⢪ְ㔐ׇ׷׮ךכ⢪ְ㔐ׅ HJUIVCך؝٦سד銲⟝׾弫׋ׅז׵ծ׉׸׾⢪ֲ • 傀㶷ךا٦أ؝٦س⹛ַׇ׷ה㴍׃ְ • דֹ׸ל$BFծ.BU$POW/FUծUPSDI׮ • 醱꧟ז圓䧭ך傀㶷؝٦س • ⢽ִלծIUUQTHJUIVCDPNUFOTPSPXNPEFMT طحزٙ٦ؙ׮ծדֹ׸ל傀㶷ך暟׾⢪ְ㔐ׅ • ⢽ִלծ㷕统幥׫3FT/FUٗأꟼ侧זו https://www.slideshare.net/FujimotoKeisuke/mlloft-145253865 $PQZSJHIUh ABEJA, Inc. All rights reserved 堣唒㷕统㛇湍♳דך㷕统ך䗳銲䚍 • ر٦ةװ堣唒㷕统ٌرٕך盖椚 • 㣐鋉垷זر٦ة׾䪔ֲ • 㷕统׾㔐ׅ情尶ז؎ٝؿٓ • 㺁僒ח➬✲׾䒷ֹ竰ֺծⱄ植〳腉ז橆㞮׾⥂㶷 ٗ٦ٕؕ橆㞮׌ה⿑׃ְ #MLLoft

Slide 23

Slide 23 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. #2 MLOps • マネージドサービスを使う • 機械学習プラットフォームは Amazon SageMaker • ワークフロー構築は AWS StepFunctions • Kubernetes/Kubeflow は EKS+EC2+ECR © 2019, Amazon Web Services, Inc. or its Affiliates. Amazon SageMaker =341,;/5.,; 2:$!%$" ,;% )@$6& ?/ -<0>( ,; %# (HPO) ,;8* 97 "# 8* " "# 8* +'97 Amazon EC2 P3 Instances Amazon SageMaker RL Amazon SageMaker Ground Truth Amazon Elastic Inference AWS Marketplace for Machine Learning Amazon SageMaker Neo © 2019, Amazon Web Services, Inc. or its Affiliates. % ! )" % ($' https://speakerdeck.com/hariby/ml-at-loft-number-2 #MLLoft

Slide 24

Slide 24 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. MLOps まとめ 案外みんな同じようなことを言っている • 機械学習は運用負荷が高い • 運用のことを初めから意識 • サービスに価値を与えるようにシステム設計 • 自動化しつつも人間を挟む • 機械学習 (教師あり学習) だと人手のアノテーションは必須 • 人間が得意な部分は人間に流す • 生産性を高めるためにあり物を使う • モデルは必要に迫られるまで極力自分で作らない • 機械学習プラットフォームはマネージドサービス #MLLoft

Slide 25

Slide 25 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. #3 レコメンド • お医者さん向けニュース記事推薦 • User-Item Interaction を2部グラフだと思って Graph Autoencoder (Graph Convolutional Encoder) にかける [Berg, Rianne van den, Thomas N. Kipf, and Max Welling. "Graph convolutional matrix completion." arXiv:1706.02263 (2017).] • RNN にユーザーのコンテキスト情報を追加してレコメンド (Latent Cross) [Beutel, Alex, et al. “Latent cross: Making use of context in recurrent recommender systems.” WSDM 2018.] GCNモデル 紹介 ● ユーザー × アイテム 2部グラフ ● message passingを利用 ○ 他 方法として下記 2つもメジャー(?) ■ random walk ■ graph Fourier transform ● 属性データ ○ Latent cross的なアイデアで統合 ● 各ノード embeddingを学習 ○ o_user ← clickしたitem_embedding 平均 ○ o_item ← clickしたuser_embedding 平均 ○ (次で詳しく) (e0, e1, e2,...) 属性データ (v0, v1, v2,...) 属性データ モデルをもう少し詳しく(正確で ない) ● {e} trainable variables ● u1がi1をclickする確率 ○ cos(average(e_i1, e_i3), average(e_u1, e_u3)) ● 新しいアイテムも多少 クリックがあれ 評価できる。 e_u1 e_u2 e_u3 e_u4 e_i1 e_i2 e_i3 https://speakerdeck.com/nishiba/graph-convolutional-networkswoshi-tuta-tui-jian-sisutemu #MLLoft

Slide 26

Slide 26 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. #3 レコメンド • インターネットテレビのコンテンツ推薦 • 2段階: 推薦候補生成 (番組の類似度) とリランキング (ユーザーとの関連スコア) • メリット: 計算時間の削減とパーソナライズされた高精度な推薦、疎結合 "CFNB57ס䫟詞بتطّ ˝ חס⭚杼־׼啶䡗 ˝ 䫟詞⠮遨榟䡗⭚杼 ˝ ◄⯥מ銶畀׈׿ג樑磝ס걉⛍䈱מ㓹ט׀⠮遨؅礓׾ ˝ ٛٚ٤؞٤ء⭚杼 ˝ 䫟詞⠮遨榟䡗⭚杼ך榟䡗׈׿ג䫟詞⠮遨־׼ٗ٭ا٭כס꞊ 鵽䈱تؤؓ؅♀┙׊䫟詞磵冽؅┾צ僀ֻ׾ https://speakerdeck.com/cyberagentdevelopers/abematv-recommendation-system ⪒⛮بتطّ㍲ 1BUSJPU ظ٭ذ⭚杼㓹泅 ;FSP تعٛ٭ّ⭚杼ؙ٤ة٤ 䫟詞⠮遨榟䡗⭚杼 ٛٚ٤؞٤ء⭚杼 #MLLoft

Slide 27

Slide 27 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. #3 レコメンド • ニュース推薦に求められる要件 • 話題が変化してもユーザーの興味を捉えられる • ニュース価値の時間減衰を考慮 • リアルタイムのレスポンス (50ms or die) https://www.slideshare.net/shunsukekozawa5/gunosy-152302982 #MLLoft

Slide 28

Slide 28 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. #3 レコメンド • レコメンデーションにおけるターゲット設定 • 測定値 (View, DateTime, # of Clicks) から Metric (CTR, DAU/MAU, MRR/AUC/Precision/NDCG) と、ビジネス上の KPI (エンゲージメントスコア, ARPU, Retention) を計算 • ユーザーのエンゲージメントをどう測るか • エンゲージメント (愛着) = Stickiness (高頻度・長時間のサービス利用) ©2019 Wantedly, Inc. ϢʔβΤϯήʔδϝϯτείΞ αʔϏεʹର͢ΔѪணΛද͢είΞ ɾϢʔβɺΞΠςϜ͝ͱʹɺϢʔβΤϯήʔδϝϯτΛͲͷ͘Β͍ߴΊΒΕΔ͔දͨ͠είΞ Ϣʔβମݧͷ࣭Λఆٛ͢Δࢦඪ ɾΑ͘ΫϦοΫ͞ΕΔɺΑ͘Ԡื͞ΕΔɺ௕͘࢖ͬͯ͘ΕΔɺසൟʹ࢖ͬͯ͘ΕΔͳͲ λʔήοτ͸Τϯήʔδϝϯτʹ૬͕ؔ͋Δ਺ ɾΫϦοΫ͞ΕΔ͜ͱʹΑͬͯɺΤϯήʔδϝϯτ͕ඞͣ͠΋ߴ͘ͳΔΘ͚Ͱ͸ͳ͍ #MLLoft https://speakerdeck.com/reikubonaga/ml-loft-3 ©2019 Wantedly, Inc. Ϩίϝϯσʔγϣϯʹ͓͚Δλʔήοτ λʔήοτͱ͸ͳʹ͔ ɾϥϯΩϯά͕Ϣʔβʔʹͱͬͯྑ͔͔ͬͨѱ͔͔ͬͨΛ൑அ͢ΔͨΊͷ਺ࣈ λʔήοτͷઃఆͷ೉͠͞ ɾΫϦοΫͯ͠΋ίϯςϯπΛݟͯͳ͍͔΋͠Εͳ͍ ɾϒοΫϚʔΫ΍Ԡืͩͱใु͕ͳׂ͍߹͕૿͑Δ ɾͨ͘͞Μݟ͗͢Δͱ͍͏͜ͱ͸ɺٯʹѱ͍ମݧ͔΋͠Εͳ͍ ɾPCͱΞϓϦͰϢʔβͷಈ͖͸ҟͳΔ VisitͰ͸ɺϢʔβΤϯήʔδϝϯτʹ૬͕ؔ͋Δ਺ࣈΛλʔήοτͱͯ͠ઃఆ

Slide 29

Slide 29 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. #6 レコメンド • 医師向け論文レコメンド • お医者さんの興味ワード群から Elasticsearch の Weak AND (WAND) 検索 • Triplet Loss で Citation 情報をもとに埋め 込み、クエリ論文と近いものをランキン グ [Bhagavatula, Chandra, et al. “Content-based citation recommendation.” NAACL-HLT 2018.] • リランク: 論文メタデータを PageRank で スコア化 • 初期評価は編集部の目視と Altmetrics で。 論文間の相関は引用数の遷移から。評価 は既存の PageView データを使って CTR/MRR/MAP を算出 #MLLoft https://speakerdeck.com/vaaaaanquish/ml-at-loft-number-6-serohesukarafalselun-wen-rekomentosisutemufalsegou-zhu レコメンドエンジンの作成 WAND検索 Content-Based Citation Recommendation Rerank Model ・Journal Page Rank ・Author Page Rank ・Affiliation Page Rank ・Co-occurrence 興味ワード群 Top k paper ● Proceedings of NAACL-HLT 2018 https://www.aclweb.org/anthology/N18-1022 ● >>> Phase1 triplet lossで文章のcitation情報に応じて埋め込み >>> Phase2 title, abstract, author, journal, keyword, text intersectionを追加してquery論文と 近い論文をランキングして top N ● 外部データのメタデータなしで ある論文に情報が近い論文を出す仕組み # Content-Based Citation Recommendation レコメンドエンジンの作成 WAND検索 Content-Based Citation Recommendation Rerank Model ・Journal Page Rank ・Author Page Rank ・Affiliation Page Rank ・Co-occurrence 興味ワード群 Top k paper ● コールドスタートを考慮して論文情報から取得できる ジャーナル名、所属名、著者名を citationからスコア化 ● ユーザの興味ある単語に紐付く論文      + 過去に医師が書いた、クリックした論文に近い論文 を単純なPage Rankスコアとクリックによる Co-occurrence matrixでランキングを生成して Top k # Rerank

Slide 30

Slide 30 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. #6 レコメンド • ユーザーベクトル • 球面 k-means でクラスタリングし、 記事数が多いクラスタのセントロイド • Amazon DynamoDB に保存 • 記事ベクトル • 記事タイトルとイントロ名詞の数単語を fastText でベクトル化 • Amazon Elasticsearch Serviceに保存 #MLLoft https://speakerdeck.com/reikubonaga/ml-loft-3 Amazon Elasticsearch Service Amazon DynamoDB Amazon RDS Web App 機械学習API 機械学習バッチ アプリケーション オンライン処理 バッチ処理 Amazon ECS AWS Elastic Beanstalk 21

Slide 31

Slide 31 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. レコメンドまとめ こんなに短いまとめだと何も伝わらない気がするが、、、 • 手法の話が多かった • グラフや時系列を使うなど • 推薦候補生成とリランキング • ユーザーの興味関心・コンテンツの賞味期限も考慮 • ビジネス KPI と結びついた評価指標をいかに設計するかが肝 #MLLoft

Slide 32

Slide 32 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. #4 Edge • エッジでの制約を考えてモデルの軽量化とフレームワークの選定 • プログラミング言語もデバイスに合わせて移植 (C/C++, Rust など) • デバイスを含んだ ML パイプラインを構築してテストを行う #MLLoft https://docs.google.com/presentation/d/13SJwaiWmw5ESm0_m-sqAGMulV3xJfwevhYuNvKH02pA/

Slide 33

Slide 33 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. #4 Edge • プロセッサの選択肢と様々な規模の FPGA • Intel OpenVINO によるモデル最適化 • 量子化 NN による組み込み Deep Learning も Programmable Solutions Group 3 インテル® FPGA ポートフォリオ 性能 低コスト ミッドレンジ ハイエンド 機能 ▪ 2 ~ 50KLE ▪ 不揮発性メモリー ▪ デュアル・コンフィグ レーション ▪ アナログハード IP ▪ DDR3 メモリー ▪ Nios II ソフト CPU • 25 ~ 300KLE • 3/6Gbps SERDES • 12Mb エンベデッド・ メモリー • DDR3/L メモリー • PCIe Gen2 x4 • ARM HPS または Nios® II ソフト CPU • 560 個のユーザー I/O • 160 ~ 1,150KLE • 25Gbps SERDES • 53Mb エンベデッド・メ モリー • DDR4 メモリー・ コントローラー • PCIe Gen3 x8 (4) • ハード FP DSP • ARM HPS または Nios II ソフト CPU • 768 個のユーザー I/O • 378 ~ 5,510KLE • GHz コア・ファブリック • 28/56Gbps SERDES • 137Mb エンベデッド・ メモリ • DDR4 メモリー • PCIe Gen3 x16 (6) • HBM DRAM • ハード FP DSP • ARM HPS または Nios II ソフト CPU • 1,640 個のユーザー I/O • 85 ~ 220KLE • 12.5Gbps SERDES • 11Mb エンベデッド・ メモリー • DDR3/L メモリー・ コントローラー • PCIe Gen2 x4 • ハード FP DSP • Nios II ソフト CPU • 284 個のユーザー I/O ▪ 6 ~ 120KLE ▪ 528 個のユーザー I/O ▪ Nios II® ソフト CPU 16 © 2019 Intel Corporation. 無断での引用、転載を禁じます。 Award-Winning* Edge AI Solution by LeapMind 1-bit Quantization and Compression Technology and Tool Chain for Embedded Deep Learning • Real-time Response, Low Latency • Lower Power, Small Footprint • No Internet Connection Required Application Example: • Food Inspection • PCB Soldering Inspection • Human Detection • Powerline Inspection by Autonomous Drone *Leapmind’s DeLTA family received ET Technology Award 2018 in Tokyo https://www.slideshare.net/yukitakatakemura/fpgaedge-ai #MLLoft

Slide 34

Slide 34 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. #4 Edge • エッジで推論、クラウドと連携 • 電源管理・計算資源不足に FPGA のメリット バッテリに関する話 - 組み込み向け電源管理 バッテリー/ 電気二重層コンデンサ エネルギー源 太陽光パネルとか タスクリスト 動作条件 実装・実験中 https://www.slideshare.net/miyox/misc-for-edgedeviceswithfpga システムに潜むあれこれ エッジデバイス エッジデバイス エッジデバイス 電源管理 バッテリートラブル 通信トラブル 計算資源 不足 計算資源 不足 本物? 管理コスト キーワード FPGA #MLLoft

Slide 35

Slide 35 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. #4 Edge • まずは画像サイズを小さくして簡単な方法で計算量削減 • Convolution のチャネル数を減らすと計算量が減る • チップメーカーが出しているフレームワークを検討 • Intel GPU は割と速い (OpenVINO が使える) https://speakerdeck.com/okdshin/ml-loft-4-etuzitui-lun #MLLoft INPUT INPUT INPUT 計算量 0.7倍 計算量 半分! モデルそ まま タテ・ヨコ 0.7倍 するだけで 入力画像サイズ モデル モデル モデルまとめ モデル Conv チャンネル数を減らすと 計算量が減る 重たいConv Chainer-computational-costで調 べられる 入力画像サイズ 調整と比べると労力が かかる

Slide 36

Slide 36 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. Edge まとめ • モデル軽量化の手法と NN の計算量を削減するための考え方 • エッジで動かすことを考慮した言語・フレームワークの選定 • FPGA の使い所も多い • エッジで完結せずクラウドとも連携 #MLLoft

Slide 37

Slide 37 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. #5 NLP • コミュニティーサービスでの治安を守る NLP • AWS のサービス (AWS StepFunctions, AWS Glue, AWS Fargate, Amazon SageMaker) を組み合わせて「心理的安全性の高い」ML フローを構築 #MLLoft ೔ຊޠͷࣗવݴޠॲཧͬͯ l΍Δ͜ͱzଟ͘ͳ͍Ͱ͔͢ʁ! https://speakerdeck.com/takapy/mamaxiang-kekomiyuniteisabisuwozhi-erunlp ˙ΞʔΩςΫνϟɿ&5-ͱલॲཧ Fargate S3 RDS Glue StepFunctions Preprocessing Task train.tsv train.tsv w2v model ෼͔ͪॻ͖ .FDBC ඼ࢺ੍ݶ<໊ࢺ ಈࢺ ܗ༰ࢺ> ਖ਼نԽ ετοϓϫʔυܭࢉআڈ ࣙॻͷ࡞੒ &NCFEEJOH.BUSJYͷ࡞੒ ςΩετσʔλΛγʔέϯεԽ σʔλΛUSBJO UFTUʹ෼ׂ セッション G-5

Slide 38

Slide 38 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. #5 NLP • B2B QAシステムでの NLP • Amazon SageMaker を導入して劇的なインフラ改善 • 本日14時から Edocco Studio (B1F) で Studio Ousia 山田さん・島岡さんのセッション! (満席) #MLLoft セッション F-5 SageMaker ① 周辺的な処理を任せられる 機械学習に関連する周辺的な処理は、SageMakerがマネージしてくれる SageMakerの魅力 ● 学習 ● 推論 ● 学習ジョブ起動、状態確認 ● 推論インスタンス起動、更新 ● モニタリング、スケーリング ● etc... 本質的な処理 周辺的な処理 ② 機械学習モデルをDockerイメージとして作成 ● 任意の言語、フレームワークを利用可能 ● SageMakerからみれば、モデルは要件を満たすブラックボックス 任意の機械学習モデル SageMaker Dockerイメージ参照 SageMakerの魅力 https://www.slideshare.net/SonseShimaoka/aws-sagemaker

Slide 39

Slide 39 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. #5 NLP • 短期間の PoC やアノテーションデータが少ない場合の対処法 • データ精査・特徴抽出を丁寧に行う、Pretrained のモデルを使う • 教師なし学習でやる、タスクを細分化する • 分類根拠の可視化で特徴抽出がうまくいっているか確認 #MLLoft 課題と対策: 機械学習の視点から © 2019, Retrieva, Inc. All rights reserved. 13 少ないannotationデータ Pretrain タスクの 細分化 • 表現方法による差異 • 補正方法 • 外部データの活用 • 「納得しやすい」 解釈方法 教師なし • ラベルの偏り補正 • Un-labelの扱い 短いPoC 検証 データ 整備 • 独立したアルゴ リズム開発 • 開発・検証の 高速化 課 題 対 策 Predictor:機能(分類根拠可視化) © 2019, Retrieva, Inc. All rights reserved. • 可視化することで特徴抽出がうまくいってるかを確認 個別データの分類根拠 分類軸別の分類根拠 色の意味 青色がポジティブな影響 赤色がネガティブな影響 赤色、青色の大小の意味 ポジティブ/ネガティブの影響度の大小 特徴学習結果を各分類への影響度順に表示 【best】ポジティブな影響度 【worst】ネガティブな影響度 18 https://www.slideshare.net/HidetoMasuoka/20190827awsloftlt

Slide 40

Slide 40 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. #5 NLP • SNS (Twitter) における NLP • 「【悲報】TwitterのNLPがマジやばたにえんの無理茶漬けwwwww」 • Twitter に見られる文書の特徴 • 意味のない煽り文句「【悲報】」 • コミュニティに特化した略語「NLP」 • 全角の中に突如現れる突然の半角「マジ」 • 絵文字「」 • 謎の慣用句「やばたにえんの無理茶漬け」 • その慣用句の中に絵文字「」 • 長さが不安定な草「wwwww」 • これらに対する前処理・辞書・解析器の工夫 #MLLoft {hOs!Pc#NS '%# "(# G),*H # D z https://speakerdeck.com/hottolink_rd/20190827-aws-ml-at-loft-number-5-by-hottolink

Slide 41

Slide 41 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. #5 NLP • 契約書・法律文書の NLP • 言語学においては「分野ごとに語彙も文型も異なる」ことが知られている • 品詞構成と頻出語彙から両者の特徴を分析 ĘƎİÝÒ:ęª; ) E E275 Y a ! ! V . 5 0 :426 2M# 8 D y E • P c . P e c y l • x l c y . • x n n y y P x “ . n . y x l c E275 V . 5 0 :426 2M# 8 D https://speakerdeck.com/mimihub/20190827-aws-mlloft-lt5 #MLLoft

Slide 42

Slide 42 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. #6 NLP • 企業の環境・社会・ガバナンスに対する取り組みを評価するための NLP • AWS Lambda, Amazon SQS で文書データ取得 • AWS Glue を使って前処理、 Amazon S3 に置いたデータに Amazon Athena で SQL クエリを投げる #MLLoft Copyright © TIS Inc. All rights reserved. 12 自然言語処理による支援 自然言語処理による支援として、以下3点を実施する。 „ 文書データの収集 „ 評価対象となる文・段落の絞り込み „ 自動評価 支援アプローチの全体像 CSR/統合報告書 有価証券報告書等 文書データの 収集 文書データの 整形・整理 テキスト・データ項目の抽出 PDFのテキスト化等 自然言語処理 モデル 文書データと、フィー ドバックから学習 +ルール 評価担当者からの フィードバック Copyright © TIS Inc. All rights reserved. 4 ESG投資とは (1/4) „ E: Environment „ S: Social „ G: Governance 年金積立金管理運用独立行政法人: ESG投資より 売上や利益だけでなく、ESG(=環境/社会/ガバナンス)に関する取り組み を評価する投資。 https://www.slideshare.net/takahirokubo7792/esg-174140900

Slide 43

Slide 43 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. NLP まとめ • それぞれのドメインごとに、文書の特徴をよく理解する必要がある • コミュニティサービスでの治安を守る NLP • B2B QAシステムでの NLP • SNS, Twitter における NLP • 契約書・法律文書の NLP • 企業の環境・社会・ガバナンスに対する取り組みを評価するための NLP #MLLoft

Slide 44

Slide 44 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. #6 時系列解析 • カオス理論による時系列データの埋め込みと、 アトラクターのトポロジカルな構造を用いた分類について • Topological Data Analysis (TDA) • [Chazal, Frédéric, et al. "Optimal rates of convergence for persistence diagrams in Topological Data Analysis." arXiv preprint arXiv:1305.6239 (2013).] #MLLoft https://drive.google.com/file/d/1_lquq3VhYL0XWlzTP3H7zbozgiU1WIKn/view?usp=sharing https://www.fujitsu.com/jp/documents/about/resources/publications/magazine/backnumber/vol69-4/paper15.pdf

Slide 45

Slide 45 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.

Slide 46

Slide 46 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. いくつか議論の的をざっくりまとめると • MLOps でも他の回でも、ML エンジニアの守備範囲について • レコメンドは手法と評価指標の設計について • Edge は効率的な開発プロセス・ツールとデバイス選定について • NLP は適応分野ごとの特性理解とドメイン知識をどう取り入れるか #MLLoft

Slide 47

Slide 47 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. Q: インフラエンジニアと データサイエンティストは分けるべきか? • 会社によって様々 • 一般的に、会社の規模が大きくなると分業が進んでいく傾向に • 分けていない、という会社も • AI リサーチャーとインフラエンジニアのコミュニケーションを つなぐため ML エンジニアが雇われるケースも • 全員がモデリングからデプロイまでする会社もいくつか • 完全分業の会社も #MLLoft

Slide 48

Slide 48 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. Q: レコメンドの評価指標は? • レコメンドの精度向上がビジネス KPI の向上につながるように • 定量的な KPI に落とし込むところは データサイエンティストの腕の見せ所 #MLLoft

Slide 49

Slide 49 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. Q: Edge で機械学習を始めるには? • 本当に必要になってから手を付ける • 最近は高位合成、クラウドでの FPGA 利用など、始めやすくなっている • デバイス選定を早めにやっておく • モデルの小型化・計算量の削減に工夫が必要な場合も #MLLoft

Slide 50

Slide 50 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. Q: テストどうしてる? • これも会社によって様々 • ニューラルネットワークの場合は、モデルの精度検証ができていれば 普通の意味でのコードのテストはそれほどシビアではないのでは、 との意見も • ただし精度検証が難しい #MLLoft

Slide 51

Slide 51 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.

Slide 52

Slide 52 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. MLOps の課題に関して • 機械学習基盤にマネージドサービスの Amazon SageMaker を使うと多くの問題が解決する • 環境構築・インフラ管理・実験管理・再現性・運用 • Amazon S3 にデータを置いて、Python のトレーニングスクリプトを書く • Docker コンテナの持ち込みも可能 • 小型化のためモデルのコンパイル機能も提供 (SageMaker Neo) • 最近は MLOps や機械学習ワークフロー構築の相談が増えてきた • 運用負荷・推論費用の削減は深刻な問題 • AWS StepFunctions (マネージド) や Apache Airflow で • 機械学習が生み出している価値に向き合うことが大事 #MLLoft

Slide 53

Slide 53 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. レコメンドの課題に関して • ビジネス KPI との紐付きが重要 • 定量化するためには、良いデータサイエンティストを雇う • 良い、というのはサービスのこともよく理解していて、分析も得意 (好き) な人 • 自社のビジネスに向き合う・理解することが大事 • マネージドサービスを使うなら Amazon Personalize • AutoML で HRNN などのアルゴリズム (「レシピ」) を使える • 結果の取得 (Amazon Personalize Runtime) • GetRecommendations API • GetPersonalizedRanking API #MLLoft

Slide 54

Slide 54 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. NLP の課題に関して • 自社のデータに向き合うことが大事 • ドメインによって的確な手法の選定が必要 • 日本語自然言語処理の事例・サンプル実装が少ないとたまに言われるが、 日本語 NLP をされてる方々も結構 AWS を使ってくれている • コネヒトさん、Studio Ousia さんも今回の DevDay で話されます #MLLoft

Slide 55

Slide 55 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.

Slide 56

Slide 56 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. まとめに代えて • 機械学習のワークロードを実運用の中で最適化できているか、 継続的な見直しが必要です。 • 色々悩むことや、他社でどうやっているのか具体的な事例とともに話を 聞きたい方のために、ML@Loft のイベントは引き続き継続します。 • イベント参加だけでなく、登壇や運営に興味がある方も連絡下さい。 • AWS Solutions Architect (スタートアップ担当) の立場としては、 日本のスタートアップに出来るだけ大きく伸びてほしいと思って 日々仕事をしています。 • ML@Loft のようなコミュニティ支援や、 他にも何か必要なこと・協力できることがあれば教えてください。 • 令和の日本を盛り上げていきましょう

Slide 57

Slide 57 text

Thank you! © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. これまでに ML@Loft にご参加頂いた皆様 ありがとうございました (次回は10/23予定) Yoshitaka Haribara @_hariby

Slide 58

Slide 58 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. Related breakouts Friday, October 4, 2019 Amazon SageMaker を利用した ML のための CI/CD パイプライン 12:00 – 12:45 | Edocco Studio (B1F) Friday, October 4, 2019 自然言語処理の開発現場でのAWS活用術ーリサーチからデプロイまでー 14:00 – 14:45 | Edocco Studio (B1F) Friday, October 4, 2019 DRIVE CHARTにおけるSageMaker migration 15:00 – 15:45 | 神田明神ホール (2F)

Slide 59

Slide 59 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. http://bit.ly/amzn-fp Amazon Forecast&Personalize ハンズオン 2019 年 10 ⽉ 31 ⽇(⽊)13:00〜17:00 (開場12:00) ハンズオン + スタートアップ事例登壇3社 モノオク株式会社 / 株式会社アイデミー / 株式会社プレイド 場所: アマゾンジャパン合同会社 〒153-0064 東京都 ⽬⿊区下⽬⿊1-8-1 ARCO TOWER ANNEX 12F ※アマゾン⽬⿊オフィス (⽬⿊セントラルスクエア) では ございませんのでご注意ください。

Slide 60

Slide 60 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon SageMaker 事例祭り • AWSの機械学習サービス概要とAmazon SageMakerの基礎 • Amazon SageMaker Ground Truth • お客様事例 • パイオニア株式会社 システムアーキテクト担当 ⼭内 ⿓之介 様 「リアルタイム画像配信システムのプライバシーフィルタAI開発におけるSageMaker活⽤例」 ⽇時︓ 2019 年 10 ⽉ 30 ⽇(⽔) 場所︓ アマゾン新⽬⿊オフィス ⽬⿊セントラルスクエア21F 参加費︓ 無料 対象︓ 機械学習の基礎知識とPythonによる機械学習プログラミング経験のある⽅ 主催︓ アマゾン ウェブ サービス ジャパン株式会社

Slide 61

Slide 61 text

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. アンケートご協⼒のお願い お⼿持ちの受講票のアンケート⽤QRコードから アンケートにお答えいただくと、記念品を差し上げております。 ※イメージです プレゼントの引き換えは、神⽥明神の会場出⼝付近(屋外)までお越しください IT情報安全守護

Slide 62

Slide 62 text

2019 年 10 ⽉ 1 ⽇ 〜 11 ⽉ 5 ⽇開催 amzn.to/AWSInnovateJP 申し込み受付中 AWS 最新アップデート / コンテナ / AIML / AWS アンチパターン / 認定試験対策講座など 60セッション オンラインで参加できるカンファレンス、全 60 セッション 10/9, 10/15 ライブ配信 AWS エキスパートへの Q&A 修了証明書の発⾏ 業務時間に視聴

Slide 63

Slide 63 text

Machine Learning Application Development Container/Serverless オンラインで参加できるカンファレンス、全 60 セッション おすすめセッション 2019 年 10 ⽉ 1 ⽇ 〜 11 ⽉ 5 ⽇開催 amzn.to/AWSInnovateJP