機械学習エンジニアが直面する課題とその解決策 — ML@Loftで語られた 20を超える事例を通して見えてきたもの — / ML@Loft Retrospective

© 2019, Amazon Web Services, Inc. or its affiliates. All
rights reserved. T O K Y O 2 0 1 9 . 1 0 . 0 3 - 0 4

rights reserved. T O K Y O 2 0 1 9 . 1 0 . 0 3 - 0 4 機械学習エンジニアが直面する課題とその解決策 — ML@Loftで語られた 20を超える事例を通して見えてきたもの — Yoshitaka Haribara, Ph.D. Startup Solutions Architect Amazon Web Services Japan K.K. F - 1

rights reserved. Agenda 機械学習のお悩み相談イベント ML@Loft の紹介登壇者が語ったこと参加者からこのような悩みが AWS Solutions Architect の目線からまとめに代えて #MLLoft

rights reserved. 自己紹介針原佳貴 (はりばらよしたか) スタートアップ担当ソリューションアーキテクト略歴: 2018年 3月博士 (情報理工学) 2018年 4月から AWS

rights reserved. #MLLoft

rights reserved. 「ML@Loft は AWS 上で機械学習ワークロードを運用しているデベロッパー /データサイエンティストのための、お悩み相談会です。月に1回 AWS Loft Tokyo で開催し、毎回活発な議論が行われています。」 About the event https://ml-loft.connpass.com/ #MLLoft

rights reserved. 挑戦をカタチにする場所へ。 AWS Loft Tokyo #MLLoft

rights reserved. 普段のタイムテーブル 19時スタート (時間・人数) 前半 Lightning Talk (LT): 10分 x 4人登壇者 (機械学習のプロダクション運用に知見のある方々) より、自己紹介・話題提供のため10分ほどの LT を実施。後半 Round Table (RT): 25分 x 2ターンテーブルに分かれて参加者のお悩みをシェアし、ディスカッションしながら登壇者に答えてもらう。 (人数が多い時はパネル形式) #MLLoft

rights reserved. ML@Loft 開催テーマ参加者アンケートをもとに、人気のテーマを選択。 1. MLOps 2. MLOps 3. Recommendation 4. Edge Deep Learning 5. NLP 6. Time Series Analysis/ Recommendation/NLP

rights reserved. 毎回高い満足度イベント満足度 (1-5) サンプル数参加者数 #1. MLOps 4.65 18 36 #2. MLOps 4.53 17 19 #3. レコメンド 4.5 30 30 #4. Edge 4.79 14 22 #5. NLP 4.33 6 25 #6. MLPP との共催 4.46 39 51 #MLLoft

rights reserved. そもそもなぜこのイベントができたか • お客さんと話していて、「デベロッパー向けの機械学習イベントをやりたいよね」という話になった • AWS の公式イベントでサービスの話とか、公開事例は色々聞ける • とはいえ結構細かいところなど色々質問したいことは他にも • この形式はもともと dely さんが開催していた Loft イベントを参考に • dely CTO 大竹さん「発表を聞いて終わり、ではなくインタラクティブにディスカッションできるイベントがあってもいいのでは」 • 登壇社からの評判も良い #MLLoft

rights reserved. ML@Loft これまでの登壇者 (所属は略称) #1. MLOps 宇都宮聖子・針原佳貴 (AWS)、緒方貴紀氏 (ABEJA) 、大竹雅登氏・辻隆太郎氏 (dely)、吉田勇太氏 (ブレインパッド) #2. MLOps 西川泰海氏 (BEDORE)、湊雄一郎氏 (MDR)、藤本敬介氏 (ABEJA)、針原佳貴 (AWS) #3. レコメンド西場正浩氏 (エムスリー)、前田英行氏 (サイバーエージェント)、小澤俊介氏 (Gunosy)、久保長礼氏 (ウォンテッドリー) #4. Edge 加藤倫弘氏 (ディー・エヌ・エー)、竹村幸尚氏 (インテル)、三好健文氏 (わさらぼ/イーツリーズ・ジャパン)、岡田真太郎氏 (Preferred Networks) #5. NLP 野澤哲照氏 (コネヒト)、島岡聖世氏 (Studio Ousia)、舛岡英人氏 (レトリバ)、榊剛史氏・山中志一氏 (ホットリンク)、藤井美娜氏 (GVA TECH) #6. MLPP との共催梅田裕平氏 (富士通研究所)、河合俊典氏 (エムスリー)、押条祐哉氏 (ストックマーク)、久保隆宏氏 (TIS) #MLLoft

rights reserved. ML@Loft イベントの特徴 • AWS Loft Tokyo で開催しているが、あくまでもコミュニティイベント • 「AWS サービスの話を」という縛りはない • 実運用・プロダクションでの機械学習にフォーカス • 実際に参加者の方がお持ちの課題・お悩みを相談・解決できるように • 発表を聞くだけでなく、積極的にディスカッションに参加してもらう • 毎回「質の高い議論ができた」と参加者からも好評 https://ml-loft.connpass.com/ #MLLoft

rights reserved.

rights reserved. これまでのイベント内容これまでのイベント内容は登壇者のスライド付きで開催報告ブログにまとめてあります https://ml-loft.connpass.com/ • #1. MLOps Blog • #2. MLOps Blog • #3. レコメンド Blog • #4. Edge Blog • #5. NLP Blog • #6. MLPP との共催 • 参加者の方の Blog #MLLoft

rights reserved. #1 MLOps • 機械学習のプロダクションデプロイは想像以上に複雑 • [Sculley, David, et al. "Hidden technical debt in machine learning systems." NIPS 2015.] #MLLoft $PQZSJHIUh "#&+" *OD"MMSJHIUTSFTFSWFE Deploying Machine Learning in production is complex than expected )JEEFO5FDIOJDBM%FCUJO.BDIJOF-FBSOJOH4ZTUFNT <4DVMMFZ /*14> "MHPSJUIN %FWFMPQNFOU )VHFTZTUFNTBOEGVODUJPOTXFOFFE JOQSPEVDUJPO https://www.slideshare.net/takanoriogata1121/190410-mlloft

rights reserved. #1 MLOps • パーソナライズ前提のサービス設計の実例 • 能動的に選ぶ体験 → 受動的に受け取る体験 • それを実現するシステム “R” “ S E i p D A E D A R R e sv sv D g s f L sv n s f v 3- 2 E https://www.slideshare.net/RyutaroTsuji/startupday-loft-142053706 #MLLoft

rights reserved. #1 MLOps • 適切に人の手を入れる • 精度検証のため人手のアノテーション • 人と機械の協調 (得意な方に任せる) $PQZSJHIUh "#&+" *OD"MMSJHIUTSFTFSWFE ״׶葺ְ麊欽ך׋׭ך1%$" ر٦ة 䱿锷ؚٗ 礵䏝嗚鏾ך׋׭ך 㹀劍涸ז،ظذ٦ءّٝؿٗ٦ 㹀劍涸ז礵䏝鐰⣣ 銲㔓ךⴓ匿㹀劍涸ז㷕统 s i j d https://www.slideshare.net/takanoriogata1121/190410-mlloft https://www.slideshare.net/RyutaroTsuji/startupday-loft-142053706 #MLLoft

rights reserved. #1 MLOps • B2B (受託) 機械学習プロジェクトは運用見据えた「期待値」調整が大事 • 予算取り、PoC のゴールは試作機 (Minimum Viable Product; MVP) の作製 • MVP とはいえ、PoC の時点から精度だけでなくシステム構築・運用も視野に • 関係者: • ML モデルを考えるデータサイエンティスト • システムエンジニア • ハードウェアエンジニア • 実際に現場でシステムを運用する人 • プロジェクト責任者 • 保守・運用と予算取りのタイミングと開発スケジュールをすり合わせ • 士気を保てるようタイミングを見計らい現場の作業フローを洗い出す #MLLoft MVP的プロトタイプ制作 - 関係者 - MLモデルを考えるDS - システムエンジニア - （ハードウェアエンジニア） - 実際にシステムを動かす現場人 - プロジェクト責任者 MVPと言いつつ、すでに「小ライス大盛り」状態しかし、上期待を高めて予算を引き出すにここまでがミニマム　（PJをPoC 次に繋げる） https://speakerdeck.com/ysdyt/budget-schedule-and-humanity-of-ml-system-dev-pj

rights reserved. #2 MLOps • 「機械学習」を既存システム (B2B SaaS Web アプリ) に統合する際のデータベースとのアナロジー • 機械学習のモデルは巨大なステートを持つ • TensorFlow Serving • [Olston, Christopher, et al. "Tensorflow-serving: Flexible, high-performance ml serving." NIPS Workshop 2017.] #MLLoft ͔ͳΓෳࡶͳػցֶशೖΓ XFC ΞϓϦ .-JO$PNQVUF T %BUBCBTF $MJFOU ࣮ࡍߦ͍ͬͯΔղܾͷ঺հ $PNQVUF UGTFSWJOH $MJFOU https://speakerdeck.com/yasuumi/ml-at-loft-number-2-system-architecture-for-machine-learning

rights reserved. #2 MLOps • 量子コンピュータ運用上の課題 • セキュリティ • 大規模データの扱い • バックエンド (量子コンピュータ) への負荷 • Developer experience 量子コンピュータ「量子力学」原理を応用して計算量子アニーリング・イジング最初に値を設定して解く組合せ最適化専用マシン量子ゲート時間ごとに量子ゲートを変えて計算する汎用マシン米国や中国中心取り組み日本やカナダ中心取り組み計算時間 q[0]  q[1]  H H H H H H X X H H X X H H 計算時間量子ゲート量子ビット測定量子ビット相互作用Jij 縦磁場h 現在日本で話題になる２方式  汎用計算できる量子ゲートと、組合せ最適化問題に特化した量子アニーリング・イジングがある。 https://www.slideshare.net/mdrft/mlops #MLLoft

rights reserved. #2 MLOps • 機械学習基盤は良いぞ、という話 • データ・モデル管理 • 大規模データを扱える • 潤沢な計算資源 • 仕事の引き継ぎ・再現性 • あり物を使い回すよう心掛ける • 学習済みモデルがあるなら使う • 既存のソースコードを git clone • なければ論文を読んで実装 • 論文もなければ自分でモデルを実装 $PQZSJHIUh ABEJA, Inc. All rights reserved ꅾ銲ه؎ٝز⢪ְ㔐ׇ׷׮ךכ⢪ְ㔐ׅ HJUIVCך؝٦سד銲⟝׾弫׋ׅז׵ծ׉׸׾⢪ֲ • 傀㶷ךا٦أ؝٦س⹛ַׇ׷ה㴍׃ְ • דֹ׸ל$BFծ.BU$POW/FUծUPSDI׮ • 醱꧟ז圓䧭ך傀㶷؝٦س • ⢽ִלծIUUQTHJUIVCDPNUFOTPSPXNPEFMT طحزٙ٦ؙ׮ծדֹ׸ל傀㶷ך暟׾⢪ְ㔐ׅ • ⢽ִלծ㷕统幥׫3FT/FU ٗأꟼ侧זו https://www.slideshare.net/FujimotoKeisuke/mlloft-145253865 $PQZSJHIUh ABEJA, Inc. All rights reserved 堣唒㷕统㛇湍♳דך㷕统ך䗳銲䚍 • ر٦ةװ堣唒㷕统ٌرٕך盖椚 • 㣐鋉垷זر٦ة׾䪔ֲ • 㷕统׾㔐ׅ情尶ז؎ٝؿٓ • 㺁僒ח➬✲׾䒷ֹ竰ֺծⱄ植〳腉ז橆㞮׾⥂㶷 ٗ٦ٕؕ橆㞮׌ה⿑׃ְ #MLLoft

rights reserved. #2 MLOps • マネージドサービスを使う • 機械学習プラットフォームは Amazon SageMaker • ワークフロー構築は AWS StepFunctions • Kubernetes/Kubeflow は EKS+EC2+ECR © 2019, Amazon Web Services, Inc. or its Affiliates. Amazon SageMaker =341,;/5.,; 2:$!%$" ,;% )@$6& ?/ -<0>( ,; %# (HPO) ,;8* 97 "# 8* " "# 8* +'97 Amazon EC2 P3 Instances Amazon SageMaker RL Amazon SageMaker Ground Truth Amazon Elastic Inference AWS Marketplace for Machine Learning Amazon SageMaker Neo © 2019, Amazon Web Services, Inc. or its Affiliates. %&# ! )" % ($' https://speakerdeck.com/hariby/ml-at-loft-number-2 #MLLoft

rights reserved. MLOps まとめ案外みんな同じようなことを言っている • 機械学習は運用負荷が高い • 運用のことを初めから意識 • サービスに価値を与えるようにシステム設計 • 自動化しつつも人間を挟む • 機械学習 (教師あり学習) だと人手のアノテーションは必須 • 人間が得意な部分は人間に流す • 生産性を高めるためにあり物を使う • モデルは必要に迫られるまで極力自分で作らない • 機械学習プラットフォームはマネージドサービス #MLLoft

rights reserved. #3 レコメンド • お医者さん向けニュース記事推薦 • User-Item Interaction を2部グラフだと思って Graph Autoencoder (Graph Convolutional Encoder) にかける [Berg, Rianne van den, Thomas N. Kipf, and Max Welling. "Graph convolutional matrix completion." arXiv:1706.02263 (2017).] • RNN にユーザーのコンテキスト情報を追加してレコメンド (Latent Cross) [Beutel, Alex, et al. “Latent cross: Making use of context in recurrent recommender systems.” WSDM 2018.] GCNモデル紹介 • ユーザー × アイテム 2部グラフ • message passingを利用 ◦ 他方法として下記 2つもメジャー(?) ▪ random walk ▪ graph Fourier transform • 属性データ ◦ Latent cross的なアイデアで統合 • 各ノード embeddingを学習 ◦ o_user ← clickしたitem_embedding 平均 ◦ o_item ← clickしたuser_embedding 平均 ◦ (次で詳しく) (e0, e1, e2,...) 属性データ (v0, v1, v2,...) 属性データモデルをもう少し詳しく(正確でない) • {e} trainable variables • u1がi1をclickする確率 ◦ cos(average(e_i1, e_i3), average(e_u1, e_u3)) • 新しいアイテムも多少クリックがあれ評価できる。 e_u1 e_u2 e_u3 e_u4 e_i1 e_i2 e_i3 https://speakerdeck.com/nishiba/graph-convolutional-networkswoshi-tuta-tui-jian-sisutemu #MLLoft

rights reserved. #3 レコメンド • インターネットテレビのコンテンツ推薦 • 2段階: 推薦候補生成 (番組の類似度) とリランキング (ユーザーとの関連スコア) • メリット: 計算時間の削減とパーソナライズされた高精度な推薦、疎結合 "CFNB57ס䫟詞بتطّ ˝ חס⭚杼־׼啶䡗 ˝ 䫟詞⠮遨榟䡗⭚杼 ˝ ◄⯥מ銶畀׈׿ג樑磝ס걉⛍䈱מ㓹ט׀⠮遨؅礓׾ ˝ ٛٚ٤؞٤ء⭚杼 ˝ 䫟詞⠮遨榟䡗⭚杼ך榟䡗׈׿ג䫟詞⠮遨־׼ٗ٭ا٭כס꞊ 鵽䈱تؤؓ؅♀┙׊䫟詞磵冽؅┾צ僀ֻ׾ https://speakerdeck.com/cyberagentdevelopers/abematv-recommendation-system ⪒⛮بتطّ㍲ 1BUSJPU ظ٭ذ⭚杼㓹泅 ;FSP تعٛ٭ّ⭚杼ؙ٤ة٤ 䫟詞⠮遨榟䡗⭚杼 ٛٚ٤؞٤ء⭚杼 #MLLoft

rights reserved. #3 レコメンド • ニュース推薦に求められる要件 • 話題が変化してもユーザーの興味を捉えられる • ニュース価値の時間減衰を考慮 • リアルタイムのレスポンス (50ms or die) https://www.slideshare.net/shunsukekozawa5/gunosy-152302982 #MLLoft

rights reserved. #3 レコメンド • レコメンデーションにおけるターゲット設定 • 測定値 (View, DateTime, # of Clicks) から Metric (CTR, DAU/MAU, MRR/AUC/Precision/NDCG) と、ビジネス上の KPI (エンゲージメントスコア, ARPU, Retention) を計算 • ユーザーのエンゲージメントをどう測るか • エンゲージメント (愛着) = Stickiness (高頻度・長時間のサービス利用) ©2019 Wantedly, Inc. ϢʔβΤϯήʔδϝϯτείΞ αʔϏεʹର͢ΔѪணΛද͢είΞ ɾϢʔβɺΞΠςϜ͝ͱʹɺϢʔβΤϯήʔδϝϯτΛͲͷ͘Β͍ߴΊΒΕΔ͔දͨ͠είΞ Ϣʔβମݧͷ࣭Λఆٛ͢Δࢦඪ ɾΑ͘ΫϦοΫ͞ΕΔɺΑ͘Ԡื͞ΕΔɺ௕͘࢖ͬͯ͘ΕΔɺසൟʹ࢖ͬͯ͘ΕΔͳͲ λʔήοτ͸Τϯήʔδϝϯτʹ૬͕ؔ͋Δ਺ ɾΫϦοΫ͞ΕΔ͜ͱʹΑͬͯɺΤϯήʔδϝϯτ͕ඞͣ͠΋ߴ͘ͳΔΘ͚Ͱ͸ͳ͍ #MLLoft https://speakerdeck.com/reikubonaga/ml-loft-3 ©2019 Wantedly, Inc. Ϩίϝϯσʔγϣϯʹ͓͚Δλʔήοτ λʔήοτͱ͸ͳʹ͔ ɾϥϯΩϯά͕Ϣʔβʔʹͱͬͯྑ͔͔ͬͨѱ͔͔ͬͨΛ൑அ͢ΔͨΊͷ਺ࣈ λʔήοτͷઃఆͷ೉͠͞ ɾΫϦοΫͯ͠΋ίϯςϯπΛݟͯͳ͍͔΋͠Εͳ͍ ɾϒοΫϚʔΫ΍Ԡืͩͱใु͕ͳׂ͍߹͕૿͑Δ ɾͨ͘͞Μݟ͗͢Δͱ͍͏͜ͱ͸ɺٯʹѱ͍ମݧ͔΋͠Εͳ͍ ɾPCͱΞϓϦͰϢʔβͷಈ͖͸ҟͳΔ VisitͰ͸ɺϢʔβΤϯήʔδϝϯτʹ૬͕ؔ͋Δ਺ࣈΛλʔήοτͱͯ͠ઃఆ

rights reserved. #6 レコメンド • 医師向け論文レコメンド • お医者さんの興味ワード群から Elasticsearch の Weak AND (WAND) 検索 • Triplet Loss で Citation 情報をもとに埋め込み、クエリ論文と近いものをランキング [Bhagavatula, Chandra, et al. “Content-based citation recommendation.” NAACL-HLT 2018.] • リランク: 論文メタデータを PageRank でスコア化 • 初期評価は編集部の目視と Altmetrics で。論文間の相関は引用数の遷移から。評価は既存の PageView データを使って CTR/MRR/MAP を算出 #MLLoft https://speakerdeck.com/vaaaaanquish/ml-at-loft-number-6-serohesukarafalselun-wen-rekomentosisutemufalsegou-zhu レコメンドエンジンの作成 WAND検索 Content-Based Citation Recommendation Rerank Model ・Journal Page Rank ・Author Page Rank ・Afﬁliation Page Rank ・Co-occurrence 興味ワード群 Top k paper • Proceedings of NAACL-HLT 2018 https://www.aclweb.org/anthology/N18-1022 • >>> Phase1 triplet lossで文章のcitation情報に応じて埋め込み >>> Phase2 title, abstract, author, journal, keyword, text intersectionを追加してquery論文と近い論文をランキングして top N • 外部データのメタデータなしである論文に情報が近い論文を出す仕組み # Content-Based Citation Recommendation レコメンドエンジンの作成 WAND検索 Content-Based Citation Recommendation Rerank Model ・Journal Page Rank ・Author Page Rank ・Afﬁliation Page Rank ・Co-occurrence 興味ワード群 Top k paper • コールドスタートを考慮して論文情報から取得できるジャーナル名、所属名、著者名を citationからスコア化 • ユーザの興味ある単語に紐付く論文　　　　　+ 過去に医師が書いた、クリックした論文に近い論文を単純なPage Rankスコアとクリックによる Co-occurrence matrixでランキングを生成して Top k # Rerank

rights reserved. #6 レコメンド • ユーザーベクトル • 球面 k-means でクラスタリングし、記事数が多いクラスタのセントロイド • Amazon DynamoDB に保存 • 記事ベクトル • 記事タイトルとイントロ名詞の数単語を fastText でベクトル化 • Amazon Elasticsearch Serviceに保存 #MLLoft https://speakerdeck.com/reikubonaga/ml-loft-3 Amazon Elasticsearch Service Amazon DynamoDB Amazon RDS Web App 機械学習API 機械学習バッチアプリケーションオンライン処理バッチ処理 Amazon ECS AWS Elastic Beanstalk 21

rights reserved. レコメンドまとめこんなに短いまとめだと何も伝わらない気がするが、、、 • 手法の話が多かった • グラフや時系列を使うなど • 推薦候補生成とリランキング • ユーザーの興味関心・コンテンツの賞味期限も考慮 • ビジネス KPI と結びついた評価指標をいかに設計するかが肝 #MLLoft

rights reserved. #4 Edge • エッジでの制約を考えてモデルの軽量化とフレームワークの選定 • プログラミング言語もデバイスに合わせて移植 (C/C++, Rust など) • デバイスを含んだ ML パイプラインを構築してテストを行う #MLLoft https://docs.google.com/presentation/d/13SJwaiWmw5ESm0_m-sqAGMulV3xJfwevhYuNvKH02pA/

rights reserved. #4 Edge • プロセッサの選択肢と様々な規模の FPGA • Intel OpenVINO によるモデル最適化 • 量子化 NN による組み込み Deep Learning も Programmable Solutions Group 3 インテル® FPGA ポートフォリオ性能低コストミッドレンジハイエンド機能 ▪ 2 ～ 50KLE ▪ 不揮発性メモリー ▪ デュアル・コンフィグレーション ▪ アナログハード IP ▪ DDR3 メモリー ▪ Nios II ソフト CPU • 25 ～ 300KLE • 3/6Gbps SERDES • 12Mb エンベデッド・メモリー • DDR3/L メモリー • PCIe Gen2 x4 • ARM HPS または Nios® II ソフト CPU • 560 個のユーザー I/O • 160 ～ 1,150KLE • 25Gbps SERDES • 53Mb エンベデッド・メモリー • DDR4 メモリー・コントローラー • PCIe Gen3 x8 (4) • ハード FP DSP • ARM HPS または Nios II ソフト CPU • 768 個のユーザー I/O • 378 ～ 5,510KLE • GHz コア・ファブリック • 28/56Gbps SERDES • 137Mb エンベデッド・メモリ • DDR4 メモリー • PCIe Gen3 x16 (6) • HBM DRAM • ハード FP DSP • ARM HPS または Nios II ソフト CPU • 1,640 個のユーザー I/O • 85 ～ 220KLE • 12.5Gbps SERDES • 11Mb エンベデッド・メモリー • DDR3/L メモリー・コントローラー • PCIe Gen2 x4 • ハード FP DSP • Nios II ソフト CPU • 284 個のユーザー I/O ▪ 6 ～ 120KLE ▪ 528 個のユーザー I/O ▪ Nios II® ソフト CPU 16 © 2019 Intel Corporation. 無断での引用、転載を禁じます。 Award-Winning* Edge AI Solution by LeapMind 1-bit Quantization and Compression Technology and Tool Chain for Embedded Deep Learning • Real-time Response, Low Latency • Lower Power, Small Footprint • No Internet Connection Required Application Example: • Food Inspection • PCB Soldering Inspection • Human Detection • Powerline Inspection by Autonomous Drone *Leapmind’s DeLTA family received ET Technology Award 2018 in Tokyo https://www.slideshare.net/yukitakatakemura/fpgaedge-ai #MLLoft

rights reserved. #4 Edge • エッジで推論、クラウドと連携 • 電源管理・計算資源不足に FPGA のメリットバッテリに関する話 - 組み込み向け電源管理バッテリー/ 電気二重層コンデンサエネルギー源太陽光パネルとかタスクリスト動作条件実装・実験中 https://www.slideshare.net/miyox/misc-for-edgedeviceswithfpga システムに潜むあれこれエッジデバイスエッジデバイスエッジデバイス電源管理バッテリートラブル通信トラブル計算資源不足計算資源不足本物？管理コストキーワード FPGA #MLLoft

rights reserved. #4 Edge • まずは画像サイズを小さくして簡単な方法で計算量削減 • Convolution のチャネル数を減らすと計算量が減る • チップメーカーが出しているフレームワークを検討 • Intel GPU は割と速い (OpenVINO が使える) https://speakerdeck.com/okdshin/ml-loft-4-etuzitui-lun #MLLoft INPUT INPUT INPUT 計算量 0.7倍計算量半分！モデルそままタテ・ヨコ 0.7倍するだけで入力画像サイズモデルモデルモデルまとめモデル Conv チャンネル数を減らすと計算量が減る重たいConv Chainer-computational-costで調べられる入力画像サイズ調整と比べると労力がかかる

rights reserved. Edge まとめ • モデル軽量化の手法と NN の計算量を削減するための考え方 • エッジで動かすことを考慮した言語・フレームワークの選定 • FPGA の使い所も多い • エッジで完結せずクラウドとも連携 #MLLoft

rights reserved. #5 NLP • コミュニティーサービスでの治安を守る NLP • AWS のサービス (AWS StepFunctions, AWS Glue, AWS Fargate, Amazon SageMaker) を組み合わせて「心理的安全性の高い」ML フローを構築 #MLLoft ೔ຊޠͷࣗવݴޠॲཧͬͯ l΍Δ͜ͱzଟ͘ͳ͍Ͱ͔͢ʁ! https://speakerdeck.com/takapy/mamaxiang-kekomiyuniteisabisuwozhi-erunlp ˙ΞʔΩςΫνϟɿ&5-ͱલॲཧ Fargate S3 RDS Glue StepFunctions Preprocessing Task train.tsv train.tsv w2v model ෼͔ͪॻ͖ .FDBC ඼ࢺ੍ݶ<໊ࢺ ಈࢺ ܗ༰ࢺ> ਖ਼نԽ ετοϓϫʔυܭࢉআڈ ࣙॻͷ࡞੒ &NCFEEJOH.BUSJYͷ࡞੒ ςΩετσʔλΛγʔέϯεԽ σʔλΛUSBJO UFTUʹ෼ׂ セッション G-5

rights reserved. #5 NLP • B2B QAシステムでの NLP • Amazon SageMaker を導入して劇的なインフラ改善 • 本日14時から Edocco Studio (B1F) で Studio Ousia 山田さん・島岡さんのセッション！ (満席) #MLLoft セッション F-5 SageMaker ① 周辺的な処理を任せられる機械学習に関連する周辺的な処理は、SageMakerがマネージしてくれる SageMakerの魅力 • 学習 • 推論 • 学習ジョブ起動、状態確認 • 推論インスタンス起動、更新 • モニタリング、スケーリング • etc... 本質的な処理周辺的な処理 ② 機械学習モデルをDockerイメージとして作成 • 任意の言語、フレームワークを利用可能 • SageMakerからみれば、モデルは要件を満たすブラックボックス任意の機械学習モデル SageMaker Dockerイメージ参照 SageMakerの魅力 https://www.slideshare.net/SonseShimaoka/aws-sagemaker

rights reserved. #5 NLP • 短期間の PoC やアノテーションデータが少ない場合の対処法 • データ精査・特徴抽出を丁寧に行う、Pretrained のモデルを使う • 教師なし学習でやる、タスクを細分化する • 分類根拠の可視化で特徴抽出がうまくいっているか確認 #MLLoft 課題と対策: 機械学習の視点から © 2019, Retrieva, Inc. All rights reserved. 13 少ないannotationデータ Pretrain タスクの細分化 • 表現方法による差異 • 補正方法 • 外部データの活用 • 「納得しやすい」解釈方法教師なし • ラベルの偏り補正 • Un-labelの扱い短いPoC 検証データ整備 • 独立したアルゴリズム開発 • 開発・検証の高速化課題対策 Predictor：機能（分類根拠可視化） © 2019, Retrieva, Inc. All rights reserved. • 可視化することで特徴抽出がうまくいってるかを確認個別データの分類根拠分類軸別の分類根拠色の意味青色がポジティブな影響赤色がネガティブな影響赤色、青色の大小の意味ポジティブ/ネガティブの影響度の大小特徴学習結果を各分類への影響度順に表示【best】ポジティブな影響度【worst】ネガティブな影響度 18 https://www.slideshare.net/HidetoMasuoka/20190827awsloftlt

rights reserved. #5 NLP • SNS (Twitter) における NLP • 「【悲報】TwitterのNLPがﾏｼﾞやばたにえんの無理茶漬けwwwww」 • Twitter に見られる文書の特徴 • 意味のない煽り文句「【悲報】」 • コミュニティに特化した略語「NLP」 • 全角の中に突如現れる突然の半角「ﾏｼﾞ」 • 絵文字「」 • 謎の慣用句「やばたにえんの無理茶漬け」 • その慣用句の中に絵文字「」 • 長さが不安定な草「wwwww」 • これらに対する前処理・辞書・解析器の工夫 #MLLoft {hOs!Pc#NS '%# "(# G),*H # D z https://speakerdeck.com/hottolink_rd/20190827-aws-ml-at-loft-number-5-by-hottolink

rights reserved. #5 NLP • 契約書・法律文書の NLP • 言語学においては「分野ごとに語彙も文型も異なる」ことが知られている • 品詞構成と頻出語彙から両者の特徴を分析 ĘƎİÝÒ:ęª; ) E E275 Y a ! ! V . 5 0 :426 2M# 8 D y E • P c . P e c y l • x l c y . • x n n y y P x “ . n . y x l c E275 V . 5 0 :426 2M# 8 D https://speakerdeck.com/mimihub/20190827-aws-mlloft-lt5 #MLLoft

rights reserved. #6 NLP • 企業の環境・社会・ガバナンスに対する取り組みを評価するための NLP • AWS Lambda, Amazon SQS で文書データ取得 • AWS Glue を使って前処理、 Amazon S3 に置いたデータに Amazon Athena で SQL クエリを投げる #MLLoft Copyright © TIS Inc. All rights reserved. 12 自然言語処理による支援自然言語処理による支援として、以下3点を実施する。文書データの収集評価対象となる文・段落の絞り込み自動評価支援アプローチの全体像 CSR/統合報告書有価証券報告書等文書データの収集文書データの整形・整理テキスト・データ項目の抽出 PDFのテキスト化等自然言語処理モデル文書データと、フィードバックから学習 +ルール評価担当者からのフィードバック Copyright © TIS Inc. All rights reserved. 4 ESG投資とは (1/4) E: Environment S: Social G: Governance 年金積立金管理運用独立行政法人: ESG投資より売上や利益だけでなく、ESG(=環境/社会/ガバナンス)に関する取り組みを評価する投資。 https://www.slideshare.net/takahirokubo7792/esg-174140900

rights reserved. NLP まとめ • それぞれのドメインごとに、文書の特徴をよく理解する必要がある • コミュニティサービスでの治安を守る NLP • B2B QAシステムでの NLP • SNS, Twitter における NLP • 契約書・法律文書の NLP • 企業の環境・社会・ガバナンスに対する取り組みを評価するための NLP #MLLoft

rights reserved. #6 時系列解析 • カオス理論による時系列データの埋め込みと、アトラクターのトポロジカルな構造を用いた分類について • Topological Data Analysis (TDA) • [Chazal, Frédéric, et al. "Optimal rates of convergence for persistence diagrams in Topological Data Analysis." arXiv preprint arXiv:1305.6239 (2013).] #MLLoft https://drive.google.com/file/d/1_lquq3VhYL0XWlzTP3H7zbozgiU1WIKn/view?usp=sharing https://www.fujitsu.com/jp/documents/about/resources/publications/magazine/backnumber/vol69-4/paper15.pdf

rights reserved.

rights reserved. いくつか議論の的をざっくりまとめると • MLOps でも他の回でも、ML エンジニアの守備範囲について • レコメンドは手法と評価指標の設計について • Edge は効率的な開発プロセス・ツールとデバイス選定について • NLP は適応分野ごとの特性理解とドメイン知識をどう取り入れるか #MLLoft

rights reserved. Q: インフラエンジニアとデータサイエンティストは分けるべきか？ • 会社によって様々 • 一般的に、会社の規模が大きくなると分業が進んでいく傾向に • 分けていない、という会社も • AI リサーチャーとインフラエンジニアのコミュニケーションをつなぐため ML エンジニアが雇われるケースも • 全員がモデリングからデプロイまでする会社もいくつか • 完全分業の会社も #MLLoft

rights reserved. Q: レコメンドの評価指標は？ • レコメンドの精度向上がビジネス KPI の向上につながるように • 定量的な KPI に落とし込むところはデータサイエンティストの腕の見せ所 #MLLoft

rights reserved. Q: Edge で機械学習を始めるには？ • 本当に必要になってから手を付ける • 最近は高位合成、クラウドでの FPGA 利用など、始めやすくなっている • デバイス選定を早めにやっておく • モデルの小型化・計算量の削減に工夫が必要な場合も #MLLoft

rights reserved. Q: テストどうしてる？ • これも会社によって様々 • ニューラルネットワークの場合は、モデルの精度検証ができていれば普通の意味でのコードのテストはそれほどシビアではないのでは、との意見も • ただし精度検証が難しい #MLLoft

rights reserved.

rights reserved. MLOps の課題に関して • 機械学習基盤にマネージドサービスの Amazon SageMaker を使うと多くの問題が解決する • 環境構築・インフラ管理・実験管理・再現性・運用 • Amazon S3 にデータを置いて、Python のトレーニングスクリプトを書く • Docker コンテナの持ち込みも可能 • 小型化のためモデルのコンパイル機能も提供 (SageMaker Neo) • 最近は MLOps や機械学習ワークフロー構築の相談が増えてきた • 運用負荷・推論費用の削減は深刻な問題 • AWS StepFunctions (マネージド) や Apache Airflow で • 機械学習が生み出している価値に向き合うことが大事 #MLLoft

rights reserved. レコメンドの課題に関して • ビジネス KPI との紐付きが重要 • 定量化するためには、良いデータサイエンティストを雇う • 良い、というのはサービスのこともよく理解していて、分析も得意 (好き) な人 • 自社のビジネスに向き合う・理解することが大事 • マネージドサービスを使うなら Amazon Personalize • AutoML で HRNN などのアルゴリズム (「レシピ」) を使える • 結果の取得 (Amazon Personalize Runtime) • GetRecommendations API • GetPersonalizedRanking API #MLLoft

rights reserved. NLP の課題に関して • 自社のデータに向き合うことが大事 • ドメインによって的確な手法の選定が必要 • 日本語自然言語処理の事例・サンプル実装が少ないとたまに言われるが、日本語 NLP をされてる方々も結構 AWS を使ってくれている • コネヒトさん、Studio Ousia さんも今回の DevDay で話されます #MLLoft

rights reserved.

rights reserved. まとめに代えて • 機械学習のワークロードを実運用の中で最適化できているか、継続的な見直しが必要です。 • 色々悩むことや、他社でどうやっているのか具体的な事例とともに話を聞きたい方のために、ML@Loft のイベントは引き続き継続します。 • イベント参加だけでなく、登壇や運営に興味がある方も連絡下さい。 • AWS Solutions Architect (スタートアップ担当) の立場としては、日本のスタートアップに出来るだけ大きく伸びてほしいと思って日々仕事をしています。 • ML@Loft のようなコミュニティ支援や、他にも何か必要なこと・協力できることがあれば教えてください。 • 令和の日本を盛り上げていきましょう

rights reserved. Related breakouts Friday, October 4, 2019 Amazon SageMaker を利用した ML のための CI/CD パイプライン 12:00 – 12:45 | Edocco Studio (B1F) Friday, October 4, 2019 自然言語処理の開発現場でのAWS活用術ーリサーチからデプロイまでー 14:00 – 14:45 | Edocco Studio (B1F) Friday, October 4, 2019 DRIVE CHARTにおけるSageMaker migration 15:00 – 15:45 | 神田明神ホール (2F)

rights reserved. http://bit.ly/amzn-fp Amazon Forecast＆Personalize ハンズオン 2019 年 10 ⽉ 31 ⽇（⽊）13:00〜17:00 (開場12:00) ハンズオン + スタートアップ事例登壇3社モノオク株式会社 / 株式会社アイデミー / 株式会社プレイド場所: アマゾンジャパン合同会社〒153-0064 東京都⽬⿊区下⽬⿊1-8-1 ARCO TOWER ANNEX 12F ※アマゾン⽬⿊オフィス (⽬⿊セントラルスクエア) ではございませんのでご注意ください。

rights reserved. Amazon SageMaker 事例祭り • AWSの機械学習サービス概要とAmazon SageMakerの基礎 • Amazon SageMaker Ground Truth • お客様事例 • パイオニア株式会社システムアーキテクト担当⼭内⿓之介様「リアルタイム画像配信システムのプライバシーフィルタAI開発におけるSageMaker活⽤例」⽇時︓ 2019 年 10 ⽉ 30 ⽇（⽔）場所︓ アマゾン新⽬⿊オフィス⽬⿊セントラルスクエア21F 参加費︓ 無料対象︓ 機械学習の基礎知識とPythonによる機械学習プログラミング経験のある⽅主催︓ アマゾンウェブサービスジャパン株式会社

rights reserved. アンケートご協⼒のお願いお⼿持ちの受講票のアンケート⽤QRコードからアンケートにお答えいただくと、記念品を差し上げております。 ※イメージですプレゼントの引き換えは、神⽥明神の会場出⼝付近（屋外）までお越しください IT情報安全守護

2019 年 10 ⽉ 1 ⽇〜 11 ⽉ 5
⽇開催 amzn.to/AWSInnovateJP 申し込み受付中 AWS 最新アップデート / コンテナ / AIML / AWS アンチパターン / 認定試験対策講座など 60セッションオンラインで参加できるカンファレンス、全 60 セッション 10/9, 10/15 ライブ配信 AWS エキスパートへの Q&A 修了証明書の発⾏業務時間に視聴

Machine Learning Application Development Container/Serverless オンラインで参加できるカンファレンス、全 60 セッションおすすめセッション 2019
年 10 ⽉ 1 ⽇〜 11 ⽉ 5 ⽇開催 amzn.to/AWSInnovateJP

機械学習エンジニアが直面する課題と その解決策 — ML@Loftで語られた 20を超える事例...

機械学習エンジニアが直面する課題と その解決策 — ML@Loftで語られた 20を超える事例を通して見えてきたもの — / ML@Loft Retrospective

More Decks by Yoshitaka Haribara

Other Decks in Technology

Featured

Transcript

機械学習エンジニアが直面する課題とその解決策 — ML@Loftで語られた20を超える事例...

機械学習エンジニアが直面する課題とその解決策 — ML@Loftで語られた 20を超える事例を通して見えてきたもの — / ML@Loft Retrospective