事業会社における機械学習・推薦システム技術の活用事例と必要な能力 / ml-recsys-in-layerx-wantedly-2024

Slide 1

Slide 1 text

Slide 2

Slide 2 text

© LayerX Inc. 2 バクラク事業部機械学習グループマネージャー/機械学習エンジニア経歴 ● 2018/3 ○ 京都大学大学院情報学研究科修士課程修了 ● 現在 ○ 株式会社LayerX 機械学習グループマネージャー ○ ウォンテッドリー株式会社技術顧問 ○ その他、大学にて非常勤講師やスタートアップの技術支援等画像を入れてね自己紹介松村優也（Yuya Matsumura） @yu__ya4

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

目次 Agenda 1. LayerXにおけるAI・機械学習技術の活用事例 2. 本日のお話しの目的 3. 機械学習・推薦システムを利用すべき場面 4. 機械学習・推薦システムのプロジェクトの進め方 5. データサイエンティストとは 6. データサイエンティストに必要な能力

Slide 7

Slide 7 text

Slide 8

Slide 8 text

Slide 9

Slide 9 text

© LayerX Inc. 9 バクラク事業：AIをコア技術としたプロダクトラインナップ AIを活用したLayerXの事業 AI-OCRや検知技術などAIをコア技術とするバクラクシリーズを提供している。法人カードでコスト削減　LayerXはムダ検出AI, 日本経済新聞, https://www.nikkei.com/article/DGXZQOUC207AD0Q3A220C2000000/ ,（参照2023-2-28）

Slide 10

Slide 10 text

© LayerX Inc. 10 バクラクシリーズラインナップ稟議・支払申請・経費精算仕訳・支払処理効率化法人カードの発行・管理帳票保存・ストレージ帳票発行 * 経費精算のSlack連携は申請内容の通知のみ・AIが領収書を５秒でデータ化・スマホアプリとSlack連携あり・領収書の重複申請などミス防止機能・AIが請求書を５秒でデータ化・仕訳・振込データを自動作成・稟議から会計までスムーズに連携・年会費無料で何枚でも発行可・インボイス制度・電帳法対応・すべての決済で1%以上の還元・AIが書類を5秒でデータ化・あらゆる書類の電子保管に対応・電子取引・スキャナ保存に完全対応・帳票の一括作成も個別作成も自由自在・帳票の作成・稟議・送付・保存を一本化・レイアウトや項目のカスタマイズも可能

Slide 11

Slide 11 text

© LayerX Inc. 11 人間が帳票をもとに手入力でデータ化するという作業をなくす AI-OCR機能が実現したいこと請求書などの帳票に記載された項目（支払期日や支払金額、取引先名など）を目視で確認し、ミスなく入力・管理することは大変負荷の高い仕事 ● 対応枚数が数十、数百枚と増えるにつれ、ミスが起こりやすくなる ● 帳票のフォーマットは多種に渡り、目視で必要な項目を探すのは手間がかかる ● ミスが許されないため、ダブルチェック等の確認作業にも追加でコストが必要

Slide 12

Slide 12 text

Slide 13

Slide 13 text

© LayerX Inc. 13 様々な機械学習モデルの検証や実運用 AI-OCRで利用されている機械学習モデル https://arxiv.org/abs/2012.14740 https://arxiv.org/pdf/1912.13318 https://arxiv.org/pdf/2204.08387 https://arxiv.org/pdf/1810.04805 ● 商用利用可な日本語学習済みモデルが公開されているRoBERTa等をファインチューニングから実装 ● マルチモーダル（画像+テキスト）なモデルであるLayoutLM系を事前学習から実装

Slide 14

Slide 14 text

© LayerX Inc. 14 様々な項目が必要となる汎用的な稟議申請既存のAI-OCRでは解決できない課題① B社の契約・購買稟議項目・・・購買理由契約書情報契約先情報購買金額契約期間締結方法予算コード前回稟議得意先コード郵送先住所押印有無印鑑種別同じ契約・購買稟議でも項目が各社違う契約・購買稟議をはじめとする汎用的な稟議全般は、各社項目設計が異なる A社の契約・購買稟議項目・・・購買理由契約書情報契約先情報購買金額契約期間締結方法予算コード前回稟議反社チェック下請法確認送信アドレス締結者情報

Slide 15

Slide 15 text

© LayerX Inc. 15 契約・購買稟議項目・・・購買理由契約書情報契約先情報購買金額契約期間締結方法予算コード前回稟議得意先コード郵送先住所押印有無印鑑種別既存のAI-OCRでは解決できない課題① 既存の機械学習ベースのAI-OCRではすべての項目には対応不可契約書見積書前回稟議情報自動読み取りが難しい多種多様な項目ごとに十分なデータが蓄積されないソースとなる書類・帳票も複数あり複雑性が高い機械学習ベースの AI-OCRで自動読取？

Slide 16

Slide 16 text

© LayerX Inc. 16 契約・購買稟議項目・・・購買理由契約書情報契約先情報購買金額契約期間締結方法予算コード前回稟議得意先コード郵送先住所押印有無印鑑種別既存のAI-OCRでは解決できない課題① LLMを用いて複数の書類から任意の項目の情報抽出を試みる契約書見積書前回稟議情報 LLMが任意の稟議項目を自動抽出十分な精度がでない場合やハルシネーションを考慮した体験面（AI-UX）の設計は必須ソースとなる関連する情報を特定する部分も技術的なチャレンジ機械学習ベースの AI-OCRで自動読取

Slide 17

Slide 17 text

© LayerX Inc. 17 既存のAI-OCRでは解決できない課題② 経費精算の稟議に必要な情報は領収書のみでは不足経費精算時必要となる情報立て替えをした日立て替えした金額立て替え先のお店情報社内ルールに基づいた区分飲食の場合、出席者情報・・・領収書からは得られず、各社独自のルールに基づく入力項目のため、依然として手入力が存在機械学習ベースの AI-OCRで自動読取帳票・書類としては存在していない情報が必要であり、AI-OCRによる情報抽出だけでは対応不可

Slide 18

Slide 18 text

© LayerX Inc. 18 既存のAI-OCRでは解決できない課題② 書類以外のソースも参照し機械学習やLLMを利用して入力補完経費精算時必要となる情報立て替えをした日立て替えした金額立て替え先のお店情報社内ルールに基づいた区分飲食の場合、出席者情報・・・機械学習ベースの AI-OCRで自動読取社内の支出ルール（勘定科目等）機械学習やLLMにより入力補完立替にまつわるカレンダーデータ体験面（AI-UX）の設計は必須であり、関連するソースをどのように決定するのかもチャレンジ

Slide 19

Slide 19 text

Slide 20

Slide 20 text

Slide 21

Slide 21 text

Slide 22

Slide 22 text

Slide 23

Slide 23 text

Slide 24

Slide 24 text

Slide 25

Slide 25 text

Slide 26

Slide 26 text

26 © LayerX Inc. 本日のお話しの目的 ● みなさんが学問として学んでいる機械学習や推薦システムという技術が事業会社においてどう活用されているのかを知ることで、それらが自分たちに関係のあるもので、学ぶ意義のあるものだと感じてほしい。 ● それらを活用するデータサイエンティストや機械学習エンジニアという職種に興味を持っていただき、より深く知る・考えるきっかけになってほしい。

Slide 27

Slide 27 text

Slide 28

Slide 28 text

© LayerX Inc. 28 プロダクトの利用者側としては確実に関わる（LLMの例）あらゆる人が機械学習や推薦システムについて学ぶ意義 https://ja.duolingo.com/ https://www.notion.so/ja-jp/help/guides/notion-ai-for-docs https://prtimes.jp/main/html/rd/p/000000221.000036528.html https://about.mercari.com/press/news/articles/20230501_generativeai/ 昨今のChatGPTをはじめとした大規模言語モデルの潮流による社会応用の急進

Slide 29

Slide 29 text

© LayerX Inc. 29 プロダクトの利用者側としては確実に関わる（推薦システムの例）あらゆる人が機械学習や推薦システムについて学ぶ意義 ● Netflix は動画視聴の75%が推薦経由 ● TikTok はレコメンド（推薦システム）をユーザー体験の中心と位置づけ、ユーザー向けの製品ページにレコメンドの仕組みについての説明を掲載 https://netflixtechblog.com/netflix-recommendations-beyond-the-5-stars-part-1-55838468f429 We have adapted our personalization algorithms to this new scenario in such a way that now 75% of what people watch is from some sort of recommendation. https://newsroom.tiktok.com/ja-jp/how-tiktok-recommends-videos

Slide 30

Slide 30 text

Slide 31

Slide 31 text

© LayerX Inc. 31 仕組みを知ることでより恩恵を受けられるように行動できるあらゆる人が機械学習や推薦システムについて学ぶ意義 ● 書籍を買う際はできるだけ Amazon を利用する。他人へプレゼントする場合は Amazon 以外で購入する。 ● コンテンツにフィードバック（点数、Good or Bad…）できる場合はつける。 https://www.amazon.co.jp/ https://news.google.com/

Slide 32

Slide 32 text

© LayerX Inc. 32 仕組みを知ることでデータをマネジメントして不利益を避けるあらゆる人が機械学習や推薦システムについて学ぶ意義 ● どんなデータがどのように活用されているかはプロダクトごとに公開 ● 実際に利用されているデータを開示できるプロダクトも ● おすすめのアルゴリズムに使用されたくない過去の購入品を選択 https://service-terms.wantedly.com/privacy_policy/ja_JP https://www.netflix.com/account/getmyin fo https://www.amazon.co.jp/gp/yourstore/iyr?collection=purch ased&ref_=pd_ys_iyr_nort

Slide 33

Slide 33 text

33 © LayerX Inc. （再掲）本日のお話しの目的 ● みなさんが学問として学んでいる機械学習や推薦システムという技術が事業会社においてどう活用されているのかを知ることで、それらが自分たちに関係のあるもので、学ぶ意義のあるものだと感じてほしい。 ● それらを活用するデータサイエンティストや機械学習エンジニアという職種に興味を持っていただき、より深く知る・考えるきっかけになってほしい。

Slide 34

Slide 34 text

Slide 35

Slide 35 text

35 © LayerX Inc. 機械学習・推薦システムを利用すべき場面（正解データのある）大量のデータが得られる扱うデータが十分に複雑であるデータの特性が変化し続ける以下の３つのポイントを満たす場合、機械学習で課題を解決できる・解決すべき可能性が高い

Slide 36

Slide 36 text

36 © LayerX Inc. 機械学習・推薦システムを利用すべき場面（正解データのある）大量のデータが得られる扱うデータが十分に複雑であるデータの特性が変化し続ける以下の３つのポイントを満たす場合、機械学習で課題を解決できる・解決すべき可能性が高い扱うデータが十分に複雑である仕訳・支払処理効率化・AIが請求書を５秒でデータ化・仕訳データを自動学習、手入力ゼロへ・改正電子帳簿保存法に対応

Slide 37

Slide 37 text

© LayerX Inc. 37 人間が帳票をもとに手入力でデータ化するという作業をなくすバクラク請求書請求書読み取り機能が解決したい課題請求書などの帳票に記載された項目（支払期日や支払金額、取引先名など）を目視で確認し、ミスなく入力・管理することは大変負荷の高い仕事 ● 対応枚数が数十、数百枚と増えるにつれ、ミスが起こりやすくなる ● 帳票のフォーマットは多種に渡り、目視で必要な項目を探すのは手間がかかる ● ミスが許されないため、ダブルチェック等の確認作業にも追加でコストが必要

Slide 38

Slide 38 text

Slide 39

Slide 39 text

39 © LayerX Inc. 機械学習・推薦システムを利用すべき場面（正解データのある）大量のデータが得られる扱うデータが十分に複雑であるデータの特性が変化し続ける以下の３つのポイントを満たす場合、機械学習で課題を解決できる・解決すべき可能性が高い

Slide 40

Slide 40 text

© LayerX Inc. 40 データが十分にないとルールを学習できなかったり（未学習）、学習データのみに適合してしまう（過学習） ● 今あるのか？今はなくともこれからたまる仕組みがあるのか？ ● データは使える程度にはキレイか、開発に際してアクセス可能な状態か？ ● 教師あり学習を行う場合は、正解データも十分に得られるか? ○ アノテーションを行う必要があるなら、その仕組みや体制は整っているか？機械学習は、大量のデータから自動でルールを学習する（正解データのある）大量のデータが得られる

Slide 41

Slide 41 text

© LayerX Inc. 41 データが十分にないとルールを学習できなかったり（未学習）、学習データのみに適合してしまう（過学習） ● 今あるのか？今はなくともこれからたまる仕組みがあるのか？ → 今もあるし（月次数百億円規模の請求書）、これからも増えていくであろう。 ● データは使える程度にはキレイか、開発に際してアクセス可能な状態か？　→整備されており、適切な情報・権限管理のもと一部の開発者はアクセス可能 ● 教師あり学習を行う場合は、正解データも十分に得られるか? → サービスが利用されると正解データであるユーザーの入力値がたまっていく。 ○ アノテーションを行う必要があるなら、その仕組みや体制は整っているか？　　　　　→ 別途アノテーション用の基盤システムや、組織が整備されている。機械学習は、大量のデータから自動でルールを学習する（正解データのある）大量のデータが得られるの場合

Slide 42

Slide 42 text

42 © LayerX Inc. 機械学習・推薦システムを利用すべき場面（正解データのある）大量のデータが得られる扱うデータが十分に複雑であるデータの特性が変化し続ける以下の３つのポイントを満たす場合、機械学習で課題を解決できる・解決すべき可能性が高い

Slide 43

Slide 43 text

© LayerX Inc. 43 単純なデータであれば、人手でルールを記述する（一般的なプログラミング）ので十分なことも。 ● ルールが複雑（難解・大量）で人手で記述することが困難か？ ○ Fizz Buzz に機械学習を用いることもできるが、そのコストを事業上許容できるかというと... ● データの扱いが難しいか？ ○ めちゃくちゃたくさんのカラムがある表データ ○ 自然言語や画像、音声などの非構造化データ機械学習は、複雑で人間が記述することが難しいルールを見つけ出すのが得意扱うデータが十分に複雑である

Slide 44

Slide 44 text

© LayerX Inc. 44 単純なデータであれば、人手でルールを記述する（一般的なプログラミング）ので十分なことも。 ● ルールが複雑（難解・大量）で人手で記述することが困難か？ → 世の中には様々な請求書のパターンが存在しており、かつ、ユーザーの運用もそれぞれで複雑である。 ● データの扱いが難しいか？ → 非構造化データである画像ファイルやPDF形式の請求書を扱う必要がある。機械学習は、複雑で人間が記述することが難しいルールを見つけ出すのが得意扱うデータが十分に複雑であるの場合

Slide 45

Slide 45 text

45 © LayerX Inc. 機械学習・推薦システムを利用すべき場面（正解データのある）大量のデータが得られる扱うデータが十分に複雑であるデータの特性が変化し続ける以下の３つのポイントを満たす場合、機械学習で課題を解決できる・解決すべき可能性が高い

Slide 46

Slide 46 text

© LayerX Inc. 46 変化し続けるルールを人手で更新し続けるのは困難。変化しないなら気合いですべて記述してしまう手も？ ● ユーザーの性質は変化するか？ ○ プロダクト規模の拡大により、異なるセグメントのユーザーが利用するようになったり ○ 同一ユーザーでも時間の流れとともに嗜好が変わったり ● 世の中の状況の変化にプロダクトは影響を受けるか？ ○ 法改正・流行の変化・景気・パンデミック... 機械学習は、データの特性が変わっても再学習することで自動で新しいルールを更新できるデータの特性が変化し続ける

Slide 47

Slide 47 text

© LayerX Inc. 47 変化し続けるルールを人手で更新し続けるのは困難。変化しないなら気合いですべて記述してしまう手も？ ● ユーザーの性質は変化するか？　→ どんどんいろんな規模や業界の企業さまにご利用いただいていっている。企業さまにより、利用している請求書のフォーマットは様々である。 ● 世の中の状況の変化にプロダクトは影響を受けるか？ → 「インボイス制度」により、読み取ることのできるべき請求書の項目が増加。 → コロナ禍による在宅勤務が進んだ影響などで、副業を行う個人事業主が増加。機械学習は、データの特性が変わっても再学習することで自動で新しいルールを更新できるデータの特性が変化し続けるの場合

Slide 48

Slide 48 text

48 © LayerX Inc. 機械学習・推薦システムを利用すべき場面（正解データのある）大量のデータが得られる扱うデータが十分に複雑であるデータの特性が変化し続ける以下の３つのポイントを満たす場合、機械学習で課題を解決できる・解決すべき可能性が高い適切に状況を見極め、手段（≠目的）である機械学習を適用するべきか考えることが重要

Slide 49

Slide 49 text

Slide 50

Slide 50 text

Slide 51

Slide 51 text

Slide 52

Slide 52 text

© LayerX Inc. 52 Wantedly Visitの会社・シゴトの推薦システム https://speakerdeck.com/yuya4/deim2022-rrs-wantedly-visit?slide=8 ちょっとだけ裏側... ● 初めてパーソナライジングした際は、変更コストなどを鑑みて、単純なメモリベースの協調フィルタリングを素早く導入して検証した。 ● 次のフェイズにて、もう少し複雑な行列分解の手法を利用。 ● 現在ではより高度な機械学習ベースのアルゴリズムが利用されている。

Slide 53

Slide 53 text

53 © LayerX Inc. 機械学習・推薦システムのプロジェクトの進め方 1. プロダクト上の問題発見・認識 2. 問題の原因特定 3. 解くべき課題の定義・解決策の立案 4. 課題解決・解決策の実行 5. 評価 6. 運用

Slide 54

Slide 54 text

54 © LayerX Inc. 機械学習・推薦システムのプロジェクトの進め方 1. プロダクト上の問題発見・認識 2. 問題の原因特定 3. 解くべき課題の定義・解決策の立案 4. 課題解決・解決策の実行 5. 評価 6. 運用

Slide 55

Slide 55 text

Slide 56

Slide 56 text

© LayerX Inc. 56 ● 大き過ぎ→原因特定が難化したり、解決策が汎用的になり過ぎインパクトが小さく ● 小さ過ぎ→解決策が特殊になり過ぎてインパクトが小さく可能ならばある程度の大きさの粒度に落とし込む 1. プロダクト上の問題発見・認識ユーザーから会社への月間応募数10万ユーザーから会社への月間応募数8万理想・目標現状ギャップ = 問題月間応募数が2万少ない ↓ 新規ユーザによる月間応募数が1.5万少ない

Slide 57

Slide 57 text

57 © LayerX Inc. 機械学習・推薦システムのプロジェクトの進め方 1. プロダクト上の問題発見・認識 2. 問題の原因特定 3. 解くべき課題の定義・解決策の立案 4. 課題解決・解決策の実行 5. 評価 6. 運用

Slide 58

Slide 58 text

© LayerX Inc. 58 ● 定量：アンケート、ユーザデータや行動ログの分析 etc. ● 定性：ユーザインタビュー、SNSエゴサ、市場調査、ユーザとして自社サービスを使ってみる、競合サービスを使ってみる、これまで培われた経験 etc. 問題がなぜ起きているかを定量・定性アプローチで特定 2. 問題の原因特定新規ユーザによる月間応募数が1.5万少ないギャップ = 問題問題の原因（候補） ● 登録直後に推薦される会社が微妙 ● 登録フローが分かりにくい ● 競合サービスがキャンペーンを実施

Slide 59

Slide 59 text

© LayerX Inc. 59 ● 定量→定性：行動ログを分析して知り得た事実をユーザインタビューを実施して確認 ● 定性→定量：SNSに投稿されていて知り得た事実を実際の行動ログを分析して確認定量・定性アプローチを補完し合い、特定した原因の確度を高める 2. 問題の原因特定新規ユーザによる月間応募数が1.5万少ないギャップ = 問題問題の原因（候補） ● 登録直後に推薦される会社が微妙 ● 登録フローが分かりにくい ● 競合サービスがキャンペーンを実施

Slide 60

Slide 60 text

© LayerX Inc. 60 ● 登録フローは比較的簡単に修正できるがあまりインパクトがなさそう... ● 競合のキャンペーン実施自体はどうしようもないし一過性のものだし... ● 行動ログのある既存ユーザーへのパーソナライジングした推薦は取り組んできたが新規ユーザーへの推薦はまだ改善余地がありそう！（コールドスタート問題）解決時のインパクト（広さ×深さ）や解決可能性の高いものを優先 2. 問題の原因特定新規ユーザによる月間応募数が1.5万少ないギャップ = 問題問題の原因（候補） ● 登録直後に推薦される会社が微妙 ● 登録フローが分かりにくい ● 競合サービスがキャンペーンを実施

Slide 61

Slide 61 text

61 © LayerX Inc. 機械学習・推薦システムのプロジェクトの進め方 1. プロダクト上の問題発見・認識 2. 問題の原因特定 3. 解くべき課題の定義・解決策の立案 4. 課題解決・解決策の実行 5. 評価 6. 運用

Slide 62

Slide 62 text

Slide 63

Slide 63 text

© LayerX Inc. 63 インパクトやコスト、原因解消の確度などの観点から取り組むものを選択 3. 解くべき課題の定義・解決策の立案課題・解決策（候補） ● 登録直後には手動で選んだいい感じの会社を推薦 ● 登録直後にはサービス内で人気な順で会社を推薦 ● 登録時の入力情報を増やすことで、登録直後でもユーザの嗜好に合った会社を推薦問題の原因登録直後に推薦される会社が微妙 ● 手動で選ぶ運用を続けるのはコストが高すぎる... ● 様々なユーザーがいる中で画一的な人気順では一部にしか刺さらずインパクトが...

Slide 64

Slide 64 text

© LayerX Inc. 64 ● ここが曖昧だと、解決策を実行した際に問題の原因が解消されたのか判断できなく ● トレードオフがある場合は同時に言語化課題が解決され、問題の原因が解消された状態を言語化 3. 解くべき課題の定義・解決策の立案課題・解決策登録時の入力情報を増やすことで、登録直後でもユーザの嗜好に合った会社を推薦問題の原因登録直後に推薦される会社が微妙新規ユーザによる月間応募数が1.5万少ないギャップ = 問題 ● 登録直後に応募するユーザ数が20%以上増加する ● 新規ユーザによる月間応募数が0.5万以上増加する ● 登録時の情報入力画面で離脱するユーザが10%以上増加しない問題の原因が解消された状態

Slide 65

Slide 65 text

Slide 66

Slide 66 text

© LayerX Inc. 66 ● 手段を目的化しない（最新の技術を使うことを目的とするとか） ● 最初からコストをかけ過ぎず、妥当な実現方法を模索 ● UX重要。使われないと価値が届かない。（精度はいいが推論が遅すぎるとか）機械学習や推薦システムなどの技術を駆使し、UXも考慮してプロダクトに組み込む 4. 課題解決・解決策の実行課題・解決策登録時の入力情報を増やすことで、登録直後でもユーザの嗜好に合った会社を推薦 https://speakerdeck.com/yuya4/deim2022-rrs-wantedly-visit?slide=9

Slide 67

Slide 67 text

© LayerX Inc. 67 機械学習や推薦システムなどの技術を駆使し、UXも考慮してプロダクトに組み込む 4. 課題解決・解決策の実行 https://speakerdeck.com/yuya4/deim2022-rrs-wantedly-visit?slide=9 ちょっとだけ裏側... ● ユーザーのプロフィール情報や会社情報から、会社探しに際してユーザーの嗜好を表現できそうな「興味」と呼ばれるキーワードを抽出 ● 行動ログのない新規ユーザーでも、オンボーディング時に選択した「興味」に応じた会社の募集が推薦されるようなアルゴリズムの開発（内容ベースフィルタリング） ● オンボーディング時にユーザーが入力する量が増えると離脱率が上がるというトレードオフが考えられたが、それ以上の効果を期待して推進 ○ NetflixやSpotifyにおける類似機能の存在や、情報を入力すればよりいいコンテンツが推薦されるようになるであろうという考えが広まりつつある社会情勢も後押し

Slide 68

Slide 68 text

Slide 69

Slide 69 text

© LayerX Inc. 69 ● 機能を作る、推薦アルゴリズムをリリースすることが目的ではない。 ● オフライン評価→オンライン評価という順に実施プロジェクトのゴールとなる「問題の原因が解消された状態」に沿った評価を実施 5. 評価 ● 登録直後に応募するユーザ数が20%以上増加する ● 新規ユーザによる月間応募数が0.5万以上増加する ● 登録時の情報入力画面で離脱するユーザが10%以上増加しない問題の原因が解消された状態

Slide 70

Slide 70 text

© LayerX Inc. 70 ● 定量：定めた評価指標が定めた基準以上改善しているか確認 ○ 最重要な指標（応募数）以外のプロダクト的に重要な指標も確認（ユーザに推薦される企業の多様性、応募するユーザー数、ユーザーへの表示速度...） ● 定性：実際にユーザに表示される推薦結果をいくつか目で見て確認 ○ ここで思いがけない考慮漏れが見つかることも ● 品質が足りない場合は「4. 課題解決・解決策の実行」に戻って品質向上に向けて再チャレンジオフライン評価：過去データに基づき、オンライン評価に回していい品質か検証 5. 評価

Slide 71

Slide 71 text

© LayerX Inc. 71 ● AB テスト、Interleaving などの手法を利用 ● オフライン評価と同様に定量・定性の両面で確認 ● 品質が足りない場合は「4. 課題解決・解決策の実行」に戻って品質向上に向けて再チャレンジ、あるいは仮説が正しくなく方針転換が必要な場合は「3. 課題定義・解決策の立案」からやり直すオンライン評価：（一部の）ユーザに実際にリリースし問題の原因が解消されるか検証 5. 評価

Slide 72

Slide 72 text

Slide 73

Slide 73 text

© LayerX Inc. 73 ● 「問題の原因が解消された状態」となっているか必ず確認 ○ オンラインテストはあくまでオンラインテストなので、全体適用時とは異なる動きをする可能性も。 ● 継続的なモニタリングを必ず実施 ○ 機械学習を用いる際は、学習ログや予測結果の評価値なども継続的に確認する。データの傾向が変わることで気づいたら学習がうまくいかなくなっていることなどもしばしば。評価の工程で品質を確認できたらいよいよ全体に適用したリリース・運用を開始 6.運用

Slide 74

Slide 74 text

Slide 75

Slide 75 text

Slide 76

Slide 76 text

Slide 77

Slide 77 text

Slide 78

Slide 78 text

Slide 79

Slide 79 text

Slide 80

Slide 80 text

Slide 81

Slide 81 text

Slide 82

Slide 82 text

Slide 83

Slide 83 text

Slide 84

Slide 84 text

Slide 85

Slide 85 text

© LayerX Inc. 85 コードを書いたり論文を読んで（高度な）推薦アルゴリズムを実装する能力 1. プロダクト上の問題発見・認識 2. 問題の原因特定 3. 解くべき課題の定義・解決策の立案 4. 課題解決・解決策の実行 5. 評価 6. 運用主に「4. 課題解決・解決策の実行」でめちゃくちゃ活躍する。そもそも実現できる能力がなければ問題解決なんてできない。ので当たり前にめちゃくちゃ重要だが...

Slide 86

Slide 86 text

Slide 87

Slide 87 text

Slide 88

Slide 88 text

© LayerX Inc. 88 正解がない問題を皆が納得する形で解決できる形にする能力 1. プロダクト上の問題発見・認識 2. 問題の原因特定 3. 解くべき課題の定義・解決策の立案 4. 課題解決・解決策の実行 5. 評価 6. 運用主に 1-3 の過程でめちゃくちゃ重要そもそも解決可能な形にする能力がなければ問題解決なんてできない。不適切な課題定義はプロダクトを誤った方向に進めてしまう。特に学生のうちにこちらにも向き合ってほしい

Slide 89

Slide 89 text

© LayerX Inc. 89 正解がない問題を皆が納得する形で解決できる形にする能力 ● めちゃくちゃ重要だけどめちゃくちゃ難しい（十分にできる人は稀少） ○ 論理的思考力・水平思考力・批判的思考力・洞察力・俯瞰力・応用力などなどの総合格闘技 ● 問題解決のプロセスを繰り返して身につけるしかない ● きちんとした問題解決の機会は少ない（よほど普段から意識しないと） ● フィードバックの機会も少なく、自分のやり方が正しいかも分からない 1. プロダクト上の問題発見・認識 2. 問題の原因特定 3. 解くべき課題の定義・解決策の立案 4. 課題解決・解決策の実行 5. 評価 6. 運用

Slide 90

Slide 90 text

© LayerX Inc. 90 正解がない問題を皆が納得する形で解決できる形にする能力 ● めちゃくちゃ重要だけどめちゃくちゃ難しい（十分にできる人は稀少） ○ 論理的思考力・水平思考力・批判的思考力・洞察力・俯瞰力・応用力などなどの総合格闘技 ● 問題解決のプロセスを繰り返して身につけるしかない ● きちんとした問題解決の機会は少ない（よほど普段から意識しないと） ● フィードバックの機会も少なく、自分のやり方が正しいかも分からない 1. プロダクト上の問題発見・認識 2. 問題の原因特定 3. 解くべき課題の定義・解決策の立案 4. 課題解決・解決策の実行 5. 評価 6. 運用研究のプロセスに完全に一致

Slide 91

Slide 91 text

© LayerX Inc. 91 正解がない問題を皆が納得する形で解決できる形にする能力 ● 私は学生時代（特に修士課程）における研究活動によってこの能力がある程度身についたと考えている ● 学生時代の研究ほど一つの正解のない問題について深く・長く考える機会はなかなかない ● しかも超優秀な先生方のご指導付き ● 社会人になってから身につけようとするとけっこう大変なので、学生時代の研究活動を一生懸命行うことをとてもおすすめします

Slide 92

Slide 92 text

© LayerX Inc. 92 正解がない問題を皆が納得する形で解決できる形にする能力 ● 私は学生時代（特に修士課程）における研究活動によってこの能力がある程度身についたと考えている ● 学生時代の研究ほど一つの正解のない問題について深く・長く考える機会はなかなかない ● しかも超優秀な先生方のご指導付き ● 社会人になってから身につけようとするとけっこう大変なので、学生時代の研究活動を一生懸命行うことをとてもおすすめします ※私は先生の回し者ではありません

Slide 93

Slide 93 text

Slide 94

Slide 94 text

94 © LayerX Inc. （再々掲）本日のお話しの目的 ● みなさんが学問として学んでいる機械学習や推薦システムという技術が事業会社においてどう活用されているのかを知ることで、それらが自分たちに関係のあるもので、学ぶ意義のあるものだと感じてほしい。 ● それらを活用するデータサイエンティストや機械学習エンジニアという職種に興味を持っていただき、より深く知る・考えるきっかけになってほしい。