Slide 1

Slide 1 text

© 2023 LayerX Inc. 「機械学習」という技術で価値を創出する技術 2023/10/21 第3回WI2セミナー / Yuya Matsumura(@yu-ya4)

Slide 2

Slide 2 text

© 2023 LayerX Inc. 2 バクラク事業部 Data&ML部 ML Group マネージャー 経歴 京都大学大学院情報学研究科修士課程修了。情報検索や情報推薦に関する研究に取り 組む。 2018年ウォンテッドリー株式会社に新卒入社。レコメンドチームの立ち上げに携わる。 その後、機械学習領域のテックリード、プロダクトマネージャー、エンジニアリングマネー ジャーを務める。 2022年9月に株式会社LayerXに入社。機械学習チームにて、法人支出管理SaaSバ クラクのAI-OCR機能をはじめとする機械学習を活用した機能の開発およびマネジメ ントに従事。 その他活動として、ウォンテッドリー株式会社の機械学習領域の技術顧問やスタート アップの技術支援、大学の非常勤講師、書籍の執筆など。 自己紹介 松村 優也(Yuya Matsumura) @yu__ya4

Slide 3

Slide 3 text

会社紹介 LayerXについて

Slide 4

Slide 4 text

© 2023 LayerX Inc. 4 会社名     代表取締役  創業      資本金 拠点 関連会社 株主一覧 取得認証 株式会社LayerX  代表取締役CEO 福島 良典    代表取締役CTO 松本 勇気  2018年8月1日  約112億円  東京本社 東京都中央区日本橋堀留町1丁目9−8 人形町PREX     東海支社 愛知県名古屋市中村区平池町4-60-12 グローバルゲート  九州支社 福岡県福岡市博多区博多駅中央街1-1 アミュプラザ博多   関西支社 大阪府大阪市北区堂島1-1-5 関電不動産梅田新道ビル  三井物産デジタル・アセットマネジメント株式会社   三井物産、LayerX、三井住友信託銀行、SMBC日興証券、JA三井リースによる合弁会社 情報セキュリティマネジメントシステム、JIIMA認証 IS 747702 / ISO 27001 会社概要

Slide 5

Slide 5 text

© 2023 LayerX Inc. 5 ミッション

Slide 6

Slide 6 text

© 2023 LayerX Inc. 6 なぜやるのか なぜやるのか 人口減少社会 人の生産性 “すべての経済活動を、デジタル化する” 日本社会の構造的課題 LayerXの課題認識 LayerXの事業/ミッションとのつながり 人口減社会で起こる課題の解決を、ソフトウェアでサポートする お金の生産性 データの生産性 バクラク事業 Fintech事業 AI・LLM事業

Slide 7

Slide 7 text

© 2023 LayerX Inc. 7 事業概略 ハタラクを、バクラクに 企業活動のインフラとなる 法人支出管理(BSM)SaaSの 自社開発・提供 新たな金融の、第一人者に デジタル証券、アセットマネジメント証券 事業を三井物産との 合弁会社にて展開 組織の壁を超え、データを活用 企業や行政の持つパーソナルデータを、組織を横 断して安全に活用するための 次世代のプライバシー保護技術を提供 大規模言語モデルを理解し、 先端を走る組織。 ChatGPTをはじめとした大規模言語 モデル(LLM)関連技術に特化した 新規プロダクト開発、R&D

Slide 8

Slide 8 text

© 2023 LayerX Inc. 8 エンジニア50名ほどの組織に元CTOが10名以上在籍しています。 経営陣紹介 チーム 1 上場を経験した シリアルな経営チーム 日本トップクラスの エンジニアチーム 2 Gunosy / DMM.com CTO CTO協会理事 メルカリ CTO CTO協会理事 CARTA HoldingsCTO CTO協会理事 Gunosy創業・上場 未踏スーパクリエータ Aimnig 創業・上場 Wantedly 執行役員 サイバーエージェント・ メルカリ上級執行役員

Slide 9

Slide 9 text

© 2023 LayerX Inc. バクラク事業の取り組み 法人支出管理(BSM)SaaS「バクラク」を展開

Slide 10

Slide 10 text

© 2023 LayerX Inc. 10 バクラクシリーズラインナップ 稟議・支払申請・経費精算 仕訳・支払処理効率化 法人カードの発行・管理 帳票保存・ストレージ 帳票発行 * 経費精算のSlack連携は申請内容の通知のみ ・AIが領収書を5秒でデータ化 ・スマホアプリとSlack連携あり ・領収書の重複申請などミス防止機能 ・AIが請求書を5秒でデータ化 ・仕訳・振込データを自動作成 ・稟議から会計までスムーズに連携 ・年会費無料で何枚でも発行可 ・インボイス制度・電帳法対応 ・すべての決済で1%以上の還元 ・AIが書類を5秒でデータ化 ・あらゆる書類の電子保管に対応 ・電子取引・スキャナ保存に完全対応 ・帳票の一括作成も個別作成も自由自在 ・帳票の作成・稟議・送付・保存を一本化 ・レイアウトや項目のカスタマイズも可能

Slide 11

Slide 11 text

© 2023 LayerX Inc. 11 バクラクの挑戦

Slide 12

Slide 12 text

© 2023 LayerX Inc. 12 バクラク 提供サービス群

Slide 13

Slide 13 text

© 2023 LayerX Inc. 13 バクラクがつくる未来

Slide 14

Slide 14 text

© 2023 LayerX Inc. 「機械学習」という技術で価値を創出する技術

Slide 15

Slide 15 text

15 © 2023 LayerX Inc. 「価値を創出する」とは? 今回は「ユーザーの課題を解決でき、ビジネスとして成立するプロダクト作ること」と定義 そのためには以下のような要素が必要 ※研究開発であったり、単に面白いものを作る、というのも大変重要で価値のあることです。そのような活動の先に、現在私たちが当たり前に使 うことのできる技術があります。今回はあくまで「事業会社におけるプロダクト作り」にフォーカスしているということをご理解ください。 解決すべき課題を 見極める 技術的に解決することが できるのか見極める 実際にユーザーに使われ プロダクトを作る ● 本当にユーザーは困っている? ● 収益化できる? ● (機械学習)技術で解決できるのか? ● 真にユーザーの課題が解決されるソ リューションとなっているか? ● 使いやすいUXとなっているか? ● 正しく(機械学習)技術を活用できるか?

Slide 16

Slide 16 text

16 © 2023 LayerX Inc. 「価値を創出する」とは? 今回はこの中から3つの要素に注目してお話しします。 解決すべき課題を 見極める 技術的に解決することが できるのか見極める 実際にユーザーに使われ プロダクトを作る ● 本当にユーザーは困っている? ● 収益化できる? ● (機械学習)技術で解決できるのか? ● 真にユーザーの課題が解決されるソ リューションとなっているか? ● 使いやすいUXとなっているか? ● 正しく(機械学習)技術を活用できるか?

Slide 17

Slide 17 text

17 © 2023 LayerX Inc. 「価値を創出する」とは? 「解決すべき課題を見極める」のも大変重要な要素ですが、今回は省略 気になる方は「プロダクトマネジメント」などについて調べてみてください 解決すべき課題を 見極める 技術的に解決することが できるのか見極める 実際にユーザーに使われ プロダクトを作る ● 本当にユーザーは困っている? ● 収益化できる? ● (機械学習)技術で解決できるのか? ● 真にユーザーの課題が解決されるソ リューションとなっているか? ● 使いやすいUXとなっているか? ● 正しく(機械学習)技術を活用できるか?

Slide 18

Slide 18 text

18 © 2023 LayerX Inc. 「価値を創出する」とは? 「ユーザーの課題を解決でき、ビジネスとして成立するプロダクト作ること」と定義 請求書受け取り業務の非効率を解消することで、時間(将来的にはお金も)の使い方の節約を目指す、バクラク請 求書の「請求書読み取り機能」を例に説明していきます。 解決すべき課題を 見極める 技術的に解決することが できるのか見極める 実際にユーザーに使われ プロダクトを作る ● 本当にユーザーは困っている? ● 収益化できる? ● (機械学習)技術で解決できるのか? ● 真にユーザーの課題が解決されるソ リューションとなっているか? ● 使いやすいUXとなっているか? ● 正しく(機械学習)技術を活用できるか? 仕訳・支払処理効率化 ・AIが請求書を5秒でデータ化 ・仕訳データを自動学習、 手入力ゼロへ ・改正電子帳簿保存法に対応

Slide 19

Slide 19 text

19 © 2023 LayerX Inc. バクラク請求書 請求書読み取り(OCR)機能のデモ

Slide 20

Slide 20 text

© 2023 LayerX Inc. 機械学習で解決できるのか

Slide 21

Slide 21 text

21 © 2023 LayerX Inc. 機械学習で解決できる課題 以下の3つのポイントを満たす場合、機械学習で課題を解決できる・解決すべき可能性が高い (正解データのある) 大量のデータが得られる 扱うデータが 十分に複雑である データの特性が 変化し続ける

Slide 22

Slide 22 text

22 © 2023 LayerX Inc. 機械学習で解決できる課題 (正解データのある) 大量のデータが得られる 扱うデータが 十分に複雑である データの特性が 変化し続ける 以下の3つのポイントを満たす場合、機械学習で課題を解決できる・解決すべき可能性が高い

Slide 23

Slide 23 text

23 © 2023 LayerX Inc. (正解データのある)大量のデータが得られる 機械学習は、大量のデータから自動でルールを学習する データが十分にないとルールを学習できなかったり(未学習)、学習データのみに適合してしまう(過学習) ● 現時点でデータはあるのか?もしくはこれからたまる仕組みがあるのか? ● データは使える程度にはキレイか、開発に際してアクセス可能な状態か? ● 教師あり学習を行う場合は、正解データも十分に得られるか? ○ アノテーションを行う必要があるなら、その仕組みや体制は整っているか?

Slide 24

Slide 24 text

24 © 2023 LayerX Inc. (正解データのある)大量のデータが得られる 機械学習は、大量のデータから自動でルールを学習する データが十分にないとルールを学習できなかったり(未学習)、学習データのみに適合してしまう(過学習) ● 現時点でデータはあるのか?もしくはこれからたまる仕組みがあるのか? → 今もあるし(月次数百億円規模の請求書)、これからも増えていくであろう。 ● データは使える程度にはキレイか、開発に際してアクセス可能な状態か?  →整備されており、適切な情報・権限管理のもと一部の開発者はアクセス可能 ● 教師あり学習を行う場合は、正解データも十分に得られるか? → サービスが利用されると正解データであるユーザーの入力値がたまっていく。 ○ アノテーションを行う必要があるなら、その仕組みや体制は整っているか?      → 別途アノテーション用の基盤システムや、組織が整備されている。 https://note.com/fukkyy/n/nf00ddb836a03 の場合

Slide 25

Slide 25 text

25 © 2023 LayerX Inc. 機械学習で解決できる課題 (正解データのある) 大量のデータが得られる 扱うデータが 十分に複雑である データの特性が 変化し続ける 以下の3つのポイントを満たす場合、機械学習で課題を解決できる・解決すべき可能性が高い

Slide 26

Slide 26 text

26 © 2023 LayerX Inc. 扱うデータが十分に複雑である 機械学習は、複雑で人間が記述することが難しいルールを見つけ出すのが得意 単純なデータであれば、人手でルールを記述する(一般的なプログラミング)ので十分なことも。 ● ルールが複雑(難解・大量)で人手で記述することが困難か? ○ Fizz Buzz に機械学習を用いることもできるが、そのコストを事業上許容できるかというと... ● データの扱いが難しいか? ○ 非常にたくさんのカラムがある表データ ○ 自然言語や画像、音声などの非構造化データ

Slide 27

Slide 27 text

27 © 2023 LayerX Inc. 扱うデータが十分に複雑である 機械学習は、複雑で人間が記述することが難しいルールを見つけ出すのが得意 単純なデータであれば、人手でルールを記述する(一般的なプログラミング)ので十分なことも。 ● ルールが複雑(難解・大量)で人手で記述することが困難か? → 世の中には様々な請求書のパターンが存在しており、かつ、ユーザーの運用もそれぞれで複雑である。 ● データの扱いが難しいか? → 非構造化データである画像ファイルやPDF形式の請求書を扱う必要がある。 の場合

Slide 28

Slide 28 text

28 © 2023 LayerX Inc. 機械学習で解決できる課題 (正解データのある) 大量のデータが得られる 扱うデータが 十分に複雑である データの特性が 変化し続ける 以下の3つのポイントを満たす場合、機械学習で課題を解決できる・解決すべき可能性が高い

Slide 29

Slide 29 text

29 © 2023 LayerX Inc. データの特性が変化し続ける 機械学習は、データの特性が変わっても再学習することで自動で新しいルールを更新できる 変化し続けるルールを人手で更新し続けるのは困難。変化しないなら気合いですべて記述してしまう手も? ● ユーザーの性質は変化するか? ○ プロダクト規模の拡大により、異なるセグメントのユーザーが利用するようになったり ○ 同一ユーザーでも時間の流れとともに嗜好が変わったり ● 世の中の状況の変化にプロダクトは影響を受けるか? ○ 法改正・流行の変化・景気・パンデミック...

Slide 30

Slide 30 text

30 © 2023 LayerX Inc. データの特性が変化し続ける 機械学習は、データの特性が変わっても再学習することで自動で新しいルールを更新できる 変化し続けるルールを人手で更新し続けるのは困難。変化しないなら気合いですべて記述してしまう手も? ● ユーザーの性質は変化するか?  → 様々な規模や業界の企業さまにご利用いただけるようになっていっている。企業さまにより、利用している 請求書のフォーマットは様々。 ● 世の中の状況の変化にプロダクトは影響を受けるか? → 「インボイス制度」により、読み取ることのできるべき請求書の項目が増加。 → コロナ禍による在宅勤務が進んだ影響などで、副業を行う個人事業主が増加。 の場合

Slide 31

Slide 31 text

31 © 2023 LayerX Inc. 機械学習で解決できる課題 適切に状況を見極め、手段(≠目的)である機械学習を適用するべきか考えることが重要 (正解データのある) 大量のデータが得られる 扱うデータが 十分に複雑である データの特性が 変化し続ける

Slide 32

Slide 32 text

© 2023 LayerX Inc. 真にユーザーの課題が解決されるか

Slide 33

Slide 33 text

33 © 2023 LayerX Inc. 真にユーザーの課題が解決されるソリューションか どうすればプロダクトが真にユーザーの課題が解決できるような価値を提供できるか 以下の2つの観点で考えてみる 何を入出力とするか 何を性能指標とするか

Slide 34

Slide 34 text

34 © 2023 LayerX Inc. 真にユーザーの課題が解決されるソリューションか 何を入出力とするか 何を性能指標とするか どうすればプロダクトが真にユーザーの課題が解決できるような価値を提供できるか 以下の2つの観点で考えてみる

Slide 35

Slide 35 text

35 © 2023 LayerX Inc. 何を入出力とするか 「請求書の読み取り機能」と聞くと、どのような入出力を想像しますか? 請求書ファイル (画像・PDF) 支払期日 支払金額 2021/04/30 取引先 11,000 株式会社テンプレ 請求書に記載の 項目ごとの値 多分こんな感じ...

Slide 36

Slide 36 text

36 © 2023 LayerX Inc. 何を入出力とするか 「請求書の読み取り機能」と聞くと、どのような入出力を想像しますか? これはこれで正しいのだが、ユーザーが本当に求めているものは何なのか考えてみることが重要 請求書ファイル (画像・PDF) 支払期日 支払金額 2021/04/30 取引先 11,000 株式会社テンプレ 請求書に記載の 項目ごとの値

Slide 37

Slide 37 text

37 © 2023 LayerX Inc. 顧客(ユーザー)が本当に求めている出力 ケース1 支払期日として2021年2月28日(日)を検出 顧客「実際に支払うのは平日の26日(金)だから変更しないと!」 ケース2 支払金額として500,000円を検出 顧客「実際に支払うのは源泉税10.21%を差し引いた448,950円だから変更しないと!」 ユーザーが本当に欲しいのは「請求書に記載の値」ではなく「実際の運用に即した値」

Slide 38

Slide 38 text

38 © 2023 LayerX Inc. 何を入出力とするか 顧客(ユーザー)が本当に求めていた「請求書読み取り機能」の入出力 請求書ファイル (画像・PDF) 支払期日 支払金額 2021/02/28 取引先 500,000 株式会社テンプレ 請求書に記載の 項目ごとの値 支払期日 支払金額 2021/02/26 取引先 448,950 株式会社テンプレ 請求書に記載の 項目ごとの値に基づいた 実際の運用に即した値 ● 「請求書に記載の値」を正確に読み取れるだけでもユーザーは十分嬉しいが、それだけでは真の課題解決にならない。 ● 「実際の運用に即した値」を出力できて初めて真の課題解決、大きな価値を提供できたこととなる。

Slide 39

Slide 39 text

39 © 2023 LayerX Inc. 「顧客が本当に必要だったもの」を明らかにする方法 例のアレ 顧客へのヒアリングや、実際に顧客に製品(プロトタイプ)を使ってもらう、データ分析、等々... ● 詳しく学びたい人はプロダクトマネジメントを学んでみよう!めちゃくちゃ難しいです。 ● LayerX ではめちゃくちゃ顧客にヒアリングをしたり、社内にドメインエキスパートがいたりします。 https://dic.nicovideo.jp/a/%E9%A1%A7%E5%AE%A2%E3%81%8C%E6%9C%AC%E5%BD%93%E3% 81%AB%E5%BF%85%E8%A6%81%E3%81%A0%E3%81%A3%E3%81%9F%E3%82%82%E3%81%AE

Slide 40

Slide 40 text

40 © 2023 LayerX Inc. 真にユーザーの課題が解決されるソリューションか 何を入出力とするか 何を性能指標とするか どうすればプロダクトが真にユーザーの課題が解決できるような価値を提供できるか 以下の2つの観点で考えてみる

Slide 41

Slide 41 text

41 © 2023 LayerX Inc. 何を性能指標とするか 請求書ファイル (画像・PDF) 支払期日 支払金額 2021/02/26 取引先 448,950 株式会社テンプレ 請求書に記載の 項目ごとの値に基づいた 実際の運用に即した値 この「請求書読み取り機能」が「真にユーザーの課題を解決している」とはどういう状態? ● 1,000件の請求書が入力されて、すべてに対して「実際の運用に即した値」=「正解」を出力できていたら完璧 ○ だが、もちろん実際はそうもいかない ● では、1,000件の請求書が入力されて、910件が正解を出力できている状態は? ○ 91%正解できているのでけっこう良さそう!本当に...?

Slide 42

Slide 42 text

42 © 2023 LayerX Inc. 全体の正解率だけでは見えないものがある 1,000件の請求書が入力されて、910件が正解を出力、正解率91%!でも... ● たとえば10人のユーザーが利用してくれているとする。 ● 実は1人のユーザーが910件の請求書を入力していて、残りの9人はそれぞれ10件ずつ入力していたとする。 ● 実は正解している910件はすべて1人のユーザーが入力したものだとする。 ● その場合、1人のヘビーユーザーは正解率100%で大変満足しているが、残りの9人は正解率0%となる。 ● 10人のユーザーが利用してくれているのに、1人(10%)のユーザーにしかプロダクトの価値が提供できていな いこの状態は決して「真にユーザーの課題を解決している」とは言えないはず。 😃 😃 😃 😃 😃 😃 😃 😃 😃 😃 😃 😃 😃 😃 😃 😃 😃 😃 😃 😃 😆 😓 😓 😓 😓 😓 😓 😓 😓 😓

Slide 43

Slide 43 text

43 © 2023 LayerX Inc. 全体だけではなく個別の事象を性能指標に反映する 以下の例はともに1,000件の請求書が入力されて、910件が正解を出力、正解率91%!でも... ● 1人のヘビーユーザーが正解率100%で、残りの9人は正解率0%の場合 ○ ユーザーごとの正解率の平均は(100 + 0 * 9) / 10 = 10% ● 1人のヘビーユーザーは正解率約95%(865/910)で、残りの9人は正解率50%(5/10)の場合 ○ ユーザーごとの正解率の平均は(95 + 50 * 9) / 10 = 54.5% 常にユーザーへの提供価値から逆算して何を性能指標とするべきか考える 全体の正解率(91%)は同じでも、ユーザーごとの正解率の平均には大きな差が生まれた。 今回のケースの場合、おそらく後者のほうがプロダクトを利用するユーザーの課題が解決されている状態と言えるため、全体 の正解率(だけ)よりかは、ユーザーごとの正解率の平均を性能指標として使うことは筋が良さそう。 (これはこれで、入力の少ないユーザーの重みが大き過ぎるという問題があるかもしれないが...) 正直なところ正解はない... 難しい...でもだからこそ面白い!

Slide 44

Slide 44 text

44 © 2023 LayerX Inc. さらにユーザーへの提供価値を考えてみる バクラクが解決したい課題を思い返すと、請求書読み取りが目指すところは “Saving Time” たとえば、「ユーザーが請求書処理において1枚当たりにかけた時間」を性能指標にすることが考えられる。 ● システムが正解を出力できれば最短で請求書の処理が終わるので性能指標が改善される。 ● システムが入力の請求書を受け取ってから出力を返すまでの時間が短くなれば性能指標が改善される。 ● 正解を出力できなくとも、ユーザーができるだけ早く間違いを訂正できるような仕組みを提供できれば性能指 標の悪化を最低限に抑えられる。 どれだけたくさんの正解を出力できるか、以外の要素も真の課題解決・ユーザーへの提供価値最大化には重要

Slide 45

Slide 45 text

45 © 2023 LayerX Inc. 真にユーザーの課題が解決されるソリューションか ユーザーの課題が解決されるか・ユーザーへの提供価値から逆算してシステムの入出力や性能指 標を考えることが重要 何を入出力とするか 何を性能指標とするか

Slide 46

Slide 46 text

© 2023 LayerX Inc. 正しく機械学習を活用できるか

Slide 47

Slide 47 text

47 © 2023 LayerX Inc. 正しく機械学習を活用できるか 「請求書ファイル」を入力、「実際の運用に即した値」を出力と定義、正解データを集めて機械学習? それでも悪くないが、 end-to-end な機械学習(深層学習)が常にベストな選択とは限らない ● 技術的な難易度や、単純に問題としての難易度が向上する。 ● 一般的に必要なデータ量が(より)膨大になる。必要なマシンリソースや学習にかかる時間なども大きくなる。 ● まるまるブラックボックスになるため、予測性能が落ちた際などに問題の切り分けが難しい。 請求書ファイル (画像・PDF) 支払期日 支払金額 2021/02/26 取引先 448,950 株式会社テンプレ 請求書に記載の 項目ごとの値に基づいた 実際の運用に即した値

Slide 48

Slide 48 text

48 © 2023 LayerX Inc. 問題を分割してみる 入力から出力までを意味のある単位で分割し多段の処理で表現、よりうまく機械学習で解けない か、あるいは機械学習という手段を取らない方が良い処理がないか検討してみる。 請求書ファイル (画像・PDF) 支払期日 支払金額 500,000 請求書に記載の 項目ごとの値 実際の運用に即した値 { “bbox”: [{"x": 0.3421, "y": 0.567},...], "word": “2021/2/28” },... 2021/02/28 株式会社テンプレ 取引先 支払期日 支払金額 448,950 2021/02/26 株式会社テンプレ 取引先 請求書内の 文字と座標 たとえば、 ● 請求書ファイルから文字検出と文字認識を行う処理と、それぞれの文字がどの項目に該当するか推定する処理 を加えることで、「請求書内の文字と座標」という中間出力を追加 ● 「請求書に記載の値」を「実際の運用に即した値」に変換する処理を加えることで、それぞれを分割 項目推定 なんらかの 変換処理 文字検出 文字認識

Slide 49

Slide 49 text

49 © 2023 LayerX Inc. 自前で機械学習モデルを作成する以外の手段の検討 請求書ファイル (画像・PDF) 支払期日 支払金額 500,000 請求書に記載の 項目ごとの値 実際の運用に即した値 { “bbox”: [{"x": 0.3421, "y": 0.567},...], "word": “2021/2/28” },... 2021/02/28 株式会社テンプレ 取引先 支払期日 支払金額 448,950 2021/02/26 株式会社テンプレ 取引先 請求書内の 文字と座標 たとえば、 ● 文字検出・文字認識は自前で実装せずにクラウドサービスを利用したほうが手間が少なく、精度も高いかも。 ● 「請求書に記載の値」を「実際の運用に即した値」に変換する処理は、ある程度まではルールベースで十分かも。 ○ e.g. 抽出された支払期日か土日ならば、それ以前の最後の平日の日時に変換する 文字検出 文字認識 項目推定 なんらかの 変換処理 Vision API などのク ラウドサービスを利 用 ルールベースで後 処理

Slide 50

Slide 50 text

50 © 2023 LayerX Inc. 本当に必要な処理のみ自前で機械学習モデルを作成する 請求書ファイル (画像・PDF) 支払期日 支払金額 500,000 請求書に記載の 項目ごとの値 実際の運用に即した値 { “bbox”: [{"x": 0.3421, "y": 0.567},...], "word": “2021/2/28” },... 2021/02/28 株式会社テンプレ 取引先 支払期日 支払金額 448,950 2021/02/26 株式会社テンプレ 取引先 請求書内の 文字と座標 請求書内の文字と座標がそれぞれどの項目に該当するか推定する、という処理に対して自前で機械学習モデルを作成 ● end-to-end な機械学習に比べて技術的な難易度や問題としての難易度が低減 ● 必要なデータ量、マシンリソースや学習にかかる時間などのコストが削減 ● 予測性能が落ちるなど問題が生じた際、どこの処理で問題が起きているのかの原因に切り分けが行いやすい 文字検出 文字認識 項目推定 なんらかの 変換処理 Vision API などのク ラウドサービスを利 用 ルールベースで後 処理 自前で機械学習モ デルを作成

Slide 51

Slide 51 text

51 © 2023 LayerX Inc. 正しく機械学習を活用できるか 問題を分解した上で、解決する難易度や精度、コストのバランスを鑑みた上で適切な処理に機械 学習を適用することが重要 請求書ファイル (画像・PDF) 支払期日 支払金額 500,000 請求書に記載の 項目ごとの値 実際の運用に即した値 { “bbox”: [{"x": 0.3421, "y": 0.567},...], "word": “2021/2/28” },... 2021/02/28 株式会社テンプレ 取引先 支払期日 支払金額 448,950 2021/02/26 株式会社テンプレ 取引先 請求書内の 文字と座標 文字検出 文字認識 項目推定 なんらかの 変換処理 Vision API などのク ラウドサービスを利 用 ルールベースで後 処理 自前で機械学習モ デルを作成

Slide 52

Slide 52 text

© 2023 LayerX Inc. まとめ

Slide 53

Slide 53 text

53 © 2023 LayerX Inc. まとめ - 「機械学習」という技術で価値を創出する技術 ● 機械学習で解決できるのか ○ 適切に状況を見極め、手段(≠目的)である機械学習を適用するべきか考えることが重要 ● 真にユーザーの課題が解決されるか ○ ユーザーの課題が解決されるか・ユーザーへの提供価値から逆算してシステムの入出力や性能指 標を考えることが重要 ● 正しく機械学習を活用できるか ○ 問題を分解した上で、解決する難易度や精度、コストのバランスを鑑みた上で適切な処理に機械 学習を適用することが重要

Slide 54

Slide 54 text

54 © 2023 LayerX Inc. まとめ - 「機械学習」という技術で価値を創出する技術 ● 機械学習で解決できるのか ○ 適切に状況を見極め、手段(≠目的)である機械学習を適用するべきか考えることが重要 ● 真にユーザーの課題が解決されるか ○ ユーザーの課題が解決されるか・ユーザーへの提供価値から逆算してシステムの入出力や性能指 標を考えることが重要 ● 正しく機械学習を活用できるか ○ 問題を分解した上で、解決する難易度や精度、コストのバランスを鑑みた上で適切な処理に機械 学習を適用することが重要 いろいろと説明・事例を紹介しましたが、プロダクトの性質や状況によって進め方は様々なので、 原則に基づいて自分の頭でしっかり考えることが重要

Slide 55

Slide 55 text

55 © 2023 LayerX Inc. みなさん、生成AI(ChatGPTとか)活用してますか? ところで

Slide 56

Slide 56 text

56 © 2023 LayerX Inc. 意外と生成AIの普及はまだまだ https://www.pwc.com/jp/ja/press-room/generative-ai-survey20230519.html PwC 『生成AIに関する実態調査 2023』 使ったことがある人が10%、業務で活用している人が3%

Slide 57

Slide 57 text

57 © 2023 LayerX Inc. とはいえ、IT・プロダクト作り界隈で普及しているのは確実かと思います バイアスってすごい、、、

Slide 58

Slide 58 text

58 © 2023 LayerX Inc. 大規模言語モデルの普及がもたらしたもの AI・機械学習の民主化:誰でも容易に高性能な機械学習モデルを活用できるように ● ChatGPTなどを利用することで機械学習の知識や実装なしで文書要約や情報抽 出、質問応答など代表的な自然言語処理タスクを解くことができる。 ● OpenAI APIなどを利用することで簡単な機械学習の知識と実装のみで自然言語 処理を活用した機能開発を行うことができる。 ○ 文書要約、情報抽出, etc. ○ チャットボット ○ 文書の埋め込み表現を利用した検索システム 実装: ここではいわゆるプログラミングを指します。プロンプト エンジニアリングは別途必要になることが多いです。

Slide 59

Slide 59 text

59 © 2023 LayerX Inc. 機械学習エンジニアの仕事がなくなる...? 人類が好きな話

Slide 60

Slide 60 text

60 © 2023 LayerX Inc. (残念ながら)機械学習エンジニアの仕事はなくならない MLモデルの作成だけが機械学習エンジニアの仕事ではない ● 大規模言語モデルもあくまで道具。いい道具さえあ れば良いモノが作れる...? ○ 最近はChatGPTなどを利用したサービスや機能がいろい ろとリリースされているが、真にユーザーの課題を解決する ようなモノがどれほどあるかというと...? ○ 使われないモノを作るだけならまだしも、ユーザー体験を大 きく損ねてしまったり、evilなモノを作ってしまったり、取り 返しのつかない事故に繋がることも... ● そもそも個別のドメイン・タスクで実用的なモデル を作成するためのファインチューニングはまだ必要 https://dic.nicovideo.jp/a/%E9%A1%A7%E5%AE%A2%E3%81%8C%E6%9C%AC%E5%BD%93%E3%81%AB%E5 %BF%85%E8%A6%81%E3%81%A0%E3%81%A3%E3%81%9F%E3%82%82%E3%81%AE 例のアレ

Slide 61

Slide 61 text

61 © 2023 LayerX Inc. とはいえ手を動かしている人はえらい 実際にモノを作ってみないと・使ってもらわないと分からないことがたくさんある ● 大規模言語モデルという「道具」は間違いなく有用なものなので、それをどう活 かせばいいのか実際に使ってみて検証することは重要 ● リリースすることで事例を世の中に共有することの大きな意義 https://tech-blog.tabelog.com/entry/first-challenge-t abelog-chatgpt-plugin-devleopment https://note.com/yuya4/n/ncf927e0b7a23 手を動かすことの重要性を説く私のnote 最高な動きだと思った食べログさんのブログ

Slide 62

Slide 62 text

62 © 2023 LayerX Inc. 大規模言語モデルを活用してプロダクトを作る際に留意すべき点 一般的なプロダクトマネジメントの観点に加えて大規模言語モデル(MLモデル)特有の観点が必要 意図せぬ出力を 考慮した設計 性能評価 データガバナンス データ収集 MLを使ったシステムは大前提「間違う」。ChatGPTは「嘘をつく(Hallucination)」。 意図せぬ入力やプロンプトインジェクション。入力が同じでも出力が変わる可能性。こ れらを想定した仕組みや体験の設計、使い所の見極めが必要。 モデルの出力による性能をどのような指標でどのように評価するのか?プロダクトの OKRやKPIとの紐付け。適合率(誤検知しない)と再現率(見逃さない)どちらを重視 するか。セグメントごとに偏りはないか。公平性に問題はないか。説明性・解釈性は必 要か。この指標に基づいてファインチューニングすることも。誤った指針で学習したモ デルはプロダクトを誤った方向へと導く。 性能評価のための、あるいはファインチューニングのためのデータを収集する必要があ る。追加でログを仕込むなどのアクションが必要なことも。正解データを集めるために アノテーションの設計も必要かも。 データの利用やプライバシーに関する倫理的な配慮や規制は十分か。許可していない データを使っていないか。気づかぬうちに外部のモデルの学習に使われていないか。 ユーザーの入力がサービス内の他のユーザーの出力に反映されてしまわないか。ユー ザーが退会した際やデータの削除を求めた場合の扱いをどうするのか。 などなど...

Slide 63

Slide 63 text

63 © 2023 LayerX Inc. Machine Learning Product Management(MLPdM) MLPdM: 機械学習を活用するプロダクトを作るのに必要な能力・職種 ● 一般的なプロダクトマネジメントの観点にML特有な観点を加えたもの ● 最も必要な能力は「MLを使う必要のない状況で使わない意思決定ができる能力」 ● AI・機械学習の民主化に伴い今後ますます注目されるであろう https://github.com/aws-samples/aws-ml-enablement-workshop https://www.youtube.com/watch?v=EhlHKhQv0Qg SpotifyのMLPdMの方の講演 プロダクトマネージャーが、機械学習の「勝ちパターン」を実現する チームとロードマップが作れるワークショップ

Slide 64

Slide 64 text

64 © 2023 LayerX Inc. まとめ - 「機械学習」という技術で価値を創出する技術 ● 機械学習で解決できるのか ○ 適切に状況を見極め、手段(≠目的)である機械学習を適用するべきか考えることが重要 ● 真にユーザーの課題が解決されるか ○ ユーザーの課題が解決されるか・ユーザーへの提供価値から逆算してシステムの入出力や性能指 標を考えることが重要 ● 正しく機械学習を活用できるか ○ 問題を分解した上で、解決する難易度や精度、コストのバランスを鑑みた上で適切な処理に機械 学習を適用することが重要 いろいろと説明・事例を紹介しましたが、プロダクトの性質や状況によって進め方は様々なので、 原則に基づいて自分の頭でしっかり考えることが重要