Slide 1

Slide 1 text

LLMアプリケーションの 評価の実践と課題 2024.07.18 # pharmax_tech

Slide 2

Slide 2 text

(C)PharmaX Inc. 2023 All Rights Reserve 2 自己紹介 上野彰大 PharmaX共同創業者・エンジニアリング責任者 好きな料理はオムライスと白湯とコーラ マイブームはLLMとRust X:@ueeeeniki

Slide 3

Slide 3 text

(C)PharmaX Inc. 2023 All Rights Reserve 3 趣味で勉強会コミュニティ StudyCoも運営 自己紹介

Slide 4

Slide 4 text

4 (C)PharmaX Inc. 2023 All Rights Reserve はじめに

Slide 5

Slide 5 text

(C)PharmaX Inc. 2023 All Rights Reserve 5 本発表のスコープや注意事項について LLMアプリケーションの実験管理と評価について取り組んで来たことや今後の展望をお話します ● 個人的に参考になった記事やPharmaXで取り組んできたこと、今後のどのようなことをやってい きたいのかについて中心にお話します ○ 個人的な感想や考えを多分に含みます ● LLMアプリケーションの実験管理や評価はまだベストプラクティスが出揃っておらず、今回お話 する内容が各社にどの程度取り入れ可能かは不明です ○ 皆さまでご判断いただければと幸いです ● できる限りPharmaXでのリアルな事例や実験結果をお伝えしますが、より詳しく聞きたい方やお 困りごとについて議論したい方は是非 DM等いただければ幸いです

Slide 6

Slide 6 text

(C)PharmaX Inc. 2023 All Rights Reserve 6 前提とする知識 ● LLMの基礎知識は説明しません ○ AIのモデルについての基礎知識もあることが望ましい ● 少しでもLLMを使ってアプリケーション開発した経験があることがあることが望ましい ● できればLLMアプリケーションを本番運用した経験があるとより話の内容が想像つくと思います LLMのアプリケーション開発の多少の事前知識を仮定します

Slide 7

Slide 7 text

(C)PharmaX Inc. 2023 All Rights Reserve 7 今回持ち帰っていただきたいこと ● 実験管理と評価の基本を理解できる ● LLMアプリケーションの”評価”と呼ばれるものにいろんなパターンがあることを理解できる ● 評価の限界について理解できる 今回は下記のようなゴール設定でお話いたします

Slide 8

Slide 8 text

8 (C)PharmaX Inc. 2023 All Rights Reserve PharmaXのプロダクトの簡単な説明

Slide 9

Slide 9 text

(C)PharmaX Inc. 2023 All Rights Reserve 9 医療アドバイザーに体調 のことをいつでも気軽に相 談できる 相談型医療体験 30種類以上の漢方薬からあ なたに合ったものを月毎に 提案 パーソナライズ漢方薬 定期的に漢方をお届けし、 一人ひとりに寄り添うかか りつけ医療を提供 継続的なかかりつけ 一生涯にわたって寄り添うかかりつけ漢方薬局「 YOJO」

Slide 10

Slide 10 text

(C)PharmaX Inc. 2023 All Rights Reserve 10 ソフトウェアに閉じないプロダクト開発 独自の薬局オペレーションシステムを構築し、最適化されたオンライン薬局を実現 × 自社薬局をプロトタイプラボ化 ソフトウェア オペレーション リモート 薬剤師組織 薬局業務を効率化す るオペレーションシス テム(薬局OS) 質の高い患者さま対 応のためのオンライン 特化組織 対人業務の質を高め るための対物業務効 率化 「ソフトウェア×オペレーション×薬剤師組織」 をプロダクトとして開発

Slide 11

Slide 11 text

(C)PharmaX Inc. 2023 All Rights Reserve 11 今回対象とするアプリケーション 「作成可」ボタンを押すと LLMによってサジェストされる

Slide 12

Slide 12 text

(C)PharmaX Inc. 2023 All Rights Reserve 12 今回対象とするアプリケーション ● ユーザーからのメッセージを受信したタイミングで LLMによる返信のサジェストが作られ、薬剤師 は必要があれば修正して送る ○ サジェストされたメッセージをそのまま送ることができれば、返信速度が速くなる&生産性が 高くなるので理想 ● 管理画面上でボタンを押す(ショートカットキーをタイプする)ことでもチャットがサジェストされる 薬剤師にチャットの返答をサジェッションするために LLMを活用している

Slide 13

Slide 13 text

(C)PharmaX Inc. 2023 All Rights Reserve 13 対応フェーズの切り替えも LLMが行い、フェーズごとに異なるエージェントがメッセージ提案を行う マルチエージェントによる チャットアプリケーションの概念図

Slide 14

Slide 14 text

(C)PharmaX Inc. 2023 All Rights Reserve 14 対応フェーズの切り替えも LLMが行い、フェーズごとに異なるエージェントがメッセージ提案を行う マルチエージェントによる チャットアプリケーションの概念図

Slide 15

Slide 15 text

(C)PharmaX Inc. 2023 All Rights Reserve 15 User メッセージ作成プロンプトのイメージ プロンプトには薬剤師と同じようなメッセージ作成マニュアルが与えられている メッセージ作成 System 以下の条件に従って返信してください。 前提: ・あなたの役割は、PharmaX株式会社のYOJOというサービス のかかりつけ薬剤師です。健康や漢方の専門家として、常に ユーザーの感情に寄り添いアドバイスをします。 ...(略) 以下の指示に従って返信してください。 ## 制約条件 ・チャットをする時のルールを遵守する ・質問は1回につき1つとする(?を使うのは1回のチャットで1つの み) …(略)… 上記に気をつけながら、共感しつつ深掘り質問を行ってください。

Slide 16

Slide 16 text

(C)PharmaX Inc. 2023 All Rights Reserve 16 メッセージが提案される度に複数の観点で評価する マルチエージェントによる メッセージ提案アプリケーションの概念図

Slide 17

Slide 17 text

(C)PharmaX Inc. 2023 All Rights Reserve 17 評価用のプロンプトのイメージ LLMからのメッセージ提案を評価させるためのプロンプトを定義し、 LLMにLLMの評価をさせる System あなた(assistant)には、別のassistant(chat-assistant)のメッ セージを評価していただきます。 ## chat-assistantの前提 chat-assistantの役割は、PharmaX株式会社のYOJOという サービスのかかりつけ薬剤師です。健康や漢方の専門家とし て、常にユーザーの感情に寄り添いアドバイスをします。 ...(略) User chat-assistantの最後の返答がどの程度下記の文章作成マニュ アルに従っているかで0〜100点のスコアを付けて下さい ## 文章のライティング方針 ・丁寧に対応する ・謝罪では絵文字を使わずに、文章だけで表現する ・難しい漢字はひらがなで書く ・細かい説明は箇条書きで書く ...(略) 評価用プロンプト

Slide 18

Slide 18 text

18 (C)PharmaX Inc. 2023 All Rights Reserve LLMアプリケーションの改善プロセスと 評価・実験管理の概要

Slide 19

Slide 19 text

(C)PharmaX Inc. 2023 All Rights Reserve 19 ● LLMに与えるプロンプトやパラメータの変更履歴と、プロンプトやパラメータの変更前後で出力が どのように変化したのかを管理することを実験管理という ● LLMの出力結果の”良し悪し”を定量的・定性的に判断することを評価という ● 実験管理と評価をセットで行うことで、プロンプトやパラメータを変更したことで出力が良くなった のか悪くなったのかを判断することができる ○ 評価と実験管理はセットで運用されることが望ましいが、実験管理すらないとパラメーターの変更履 歴が分からなくなるので、最低限実験管理から導入してみることはオススメ LLMアプリケーションの改善に必要なこと LLMアプリケーションを改善していくためには、特に実験管理と評価が必要

Slide 20

Slide 20 text

(C)PharmaX Inc. 2023 All Rights Reserve 20 実験管理とはなにか?なぜ実験管理が必要なのか? ● LLMに与えるプロンプトやパラメータの変更履歴と、プロンプトやパラメータの変更前後で出力が どのように変化したのかを管理することを実験管理という ○ 事前に準備したデータセットと評価項目を使って評価することもできるが、ビジネス指標への影響の評 価はしばらく運用しないとわからないので、履歴管理(いつどのようにプロンプトを修正したのか)が必 要 ○ もちろんやり方次第では ABテストのようなことも可能 ● 実際のLLMアプリケーションの現場では、開発者以外もプロンプト等を変更できるようなアーキテ クチャを取ることができれば、複数人で高速で PDCAを回すことが可能になる ○ 複数人でプロンプト等を変更するには、誰がいつどのような変更したのかを管理することの重要性が 増す 実験管理をすることで、パラメータを変更したことでどのような影響があったのかを振り返る事ができる

Slide 21

Slide 21 text

(C)PharmaX Inc. 2023 All Rights Reserve 21 PromptLayer〜テンプレート管理 プロンプトのテンプレートを作成することができ、バージョン管理を行うこともできる LangSmithに移行中

Slide 22

Slide 22 text

(C)PharmaX Inc. 2023 All Rights Reserve 22 PromptLayer〜テンプレートと入出力結果の紐づけ 各テンプレートを使用した入出力結果の一覧を見ることができる LangSmithに移行中

Slide 23

Slide 23 text

(C)PharmaX Inc. 2023 All Rights Reserve 23 PromptLayer〜テンプレートと入出力結果の紐づけ 各入出力の詳細ページを見ることもできる LangSmithに移行中

Slide 24

Slide 24 text

(C)PharmaX Inc. 2023 All Rights Reserve 24 評価とはなにか?なぜ評価が必要なのか ● AIの評価とは、AIの出力結果の”良し悪し”を定量的・定性的に判断すること ● 分類問題や回帰問題などであれば、単純に正答率や誤差を評価すればいい ● 一方でLLMの評価は、例えば、画像認識などの分類問題とは異なり、正解が 1つに定まるわけ でないので難しい ○ 例えば、「日本で一番高い山は?」という質問に「富士山」「富士山です」「富士山に決まってんだろー が!」「富士山。標高 3776.12 m。その優美な風貌は …(略)」と答えるのはどれも正解 ● LLMの出力を定量的に評価できれば、プロンプトやパラメータの変更前後で評価の平均点を比 べるというような統計的な比較も可能になる AIの評価に関するプラクティス自体は LLMの発展の前から存在していたが、 LLM特有の論点もある

Slide 25

Slide 25 text

(C)PharmaX Inc. 2023 All Rights Reserve 25 ● LLMの評価というときには、①事前学習した LLMのモデルそのものや②fine-tuningしたモデ ルの評価を指すこともあれば、③ LLMを使ったアプリケーションでの評価(プロンプトや RAGに フォーカス)を指すこともあるので注意が必要 ○ ①では、そもそも様々な分野で日本語の質問に正しく答えられるか?と言ったことを評価する ■ 例えば、医学的な問いに正しく答えれるか?というように特定のドメインを扱うことはある一方 で、特定のアプリケーションの評価ではない ○ ②、③では、特定のユースケースで正しく答えられているか?と言ったことが問われている ■ ②は特定のドメインに特化させてはいるが比較的一般的な知識を問うもの、特定のアプリケー ションのユースケースに特化させたもののどちらも言うことがある ■ 特に③はプロンプトを工夫した場合や RAGでデータを与えた場合の出力が、特定のアプリケー ションの特定のユースケースで良い出力であるかが問われている ● ③では、アプリケーション開発者がモデル内部のパラメータを変化させられるわけではないの で、プロンプトやtemperatureなどが評価するパラメータにあたる 評価とはなにか?なぜ評価が必要なのか LLMアプリケーションの評価というときには、①ではなく、②または③を指す

Slide 26

Slide 26 text

(C)PharmaX Inc. 2023 All Rights Reserve 26 参考:①LLMモデルそのものの評価 https://prtimes.jp/main/html/rd/p/000000007.000119963.html 代表的なデータセットに対して公開されているモデルで評価を行ったリーダーボードが公開されている

Slide 27

Slide 27 text

(C)PharmaX Inc. 2023 All Rights Reserve 27 参考:①LLMモデルそのものの評価 https://wandb.ai/wandb-japan/llm-leaderboard/reports/Nejumi-Leaderboard-Neo--Vmlldzo2MTkyMTU0 どのモデルを使うのか迷った際には複数のリーダーボードを参考にしてみるのも良い

Slide 28

Slide 28 text

(C)PharmaX Inc. 2023 All Rights Reserve 28 LLMアプリケーションの評価 ● 特定のLLMアプリケーションでは、実際にどの程度ユーザーに ”役立ったのか”やどの程度”ビジ ネス上の数値を向上させたのか ”を評価すべき ○ 例えば、 ・薬剤師の返信速度がどの程度速まったか、その結果、どの程度購入率が向上したか ・薬剤師の生産性をどの程度高めたか、その結果、どの程度人件費が減少したか というビジネス指標までを最終的には評価する必要がある ● 一方で、KPIとなるビジネス指標への影響は様々な要因が混ざり合う上に、評価できるまでの時 間軸も長くなるので、現実的にはその手前の評価軸でも評価する必要がある ○ 例えば、出力結果がマニュアルなどに沿っているかか、医学的に間違っていないかといった実際の ユースケースに照らし合わせた妥当性の観点で評価 ○ 例えば、受入率(どの程度修正せずに受け入れられたか)などの観点で評価 ここではモデルそのものの評価ではなく、 LLMを使ったアプリケーションの評価について扱う

Slide 29

Slide 29 text

(C)PharmaX Inc. 2023 All Rights Reserve 29 評価指標のパターン ● LLMアプリケーションの出力結果の評価は、主に下記の 2つのパターンがある ○ 期待するアウトプット(Grand Truth)と実際のアウトプットを比較してスコアリングする ■ 例えば、2つの文字列間の距離をembedding distanceやlevenshtein distance でスコアリングする ○ 定義した評価基準に基づいて、システムの出力の妥当性をスコアリング(合格 /不合格を判 定)する ● リリース後は、下記のような指標をモニタリングして分析することを評価ということもあるので注意 が必要 ○ ユーザーによる直接的なフィードバック( Good / Badボタンの設置など) ○ ユーザーの利用状況(クリック率や受入れ率など) ○ レイテンシーなどの非機能要件的な指標 LLMアプリケーションの出力結果の評価という時にも、複数のものを指すことがあるので注意

Slide 30

Slide 30 text

(C)PharmaX Inc. 2023 All Rights Reserve 30 評価指標のパターン ● LLMアプリケーションの出力結果の評価は、主に下記の 2つのパターンがある ○ 期待するアウトプット(Grand Truth)と実際のアウトプットを比較してスコアリングする ■ 例えば、2つの文字列間の距離をembedding distanceやlevenshtein distance でスコアリングする ○ 定義した評価基準に基づいて、システムの出力の妥当性をスコアリング(合格 /不合格を判 定)する ● リリース後は、下記のような指標をモニタリングして分析することを評価ということもあるので注意 が必要 ○ ユーザーによる直接的なフィードバック( Good / Badボタンの設置など) ○ ユーザーの利用状況(クリック率や受入れ率など) ○ レイテンシーなどの非機能要件的な指標 ここではこれを評価と呼ぶ LLMアプリケーションの出力結果の評価という時にも、複数のものを指すことがあるので注意

Slide 31

Slide 31 text

(C)PharmaX Inc. 2023 All Rights Reserve 31 評価指標のパターン ● LLMアプリケーションの出力結果の評価は、主に下記の 2つのパターンがある ○ 期待するアウトプット(Grand Truth)と実際のアウトプットを比較してスコアリングする ■ 例えば、2つの文字列間の距離をembedding distanceやlevenshtein distance でスコアリングする ○ 定義した評価基準に基づいて、システムの出力の妥当性をスコアリング(合格 /不合格を判 定)する ● リリース後は、下記のような指標をモニタリングして分析することを評価ということもあるので注意 が必要 ○ ユーザーによる直接的なフィードバック( Good / Badボタンの設置など) ○ ユーザーの利用状況(クリック率や受入れ率など) ○ レイテンシーなどの非機能要件的な指標 LLM as a Judgeで扱う ここではこれを評価と呼ぶ LLMアプリケーションの出力結果の評価という時にも、複数のものを指すことがあるので注意

Slide 32

Slide 32 text

(C)PharmaX Inc. 2023 All Rights Reserve 32 LLM as a Judgeの必要性 LLMアプリケーションの出力結果を LLMで評価することをLLM as a Judgeという ● LLMの出力を人が評価するのは、工数・コスト・速度の観点から限界があるので、 LLMにLLMの 出力を評価をさせようというアイディア ○ 人で評価する場合、異なる評価者の間で評価基準を一致させるのは難しいが、 LLMなら 可能 ○ LLMであればプロンプトを作り込めば、専門家と同じような評価も高精度にさせることがで きる ○ YOJOのように出力後にリアルタイムで評価している場合は特に、人が評価するのは難し いが、LLMなら可能

Slide 33

Slide 33 text

(C)PharmaX Inc. 2023 All Rights Reserve 33 評価結果と KPIの理想の関係 ①評価結果と②KPIの先行指標となるユーザー指標と③ KPIが相関していることが望ましい 評価 KPIの先行指標 KPI ● ユーザーからの FB ● ユーザーの利用状況 ○ クリック率 ○ 利用率  etc… ● Grand Truthとの 比較評価 ● 出力の妥当性の評価 ○ 有害性 ○ ユーザーへの共感度  etc… ● 購入率 ● 継続率 ● 生産性向上率 etc…. 相関があることが望ましい

Slide 34

Slide 34 text

(C)PharmaX Inc. 2023 All Rights Reserve 34 評価方法(タイミング)のパターン ● 事前評価=オフライン評価 ○ プロンプトを変更した際に事前に準備したデータセットに対して出力した結果を評価する ○ LLMアプリケーションであれば、プロンプトを変更したバージョンをリリースする前に事前評 価を行うよう ● 事後評価=オンライン評価 ○ LLM機能が実際に稼働した後、その結果を評価する ○ 実際のデータを使うことができるので、事前評価のデータセットよりもリアルな評価を行うこ とができる 評価方法(タイミング)には、事前評価と事後評価の 2パターンある

Slide 35

Slide 35 text

35 (C)PharmaX Inc. 2023 All Rights Reserve LLM as a Judgeの活用

Slide 36

Slide 36 text

(C)PharmaX Inc. 2023 All Rights Reserve 36 LLM as a Judgeの評価内容・基準の作り方① ● ライブラリが提供する”一般的な”評価を使用することもできる ○ QAに正しく答えられているかといった正しさや、個人情報が含まれていないか、卑猥語が 含まれていないかといった危険性・有害性を評価することができる Langsmithや各種ライブラリが提供する評価関数を使えばよくある評価は簡単に実行できる https://docs.smith.langchain.com/old/evaluation/faq/evaluator-implementations

Slide 37

Slide 37 text

(C)PharmaX Inc. 2023 All Rights Reserve 37 LLM as a Judgeの評価内容・基準の作り方② LLMの出力を評価させるための独自のプロンプトを定義し、評価させることもできる … …

Slide 38

Slide 38 text

(C)PharmaX Inc. 2023 All Rights Reserve 38 評価のプロンプトの改善 LLM as a judgeの出力結果も妥当なのかを判断し、評価用のプロンプトを改善する必要がある この評価の違いは妥当なのか?

Slide 39

Slide 39 text

(C)PharmaX Inc. 2023 All Rights Reserve 39 プロンプト変更のタイミングで事前評価 PharmaXでは、プロンプトを大きく変更したタイミングで事前評価を行い、結果を Slackに通知している ● プロンプトを大きく変更したタイミングで、自社で準備したデータセットに対して事前評価を行い、 大幅なデグレが起こっていないかを確認している 評価基準 前verと今verの比較

Slide 40

Slide 40 text

(C)PharmaX Inc. 2023 All Rights Reserve 40 様々な観点での事後評価を記録 薬剤師が実際に文章を送ったタイミングで サジェストした文章と 薬剤師が送った文章との類似度を評価 サジェストが生成されたタイミング、薬剤師が実際に文章を送ったタイミングでそれぞれ事後評価し記録 サジェストされた タイミングで 様々な観点で評価

Slide 41

Slide 41 text

(C)PharmaX Inc. 2023 All Rights Reserve 41 事後評価の結果を日次で可視化 各評価基準で何点取っているかの割合と平均を日次で可視化している プロンプトの変更前後での 評価の変化をモニタリング

Slide 42

Slide 42 text

(C)PharmaX Inc. 2023 All Rights Reserve 42 評価内容のパターン ● LLMアプリケーションの出力結果の評価は、主に下記の 2つのパターンがある ○ 期待するアウトプット(Grand Truth)と実際のアウトプットを比較してスコアリングする ■ 例えば、2つの文字列間の距離をembedding distanceやlevenshtein distance でスコアリングする ○ 定義した評価基準に基づいて、システムの出力の妥当性をスコアリング(合格 /不合格 を判定)する ● リリース後は、下記のような指標をモニタリングして分析することを評価ということもあるので注意 が必要 ○ ユーザーによる直接的なフィードバック( Good / Badボタンの設置など) ○ ユーザーの利用状況(クリック率や受入れ率など) ○ レイテンシーなどの非機能要件的な指標 事前評価と事後評価でも評価できる内容に違いがあるので注意が必要

Slide 43

Slide 43 text

(C)PharmaX Inc. 2023 All Rights Reserve 43 LLM as a Judge以外のユーザーの利用状況等も可視化 LLMのサジェストがそのまま投稿された件数 共感フェーズ 漢方提案前確認フェーズ 薬剤師が作成した投稿の件数 LLMの受入件数・割合 (※件数は削除) ユーザーからの返信数・割合 (※件数は削除) 返信なしの件数 返信ありの件数 返信なしの件数 返信ありの件数 LLMのサジェストをそのまま投稿 薬剤師が作成して投稿

Slide 44

Slide 44 text

(C)PharmaX Inc. 2023 All Rights Reserve 44 評価の限界 ● YOJOの場合、評価の平均点数が80→90点になったから患者の購入率が上がるという関係性に はなく、おそらくレスポンス速度が向上することで返信率が向上し、購入率も向上するのだろうと 推察している ○ 多くのメッセージが一定水準を上回るまでは、薬剤師が作り直す必要があるため、一定水 準まではscoreを高めることには意味があるが、一定水準以上は意味がない ○ レスポンス速度を高めるには、LLMによるカバー率とLLMによるメッセージ作成速度が上 昇すればいい ● つまり、YOJOの場合、LLMによるscore評価はガードレールとしての役割は果たすものの、ビジ ネス上のKPIとは完全な相関関係にはないことに注意 ○ 事前評価や事後評価でscore評価の結果が向上したからと言って、喜ぶことには意味がな い ○ 一方で、大幅にデグレっていないことを確かめることはできる 評価のスコアが上がればビジネス上の KPIが上がるという単純な関係にはないことがほとんど

Slide 45

Slide 45 text

(C)PharmaX Inc. 2023 All Rights Reserve 45 そもそも評価を LLMで行う必要があるのか ● こういう文章が作成されれば、この観点からはこれぐらいの評価であるというデータセットを自社 で多量に用意できれば、回帰問題に帰着されるので、 LLMによる評価ではなく、MLによる回帰 モデルを作ることもできる ○ MLによる評価の方が処理が速く、安く、(上手く行けば)精度も高い ○ 特にYOJOのように多段でLLMの処理が行われる場合、どこか処理をを ML化しなければ1 秒以下の低レイテンシーを実現するのは難しいだろう ● それでいて、初期的にLLMで評価をするプラクティスが優れているのは、プロンプトを調整するこ とで速くPDCAを回すことができ、それでいてある程度の精度を担保することができるから ○ MLで評価を行うためのモデルを構築しようとすると、データセットの準備やモデルのチュー ニングなどに時間がかかる データセットさえ大量にあれば、独自評価も LLMで行う必要はないだろう

Slide 46

Slide 46 text

46 (C)PharmaX Inc. 2022 All Rights Reserve まとめ

Slide 47

Slide 47 text

(C)PharmaX Inc. 2023 All Rights Reserve 47 今回持ち帰っていただきたいこと ● 実験管理と評価の基本を理解できる ○ 実験管理と評価はセットで行う ○ LLMの出力の評価は自由度が高いので難しい ● LLMアプリケーションの”評価”と呼ばれるものにいろんなパターンがあることを理解できる ○ モデルそのものの評価とLLMアプリケーションの評価は分けて考える ○ LLMアプリケーションの評価にはタイミングによって事前評価・事後評価がある ○ LLMの出力の妥当性などをLLMに評価させることをLLM as a Judgeと呼ぶ ● 評価の限界について理解できる ○ KPIと相関する評価指標を作るのは ”非常に”難しい ○ 評価指標だけではなく、KPIの先行指標にLLMが与えた影響を可視化するべし 今回は下記のようなゴール設定でお話いたします

Slide 48

Slide 48 text

48 (C)PharmaX Inc. 2022 All Rights Reserve Archive

Slide 49

Slide 49 text

(C)PharmaX Inc. 2023 All Rights Reserve 49 ● 機械学習では、1)学習用に使われるtrainデータと、2)精度テスト用のvalidationデータと、3)評 価用のtestデータを分けるて学習と評価を行うことが一般的 ○ 学習用に使ったデータで精度を測定しても過学習が起こっている可能性があるため、 validation データで精度を確認しながらモデルのチューニングを行う ○ 一方で、trainデータで学習して、validationデータで精度を確認して、何度もチューニングを繰り返 すとvalidationデータにも過学習が起こり得るため、最終的な評価は testデータで行う必要がある ● そのため、本来的には、testデータは1度しか使わず、最後に作成したモデル間の比較などを行 う際に使用する ○ 何度も同じtestデータを使ってしまうと、 testデータにも過学習してしまう ○ 現実的にはtestデータも使い回すことが多いようだが 機械学習の評価についての基本的な枠組み