Upgrade to Pro — share decks privately, control downloads, hide ads and more …

OpenAI DevDayから1ヶ月〜LLM開発はどう変わった?

OpenAI DevDayから1ヶ月〜LLM開発はどう変わった?

https://yojo.connpass.com/event/305679/

概要
11月に開催されたOpenAI DevDayは多くの開発者に驚きを持って迎えられました。

PharmaXではGPT-3.5の登場以降LLMを活用したアプリケーション開発やPoCを積極的に行ってきました。
かなり大幅な変更のあったOpenAI DevDayから1ヶ月以上を経て、PharmaX社内で変更を迫られたポイントや新しいAPIを活用してみてどう感じたかなどを共有します。
特にGPT-4 Turbo with visionを使う上での注意点や最新のAssistant API、Whisper v3を使ってみての感想をお伝えできればと思います。
新しいアプリケーションの可能性や今後のアプリケーション開発の展望などもシェアできたらと考えています。

DevDayで発表された内容の全体感には触れつつ、特にPharmaXエンジニアチームとして嬉しかったポイントや困ったポイントなどを重点的にお伝えしたいと思います。

こんな人におすすめ
LLM開発の最新トレンドを知りたい方
OpenAIのDevDayで発表された変更点によってどのようなことができるようになったのかを知りたい方
OpenAIのDevDayで発表された変更点によってどのような対応が迫られたのかを知りたい方

対象者
少しでもLLMを活用したソフトウェア開発をしたことがある方
Pythonのコードをざっくりとでもいいので理解できる方
AIの基礎知識のある方(数学的な話はあまり出てきません)

More Decks by PharmaX(旧YOJO Technologies)開発チーム

Transcript

  1. (C)PharmaX Inc. 2023 All Rights Reserve 2 自己紹介 自己紹介 上野彰大

    PharmaX共同創業者・エンジニアリング責任者 好きな料理はオムライスと白湯とコーラ マイブームはLLMとRust Twitter:@ueeeeniki
  2. (C)PharmaX Inc. 2023 All Rights Reserve 5 本発表のスコープや注意事項について はじめに あくまで弊社内での実験結果や個人の感想を中心にお話します

    • OpenAI Dev Dayで発表されたAPI群を使ってみての感想や困りポイントなどをお伝えします ◦ すべてのAPIについて話せるわけではありませんがご容赦ください(後述) • 発表者個人の感想や予想を多分に含みますので、できる限りファクトと個人的意見は分けてお 伝えしますが、分からなければご質問ください ◦ ファクトである場合でもあくまでPharmaXでの結果に過ぎず他社にどの程度あてはまるか は不明です ◦ 本発表の内容を引用する際にはファクトと発表者の意見を区別してお伝え下さい • できる限りPharmaXでのリアルな事例や実験結果をお伝えしますが、より詳しく聞きたい方やお 困りごとについて議論したい方は是非 DM等いただければ幸いです
  3. (C)PharmaX Inc. 2023 All Rights Reserve 6 本発表で話すこと・話さないこと はじめに Dev

    Dayで発表された物の中にもかなり強弱をつけてお話します • 詳しく話すもの ◦ GPT-4 Turbo、GPT-4V、Whisper large-v3についてはリアルな事例や実験結果をお話 します • ほんの少し話すもの ◦ GPTs、Assistants APIについては触ってみた程度なので、感想や今後の展開予想をお話 します • ほとんど話さないもの ◦ fuine-tuning、DALLE-3、Text to Speachはほとんど触れられていないのであまり話し ま せん
  4. (C)PharmaX Inc. 2023 All Rights Reserve 7 前提とする知識や対象者 はじめに 従来のAPIとの細かい比較なども出てくるので、一定の事前知識を仮定します

    • 少しでもLLMを使ってアプリケーション開発をされたことがあることを前提とします ◦ LLMとは何?RAGとは何?などのLLM関連の基礎知識は詳細は説明いたしません ◦ OpenAIのDevDayの内容そのものも多少はキャッチアップいただいている前提 • できれば企業レベルでの本格的な PoCや本番リリースを経験されていることが望ましいです ◦ 経験があるとPharmaXの事例がより想像しやすいかと思います • LLMアプリケーション開発に直接携わっているエンジニアや PdMの方をメインターゲットと想定し ています ◦ 一方でコードはあまり出てこないので、何となく理解できれば問題ありません
  5. (C)PharmaX Inc. 2023 All Rights Reserve 9 個人情報の扱いについて はじめに 個人情報の扱いに関しては、責任を負いかねますのでくれぐれもご注意ください

    • このLTで発表する事例は「技術的な可能性」を示すものであり、参考にされた方や企業の個人 情報保護の問題などについては責任を負いかねます • 今回お見せするデータにはすべてサンプルであり、今後各自で同様の情報発信する際には、 データの扱いを十分検討の上、自社の規定等に従ってください • 特に医療の個人情報は要配慮個人情報にあたり、厳重な扱いが求められますので、くれぐれも 扱いにはご注意ください ◦ OpenAIやAzure、AWS、GCPへの情報送信が要配慮個人情報の第三者提供に当たると判断され る場合、オプトイン形式でのプライバシーポリシーへの同意が必須となるため、過去のユーザーの データを扱う場合にも十分お気をつけてください ◦ OpenAIやAzure、AWS、GCPへの情報送信が第三者提供に当たるかどうかは解釈が分かれるとこ ろですので、各社専門家の方との相談の上、ご判断ください
  6. (C)PharmaX Inc. 2023 All Rights Reserve 11 OpenAI Dav Dayの総括

    はじめに OpenAI DevDayで発表された内容は下記の通りで、かなり衝撃的な内容も多かった • 高性能でコンテキストサイズの大きい安価な GPT-4 Turboの登場 • GPT-4がfine-tuning可能になることで、高性能なモデルをカスタマイズ可能に • GPTsやAssistant APIと言った誰もがLLMアプリケーションを簡単に作れるようにする AI民主 化施策が開始 • DALL-E 3、GPT-4 with Vision、TTSなどの言語以外の入出力モデルの改善と登場し、 ”真の”マルチモーダルの世界に近づいた
  7. (C)PharmaX Inc. 2023 All Rights Reserve 14 医療体験を横断する2つの事業領域 PharmaXの事業 YOJO事業

    (漢方メインのOTC医薬品) 未病・予防 治療 薬局DX事業 (医療用医薬品) オンライン薬局サービスを展開している 処方せん不要 処方せん必要
  8. (C)PharmaX Inc. 2023 All Rights Reserve 15 LINEから利用できるバーチャルな薬局 最短 即日

    ※ お薬をもっと手軽に、もっと安心して受け取れる「 YOJO薬局」 お薬はお家までお届け LINEで薬剤師にいつでも相談 好きなときにお薬の説明 ※東京23区内のみ PharmaXの プロダクト
  9. (C)PharmaX Inc. 2023 All Rights Reserve 16 ソフトウェアに閉じないプロダクト開発 PharmaXの プロダクト開発

    独自の薬局オペレーションシステムを構築し、最適化されたオンライン薬局を実現 × 自社薬局をプロトタイプラボ化 ソフトウェア オペレーション リモート 薬剤師組織 薬局業務を効率化す るオペレーションシス テム(薬局OS) 質の高い患者さま対応 のためのオンライン特 化組織 対人業務の質を高め るための対物業務効 率化 「ソフトウェア×オペレーション×薬剤師組織」を プロダクトとして開発
  10. (C)PharmaX Inc. 2023 All Rights Reserve 17 その他 BI インフラストラクチャー

    フロントエンド バックエンド 技術スタック 開発環境 サービスに取り込むべき技術をプロダクト横断的に議論する場を設け、新しい技術も積極的に採用
  11. (C)PharmaX Inc. 2023 All Rights Reserve 20 医療体験を横断する2つの事業領域 PharmaXの事業 YOJO事業

    (漢方メインのOTC医薬品) 未病・予防 治療 薬局DX事業 (医療用医薬品) オンライン薬局サービスを展開している 処方せん不要
  12. (C)PharmaX Inc. 2023 All Rights Reserve 21 医療アドバイザーに体調 のことをいつでも気軽に相 談できる

    相談型医療体験 30種類以上の漢方薬からあ なたに合ったものを月毎に 提案 パーソナライズ漢方薬 定期的に漢方をお届けし、 一人ひとりに寄り添うかか りつけ医療を提供 継続的なかかりつけ 一生涯にわたって寄り添うかかりつけ漢方薬局「YOJO」 PharmaXの事業
  13. (C)PharmaX Inc. 2023 All Rights Reserve 23 医療体験を横断する2つの事業領域 PharmaXの事業 YOJO事業

    (漢方メインのOTC医薬品) 未病・予防 治療 薬局DX事業 (医療用医薬品) オンライン薬局サービスを展開している 処方せん必要
  14. (C)PharmaX Inc. 2023 All Rights Reserve 27 医療体験を横断する2つの事業領域 PharmaXの事業 YOJO事業

    (漢方メインのOTC医薬品) 未病・予防 治療 薬局DX事業 (医療用医薬品) オンライン薬局サービスを展開している
  15. (C)PharmaX Inc. 2023 All Rights Reserve 29 プロンプト一部抜粋 Chat Completion

    APIに過去の会話履歴を与えることで、文脈を理解したサジェストを可能にしている
  16. (C)PharmaX Inc. 2023 All Rights Reserve 32 • 大幅なコンテキストサイズの拡大とコストの低下 ◦

    128Kのコンテキストウィンドウをサポート ◦ GPT-4と比較して、入力トークンの価格が 3倍、出力トークンの価格が2倍安く • Function Callingの精度改善 • JSONモードの登場 ◦ (バグはあるようだが)有効なJSON形式で返答されることが担保される ◦ 通常モードでも特定のフォーマット生成する精度が向上 • 公式には発表されていないが、速度が向上したとの事例報告もある ◦ 一方、速度については遅くなった、速度は今後改善する予定との記事もある GPT-4 Turboモデルの注目ポイント GPT-4 Turboの登場でLLMを圧倒的に活用しやすくなった
  17. (C)PharmaX Inc. 2023 All Rights Reserve 33 OpenAIのモデルの進化 様々なユースケースに対応可能なコンテキストサイズに拡張、コスパも向上 GPT-3.5

    Turbo GPT-4 (8k) GPT-4 Turbo GPT-4 (32k) コスト/1k tokens コンテキストサイズ Input: $0.0015 or $0.003 Output: $0.002 or $0.004 4,096 or 16,385 tokens Input: $0.03 Output: $0.06 8,192 tokens Input: $0.06 Output: $0.12 32,768 tokens Input: $0.01 output: $0.03 128,000 tokens
  18. (C)PharmaX Inc. 2023 All Rights Reserve 35 • DevDayを境にChatGPTは劇的に速くなったと多くの人が言っている •

    遅くなったという見解もある ◦ https://community.openai.com/t/is-gpt4-turbo-preview-now-slower-than-gp t-4/555383 ◦ https://zenn.dev/yutotakenaka/articles/d70b0e006b3858 • DevDayでスピードの改善は今後の課題とサム・アルトマンも言及したようだ ◦ https://note.com/sayah_media/n/n88f7bd71cc9b GPT-4 Turboの速度について 速度についてはいくつかの異なる意見があるので、大幅な改善は次期モデルを待つべしか
  19. 36 (C)PharmaX Inc. 2023 All Rights Reserve Dev DayでGPT-4 Turbo登場後

    チャットとチャット以外のタスクの 呼び出し精度向上
  20. (C)PharmaX Inc. 2023 All Rights Reserve 37 CPT-4 Turboを使ってみての感想・考察 •

    コンテキストサイズの拡大により、かなり過去のチャットまで遡って読み込ませる事が可能になっ た ◦ PharmaXのプロダクトのような数ヶ月にも渡って継続的にチャットを行うサービスでは、す ぐにコンテキストサイズが数千〜数万 tokenになってしまっており、過去の文脈をすべて 含ませることは難しくサマリーするなどの必要があった • 統計データを取った訳ではないが、 APIでの劇的な応答速度の向上は感じていない ◦ 数千〜数万tokenを与えると、200文字程度のチャットの生成にまだ 10秒程度かかるの で、さらなる速度の向上を期待したい • function-callingの精度が向上したことで、チャットだけではなく、チャット以外の管理画面の操 作も高精度でサジェストできる可能性が高まった CPT-4 Turboが出たことで、活用の幅が大きく広がった
  21. (C)PharmaX Inc. 2023 All Rights Reserve 38 GPT-4 Turboになっての変化 •

    最終的には薬剤師が内容をチェック&修正して送ることを想定しており、完全な自動化を目指 しているわけではない ◦ GithubのCopilotのようなイメージで使いたいのだが、 GPT-4ではコストが高すぎてペイ しなかった • 将来的にかなりの精度でサジェストすることができて、値段も安くなれば、薬剤師がほとんど修 正しなくてもいいようなレベルまで達すれば、ユーザーとのトーク画面に入った時点でサジェッ ションを始めるようにすることなどで劇的な生産性の向上を実現したい ◦ Copilotのように書いている途中までの内容も読み取ってその続きを生成するということも できるようになると、さらに生産性の向上に寄与しそう CPT-4 Turboが出たことで、ペイするラインに乗ってきた
  22. (C)PharmaX Inc. 2023 All Rights Reserve 39 さらなる精度・速度の向上と値段の低下は期待できそう • さらなる速度の向上と値段の低下は期待できそうで、プロダクションでも活用する事例がさらに増

    えそう ◦ 精度的にはGPT-4が必要だが、コストが高くて使用を断念した企業も使えるように ◦ 費用の懸念から無理に精度の低いモデルに押し込めようとする工夫は近い将来あまり意 味をなさなくなりそう • function-callingの精度がさらに向上すると期待しているし、 PharmaXに取ってはインパクトが 大きい ◦ functionを呼び出せるということは、管理画面上で行うチャット以外の操作も半自動化で きる可能性があるということ • 速度が変われば劇的にUXが改善して遥かに使いやすくなる(速度が改善しないと使われない) CPT-4 Turboの今後の展開予想
  23. (C)PharmaX Inc. 2023 All Rights Reserve 41 このセクションのサマリー サマリー •

    GPT-4 Turboの登場により、読み込ませることのできるチャット数が増え、より過去の文脈も正 しく取らえたチャットのサジェッションができるようになった • function-callingの精度向上により、チャット以外のタスクもサジェスト・半自動化できるようにな るので、今後の精度向上に期待 • UX上一番重要なのは速度であり、速度が圧倒的に速くなれば、サジェスト機能はより使われる ようになるだろう 精度向上、コンテキストサイズの増大、価格の低下インパクトは大きい、後は速度向上に期待
  24. (C)PharmaX Inc. 2023 All Rights Reserve 44 医療体験を横断する2つの事業領域 PharmaXの事業 YOJO事業

    (漢方メインのOTC医薬品) 未病・予防 治療 薬局DX事業 (医療用医薬品) オンライン薬局サービスを展開している
  25. (C)PharmaX Inc. 2023 All Rights Reserve 46 FAXで送っていただく場合などもあるが今回は対象としない クリニックとオンライン薬局の処方せんのやり取り オンライン薬局の

    受付業務 Boxに医療機関ごとの共有フォルダ内に日付別に処方せんを格納いただく 医師 薬剤師 オンライン診療 オンライン服薬指導
  26. (C)PharmaX Inc. 2023 All Rights Reserve 47 疑義照会とは何か? 疑義照会とは 医師が発行した処方せんの間違いなどを発見し、医師に問い合わせること

    • 赤枠の欄にその人に処方される医薬品名や 1日の服用数、 服用タイミング、合計の処方量などが記載されており、その 内容に従って薬剤師が調剤行う • 処方内容が間違っていることが多々あるため、医療事故を 防ぐために、指摘して処方せん内容を変更してもらうこと( = 疑義照会)薬局・薬剤師の重要な職務 ◦ 疑義照会の7、8割ぐらいが、法律に定められている処方量 とのズレ(1日の最大容量を超えた量が処方されているなど) や、単純な記載ミス ◦ 2割程度は、併用薬などを詳しく聞かないと分からない内容 処方情報
  27. (C)PharmaX Inc. 2023 All Rights Reserve 48 疑義照会の自動化に必要なステップ 疑義照会とは •

    ① 処方せん情報をテキストデータ化する • ② 処方せんのテキストデータから医薬品の処方情報を抜き出して構造化する • ③ 処方情報からその医薬品の添付文書を取得する • ④ 処方情報とその医薬品の添付文書を照らし合わせて疑義照会の文章を自動作成する 今回は①のOCRでDocument AIを、②と④のテキスト抽出&作成でGPT-4を使用していた
  28. (C)PharmaX Inc. 2023 All Rights Reserve 49 ステップ①: 処方せん情報をテキストデータ化する クリニックから受け取った処方せんから

    OCR(Document AI)でテキ ストを抽出する OCRで処方せん画像からテキストを抽出する 医師 薬剤師 オンライン診療 オンライン服薬指導 ステップ① 処方情報
  29. (C)PharmaX Inc. 2023 All Rights Reserve 51 従来のOCR AIの問題点 ステップ①

    従来のOCRは構造で情報の塊を捉えるため適切な単位で情報が抽出されないことがある 処方情報 本来捉えたい情報の塊 情報が分割されてしまう 情報が上記のように分割されてしまうと、抽出したテキストから、① 薬名・摂取タイミングと② 1日の摂取量と処方量を対応付ける処理 をしなければならず、対応付けの間違いが起こる可能性がある
  30. (C)PharmaX Inc. 2023 All Rights Reserve 53 ステップ③:(AI不要) 処方情報からその医薬品の添付文書を取得する ステップ③

    • PMDAの情報からスクレイピングなどで医薬品の添付 文書情報を取得し事前にDBなどに保存しておく ◦ 添付文書は定期的に変更されるので注意 • ②で構造化した情報の中の医薬品名で DBを検索し て、添付文章を取得する 事前に保存した添付文書を②で取得した薬名で検索して取得する
  31. (C)PharmaX Inc. 2023 All Rights Reserve 54 • ②と③で取得した情報を埋めて GPT-4

    APIに比較させる • 薬ごとに疑義する(医師に問い合わせる)べき内容を出力する ステップ④:処方情報とその医薬品の添付文書を 照らし合わせて疑義照会の文章を自動作成する ② ③ ステップ④ 処方情報と医薬品の添付文書を照らし合わせて疑義照会の文章を作成するように GPTに指示
  32. (C)PharmaX Inc. 2023 All Rights Reserve 57 GPT-4 TurboとGPT-4V GPT-4Vについて

    ChatGPTでは画像も送れるため勘違いされがちだが、 APIでGPT-4 TurboとGPT-4Vは別物
  33. (C)PharmaX Inc. 2023 All Rights Reserve 59 GPT-4Vの注目すべき注意点 ChatGPTでは画像も送れるため勘違いされがちだが、 APIのGPT-4

    TurboとGPT-4Vは別物 • function-callingやJSONモードは使えない ◦ 例えば画像から構造化された情報を取得しようとすると、一度 GPT-4Vで抽出し、もう一度 GPT-4 Turboに投げなければならない • ChatGPTでは対応しているファイル形式のほとんど( PDFなど)にAPIは対応していない ◦ PNG、JPEG、WEBP、GIFの形式のファイルしか使用することができない • 日本語は苦手らしい ◦ 「日本語や韓国語など、ラテン文字以外のテキストを含む画像を処理する場合、モデルが 最適に動作しない可能性がある」と公式ドキュメントに記載 • その他、アップロードできる画像は 20MBまで、画像のメタデータは解釈できない等 GPT-4Vについて
  34. 61 (C)PharmaX Inc. 2023 All Rights Reserve Dev Day GPT-4V(GPT-4V

    with vision)登場後 OCRもGPTシリーズで完結
  35. (C)PharmaX Inc. 2023 All Rights Reserve 63 従来のOCR AIの問題点 ステップ①

    従来のOCRは構造で情報の塊を捉えるため適切な単位で情報が抽出されないことがある 処方情報 本来捉えたい情報の塊 情報が分割されてしまう 情報が上記のように分割されてしまうと、抽出したテキストから、① 薬名・摂取タイミングと② 1日の摂取量と処方量を対応付ける処理 をしなければならず、対応付けの間違いが起こる可能性がある
  36. (C)PharmaX Inc. 2023 All Rights Reserve 64 従来のOCR AIと比べてGPT-4Vが優れている点 ステップ①

    GPT-4Vは(おそらく)意味の単位で捉えることができるので正しい情報の塊で抽出される GPT-4Vを使えば、処方情報を正しく構造化することまでが可能に なる一方で、GPT-4同様にJSON形式であることを担保はしてくれ ないので、確実にJSONにするにはGPT-4 Turboを挟む必要があ る 処方情報 本来捉えたい情報の塊
  37. (C)PharmaX Inc. 2023 All Rights Reserve 65 DevDay後の処理のフロー GPT-4Vでテキストの抽出と構造化は可能だが、 JSONモードのGPT-4

    Turboを最後に挟む アプリケーションの 処理フロー 処方情報の抽出精 度が高まり JSONでの出力が 担保されたが 結局ステップ数は 変わっていない
  38. (C)PharmaX Inc. 2023 All Rights Reserve 66 GPT-4V & GPT-4

    Turboを使ってみての考察・感想 • 処方せん程度なら元がかなりクリアな画像でも 1枚処理あたり数円程度、疑義照会タスク全体でも 10円程度で薬剤師が1枚チェックするのに10〜20秒かかれば同程度のコスト • GPT-4Vで意味の単位で情報を抽出することができ、処方情報の抽出・構造化ミスが減少 ◦ 一方、処方情報が正しく構造化されていた場合には、疑義照会の指摘ミスは元からかなり 少なかったこともあり、エラー率が大幅に減少したわけではない(感想) • 日本語は苦手という記載が公式ドキュメントにあったが、一定の書式に従っていて手書きでもない 処方せんでは問題なくデータを抽出することができた ◦ 他の資料でも文字が明瞭な場合は日本語でも十分読み取れたとの報告あり (https://chatgpt-lab.com/n/n9322bab6f6f3) ◦ 手書きでは大きく精度が低下するということはありそう(予想) PharmaXのユースケースでは、GPT-4Vを使った画像処理は十分運用に乗る可能性がある
  39. (C)PharmaX Inc. 2023 All Rights Reserve 67 OCRにはGPT-4Vを使っていないという事例もある UXの要請が厳しい場合には、GPT-4V &

    GPT-4 Turboの活用は限界があるのだろうか (中略) https://tech.layerx.co.jp/entry/aiocr-in-llm-2023 • 非同期対応でOKなオンライン薬局の疑義照会は処理 時間が問題にならないが、 素早いレスポンスが求めら れる場合は使用が難しいのだろうか ◦ LayerXさんのようにユーザーが請求書をアップ ロードし、すぐに構造化が必要という場合には、 GPT-4V&GPT-4 Turboでは時間がかかり過ぎ る ということかもしれない • また、最悪の場合医薬品情報の調査が必要な疑義照 会と比べて、請求書を手打ちするだけなら元からそこ まで時間がかかっているわけではないので、もう少しコ ストが下がる必要もあるのだろうか
  40. (C)PharmaX Inc. 2023 All Rights Reserve 68 GPT-4 TurboとGPT-4Vの今後の展開予想 •

    GPT-4 Turboそのものがすでにマルチモーダルモデルだとの勘違いも散見されるが、 GPT-4 TurboはText to Text、GPT-4VではText & Image to Textであり、現時点では他の形式特化 の複数のAPIを組み合わせることで初めて”真の”マルチモーダルが実現する ◦ ちなみにGeminiは組み合わせではなく1つのマルチモーダルモデルだと言われている • 今後は1つのAPIで複数の入・出力形式を扱えるようになるだろうと予想 ◦ OpenAIもあらゆる形式の入力に対応可能な 1つのモデルを構築してくるだろうが、一部 APIの裏側で呼び出すモデルを振り分けるという可能性はありそう • 各タスク・各入出力形式単体で見ると OpenAIのモデルの群が精度が現時点では優秀だと感じる ので、OpenAIのモデルがマルチモーダル化したら、 Geminiなどその他のモデルを超えるだろう と予想 OpenAIは、GPT-4Vから”真の”マルチモーダルモデルへと進んでいくだろう
  41. (C)PharmaX Inc. 2023 All Rights Reserve 69 現時点でのGemini Proとの比較 今回の要件では現時点では、GPT-4Vに軍配が上がった

    • 今回の処方せんのOCR→情報の抽出・構造化タスクでは、 GPT-4Vの方が遥かに高い性能を示し た ◦ Gemini Proでは、情報が正しく抽出されない、そもそも指示を聞いてくれないというケース が多々見られた • OCRや日本語の指示によるタスクなど複数の要素が組み合わされているため、タスク単体(文字 列の抽出)では異なる結果になるかもしれない • 今回試したプロンプトがGPTに最適化するように試行したものだったので、 Gemini Pro用に試行 を繰り返せば違った結果になった可能性はある ◦ 複雑なタスクではプロンプトが長くなるので、プロンプトの最適化による差分は大いはず ◦ 将来的にモデルが賢くなれば、プロンプトの書き方による差分はなくなっていく?
  42. (C)PharmaX Inc. 2023 All Rights Reserve 71 このセクションのサマリー サマリー •

    GPT-4Vに処方せん画像から処方情報のテキストの抽出と構造化が同時に行えるようになり、処 方情報の抽出・構造化のエラー率は低下した • JSON形式であることを担保しようとすると、 GPT-4Vからの出力をさらにGPT-4 Turboをかませ る必要があるのでステップ数は減っていないが、フロー全体がエラーなく完結する確率は大幅に 上がった ◦ モデルが統合されたら、ステップ数も減らせるだろう • GPT-4VのAPIは、現時点では読み込ませられる画像形式に制限がある( PDFは不可)など、課 題も多いので注意が必要 現時点ではGPT-4Vを使うことで劇的に改善したわけではないが将来のポテンシャルは感じた
  43. (C)PharmaX Inc. 2023 All Rights Reserve 73 服薬指導とは何か? 薬剤師が処方薬を販売する際に正しい服薬方法や処方薬についての注意点などを説明すること 服薬指導音声例1

    服薬指導音声例2 薬剤師:こんにちは 患者:こんにちは 薬剤師:こんにちは。今日は気分の落ち込みとか ですか? 患者:そうですね、はい 薬剤師:もっと他に具体的にどういった症状が出て おりますか? 患者:結構夜眠れなかったりとか、、、(略) 薬剤師:はい、上野さんお待たせしました。今日はど うされましたか? 患者:えーっと、ちょっと便秘で、あのー病院の先生 に薬を出してもらいました 薬剤師:はい、ありがとうございます。そうなんです ね。はい、では、あのー、今日は 3種類の、、、(略)
  44. (C)PharmaX Inc. 2023 All Rights Reserve 74 薬歴とは何か? 薬歴とは 服薬指導で話した内容や他の薬剤師への引き継ぎ事項などを記載した文章のこと

    • 薬歴はSOAP形式でまとめる ◦ Subjective (S)(主観的所見): 患者さん自身が感じている症 状や問題を記録する部分 ◦ Objective (O)(客観的所見): 検査結果や観察による客観 的なデータを記録する部分 ◦ Assessment (A)(評価): SubjectiveとObjectiveの情報を もとに、患者さんの病状や薬物治療の効果・副作用を評価 する部分 ◦ Plan (P)(計画): 評価をもとに、今後の治療方針や薬物療法 の変更、患者さんへの指導内容など、具体的なアクションプ ランを立てる部分
  45. (C)PharmaX Inc. 2023 All Rights Reserve 75 薬歴の記入を自動化する意義 薬歴とは 薬剤師の負担を劇的に軽減できる

    • 忙しい薬局だと処方箋の受付が落ち着くまで、薬歴を書くことができないので、今まで自分が受 け持った患者さんの薬歴をまとめて記入しなければならないことが多々ある • その結果、薬歴を書くまでに時間が空いてしまうので、正確な内容を記録できなかったり、残業 につながってしまう • 服薬指導した音声から薬歴が自動で生成できれば、薬剤師の負担を大幅に削減することが可 能
  46. (C)PharmaX Inc. 2023 All Rights Reserve 76 服薬指導音声から薬歴内容を自動生成する手順 • ①

    処方せん情報をテキストデータ化する • ② 処方せんのテキストデータから医薬品の処方情報を抜き出して構造化する • ③ 服薬指導の音声の録音からWhisperで文字起こしする ◦ 必要があれば、患者と薬剤師で話者分離する • ④ ②の処方情報と、③の服薬指導内容の文字起こしから GPTで薬歴の内容を自動生成する
  47. (C)PharmaX Inc. 2023 All Rights Reserve 77 ステップ①: 処方せん情報をテキストデータ化する クリニックから受け取った処方せんから

    OCR(Document AI)でテキ ストを抽出する OCRで処方せん画像からテキストを抽出する 医師 薬剤師 オンライン診療 オンライン服薬指導 ステップ① 処方情報
  48. (C)PharmaX Inc. 2023 All Rights Reserve 79 ステップ③: 服薬指導の音声の録音からWhisperで文字起こしする Whisper単体では話者分離ができないので、話者の区別なく文字起こしされる

    今日は薬が2種類出ております 咳の 症状で受診されたんですかね そうで すね はい分かりましたありがとうござ います じゃあまず一つ目のアストミン という薬をご説明させていただきます これは咳を止める薬です で、埋食後 に1回2錠飲んでください もし咳が治 まってくるようであれば無理に 5日分 飲まなくても大丈夫ですので 咳に調 節して飲んでください もう1個目が・・・ (中略)・・・ 他に何か気になられているところはご ざいますか いや大丈夫です はい承 知しましたじゃあのお大事になさって ください はいありがとうございます。 ステップ③
  49. (C)PharmaX Inc. 2023 All Rights Reserve 80 ステップ④: ②の処方情報と③の文字起こしからGPTで薬歴を自動生成する S:

    患者は咳と喉の痛みの症状で受診。 O: 1. アストミン錠10mg (1日6錠、分3 毎食後、 5日分) 2. SPトローチ0.25mg 「明治」 (外用、医師 の指示通り、15錠) A: 咳と喉の痛みの症状に対して、咳止め薬と 喉の痛みを取る薬が処方されている。 P: 1. アストミン錠10mgは、毎食後に1回2錠服 用するよう指導。咳が治まってくるようであれ ば、無理に5日分飲まなくても大丈夫と説明 した。 2. SPトローチ0.25mgは、1日6回を目安に1 回1錠を口の中に含んで、噛み砕かずに少 しずつ溶かすように使うよう指導。症状が良 くなったら無理に飲まなくても大丈夫と説明 した。 話者分離をせず、文字起こししたままの textをGPTに与えても、かなり丁寧な服薬指導内容を生成することが可 能 ステップ④
  50. (C)PharmaX Inc. 2023 All Rights Reserve 81 ステップ③: 服薬指導の音声の録音を話者ダイアライゼーションする •

    pyannoteで音声ファイルをdiarization→diarizationされたそれぞれのファイルをWhisper 文字起こし ◦ pyannoteは音声ファイルから話者ダイアライゼーションされた音声データを作成するの によく使われるライブラリ ◦ 話者ダイアライゼーションされた時にデータの欠損などが起こってしまうことやあまり精度 が高くないことが欠点 話者ダイアライゼーション のアプローチには複数考えられるが、今回は pyannoteを使った方法を共有 ステップ③
  51. (C)PharmaX Inc. 2023 All Rights Reserve 82 ステップ③パターン1: 服薬指導の音声の録音をpyannoteで話者ダイアライゼーションする 音声ファイルをpyannoteで処理すると、ラベル付けされて

    1つずつのwavファイルに分割されて保存される [ 00:00:04.277 --> 00:00:04.547] C SPEAKER_01 [ 00:00:05.273 --> 00:00:05.982] D SPEAKER_01 [ 00:00:09.947 --> 00:00:16.005] A SPEAKER_00 [ 00:00:16.731 --> 00:00:29.995] E SPEAKER_01 [ 00:00:32.948 --> 00:00:42.837] F SPEAKER_01 [ 00:00:44.102 --> 00:00:47.697] G SPEAKER_01 [ 00:00:48.389 --> 00:00:55.982] H SPEAKER_01 [ 00:01:01.450 --> 00:01:02.985] I SPEAKER_01 [ 00:01:09.955 --> 00:01:11.659] J SPEAKER_01 [ 00:01:12.182 --> 00:01:17.295] B SPEAKER_00 話者は番号で識別される SPEAKER_01: はい SPEAKER_01: ではさあ SPEAKER_00: 便秘で病院の先生に薬を出し てもらいました。 SPEAKER_01: 今日は3種類の薬が出ており ますので、お薬の説明させていただきます ま ず一つ目がモビコール配合内容剤ということ で こちらは便秘の薬ですね SPEAKER_01: 便の排出を促す薬ですので、 1日に1回の朝夕食後に飲んでください SPEAKER_01: そのうち朝2方になっているん ですけど ちゃんと便が出るようだったら夜は 飲まなくて大丈夫ですのでよろしくお願いいた します ……(略) GPTで 文字起こし ステップ③
  52. (C)PharmaX Inc. 2023 All Rights Reserve 83 ステップ③パターン1: 服薬指導の音声の録音をpyannoteで話者ダイアライゼーションする pyannoteで話者ダイアライゼーションするのはかなり限界があると感じた

    • 特に男性&男性の音声では、会話内容の欠落がかなり起こってしまっており、さらにラベリング の間違いも多々発生している ◦ 情報の欠落が激しく、話者ダイアライゼーションしない場合と比べても薬歴の生成内容の 質が低くなってしまった • 男性&女性の音声、男性&男性の音声では、音質に大きな違いはないが、男性 &女性の音声 の方がきれいに話者ダイアライゼーションされた結果となった ◦ 男性と女性の声質は区別しやすいから話者ダイアライゼーションしやすいということがあ るのだろうか? ステップ③
  53. (C)PharmaX Inc. 2023 All Rights Reserve 84 ステップ③パターン2: GPTを用いてWhisperの出力文章から話者分離 文字起こしした

    会話内容を与える 患者: はい 薬剤師: みなさんお待たせしました 薬剤師: 今日はどうされましたか 患者: 便秘で病院の先生に薬を出してもらいました 患者: ありがとうございます 薬剤師: そうなんですね 薬剤師: 今日は3種類の薬が出ておりますので 薬剤師: 薬の説明させていただきます 薬剤師: まず一つ目がモビコール配合内容剤という ことで 薬剤師: こちらは便秘の薬ですね 薬剤師: 便の排出を促す薬ですので 薬剤師: 1日に1回の朝夕食後に飲んでください Whiperから出力された文章を GPTでラベリングすることは可能だが、最終的な薬歴の精度はほぼ変化なし ステップ③
  54. (C)PharmaX Inc. 2023 All Rights Reserve 86 Whisper Large Model-v3について

    精度が上がって対応言語が増えるなど、シンプルに v2からパワーアップしたと考えれば良い • アクセント、背景ノイズ、専門用語への堅牢性が向上し、これまで以上の複数言語にも対応可能 になった • モデルのインターフェース(入力・出力形式)は変わっていないので、使用方法などの変更は不要
  55. 87 (C)PharmaX Inc. 2023 All Rights Reserve Dev Day Whisper

    Large Model-v3 登場後 〜文字起こし精度が向上〜
  56. (C)PharmaX Inc. 2023 All Rights Reserve 88 Whisper Large Model-v3を使ってみての感想・考察

    • 文字起こし精度は向上したが、元から 薬歴生成精度は高かったので、劇的な精度の向上は見ら れなかった ◦ 薬歴はサマリーであるという性質上、 v2で上手く文字起こしできていない箇所もある程度 文脈を補って薬歴を生成してくれているので十分精度が高い ◦ v3になることでクリティカルな情報を文字起こしし損ねることは減るだろうことを考えるとも ちろんポジティブ • GPT-4 Turboで話者分離する精度も向上したように感じたが、こちらも元から 薬歴生成精度は 高かったため、話者分離が劇的な薬歴生成精度向上に寄与したようには感じられない ◦ 元より話者分離すること自体が薬歴生成の精度にそこまでポジティブな影響を与えていな いので当然の結果だろう 文字起こし精度が向上したところで、元から高い薬歴生成精度の劇的な向上は見られない
  57. (C)PharmaX Inc. 2023 All Rights Reserve 89 Whisper Large Model-v3の今後の展開予想

    • 今後は順当にノイズや専門用語への堅牢性もアップし、精度は向上するだろう • 話者分離の機能はどこかのタイミングでネイティブサポートされると予想 ◦ マルチモーダル化したタイミングで、音声情報だけではなく、文脈も理解した話者分離が 可能になり、話者分離の精度もかなり高いものが登場すると予想する ◦ 複数人の会議等の複雑な場面でも十分な精度のサマリーや重要情報の抽出などが可能 になるのではないだろうか Whisper・音声認識AIは今後も順当に精度向上するだろう
  58. (C)PharmaX Inc. 2023 All Rights Reserve 91 GPTsとAssistant APIはAI民主化のための施策 AIを作りやすく、使いやすくすることで、多くの人に

    AIでの成功体験を積ませる https://speakerdeck.com/shunsukeono_am/openai-devdaykarakao-eru-generative-aiye-jie-nochao-liu
  59. (C)PharmaX Inc. 2023 All Rights Reserve 93 • 主要なモデルのマルチモーダル化 ◦

    マルチモーダルになることで各タスクの精度も上がると想定 • 小さく高精度、高速なモデルがローカルで動く世界がやってきて圧倒的に UXが改善する ◦ phi-2などの小さく高精度のモデル研究が増えた ▪ 元データを高品質にするとモデルも小さくできるという研究が増えた ◦ 究極はスマホやVRデバイス上で動く世界が5年以内にやってくる • OpenAIは,GPTsやAssitant APIなどのLLMの民主化施策も同時並行で進めるだろう ◦ OpenAIが目指すのはデバイス上でAIが動き、人とAIが対話する世界 ◦ そのための地慣らしとして、AIの民主化にも布石を打つのではないか 今後の注目トレンド&トレンド予想 今後の展開 UXにインパクトを与えるような進化に注目している
  60. (C)PharmaX Inc. 2023 All Rights Reserve 95 • PharmaXの事例では、Dev Dayでの発表はかなりポジティブな影響を受けた

    ◦ チャンスの拡大に気がついている人とそうでない人の格差が広がる一方 • 今後もモデルの高速化・軽量化・低価格が進み圧倒的に LLMを活用しやすくなるだろう ◦ エッジ・ローカルで高速なモデルが動くようになれば UXに革命が起こる ◦ 一方で、今各社が作っているアプリケーションの promptがGPTに最適化されている場 合、気軽に他のモデルに変更できないという問題は起こりそう • function-callingやマルチモーダル化をすることで、半 or 完全自動化できるタスクの幅はか なり広がるだろう ◦ ビジネスの肝になるところから投資を行い、自動化するタスクをドミノ倒しのように拡げて いく必要があるだろう まとめ 最後に