o1のAPIで実験してみたが制限きつすぎて辛かった話

o1のAPIで実験してみたが制限きつすぎて辛かった話 2024.09.18 #o1_osarai

（C）PharmaX Inc. 2024 All Rights Reserve 2 自己紹介上野彰大 PharmaX共同創業者・エンジニアリング責任者
好きな料理はオムライスと白湯とコーラマイブームはLLMとRust X：@ueeeeniki

（C）PharmaX Inc. 2024 All Rights Reserve 3 自社としては LLMを中心に勉強会を月 1回程度開催
自己紹介

（C）PharmaX Inc. 2024 All Rights Reserve 4 個人でも勉強会コミュニティ StudyCoも運営自己紹介

（C）PharmaX Inc. 2024 All Rights Reserve 5 医療アドバイザーに体調のことをいつでも気軽に相談できる
相談型医療体験 30種類以上の漢方薬からあなたに合ったものを月毎に提案パーソナライズ漢方薬定期的に漢方をお届けし、一人ひとりに寄り添うかかりつけ医療を提供継続的なかかりつけ一生涯にわたって寄り添うかかりつけ漢方薬局「 YOJO」

（C）PharmaX Inc. 2024 All Rights Reserve 6 今回対象とするアプリケーション

（C）PharmaX Inc. 2024 All Rights Reserve 7 YOJOにおけるフローエンジニアリング • ①ルールベースでLLM処理可能かを
判定 • ②LLMで会話を分類しLLM処理可能かを判定 • ③LLMで次のフェーズに移るべきかどうかを判定 • ④LLMでメッセージを作成 • ⑤LLMで作成されたメッセージを評価（LLM-as-a-Judge）し、一定の水準を下回ったら再生成して、クリアしたもののみをサジェストする ① ② ④ ③ ⑤

（C）PharmaX Inc. 2024 All Rights Reserve 8 LangSmith上データセットを蓄積 LangSmith上で蓄積したデータセットは下記のように見ることができる

（C）PharmaX Inc. 2024 All Rights Reserve 9 データセットに対して新プロンプトやモデルで評価を実施データセットに対して新プロンプトやモデルで評価を実施して改善が見られたらリリースする experiment13
experiment12 experiment11 experiment10 experiment9 experiment7 experiment6 LLM-as-a-Judge1 LLM-as-a-Judge2 LLM-as-a-Judge1 LLM-as-a-Judge Grand Truthとの距離

（C）PharmaX Inc. 2024 All Rights Reserve 10 主要エージェントをファインチューニングし精度向上＆コスト削減蓄積したデータセットを用いて GPT-4o-miniなどの安価なモデルをファインチューニング

（C）PharmaX Inc. 2024 All Rights Reserve 11 YOJOにおけるフローエンジニアリング • ①ルールベースでLLM処理可能かを
判定 • ②LLMで会話を分類しLLM処理可能かを判定 • ③LLMで次のフェーズに移るべきかどうかを判定 • ④LLMでメッセージを作成 • ⑤LLMで作成されたメッセージを評価（LLM-as-a-Judge）し、一定の水準を下回ったら再生成して、クリアしたもののみをサジェストする ① ② ④ ③ ⑤ ⑤

（C）PharmaX Inc. 2024 All Rights Reserve 12 User 会話分類プロンプトのイメージまず会話内容の分類するルールと
few-shotを与えて、会話内容のタイプ（複数回答可）を分類させるメッセージ作成用プロンプト System あなた(assistant)は、ユーザーから受信したメッセージ内容をもとに、会話内容がどの分類にあたるのかを判定してください。 ...（略）… ・会話内容のタイプは、下記のA〜Nの14分類の中から複数選択されることもあります。配列形式で、分類名(A~Nの記号)をカンマ区切りで返してください。・userとchat-assistantとの会話の流れは以下の通りです。直近の会話だけを抜き出します。ーーー {会話の流れ} ーーーーーーーーーーーーーーー漢方提案前確認のチャットを送るべきかどうか判定してください。条件を元にJSON形式で、{ "reason": {判断理由}, "会話内容タイプ": [{タイプの配列}]}を返してください。

（C）PharmaX Inc. 2024 All Rights Reserve 13 複数モデルでデータセットに対して評価を実施 o1-preview&o1-miniで評価をしてみたが GPT-4oと”ほぼ”同じプロンプトでは精度の向上は見られなかった
LLM-as-a-Judge1 LLM-as-a-Judge2 LLM-as-a-Judge1 fine-tuned gpt-4o o1-preview o1-mini

（C）PharmaX Inc. 2024 All Rights Reserve 14 • Modalities :
テキストのみ、画像はサポートされていない • Message types : userおよびassistantのメッセージのみ、systemメッセージはサポートされていない • Streaming : サポートされていない • Tools : Tools、Function Calling、Response Formatのパラメータはサポートされていない • Logprobs : サポートされていない • Other : temperature、top_p、およびnは1に固定されており、presence_penaltyとfrequency_penaltyは0に固定されている • Assistants and Batch : Assistant APIやBatch APIではサポートされていません。 o1のAPIはBeta版なので制限が厳しい現状だとAPIを使えるケースは限られてしまいそう実際10%ぐらいの割合で JSONフォーマットではない値が返ってきた今回はすべて assistantメッセージに入れた

（C）PharmaX Inc. 2024 All Rights Reserve 15 プロンプトのベストプラクティスが GPT-4oまでと異なる特にデリミタを使用していないことで
o1のポテンシャルを開放しきれていないのではないか • プロンプトはシンプルで直接的に：モデルは簡潔で明確な指示を与えることで、余計な説明なしに理解して応答する • 思考の連鎖を促すプロンプトは避ける：モデルは内部で推論を行うため、「段階的に考える」や「推論を説明する」といった指示は不要 • デリミタを使用して明確化：三重引用符、 XMLタグ、セクションタイトルなどのデリミタを使用して、入力の異なる部分を明示すると、モデルがそれぞれのセクションを適切に解釈しやすくなる • RAGでの追加コンテキストを制限：追加のコンテキストやドキュメントを提供する際は、最も関連性の高い情報のみを含めることで、モデルが過度に複雑な応答をするのを防ぐことができる

（C）PharmaX Inc. 2024 All Rights Reserve 16 その他注意事項 • 別のプロンプトにはなるが実行中に下記のようなエラーが出た
openai.BadRequestError: b'{\n "error": {\n "message": "Invalid prompt: your prompt was flagged as potentially violating our usage policy. Please try again with a different prompt.",\n "type": "invalid_request_error",\n "param": null,\n "code": "invalid_prompt"\n }\n} ◦ PharmaXのビジネスのようなうプロンプトだとセンシティブな内容と判断されるのかもこれまでのモデルでは出たことないエラーが出たのでシェア

o1のAPIで実験してみたが制限きつすぎて辛かった話

o1のAPIで実験してみたが制限きつすぎて辛かった話

PharmaX（旧YOJO Technologies）開発チーム

More Decks by PharmaX（旧YOJO Technologies）開発チーム

Other Decks in Technology

Featured

Transcript

o1のAPIで実験してみたが制限きつすぎて辛かった話 2024.09.18 #o1_osarai

（C）PharmaX Inc. 2024 All Rights Reserve 2 自己紹介上野彰大 PharmaX共同創業者・エンジニアリング責任者

（C）PharmaX Inc. 2024 All Rights Reserve 3 自社としては LLMを中心に勉強会を月 1回程度開催

（C）PharmaX Inc. 2024 All Rights Reserve 4 個人でも勉強会コミュニティ StudyCoも運営自己紹介

（C）PharmaX Inc. 2024 All Rights Reserve 5 医療アドバイザーに体調のことをいつでも気軽に相談できる

（C）PharmaX Inc. 2024 All Rights Reserve 6 今回対象とするアプリケーション

（C）PharmaX Inc. 2024 All Rights Reserve 7 YOJOにおけるフローエンジニアリング • ①ルールベースでLLM処理可能かを

（C）PharmaX Inc. 2024 All Rights Reserve 8 LangSmith上データセットを蓄積 LangSmith上で蓄積したデータセットは下記のように見ることができる

（C）PharmaX Inc. 2024 All Rights Reserve 9 データセットに対して新プロンプトやモデルで評価を実施データセットに対して新プロンプトやモデルで評価を実施して改善が見られたらリリースする experiment13

（C）PharmaX Inc. 2024 All Rights Reserve 10 主要エージェントをファインチューニングし精度向上＆コスト削減蓄積したデータセットを用いて GPT-4o-miniなどの安価なモデルをファインチューニング

（C）PharmaX Inc. 2024 All Rights Reserve 11 YOJOにおけるフローエンジニアリング • ①ルールベースでLLM処理可能かを

（C）PharmaX Inc. 2024 All Rights Reserve 12 User 会話分類プロンプトのイメージまず会話内容の分類するルールと

（C）PharmaX Inc. 2024 All Rights Reserve 13 複数モデルでデータセットに対して評価を実施 o1-preview&o1-miniで評価をしてみたが GPT-4oと”ほぼ”同じプロンプトでは精度の向上は見られなかった

（C）PharmaX Inc. 2024 All Rights Reserve 14 • Modalities :

（C）PharmaX Inc. 2024 All Rights Reserve 15 プロンプトのベストプラクティスが GPT-4oまでと異なる特にデリミタを使用していないことで

（C）PharmaX Inc. 2024 All Rights Reserve 16 その他注意事項 • 別のプロンプトにはなるが実行中に下記のようなエラーが出た

o1のAPIで実験してみたが 制限きつすぎて辛かった話

o1のAPIで実験してみたが 制限きつすぎて辛かった話

More Decks by PharmaX（旧YOJO Technologies）開発チーム

Other Decks in Technology

Featured

Transcript

o1のAPIで実験してみたが制限きつすぎて辛かった話

o1のAPIで実験してみたが制限きつすぎて辛かった話