Upgrade to Pro — share decks privately, control downloads, hide ads and more …

キャラクターAI開発におけるLLMの活用

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for Spiral.AI Spiral.AI PRO
January 26, 2024
1.7k

 キャラクターAI開発におけるLLMの活用

Avatar for Spiral.AI

Spiral.AI PRO

January 26, 2024

Transcript

  1. Confiden'al Copyright @ Spiral.AI Inc. All Rights Reserved. 2 日本から世界で勝負ができる領域で、日常生活で使えるサービスを目指す

    AIキャラクター事業を展開 ⼈格を再現したAIとの、 対話を通じたサービス作り 1 ⾳声等を⽤いた⾃然で 便利なコミュニケーション 2 3 利⽤者1⼈1⼈の会話内容に あわせたパーソナライズ体験 [IQ] 会話の正確性 [EQ] 会話の楽しさ ビッグテックが 取り組みにくい領域 + “⽇本”が活きる領域 圧倒的なリソースの差で 追いつくことは難しい + 「正しさ」ユースケースは 国境を越えやすい ⽂化特性が強く、 ビッグテックが ⽴ち回りにくい + ⽇本の強み: 豊富な IPコンテンツが活きる 対話の「個性」「楽しさ」に着⽬
  2. Confiden'al Copyright @ Spiral.AI Inc. All Rights Reserved. 3 10月に、AIキャラクター商用プロダクト第一弾をローンチ

    真島なおみ Instagram/X/TikTok: SNSフォロワー 180万⼈超 概要 芸能⼈・IPコンテンツを公式で許諾取得し た、 AI⾳声チャット商⽤サービスは⽇本初 所属事務所公式のAIチャットサービス ⾳声+テキストでやり取り可能 9⽉に公式プレスリリース; 10/31にサービスローンチ (当社調べ) デモ動画/LPリンク↓↓
  3. Confiden'al Copyright @ Spiral.AI Inc. All Rights Reserved. 4 より深い、自由な会話の実現に向けて独自LLM開発にも取り組む

    Q: 他人の違いや多様性をどのように受け入れ、 尊重しますか? A: 受け入れられないのって、なんだろうね。自 分のことが好きじゃないから、他人も同じ気持 ちでいるって勝手に決めつけちゃって、 だから受け入れられなくなっちゃうのかな。 わかんないけど、自分のことを好きになってみ たらどうですか。自分が好きだったら、自分と 同じ気持ちでいてくれてるって思えるから、 なんか受け入れられるんじゃないかな。 尊重って難しいね、違いを認めるってことで いいんじゃない。 現在開発中のAIキャラクター用独自LLM 【参考】 GPT-4に同じ質問をした場合の解答例
  4. Confiden'al Copyright @ Spiral.AI Inc. All Rights Reserved. 7 TwinLLM実現への道

    評価指標の設計 学習データ収集 学習・評価 デプロイ・ ホスティング 本日は、この2つについてお話します。 学習については、また別の機会に。
  5. Confiden'al Copyright @ Spiral.AI Inc. All Rights Reserved. 8 評価指標の設計(1)

    | A/Bテストで「似ているのはどちらか?」を評価 評価指標の設計 学習データ収集 学習・評価 デプロイ・ ホスティング • 過去のBest Modelと、新しく作った Modelをブラインドテストで評価 (思想・口調・事実) • その結果、Best Modelを更新するか を判断
  6. Confidential Copyright @ Spiral.AI Inc. All Rights Reserved. 9 評価指標の設計(2)

    | 自動評価に向けた評価指標づくり 評価指標の設計 学習データ収集 学習・評価 デプロイ・ ホスティング
  7. Confiden'al Copyright @ Spiral.AI Inc. All Rights Reserved. 10 評価指標の設計(2)

    | “評価指標”の”評価” • 本物9件+ダミー1件の計10件の文章の 中から、GPT-4にダミーの1件を見つ け出させるタスク • 単純にやると見つからないので、 Few-Shot ExamplesやChain of Thoughtなどで補強 • キャラクターの強さ次第だが、ある 程度キャラクターの特性を見抜く評 価器が出来た → これを用いて、TwinLLMの性能を 評価していく (実施中) 評価器の性能が最強の場合/ 生成した文章がダメダメの 場合 = 評価器がダミー文章を 完璧に発見する 評価器の性能が駄目な場合/ 生成した文章が完璧な 場合 = 評価器がダミー文章を 全く見つけられない (当てずっぽうになってしまう) 評価指標の設計 学習データ収集 学習・評価 デプロイ・ ホスティング
  8. Confidential Copyright @ Spiral.AI Inc. All Rights Reserved. 11 デプロイ・ホスティング

    | 課題 評価指標の設計 学習データ収集 学習・評価 デプロイ・ ホスティング 70bn.モデルをホスティングする場合のコスト • コストがそもそも法外・・・常時呼ばれている素晴らしいサービスな らまだしも、過疎っている状態で月85万円は苦しい • ロードに数分かかる・・・人格ごとに複数モデルを使い分けなくては いけない場合、ユーザーを待たせてしまう • 文章の生成完了に数分かかる・・・接続元からのコネクション切れる 可能性など、余分な悩みが増える
  9. Confiden'al Copyright @ Spiral.AI Inc. All Rights Reserved. 12 デプロイ・ホスティング

    | 利用しているソリューション 評価指標の設計 学習データ収集 学習・評価 デプロイ・ ホスティング • サーバレスでモデルをホスティング。呼び出し頻度少 ない場合はコストが安い • モデルロードも速く、モデルの使い分けが可能 • 生成処理が終わったら、Webhookを呼んで結果を返し てくれる