Upgrade to Pro — share decks privately, control downloads, hide ads and more …

キャラクターAI開発におけるLLMの活用

Spiral.AI
January 26, 2024
1.5k

 キャラクターAI開発におけるLLMの活用

Spiral.AI

January 26, 2024
Tweet

Transcript

  1. Confiden'al Copyright @ Spiral.AI Inc. All Rights Reserved. 2 日本から世界で勝負ができる領域で、日常生活で使えるサービスを目指す

    AIキャラクター事業を展開 ⼈格を再現したAIとの、 対話を通じたサービス作り 1 ⾳声等を⽤いた⾃然で 便利なコミュニケーション 2 3 利⽤者1⼈1⼈の会話内容に あわせたパーソナライズ体験 [IQ] 会話の正確性 [EQ] 会話の楽しさ ビッグテックが 取り組みにくい領域 + “⽇本”が活きる領域 圧倒的なリソースの差で 追いつくことは難しい + 「正しさ」ユースケースは 国境を越えやすい ⽂化特性が強く、 ビッグテックが ⽴ち回りにくい + ⽇本の強み: 豊富な IPコンテンツが活きる 対話の「個性」「楽しさ」に着⽬
  2. Confiden'al Copyright @ Spiral.AI Inc. All Rights Reserved. 3 10月に、AIキャラクター商用プロダクト第一弾をローンチ

    真島なおみ Instagram/X/TikTok: SNSフォロワー 180万⼈超 概要 芸能⼈・IPコンテンツを公式で許諾取得し た、 AI⾳声チャット商⽤サービスは⽇本初 所属事務所公式のAIチャットサービス ⾳声+テキストでやり取り可能 9⽉に公式プレスリリース; 10/31にサービスローンチ (当社調べ) デモ動画/LPリンク↓↓
  3. Confiden'al Copyright @ Spiral.AI Inc. All Rights Reserved. 4 より深い、自由な会話の実現に向けて独自LLM開発にも取り組む

    Q: 他人の違いや多様性をどのように受け入れ、 尊重しますか? A: 受け入れられないのって、なんだろうね。自 分のことが好きじゃないから、他人も同じ気持 ちでいるって勝手に決めつけちゃって、 だから受け入れられなくなっちゃうのかな。 わかんないけど、自分のことを好きになってみ たらどうですか。自分が好きだったら、自分と 同じ気持ちでいてくれてるって思えるから、 なんか受け入れられるんじゃないかな。 尊重って難しいね、違いを認めるってことで いいんじゃない。 現在開発中のAIキャラクター用独自LLM 【参考】 GPT-4に同じ質問をした場合の解答例
  4. Confiden'al Copyright @ Spiral.AI Inc. All Rights Reserved. 7 TwinLLM実現への道

    評価指標の設計 学習データ収集 学習・評価 デプロイ・ ホスティング 本日は、この2つについてお話します。 学習については、また別の機会に。
  5. Confiden'al Copyright @ Spiral.AI Inc. All Rights Reserved. 8 評価指標の設計(1)

    | A/Bテストで「似ているのはどちらか?」を評価 評価指標の設計 学習データ収集 学習・評価 デプロイ・ ホスティング • 過去のBest Modelと、新しく作った Modelをブラインドテストで評価 (思想・口調・事実) • その結果、Best Modelを更新するか を判断
  6. Confidential Copyright @ Spiral.AI Inc. All Rights Reserved. 9 評価指標の設計(2)

    | 自動評価に向けた評価指標づくり 評価指標の設計 学習データ収集 学習・評価 デプロイ・ ホスティング
  7. Confiden'al Copyright @ Spiral.AI Inc. All Rights Reserved. 10 評価指標の設計(2)

    | “評価指標”の”評価” • 本物9件+ダミー1件の計10件の文章の 中から、GPT-4にダミーの1件を見つ け出させるタスク • 単純にやると見つからないので、 Few-Shot ExamplesやChain of Thoughtなどで補強 • キャラクターの強さ次第だが、ある 程度キャラクターの特性を見抜く評 価器が出来た → これを用いて、TwinLLMの性能を 評価していく (実施中) 評価器の性能が最強の場合/ 生成した文章がダメダメの 場合 = 評価器がダミー文章を 完璧に発見する 評価器の性能が駄目な場合/ 生成した文章が完璧な 場合 = 評価器がダミー文章を 全く見つけられない (当てずっぽうになってしまう) 評価指標の設計 学習データ収集 学習・評価 デプロイ・ ホスティング
  8. Confidential Copyright @ Spiral.AI Inc. All Rights Reserved. 11 デプロイ・ホスティング

    | 課題 評価指標の設計 学習データ収集 学習・評価 デプロイ・ ホスティング 70bn.モデルをホスティングする場合のコスト • コストがそもそも法外・・・常時呼ばれている素晴らしいサービスな らまだしも、過疎っている状態で月85万円は苦しい • ロードに数分かかる・・・人格ごとに複数モデルを使い分けなくては いけない場合、ユーザーを待たせてしまう • 文章の生成完了に数分かかる・・・接続元からのコネクション切れる 可能性など、余分な悩みが増える
  9. Confiden'al Copyright @ Spiral.AI Inc. All Rights Reserved. 12 デプロイ・ホスティング

    | 利用しているソリューション 評価指標の設計 学習データ収集 学習・評価 デプロイ・ ホスティング • サーバレスでモデルをホスティング。呼び出し頻度少 ない場合はコストが安い • モデルロードも速く、モデルの使い分けが可能 • 生成処理が終わったら、Webhookを呼んで結果を返し てくれる