Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ローカルAITuber勢の現在地と未来

Sald ra
June 06, 2023

 ローカルAITuber勢の現在地と未来

2023/06/06に開催された「第二回AITuberLT大会 」での登壇資料です。

Sald ra

June 06, 2023
Tweet

More Decks by Sald ra

Other Decks in Technology

Transcript

  1. ローカルAITuber勢
    の現在地と未来
    Sald_ra(サルドラ)
    2023/06/05

    View Slide

  2. 自己紹介
    サルドラ
    ● Web系出身のエンジニア
    ● AITuber「さくら」開発・運営
    ● あいちゅーばーわーるど運営
    ● AITuberLT大会運営
    ● 「ローカルLLMに向き合う会」会長
    ● ローカルAITuber勢
    ● LLM転職者

    View Slide

  3. ローカルAITuber勢とは?

    View Slide

  4. ローカルAITuber勢とは?
    AIとの応答部分を、OpenAIやRinnaのAPIを用いず自前で用意、
    手元のPCで応答させるAITuber勢のこと
    うちの子である「さくら」はローカルAITuber勢です

    View Slide

  5. メリットとデメリット

    View Slide

  6. 一般的に知られている
    メリットとデメリット
    メリット
    ● 通信失敗がなく安定している
    ● APIの値段がかからないので、かなり格安で運用できる
    デメリット
    ● 精度が悪い。会話にならないようなことを話してしまう
    ● 参入難易度が高い

    View Slide

  7. 自分が感じてる
    メリットとデメリット
    メリット
    ● 通信失敗がなく安定している
    ● 特定のモデルに依存しない
    ● APIでないので、モデルが手元にあればずっと運用できる
    デメリット
    ● 精度が「少し」悪い
    ● 参入難易度が高い
    ● 部屋が暑くなる

    View Slide

  8. 「精度」って
    なんだろう?

    View Slide

  9. AIにおける「精度」ってなんだろう
    自分は「あるタスクを達成するための精度」だと考えている
    分類や翻訳、生成等…
    例えば「ChatGPT」は「自然と感じる回答の生成」がタスク
    対話文生成が主な機能だったが、出力結果の情報精度が良すぎて別の使われ方をされている気はする

    View Slide

  10. AITuberの「精度」って
    なんだろう?

    View Slide

  11. AITuberの「精度」って
    「キャラに沿った発言をしてくれること」

    View Slide

  12. AITuberの「精度」
    AITuberの「精度」は「キャラに沿った発言をしてくれること」
    語尾が「にょ」のAITuberに「お勧めの九州のスポットは?」と聞いたとき、
    どっちの方が「精度が良い」だろう?
    1. お勧めの九州のスポットは福岡です。昔からある寺院を見に行けます。
    2. 最近この辺に来たからよくわからないにょ!今度うさだに聞いておくにょ!

    View Slide

  13. ローカルAITuberの精度について
    ここ数か月でローカルAITuberの精度は変化している!
    課題点はあるが、
    一問一答形式であれば問題なく雑談ができるレベルに到達している。
    上記ツイートは30億パラメータ(1b-rinna)

    View Slide

  14. 精度が良くなったきっかけは?
    「ファインチューニング時に食わせたデータの質」が大事!
    同じパラメータ数のモデルでも、
    データセットの質を上げるだけで一気に精度が上がる。
    上記は左がデータセットにこだわる前、右がこだわりだした後
    どちらも10億パラメータ
    これでも本当に「精度は悪い」?

    View Slide

  15. とにかくデータセットが大事

    View Slide

  16. 現行の日本語データセットの特徴
    日本語のデータセットは少しだけ問題を抱えている
    ● 日本語のデータセットは主に以下の特徴がある
    ○ 膨大で汎用的だが、質が凄い高いわけではない
    ■ dollyやoasst1
    ○ 高品質だが全てお嬢様による回答になる
    ■ OjousamaTalkScriptDataset
    「小規模で良いので高品質なデータ」の需要が上がる一方で、
    ニュートラルな口調且つ高品質なデータセットがない

    View Slide

  17. ないなら作るしかない

    View Slide

  18. 小規模高品質データセット製作PJ
    「sakura_dataset」

    View Slide

  19. sakura_dataset(鋭意製作中)
    ● 超小規模(500)データセット
    ● MITライセンスのデータセットをDeepLで翻訳、手動修正
    ● ニュートラルな口調の回答に統一
    ● AITuberに最適

    View Slide

  20. sakura_dataset
    sakura_datasetに加えて100セット程度の台詞データを付け足すと、
    AITuber用のデータセットが完成するようになる
    →気軽にローカルAITuberが作れるように!

    View Slide

  21. 結局ローカルAITuber勢の未来は
    どうなるの?

    View Slide

  22. 少なくともお先真っ暗ではない

    View Slide

  23. ただし、もう少し
    「自分で」やりたいことを
    やっていく必要がある

    View Slide

  24. 今後とも頑張っていきましょう

    View Slide