Slide 1

Slide 1 text

ローカルAITuber勢 の現在地と未来 Sald_ra(サルドラ) 2023/06/05

Slide 2

Slide 2 text

自己紹介 サルドラ ● Web系出身のエンジニア ● AITuber「さくら」開発・運営 ● あいちゅーばーわーるど運営 ● AITuberLT大会運営 ● 「ローカルLLMに向き合う会」会長 ● ローカルAITuber勢 ● LLM転職者

Slide 3

Slide 3 text

ローカルAITuber勢とは?

Slide 4

Slide 4 text

ローカルAITuber勢とは? AIとの応答部分を、OpenAIやRinnaのAPIを用いず自前で用意、 手元のPCで応答させるAITuber勢のこと うちの子である「さくら」はローカルAITuber勢です

Slide 5

Slide 5 text

メリットとデメリット

Slide 6

Slide 6 text

一般的に知られている メリットとデメリット メリット ● 通信失敗がなく安定している ● APIの値段がかからないので、かなり格安で運用できる デメリット ● 精度が悪い。会話にならないようなことを話してしまう ● 参入難易度が高い

Slide 7

Slide 7 text

自分が感じてる メリットとデメリット メリット ● 通信失敗がなく安定している ● 特定のモデルに依存しない ● APIでないので、モデルが手元にあればずっと運用できる デメリット ● 精度が「少し」悪い ● 参入難易度が高い ● 部屋が暑くなる

Slide 8

Slide 8 text

「精度」って なんだろう?

Slide 9

Slide 9 text

AIにおける「精度」ってなんだろう 自分は「あるタスクを達成するための精度」だと考えている 分類や翻訳、生成等… 例えば「ChatGPT」は「自然と感じる回答の生成」がタスク 対話文生成が主な機能だったが、出力結果の情報精度が良すぎて別の使われ方をされている気はする

Slide 10

Slide 10 text

AITuberの「精度」って なんだろう?

Slide 11

Slide 11 text

AITuberの「精度」って 「キャラに沿った発言をしてくれること」

Slide 12

Slide 12 text

AITuberの「精度」 AITuberの「精度」は「キャラに沿った発言をしてくれること」 語尾が「にょ」のAITuberに「お勧めの九州のスポットは?」と聞いたとき、 どっちの方が「精度が良い」だろう? 1. お勧めの九州のスポットは福岡です。昔からある寺院を見に行けます。 2. 最近この辺に来たからよくわからないにょ!今度うさだに聞いておくにょ!

Slide 13

Slide 13 text

ローカルAITuberの精度について ここ数か月でローカルAITuberの精度は変化している! 課題点はあるが、 一問一答形式であれば問題なく雑談ができるレベルに到達している。 上記ツイートは30億パラメータ(1b-rinna)

Slide 14

Slide 14 text

精度が良くなったきっかけは? 「ファインチューニング時に食わせたデータの質」が大事! 同じパラメータ数のモデルでも、 データセットの質を上げるだけで一気に精度が上がる。 上記は左がデータセットにこだわる前、右がこだわりだした後 どちらも10億パラメータ これでも本当に「精度は悪い」?

Slide 15

Slide 15 text

とにかくデータセットが大事

Slide 16

Slide 16 text

現行の日本語データセットの特徴 日本語のデータセットは少しだけ問題を抱えている ● 日本語のデータセットは主に以下の特徴がある ○ 膨大で汎用的だが、質が凄い高いわけではない ■ dollyやoasst1 ○ 高品質だが全てお嬢様による回答になる ■ OjousamaTalkScriptDataset 「小規模で良いので高品質なデータ」の需要が上がる一方で、 ニュートラルな口調且つ高品質なデータセットがない

Slide 17

Slide 17 text

ないなら作るしかない

Slide 18

Slide 18 text

小規模高品質データセット製作PJ 「sakura_dataset」

Slide 19

Slide 19 text

sakura_dataset(鋭意製作中) ● 超小規模(500)データセット ● MITライセンスのデータセットをDeepLで翻訳、手動修正 ● ニュートラルな口調の回答に統一 ● AITuberに最適

Slide 20

Slide 20 text

sakura_dataset sakura_datasetに加えて100セット程度の台詞データを付け足すと、 AITuber用のデータセットが完成するようになる →気軽にローカルAITuberが作れるように!

Slide 21

Slide 21 text

結局ローカルAITuber勢の未来は どうなるの?

Slide 22

Slide 22 text

少なくともお先真っ暗ではない

Slide 23

Slide 23 text

ただし、もう少し 「自分で」やりたいことを やっていく必要がある

Slide 24

Slide 24 text

今後とも頑張っていきましょう