Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
ローカルAITuber勢 の現在地と未来 Sald_ra(サルドラ) 2023/06/05
Slide 2
Slide 2 text
自己紹介 サルドラ ● Web系出身のエンジニア ● AITuber「さくら」開発・運営 ● あいちゅーばーわーるど運営 ● AITuberLT大会運営 ● 「ローカルLLMに向き合う会」会長 ● ローカルAITuber勢 ● LLM転職者
Slide 3
Slide 3 text
ローカルAITuber勢とは?
Slide 4
Slide 4 text
ローカルAITuber勢とは? AIとの応答部分を、OpenAIやRinnaのAPIを用いず自前で用意、 手元のPCで応答させるAITuber勢のこと うちの子である「さくら」はローカルAITuber勢です
Slide 5
Slide 5 text
メリットとデメリット
Slide 6
Slide 6 text
一般的に知られている メリットとデメリット メリット ● 通信失敗がなく安定している ● APIの値段がかからないので、かなり格安で運用できる デメリット ● 精度が悪い。会話にならないようなことを話してしまう ● 参入難易度が高い
Slide 7
Slide 7 text
自分が感じてる メリットとデメリット メリット ● 通信失敗がなく安定している ● 特定のモデルに依存しない ● APIでないので、モデルが手元にあればずっと運用できる デメリット ● 精度が「少し」悪い ● 参入難易度が高い ● 部屋が暑くなる
Slide 8
Slide 8 text
「精度」って なんだろう?
Slide 9
Slide 9 text
AIにおける「精度」ってなんだろう 自分は「あるタスクを達成するための精度」だと考えている 分類や翻訳、生成等… 例えば「ChatGPT」は「自然と感じる回答の生成」がタスク 対話文生成が主な機能だったが、出力結果の情報精度が良すぎて別の使われ方をされている気はする
Slide 10
Slide 10 text
AITuberの「精度」って なんだろう?
Slide 11
Slide 11 text
AITuberの「精度」って 「キャラに沿った発言をしてくれること」
Slide 12
Slide 12 text
AITuberの「精度」 AITuberの「精度」は「キャラに沿った発言をしてくれること」 語尾が「にょ」のAITuberに「お勧めの九州のスポットは?」と聞いたとき、 どっちの方が「精度が良い」だろう? 1. お勧めの九州のスポットは福岡です。昔からある寺院を見に行けます。 2. 最近この辺に来たからよくわからないにょ!今度うさだに聞いておくにょ!
Slide 13
Slide 13 text
ローカルAITuberの精度について ここ数か月でローカルAITuberの精度は変化している! 課題点はあるが、 一問一答形式であれば問題なく雑談ができるレベルに到達している。 上記ツイートは30億パラメータ(1b-rinna)
Slide 14
Slide 14 text
精度が良くなったきっかけは? 「ファインチューニング時に食わせたデータの質」が大事! 同じパラメータ数のモデルでも、 データセットの質を上げるだけで一気に精度が上がる。 上記は左がデータセットにこだわる前、右がこだわりだした後 どちらも10億パラメータ これでも本当に「精度は悪い」?
Slide 15
Slide 15 text
とにかくデータセットが大事
Slide 16
Slide 16 text
現行の日本語データセットの特徴 日本語のデータセットは少しだけ問題を抱えている ● 日本語のデータセットは主に以下の特徴がある ○ 膨大で汎用的だが、質が凄い高いわけではない ■ dollyやoasst1 ○ 高品質だが全てお嬢様による回答になる ■ OjousamaTalkScriptDataset 「小規模で良いので高品質なデータ」の需要が上がる一方で、 ニュートラルな口調且つ高品質なデータセットがない
Slide 17
Slide 17 text
ないなら作るしかない
Slide 18
Slide 18 text
小規模高品質データセット製作PJ 「sakura_dataset」
Slide 19
Slide 19 text
sakura_dataset(鋭意製作中) ● 超小規模(500)データセット ● MITライセンスのデータセットをDeepLで翻訳、手動修正 ● ニュートラルな口調の回答に統一 ● AITuberに最適
Slide 20
Slide 20 text
sakura_dataset sakura_datasetに加えて100セット程度の台詞データを付け足すと、 AITuber用のデータセットが完成するようになる →気軽にローカルAITuberが作れるように!
Slide 21
Slide 21 text
結局ローカルAITuber勢の未来は どうなるの?
Slide 22
Slide 22 text
少なくともお先真っ暗ではない
Slide 23
Slide 23 text
ただし、もう少し 「自分で」やりたいことを やっていく必要がある
Slide 24
Slide 24 text
今後とも頑張っていきましょう