2023/06/06に開催された「第二回AITuberLT大会 」での登壇資料です。
ローカルAITuber勢の現在地と未来Sald_ra(サルドラ)2023/06/05
View Slide
自己紹介サルドラ● Web系出身のエンジニア● AITuber「さくら」開発・運営● あいちゅーばーわーるど運営● AITuberLT大会運営● 「ローカルLLMに向き合う会」会長● ローカルAITuber勢● LLM転職者
ローカルAITuber勢とは?
ローカルAITuber勢とは?AIとの応答部分を、OpenAIやRinnaのAPIを用いず自前で用意、手元のPCで応答させるAITuber勢のことうちの子である「さくら」はローカルAITuber勢です
メリットとデメリット
一般的に知られているメリットとデメリットメリット● 通信失敗がなく安定している● APIの値段がかからないので、かなり格安で運用できるデメリット● 精度が悪い。会話にならないようなことを話してしまう● 参入難易度が高い
自分が感じてるメリットとデメリットメリット● 通信失敗がなく安定している● 特定のモデルに依存しない● APIでないので、モデルが手元にあればずっと運用できるデメリット● 精度が「少し」悪い● 参入難易度が高い● 部屋が暑くなる
「精度」ってなんだろう?
AIにおける「精度」ってなんだろう自分は「あるタスクを達成するための精度」だと考えている分類や翻訳、生成等…例えば「ChatGPT」は「自然と感じる回答の生成」がタスク対話文生成が主な機能だったが、出力結果の情報精度が良すぎて別の使われ方をされている気はする
AITuberの「精度」ってなんだろう?
AITuberの「精度」って「キャラに沿った発言をしてくれること」
AITuberの「精度」AITuberの「精度」は「キャラに沿った発言をしてくれること」語尾が「にょ」のAITuberに「お勧めの九州のスポットは?」と聞いたとき、どっちの方が「精度が良い」だろう?1. お勧めの九州のスポットは福岡です。昔からある寺院を見に行けます。2. 最近この辺に来たからよくわからないにょ!今度うさだに聞いておくにょ!
ローカルAITuberの精度についてここ数か月でローカルAITuberの精度は変化している!課題点はあるが、一問一答形式であれば問題なく雑談ができるレベルに到達している。上記ツイートは30億パラメータ(1b-rinna)
精度が良くなったきっかけは?「ファインチューニング時に食わせたデータの質」が大事!同じパラメータ数のモデルでも、データセットの質を上げるだけで一気に精度が上がる。上記は左がデータセットにこだわる前、右がこだわりだした後どちらも10億パラメータこれでも本当に「精度は悪い」?
とにかくデータセットが大事
現行の日本語データセットの特徴日本語のデータセットは少しだけ問題を抱えている● 日本語のデータセットは主に以下の特徴がある○ 膨大で汎用的だが、質が凄い高いわけではない■ dollyやoasst1○ 高品質だが全てお嬢様による回答になる■ OjousamaTalkScriptDataset「小規模で良いので高品質なデータ」の需要が上がる一方で、ニュートラルな口調且つ高品質なデータセットがない
ないなら作るしかない
小規模高品質データセット製作PJ「sakura_dataset」
sakura_dataset(鋭意製作中)● 超小規模(500)データセット● MITライセンスのデータセットをDeepLで翻訳、手動修正● ニュートラルな口調の回答に統一● AITuberに最適
sakura_datasetsakura_datasetに加えて100セット程度の台詞データを付け足すと、AITuber用のデータセットが完成するようになる→気軽にローカルAITuberが作れるように!
結局ローカルAITuber勢の未来はどうなるの?
少なくともお先真っ暗ではない
ただし、もう少し「自分で」やりたいことをやっていく必要がある
今後とも頑張っていきましょう