Slide 1

Slide 1 text

AIに私たちの人格を憑依させ パラレルワールドを生きる LLM Meetup Tokyo #3 2023.7.5

Slide 2

Slide 2 text

「コミュニケーションを圧縮したい」

Slide 3

Slide 3 text

人同士の会話はシリアル通信である

Slide 4

Slide 4 text

シリアル通信である以上、時間短縮には限界がある パラレル通信は できない

Slide 5

Slide 5 text

本当にコミュニケーションを圧縮する方法はないのか? 高度な高速通信 プロトコルを発明する パラレルワールドを MapReduceする

Slide 6

Slide 6 text

AIであれば可能かも知れない 高度な高速通信 プロトコルを発明する パラレルワールドを MapReduceする

Slide 7

Slide 7 text

「高度な高速通信プロトコル」案 ● transformerモデル同士であれば埋め込みベクトルやニューロン活性を利用す ることによってコミュニケーションを取り合うことが可能かも知れない? ○ OpenAIが「言語モデルに言語モデルを説明」させるデモンストレーションツールを公開 ● とりあえずデータを突っ込んでも良いが、それをどう理解して何を返してい るかは外部から観察が困難。手を動かして検証するにはちょっとSFすぎる。

Slide 8

Slide 8 text

「パラレルワールドをMapReduce」案 ● ちょっと前にtwitterのアーカイブデータからgpt-neoxやOpenCALMをファイ ンチューニング(LoRA)してみる試みが流行っていた。 ● それなりにそれっぽくなるらしく、このチューニング済みモデルをパラレル ワールドに分散配置してみたらどうなるか? ● シリアル通信の高速化が難しいのであれば、パラレル通信を実現することで コミュニケーションの圧縮に寄与するのではなかろうか?

Slide 9

Slide 9 text

パラレルワールドを開発する

Slide 10

Slide 10 text

AI人格を用意する ● ベースモデルにはrinna/japanese-gpt-neox-3.6b-instruction-ppoを使用 ● 8名の方にtwitterアーカイブを提供頂き、データ加工の上でファインチューン ○ 試験的パラレルワールドでは100個のお題についてランダムにつぶやいてもらう設計なので、 各twitterのつぶやきがどのお題に近いか類似検索し、inputがお題、outputがtwitterつぶやきと なるようにデータ加工した。 ● LoRA作成にあたってはPEFTを利用 ○ learning_rate: 3e-5 ○ epoch: 3 ○ これでA6000で5〜6時間程度

Slide 11

Slide 11 text

ランダムに誰かのつぶやきに反応する ● 候補を与えて自己選択させたかったが、生rinnaには難しいタスクだった ○ このタスク向けにもチューニングする必要あり ● よってランダムに抽出されたつぶやきに反応するメカニズムを加える

Slide 12

Slide 12 text

できたもの(デモ)

Slide 13

Slide 13 text

ふりかえり ● かなりデータをクレンジングしたのに出力が荒れてしまう問題 ○ もうちょいlossを抑えないとダメだろうか(現在でもA6000で5時間ぐらいかかっているんだけ ど・・・) ● スペシャルトークンの残骸のようなものが出てしまう問題 ○ 今回はppo版をファインチューニングしたが、インストラクションチューニングされていない モデルをファインチューニングした方が良かった? 分からん・・・ ● 次は会話を発生させていきたい ○ 会話スレッドはかなり面白そう ● 男子ばかりなので女子のデータも欲しい ○ 誰か・・・