Slide 1

Slide 1 text

Context Window のお話 もしトークン数を気にせず LLM が使えたら? 林 祐太 / ぬこぬこ @schroneko ※このページは削除して構いません USE TEMPLATE Click 1

Slide 2

Slide 2 text

- 林 祐太 / ぬこぬこ - 12 月から LLM 無職→転職 - 専門は核融合(核融合はいいぞ!) 自己紹介 2

Slide 3

Slide 3 text

LLM において入力できる トークン数のこと Context Window とは? 3 https://arxiv.org/abs/2212.10947

Slide 4

Slide 4 text

ChatGPT を使っていてこんな表示を見かけたら、どんな気持ちになりますか? 4

Slide 5

Slide 5 text

😑 5

Slide 6

Slide 6 text

Claude を使ったことは ありますか?✋ 6

Slide 7

Slide 7 text

- 性能評価で GPT-4 と僅差 - 100k Tokens まで入力可 - GPT-4 の RLHF 味がない 😆😆😆うれしい😆😆😆 ただ、日本で使えるようになる のはもう少し...! Claude のここがすごい! https://chat.lmsys.org/?arena 7 ※ VPN 接続での利用はやめましょう!

Slide 8

Slide 8 text

100k トークン? イメージ沸かない? 8

Slide 9

Slide 9 text

9 だいたい 75,000 字

Slide 10

Slide 10 text

なるほどわかった💡 で、なにに使えるの? 10

Slide 11

Slide 11 text

論文めちゃ読める💡 Context Window まわりの論文を紹介 11

Slide 12

Slide 12 text

- 7月17日の論文 - Transformer を使わず、Context Window を 増やしても推論コストの増大を低減 https://arxiv.org/abs/2307.08621 https://github.com/microsoft/unilm/tree/ master/retnet 論文紹介 Retentive Network: A Successor to Transformer for Large Language Models 12

Slide 13

Slide 13 text

- 8月31日の論文 - Context Window の拡張手法 - Llama 2 7B / 13 B を 4k → 128k(16~32倍) - 性能劣化はほぼなし(0.49%) https://arxiv.org/abs/2309.00071 https://github.com/jquesnelle/yarn 論文紹介 YaRN: Efficient Context Window Extension of Large Language Models 13

Slide 14

Slide 14 text

- 9月20日の論文 - Vision Transformer に RetNet を適用 - 計算コストが下がるだけでなく性能向上 https://arxiv.org/abs/2309.11523 論文紹介 RMT: Retentive Networks Meet Vision Transformers 14

Slide 15

Slide 15 text

- 9月21日の論文 - Context Window の拡張手法 - Llama 2 7B / 13 B / 70B を 4k から 100k / 6k / 32 k に拡張 https://arxiv.org/abs/2309.12307 https://github.com/dvlab-research/LongLoRA 論文紹介 LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models 15

Slide 16

Slide 16 text

要素技術は出揃ってきた 16

Slide 17

Slide 17 text

Context Window を 気にしない未来って もしかすると近い? 17

Slide 18

Slide 18 text

- Embedding はもしかすると不要? - Hallucinations がかなり軽減? - そもそも大量の情報を人間が解釈する必要性って? - etc… 18 もしトークン数を気にせず LLM が使えたら?

Slide 19

Slide 19 text

もし日常使いの LLM の Context Window に上限がなくなったら?🤔 19

Slide 20

Slide 20 text

20

Slide 21

Slide 21 text

もし時間があまったら 21

Slide 22

Slide 22 text

22 実演 Claude くんを普段 どう使っているか?

Slide 23

Slide 23 text

23 で、でもお高いんでしょう? https://www-files.anthropic.com/production/images/model_pricing_july2023.pdf

Slide 24

Slide 24 text

長文 Prompt テクニック 真ん中があんまり抽出できない? →https://arxiv.org/abs/2307.03172 一昨日の Anthropic の公式記事によると 1. 引用の指示 2. 指示を最後に置く https://www.anthropic.com/index/prompting-lon g-context 24

Slide 25

Slide 25 text

最近作ったもの 論文要約 後日 webui化予定 https://gist.github.com /schroneko/210881cb6 80322ea455baee21abdd f29 25

Slide 26

Slide 26 text

Claude 使いたいんだけど?💢 26 残念ながら、本日時点で US / UK のみ あと数ヶ月で一般公開とありました。 首を長くして待ちましょう!

Slide 27

Slide 27 text

API 使いたいんだけど?💢 27 https://www.anthropic. com/earlyaccess こちらからどうぞ!