トークナイザーの仕組みを少しだけ深ぼって理解する

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

Slide 7

Slide 7 text

Slide 8

Slide 8 text

Slide 9

Slide 9 text

Slide 10

Slide 10 text

Slide 11

Slide 11 text

Slide 12

Slide 12 text

Slide 13

Slide 13 text

Slide 14

Slide 14 text

Slide 15

Slide 15 text

Slide 16

Slide 16 text

Slide 17

Slide 17 text

Slide 18

Slide 18 text

Slide 19

Slide 19 text

Slide 20

Slide 20 text

Slide 21

Slide 21 text

©Blueish 2024. All rights reserved. トークナイザーの種類 ©Blueish 2024. All rights reserved. - 「バイト対符号化」と呼ばれる手法 - 最も頻出する文字列のペアを新しい単位として結合していく圧縮アルゴリズム - あらかじめ指定した回数だけ結合 - 例：「low lower lowest」という文章から学習する場合 - 最初：「l o w _ l o w e r _ l o w e s t」 - 「l」「o」が頻出→「lo」として結合 - 次に「lo w」が頻出→「low」として結合 BPE（Byte-Pair Encoding）

Slide 22

Slide 22 text

©Blueish 2024. All rights reserved. トークナイザーの種類 ©Blueish 2024. All rights reserved. - BERTで採用されたサブワード分割 - BPEと異なり、頻度ではなく尤度で分割を決定 - 全て文字に分割後、確率の高いペアから結合 - 例: walking → 「walk」「##ing」 - walk：単語の始まり - ##ing：途中から始まる部分 Word Piece

Slide 23

Slide 23 text

Slide 24

Slide 24 text

Slide 25

Slide 25 text

Slide 26

Slide 26 text

Slide 27

Slide 27 text

©Blueish 2024. All rights reserved. トークナイザーの種類 ©Blueish 2024. All rights reserved. 1. Unicode Normalization - テキストをUnicodeの標準形式に正規化 2. Trainer - コーパスから頻出するサブワードを学習し、効率的な分割規則を作成 3. Encoder - 学習済みの分割規則に基づいて、入力テキストをサブワードに分割し、トークンIDの列に変換 4. Decoder - トークンIDの列を受け取り、対応するsubwordを連結して元のテキスト形式に復元 Sentence Piece 手順

Slide 28

Slide 28 text

Slide 29

Slide 29 text

Slide 30

Slide 30 text

Slide 31

Slide 31 text

©Blueish 2024. All rights reserved. - プロンプトはトークナイザーを介してLLMが理解できる形式(埋め込みベクトル)に変換される - その手法はBPE, Word Piece, Sentence Pieceなど複数あるまとめ参考情報 - https://dalab.jp/archives/journal/japanese-llm-tokenizer/ - [SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing](https://arxiv.org/abs/1808.06226)

Slide 32

Slide 32 text