Slide 31
Slide 31 text
©Blueish 2024. All rights reserved.
- プロンプトはトークナイザーを介してLLMが理解できる形式(埋め込みベクトル)に
変換される
- その手法はBPE, Word Piece, Sentence Pieceなど複数ある
まとめ
参考情報
- https://dalab.jp/archives/journal/japanese-llm-tokenizer/
- [SentencePiece: A simple and language independent subword tokenizer and
detokenizer for Neural Text Processing](https://arxiv.org/abs/1808.06226)