reserved. - 「バイト対符号化」と呼ばれる手法 - 最も頻出する文字列のペアを新しい単位として結合していく圧縮アルゴリズム - あらかじめ指定した回数だけ結合 - 例:「low lower lowest」という文章から学習する場合 - 最初:「l o w _ l o w e r _ l o w e s t」 - 「l」「o」が頻出→「lo」として結合 - 次に「lo w」が頻出→「low」として結合 BPE(Byte-Pair Encoding)
Word Piece, Sentence Pieceなど複数ある まとめ 参考情報 - https://dalab.jp/archives/journal/japanese-llm-tokenizer/ - [SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing](https://arxiv.org/abs/1808.06226)