トークナイザーの仕組みを少しだけ深ぼって理解する

SageMaker Ground Truthでトレーニングデータセットを構築する 2025.01.17 ©Blueish 2024. All rights reserved.
戸塚翔太

自己紹介 ©Blueish 2024. All rights reserved. 戸塚翔太｜BLUEISH Shota Totsuka
・LLMアプリ開発者（Go/Python …etc）・生成AI, 機械学習・趣味: スキー/スノボ, 最近はDifyにContribute ・静岡県（浜松）に住んでます　近くの方がいれば、一緒に勉強会しましょう！ Xアカウント @totsukash

01 トークナイザーについて 02 トークナイザーの種類 03 AWSでの適用 04 まとめ目次 ©Blueish
2024. All rights reserved.

©Blueish 2024. All rights reserved. - 自然言語(人間が読めるテキスト)を数値の配列に変換する処理を行う - 文章を単語に分割し、ベクトルに変換する -
テキストの中で一つの意味を表す文字の並びのことを「トークン」と呼ぶ - 多くのLLM APIではトークン単位で課金されるトークナイザーとはトークナイザーについて

©Blueish 2024. All rights reserved. トークナイザーについて ©Blueish 2024. All rights
reserved. - トークナイザーは単語とidを紐づける辞書のようなもの - 大きすぎても小さすぎてもダメ - あらかじめ用意したデータセットに従ってトークナイザーを作成 → そこに無い語句は「未知語（Unknown）」となるトークナイザーのサイズ

reserved. - 一般的に使われない単語が入る - 無駄な語句によりサイズが大きくなり、メモリ負荷などコストが高くなる大きすぎる場合

reserved. - 1文字単位の分割など、細かく区切りすぎる - 単語の意味が理解できず、モデルの精度低下を招く小さすぎる場合

reserved. OpenAI Tokenizer

reserved. Transformers

©Blueish 2024. All rights reserved. トークナイザーの種類 ©Blueish 2024. All rights
reserved. - 「バイト対符号化」と呼ばれる手法 - 最も頻出する文字列のペアを新しい単位として結合していく圧縮アルゴリズム - あらかじめ指定した回数だけ結合 - 例：「low lower lowest」という文章から学習する場合 - 最初：「l o w _ l o w e r _ l o w e s t」 - 「l」「o」が頻出→「lo」として結合 - 次に「lo w」が頻出→「low」として結合 BPE（Byte-Pair Encoding）

reserved. - BERTで採用されたサブワード分割 - BPEと異なり、頻度ではなく尤度で分割を決定 - 全て文字に分割後、確率の高いペアから結合 - 例: walking → 「walk」「##ing」 - walk：単語の始まり - ##ing：途中から始まる部分 Word Piece

reserved. - Mecabなど形態素解析器でテキストを分割 → 単語の区切りができる - その後BPEやWord Pieceを使用形態素解析

reserved. - Mecabは日本語に最適化されているため、多言語での使用が難しい - Google/sentencepiece で公開されている - 文法規則ではなく、頻度ベースで最適な分割単位を”学習” Sentence Piece

reserved. 1. Unicode Normalization - テキストをUnicodeの標準形式に正規化 2. Trainer - コーパスから頻出するサブワードを学習し、効率的な分割規則を作成 3. Encoder - 学習済みの分割規則に基づいて、入力テキストをサブワードに分割し、トークンIDの列に変換 4. Decoder - トークンIDの列を受け取り、対応するsubwordを連結して元のテキスト形式に復元 Sentence Piece 手順

©Blueish 2024. All rights reserved. - プロンプトはトークナイザーを介してLLMが理解できる形式(埋め込みベクトル)に変換される - その手法はBPE,
Word Piece, Sentence Pieceなど複数あるまとめ参考情報 - https://dalab.jp/archives/journal/japanese-llm-tokenizer/ - [SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing](https://arxiv.org/abs/1808.06226)

トークナイザーの仕組みを少しだけ深ぼって理解する

トークナイザーの仕組みを少しだけ深ぼって理解する

Shota Totsuka

More Decks by Shota Totsuka

Featured

Transcript

SageMaker Ground Truthでトレーニングデータセットを構築する 2025.01.17 ©Blueish 2024. All rights reserved.

自己紹介 ©Blueish 2024. All rights reserved. 戸塚翔太｜BLUEISH Shota Totsuka

01 トークナイザーについて 02 トークナイザーの種類 03 AWSでの適用 04 まとめ目次 ©Blueish

トークナイザーを知らなくても LLMアプリケーションは作れる ©Blueish 2024. All rights reserved.

しかし、 ©Blueish 2024. All rights reserved.

トークナイザーを知るともうちょっとLLMが面白くなるかも！ ©Blueish 2024. All rights reserved.

Let's go!!! ©Blueish 2024. All rights reserved.

（AWSよりトークナイザーの話多めです...） ©Blueish 2024. All rights reserved.

01 トークナイザーについて ©Blueish 2024. All rights reserved.

©Blueish 2024. All rights reserved. トークナイザーについて

©Blueish 2024. All rights reserved. - 自然言語(人間が読めるテキスト)を数値の配列に変換する処理を行う - 文章を単語に分割し、ベクトルに変換する -

いかに上手く区切るかが大事 & 大変!!! ©Blueish 2024. All rights reserved.

様々な言語に対応する必要あり ©Blueish 2024. All rights reserved.

©Blueish 2024. All rights reserved. トークナイザーについて ©Blueish 2024. All rights

©Blueish 2024. All rights reserved. トークナイザーについて ©Blueish 2024. All rights

©Blueish 2024. All rights reserved. トークナイザーについて ©Blueish 2024. All rights

どうやって確認するのか？ ©Blueish 2024. All rights reserved.

©Blueish 2024. All rights reserved. トークナイザーについて ©Blueish 2024. All rights

©Blueish 2024. All rights reserved. トークナイザーについて ©Blueish 2024. All rights

02 トークナイザーの種類 ©Blueish 2024. All rights reserved.

©Blueish 2024. All rights reserved. トークナイザーの種類 ©Blueish 2024. All rights

©Blueish 2024. All rights reserved. トークナイザーの種類 ©Blueish 2024. All rights

ここまで2つの手法を紹介しましたが、 ©Blueish 2024. All rights reserved.

日本語には最適化されない... ©Blueish 2024. All rights reserved.

©Blueish 2024. All rights reserved. トークナイザーの種類 ©Blueish 2024. All rights

©Blueish 2024. All rights reserved. トークナイザーの種類 ©Blueish 2024. All rights

©Blueish 2024. All rights reserved. トークナイザーの種類 ©Blueish 2024. All rights

03 AWSでの適用 ©Blueish 2024. All rights reserved.

©Blueish 2024. All rights reserved. - Notebookを使用しPythonで実行 - フルスクラッチで開発するケースは少ない（既存のものを追加学習） SageMaker

04 まとめ・参考 ©Blueish 2024. All rights reserved.

©Blueish 2024. All rights reserved. - プロンプトはトークナイザーを介してLLMが理解できる形式(埋め込みベクトル)に変換される - その手法はBPE,

ご清聴ありがとうございました。 ©Blueish 2024. All rights reserved.