→ 異なる言語で処理するLLMに「文字数」に関することを 聞いても上手く回答できないことが多い。 (同様の理由で計算も弱い) LLMの中の処理に注目すると以下のような流れ。 文字を分割 トークンID付与 ベクトル化 質問の処理 (質問の実行→回答出力) 【質問文】 あなたは誰。 “あなた”, “は”, “誰。” “0.01”, “0.41””… 分割した単語をトークンと呼び、 それぞれにトークンIDを付与する。 この処理を行うものをトークナイザーと 呼ぶ。 トークンIDをベクトル化(数値化)する。 “1111”, “2222”, “3333” 推論モデルの登場により 多少改善された。