非情報系研究者へ送る Transformer入門

非情報系研究者へ送る Transformer入門 M1秋庭孔樹*，M2石山遼*，B4見田壮一** *九州大学大学院システム情報科学府 **九州大学工学部

本勉強会の目標 • 目標 ◦ 多くのAIの中身で用いられている「Transformer」がわかるようになる • やること ◦ AIの中身，ニューラルネットワーク，Transformerの概要を掴む ◦
Transformerを実際に動かしてみる ◦ 遺伝子データをTransformerで解析してみる • やらないこと ◦ 数理的に厳密な説明 ◦ 自分でLLM（大規模言語モデル）を作る 2/119

AIとは？

今日，ChatGPT使いましたか？ 4/119

今日，ChatGPT使いましたか？ 5/119

今日，ChatGPT使いましたか？なんだかそっれぽい．正しそう... 6/119

「それっぽい」とは何か：チューリングテスト • 対話している相手が人間か機械かを判別できるか否か AI 総研大はどのような機関ですか総研大は.... 人間と話してる？ 7/119

「それっぽい」とは何か：チューリングテスト • 対話している相手が人間か機械かを判別できるか否か AI 総研大はどのような機関ですか総研大は.... 人間と話してる？ https://www.itmedia.co.jp/aiplus/articles/2504/02/news128.html 8/119 引用：

AI（人工知能）とは • 人工知能 ◦ 人間の知能を真似する機械 ◦ 人間と区別がつかなかったらその機械は知能を持つ（チューリング博士による知能の定義） • 最近では...
人間よりも高速に応答ができ，高度な問題も解ける！ 9/119

再掲：ChatGPT 10/119

動向：系列を扱うAIはほとんどTransformer Generative Pre-trained Transformer Transformerベースのモデル 11/119

Transformerの位置づけ • Transformerは近年のAIで多く利用されている計算構造 • 特に以下の分野で利用される ◦ 言語処理 ◦ 系列処理 ◦
画像処理 AI ニューラルネットワーク Transformer ニューラルネットワークとは？ 12/119

ニューラルネットワークとは？

そもそも AI って... Artiﬁcial Intelligence ( 人工知能 ) John McCarthy
推論認識学習 14/119 人間の脳の働きをコンピュータで再現 1. 人間の思考を記号・ルール化　　　初期に盛んに行われていた 2. 人間の脳を模倣　　　　　ニューラルネットワークの源流

　脳：神経細胞(ニューロン)の集合模倣したい脳はどういう構造か... 15/119

模倣したい脳はどういう構造か... 16/119 ニューロン

模倣したい脳はどういう構造か... 17/119 多数の神経細胞から信号が入力される

模倣したい脳はどういう構造か... 18/119 入力をもとにして多数の神経細胞へ信号を出力

ニューロンを数理モデル化 19/119 …

ニューロンを数理モデル化 20/119 … 発火の程度を決める関数 (e.g. シグモイド関数, ReLU...) 信号の重み付けを行う係数 (どの入力をどれくらい重視するか) 学習
= 入力の重みづけを調整すること

ニューラルネットワーク：ニューロンの組み合わせ　　　　　　　　層を重ねてモデルを作る= 表現力を高める 21/119 …

最近のAIって難しそうなものが多い... Transformer Diﬀusion Model Vision and Language Reinforcement Learning 22/119
複雑な表現ができる計算機として扱うようになっている

ニューラルネットワークを数式から理解しよう 1層のシンプルなニューラルネットワークを理解してみる前提知識 - パーセプトロンについて - 簡単な線形代数この部分 23/119

　1つ目のニューロンニューラルネットワークを数式から理解しよう入力 j からニューロン i への重み：　 24/119

　1つ目のニューロンニューラルネットワークを数式から理解しよう 25/119

　2つ目のニューロンニューラルネットワークを数式から理解しよう入力 j からニューロン i への重み：　 26/119

　2つ目のニューロンニューラルネットワークを数式から理解しよう 27/119

　他も同様に行うと，最終的には... ニューラルネットワークを数式から理解しよう 28/119

　他も同様に行うと，最終的には... ニューラルネットワークを数式から理解しよう出力入力 29/119

　他も同様に行うと，最終的には... ニューラルネットワークを数式から理解しよう出力入力 1層のニューラルネットワーク = 行列 + 非線形関数 30/119

ニューラルネットワークを数式から理解しよう　もっと簡略化して表すと... 31/119

ニューラルネットワークを数式から理解しよう　複数の層を組み合わせると... ・・・層を重ねる = より複雑な関数を作る！ 32/119

モデルの学習って何をするの？学習 = 入力を変換する行列の値を調整すること 33/119

モデルの学習って何をするの？学習 = 入力を変換する行列の値を調整すること 34/119 パラメータ

モデルの学習って何をするの？学習 = 入力を変換する行列の値を調整すること 35/119 パラメータ 1. どのような値に調整するの？ 2. どうやって調整するの？

どのような値に調整するの？　A. 誤差を最小化するようなパラメータ株価どれくらい予測値がずれたか (予測誤差) どれくらい予測を外したか (分類誤差) 画像分類猫
犬 36/119

どのような値に調整するの？　A. 誤差を最小化するようなパラメータ株価どれくらい予測値がずれたか (予測誤差) どれくらい予測を外したか (分類誤差) 画像分類猫
犬二乗誤差交差エントロピー誤差 37/119

どうやって調整するの？　例：平均二乗誤差を最小化したい！ 38/119 誤差 = Wの関数正解ラベル：

どうやって調整するの？　二乗誤差　　：　　行列Wの勾配　：　パラメータ更新： 39/119 ... ... Wで微分

まとめ 1. ニューラルネットワークとは　 - 行列 + 非線形関数を多層に積み重ねたもの 2. モデルの学習とは -
行列のパラメータを調整すること　- ゴール：誤差関数を最小化する　- 方法　：勾配を使って少しずつ更新 40/119

付録：モデルは何を出力するの？　例：3クラス分類 (e.g. 画像　　犬 or 猫 or 鳥) 41/119 0.8
0.1 0.1 「犬」の確率「猫」の確率「鳥」の確率

付録：モデルは何を出力するの？　例：3クラス分類 (e.g. 画像　　犬 or 猫 or 鳥) 42/119 0.8
0.1 0.1 「犬」の確率「猫」の確率「鳥」の確率 1番確率が高いもの = モデルの予測

実践：ニューラルネットワークを動かそう

実践：Google colabを使います 44/119

実践：ニューラルネットワークを動かそう • 数字画像を自動で分類 49/119 0-9のうちどれか？

Transformerとは？いざ本題

Transformerの言葉としての意味 Transformer: 与えられた入力を意味ある何かに変換する機構 51/119

すなわち，XからYに変換させる枠組み Y：私はりんごが好き X: I like apples Transformer 52/119

すなわち，XからYに変換させる枠組み Y：ウイルス（か否か） X: ATGCTTTTA… Transformer 53/119

すなわち，XからYに変換させる枠組み Y X Transformer 54/119 昨今，検討対象が何か変換する系とみなせるならば Transformerの適用を考えてみることが多い

すなわち，XからYに変換させる枠組み Encoder Decoder Transformer Y：私はりんごが好き X: I like apples 55/119

Transformerの処理の概要：英→日翻訳の例 Encoder Transformer X: I like apples 56/119

Transformerの処理の概要：英→日翻訳の例 Encoder Transformer X: I like apples ベクトルの列として表現 57/119

Transformerの処理の概要：英→日翻訳の例 Encoder Transformer X: I like apples Decoder 58/119

Transformerの処理の概要：英→日翻訳の例 Encoder Transformer X: I like apples Decoder <START> 59/119

Transformerの処理の概要：英→日翻訳の例 Encoder Transformer X: I like apples Decoder <START> 60/119

Transformerの処理の概要：英→日翻訳の例 Encoder Transformer X: I like apples Decoder <START> 私は
61/119

私は 62/119

私は 63/119

私はリンゴが 64/119

リンゴが私はリンゴが 65/119

リンゴが私はリンゴが 66/119

リンゴが私はリンゴが好き 67/119

リンゴが好き私はリンゴが好き 68/119

リンゴが好き私はリンゴが好き 69/119

リンゴが好き私はリンゴが好き <END> 70/119

リンゴが好き私はリンゴが好き <END> 変換完了！ 71/119

TransformerのEncoderとDecoderとは？ Encoder Transformer Decoder ここでは何をしている？ 72/119

TransformerのEncoderとDecoderとは？アテンション MLP アテンション MLP データ（言葉）を数値へ変換数値をデータ（言葉）へ変換アテンション Transformer 73/119

TransformerのEncoderとDecoderとは？アテンション MLP アテンション MLP データ（言葉）を数値へ変換アテンション Transformer 前節で学習済み！数値をデータ（言葉）へ変換
前節で学習済み！前節で学習済み 74/119

TransformerのEncoderとDecoderとは？アテンション MLP アテンション MLP データ（言葉）を数値へ変換アテンション Transformer 数値をデータ（言葉）へ変換 75/119

Transformerの評価されている点アテンション MLP アテンション MLP データ（言葉）を数値へ変換アテンション Transformer 数値をデータ（言葉）へ変換 76/119
アテンションの多用で効率的に計算可能であることを示した

Transformerの評価されている点アテンション MLP アテンション MLP データ（言葉）を数値へ変換アテンション Transformer 数値をデータ（言葉）へ変換 77/119

で....結局アテンションとはなにか？アテンション MLP アテンション MLP データ（言葉）を数値へ変換アテンション Transformer 数値をデータ（言葉）へ変換 78/119

言語処理での問題意識 “空/が/明るい” 79/119 なぜアテンションが必要なのか？

“空/が/明るい” 0.2 0.5 0.1 0.1 0.9 0.8 0.9 0.8 80/119
AIのやりたいこと：意味の近い言葉はベクトル表現においても近く設計したい＝意味を数値で表現言語処理での問題意識なぜアテンションが必要なのか？

“空/が/明るい” 0.2 0.5 0.1 0.1 0.9 0.8 0.9 0.8 81/119
AIのやりたいこと：意味の近い言葉はベクトル表現においても近く設計したい＝意味を数値で表現 “輝き” “眩しい” 言語処理での問題意識なぜアテンションが必要なのか？

“空/が/明るい” 0.2 0.5 0.1 0.1 0.9 0.8 0.9 0.8 82/119
言語処理での問題意識なぜアテンションが必要なのか？

“空/が/明るい” 0.2 0.5 0.1 0.1 0.9 0.8 0.9 0.8 “空/が/明るい”
0.9 0.7 0.9 0.7 83/119 言語処理での問題意識なぜアテンションが必要なのか？

“空/が/明るい” 0.2 0.5 0.1 0.1 0.9 0.8 0.9 0.8 “空/が/明るい”
0.9 0.7 0.9 0.7 84/119 言語処理での問題意識なぜアテンションが必要なのか？

“空/が/明るい” 0.2 0.5 0.1 0.1 0.9 0.8 0.9 0.8 “空/が/明るい”
0.9 0.7 0.9 0.7 “輝き” “眩しい” 85/119 言語処理での問題意識なぜアテンションが必要なのか？

“生物/に/明るい” 0.3 0.7 0.2 0.2 0.9 0.8 0.9 0.8 86/119
言語処理での問題意識なぜアテンションが必要なのか？

“生物/に/明るい” 0.3 0.7 0.2 0.2 0.9 0.8 0.9 0.8 0.4
0.3 0.4 “生物/に/明るい” 0.3 “詳しい” 87/119 “熟知” 言語処理での問題意識なぜアテンションが必要なのか？

88/119 “空/が/明るい” 0.9 0.7 0.9 0.7 “輝き” “眩しい” 0.4 0.3
0.4 “生物/に/明るい” 0.3 “詳しい” “熟知” 言語処理での問題意識なぜアテンションが必要なのか？

89/119 “空/が/明るい” 0.9 0.7 0.9 0.7 “輝き” “眩しい” 0.4 0.3
0.4 “生物/に/明るい” 0.3 “詳しい” “熟知” 同じ"語"でも文脈が違えば意味が異なる！言語処理での問題意識なぜアテンションが必要なのか？

実際にはどのように計算するのか？ 90/119 0.4 0.3 0.4 “生物/に/明るい” 0.3

アテンションの処理 91/119 W W W 生物に明るいアテンション

アテンションの処理 92/119 W W W 生物に明るいアテンション目標：周囲の情報を混ぜた
数値にしたい

アテンションの処理 93/119 W W W 生物に明るい

アテンションの処理 94/119 W W W 生物に明るい各語句について独立に変換
各語句について独立に変換各語句について独立に変換

アテンションの処理 100/119 W W W 生物に明るい生物に
明るい明るい生物に

アテンションの処理 1 2 3 102/119 W W W 生物に
明るい 1 2 3

アテンションの処理 4 5 1 2 6 3 103/119 W W
W 生物に明るい 1 2 3 4 5 6

アテンションの処理 7 8 4 5 1 2 9 6 3
104/119 W W W 生物に明るい 1 2 3 4 5 6 7 8 9

アテンションの処理 7 8 4 5 1 2 9 6 3
105/119 W W W 生物に明るい 1 2 3 4 5 6 7 8 9

内積マシマシ 107/119 W W W 生物に明るい Qと定義 Kと定義
Vと定義

内積マシマシ 108/119 W W W 生物に明るい Qと定義 Kと定義
Vと定義

アテンション MLP アテンション MLP データ（言葉）を数値へ変換アテンション Transformer 数値をデータ（言葉）へ変換 109/119 Enocderでのアテンション

アテンション MLP アテンション MLP データ（言葉）を数値へ変換アテンション Transformer 数値をデータ（言葉）へ変換 110/119 Decoderでのアテンション

Enocderの出力とのアテンションアテンション MLP アテンション MLP データ（言葉）を数値へ変換アテンション Transformer 数値をデータ（言葉）へ変換 111/119

Transformerは入力の全体の関係性を効率的に計算アテンション MLP アテンション MLP データ（言葉）を数値へ変換アテンション Transformer 数値をデータ（言葉）へ変換 112/119

Transformerのまとめ • Transformerは汎用的なデータの変換器である • Transformerはアテンションを用いて効率的計算を実証 • 余力がある方へ ◦ 大規模言語モデルは新たな知能か（書籍，岩波科学ライブラリ，読み物として◎） https://www.iwanami.co.jp/book/b625941.html
◦ 東京大学工学部電子情報工学科・電気電子工学科の３年生向け後期実験「大規模言語モデル演習」（授業資料，よりテクニカルな話題を扱う） https://eeic-llm.github.io/2025/index.html ◦ 原論文から解き明かす生成AI　（書籍，技術評論社，Transformerの数理を詳説） https://gihyo.jp/book/2025/978-4-297-15078-5 113/119

実践：Transformerを動かそう

実践：Transformerを動かそう（1/2） • Transformerで映画レビューのポジティブ・ネガティブ分類 • 文章の感情分析 115/119 ポジティブなレビュー👍 ネガティブなレビュー👎

実践：Transformerを動かそう（1/2） • Transformerで映画レビューのポジティブ・ネガティブ分類 • 文章の感情分析 116/119 Encoder （符号化） I like
this moveie because Pos. / Neg.?

this moveie because Pos. / Neg.? クラストークン

this moveie because Pos. / Neg.? クラストークン新しい語を追加では実際に動かしてみましょう

実践：Transformerを動かそう（2/2） • DNAがウイルスか否かを判別 119/119 300 Encoder T ウイルス？ G T
T T A A G C T

非情報系研究者へ送る Transformer入門

非情報系研究者へ送る Transformer入門

Other Decks in Technology

Featured

Transcript