Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Improving Language Understanding by Generative ...
Search
himura-shitara
August 16, 2024
Research
0
43
Improving Language Understanding by Generative Pre-Training
ChatGPT の中身について研究室内で勉強会をした際に発表した資料です!
himura-shitara
August 16, 2024
Tweet
Share
More Decks by himura-shitara
See All by himura-shitara
人生における期待効用の最大化について考える
himura
0
57
CA_kube-scheduler
himura
0
4
ハンズオン形式で学ぶ、GitHub 講座
himura
0
54
Other Decks in Research
See All in Research
打率7割を実現する、プロダクトディスカバリーの7つの極意(pmconf2024)
geshi0820
0
160
20240918 交通くまもとーく 未来の鉄道網編(こねくま)
trafficbrain
0
380
機械学習でヒトの行動を変える
hiromu1996
1
430
QGISハンズオン事に質問のあったProjectのGeoPackageへの保存方法についての、補足の資料です。
wata909
0
110
Introducing Research Units of Matsuo-Iwasawa Laboratory
matsuolab
0
1.5k
文書画像のデータ化における VLM活用 / Use of VLM in document image data conversion
sansan_randd
2
390
アプリケーションから知るモデルマージ
maguro27
0
220
The many faces of AI and the role of mathematics
gpeyre
1
1.5k
最近のVisual Odometryと Depth Estimation
sgk
1
330
Neural Fieldの紹介
nnchiba
1
520
[ECCV2024読み会] 衛星画像からの地上画像生成
elith
1
970
国際会議ACL2024参加報告
chemical_tree
1
380
Featured
See All Featured
Fireside Chat
paigeccino
34
3.1k
Code Reviewing Like a Champion
maltzj
521
39k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
230
52k
Bash Introduction
62gerente
609
210k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
27
1.5k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
44
9.4k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
356
29k
Rails Girls Zürich Keynote
gr2m
94
13k
The Language of Interfaces
destraynor
155
24k
Optimizing for Happiness
mojombo
376
70k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
7
550
Reflections from 52 weeks, 52 projects
jeffersonlam
348
20k
Transcript
Improving Language Understanding by Generative Pre-Training Alec Radford, Karthik Narasimhan,
Tim Salimans, Ilya Sutskever 設楽朗人 1/10
従来のAIによる自然言語理解と課題 自然言語理解(NLP) ・様々なタスクに対応する必要がある - Textual Retailing - Question Answering -
Semantic Similarity Assessment - Document Classification ・大量の Labeled な Dataset が必要 これは手作業であり、しんどい ・学習モデルを調整するために、最適化されていない heuristic な” 秘伝のタレ”が必要 2/10
自然言語理解AIに求められている要素 ・様々なタスクに汎用的に通用する ・学習のためのラベリングの負担が少ない 従来の手作業でのラベリングのコストを削減 ・学習モデルの細かい調整というタスクが必要ない 学習モデルのパラメータ調整の大部分を 人間がやる必要がないように 3/10
本稿の手法による自然言語理解 本稿の目標: 様々なタスクに汎用的に通用するモデル作成 提案する手法: Unlabeled なコーパスと手作業でターゲットタスクに特化させた学習 例のみを学習対象とする。 これらは同じ領域(Domain)の文章である必要はない。 学習の手順: 1.
Unlabeled Data に対して言語モデリングを行い初期パラメータを 決定 2. 学習例を用いてターゲットタスクに適合させる 4/10
事前学習 Train フェーズ: Unlabeled な Corpus を Byte Pair Encoding(BPE)
という手法で tokenize し、以下で与えられる尤度を最大化する。 ※Θ は学習モデルのパラメータ, k は window size Predict フェーズ: 右の計算により 予測を出力 5/10
Transformer Transformer Block の処理 ・Multi-headed self-attention layer 予測すべきトークン以降のトー クンの情報を隠した状態でトー クンを予測できるよう学習
・Feed forward layer 実験時は活性化関数として GELU 関数を用いている ・最適化アルゴリズム 実験時は ADAM を使用している Ref: [1] 6/10 [1] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin. Attention Is All You Need, 2017.
Supervised fine-tuning 7/10 タスクに合わせたファインチューニングを行いながら言語モデ ル自体の学習も並行して実行することで、汎化性能の向上と収 束の高速化を実現 ファインチューニングの目標としては上記の L3 を最大化すること ・L2
は各タスク毎のファインチューニングを行う尤度関数 ・L1 は事前学習における尤度関数 ・λ でそれらの割合を設定する
トランスフォーマーへの入力 タスク毎に入力の形式は異なる。 ・Entailment は、 ・Start ・Delimiter ・Extract トークンが入力される ・Similarity は、
・2つのText が入力される など 8/10
本稿の手法による成果 自然言語理解(NLP)のタスクとして挙げた - Textual Retailing - Question Answering - Semantic
Similarity Assessment - Document Classification を含む12タスクのうち、9タスクで従来の最高記録を更新した。 Zero-shot(未知の Domain に対する振る舞い)についても 有用な言語知識を有していることを実証した。 9/10
まとめ 10/10 ・AI の自然言語理解のための学習手法を提案 ・様々なタスクに汎用的に通用する ・学習のためのラベリングの負担が少ない ・学習モデルの細かい調整というタスクが必要ない - 事前学習 -
Transformer - Fine-Tuning - トランスフォーマーへの入力 ・本稿の手法の成果 ・各タスクに汎用的に高水準の結果 ・Zero-shot に対しても有用