Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Improving Language Understanding by Generative ...
Search
himura467
August 16, 2024
Research
0
79
Improving Language Understanding by Generative Pre-Training
ChatGPT の中身について研究室内で勉強会をした際に発表した資料です!
himura467
August 16, 2024
Tweet
Share
More Decks by himura467
See All by himura467
基盤モデルのアーキテクチャを改造してみよう - 時系列基盤モデルのマルチモーダル拡張事例の紹介 -
himura
1
760
Python アプリケーションの裏側とその機序 -WSGI, ASGI 編-
himura
0
73
人生における期待効用の最大化について考える
himura
0
100
CA_kube-scheduler
himura
0
12
Other Decks in Research
See All in Research
財務諸表監査のための逐次検定
masakat0
0
200
高畑鬼界ヶ島と重文・称名寺本薬師如来像の来歴を追って/kikaigashima
kochizufan
0
100
地域丸ごとデイサービス「Go トレ」の紹介
smartfukushilab1
0
550
cvpaper.challenge 10年の軌跡 / cvpaper.challenge a decade-long journey
gatheluck
3
420
Language Models Are Implicitly Continuous
eumesy
PRO
0
340
教師あり学習と強化学習で作る 最強の数学特化LLM
analokmaus
2
680
Vision and LanguageからのEmbodied AIとAI for Science
yushiku
PRO
1
600
Pythonでジオを使い倒そう! 〜それとFOSS4G Hiroshima 2026のご紹介を少し〜
wata909
0
1.2k
SkySense V2: A Unified Foundation Model for Multi-modal Remote Sensing
satai
3
140
情報技術の社会実装に向けた応用と課題:ニュースメディアの事例から / appmech-jsce 2025
upura
0
270
SNLP2025:Can Language Models Reason about Individualistic Human Values and Preferences?
yukizenimoto
0
220
Time to Cash: The Full Stack Breakdown of Modern ATM Attacks
ratatata
0
170
Featured
See All Featured
Bootstrapping a Software Product
garrettdimon
PRO
307
120k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
12
1.3k
Docker and Python
trallard
47
3.7k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
36
6.2k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
37
2.6k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3.1k
The Art of Programming - Codeland 2020
erikaheidi
56
14k
Keith and Marios Guide to Fast Websites
keithpitt
413
23k
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.5k
The Language of Interfaces
destraynor
162
25k
Agile that works and the tools we love
rasmusluckow
331
21k
What’s in a name? Adding method to the madness
productmarketing
PRO
24
3.8k
Transcript
Improving Language Understanding by Generative Pre-Training Alec Radford, Karthik Narasimhan,
Tim Salimans, Ilya Sutskever 設楽朗人 1/10
従来のAIによる自然言語理解と課題 自然言語理解(NLP) ・様々なタスクに対応する必要がある - Textual Retailing - Question Answering -
Semantic Similarity Assessment - Document Classification ・大量の Labeled な Dataset が必要 これは手作業であり、しんどい ・学習モデルを調整するために、最適化されていない heuristic な” 秘伝のタレ”が必要 2/10
自然言語理解AIに求められている要素 ・様々なタスクに汎用的に通用する ・学習のためのラベリングの負担が少ない 従来の手作業でのラベリングのコストを削減 ・学習モデルの細かい調整というタスクが必要ない 学習モデルのパラメータ調整の大部分を 人間がやる必要がないように 3/10
本稿の手法による自然言語理解 本稿の目標: 様々なタスクに汎用的に通用するモデル作成 提案する手法: Unlabeled なコーパスと手作業でターゲットタスクに特化させた学習 例のみを学習対象とする。 これらは同じ領域(Domain)の文章である必要はない。 学習の手順: 1.
Unlabeled Data に対して言語モデリングを行い初期パラメータを 決定 2. 学習例を用いてターゲットタスクに適合させる 4/10
事前学習 Train フェーズ: Unlabeled な Corpus を Byte Pair Encoding(BPE)
という手法で tokenize し、以下で与えられる尤度を最大化する。 ※Θ は学習モデルのパラメータ, k は window size Predict フェーズ: 右の計算により 予測を出力 5/10
Transformer Transformer Block の処理 ・Multi-headed self-attention layer 予測すべきトークン以降のトー クンの情報を隠した状態でトー クンを予測できるよう学習
・Feed forward layer 実験時は活性化関数として GELU 関数を用いている ・最適化アルゴリズム 実験時は ADAM を使用している Ref: [1] 6/10 [1] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin. Attention Is All You Need, 2017.
Supervised fine-tuning 7/10 タスクに合わせたファインチューニングを行いながら言語モデ ル自体の学習も並行して実行することで、汎化性能の向上と収 束の高速化を実現 ファインチューニングの目標としては上記の L3 を最大化すること ・L2
は各タスク毎のファインチューニングを行う尤度関数 ・L1 は事前学習における尤度関数 ・λ でそれらの割合を設定する
トランスフォーマーへの入力 タスク毎に入力の形式は異なる。 ・Entailment は、 ・Start ・Delimiter ・Extract トークンが入力される ・Similarity は、
・2つのText が入力される など 8/10
本稿の手法による成果 自然言語理解(NLP)のタスクとして挙げた - Textual Retailing - Question Answering - Semantic
Similarity Assessment - Document Classification を含む12タスクのうち、9タスクで従来の最高記録を更新した。 Zero-shot(未知の Domain に対する振る舞い)についても 有用な言語知識を有していることを実証した。 9/10
まとめ 10/10 ・AI の自然言語理解のための学習手法を提案 ・様々なタスクに汎用的に通用する ・学習のためのラベリングの負担が少ない ・学習モデルの細かい調整というタスクが必要ない - 事前学習 -
Transformer - Fine-Tuning - トランスフォーマーへの入力 ・本稿の手法の成果 ・各タスクに汎用的に高水準の結果 ・Zero-shot に対しても有用