Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Improving Language Understanding by Generative ...
Search
himura467
August 16, 2024
Research
0
71
Improving Language Understanding by Generative Pre-Training
ChatGPT の中身について研究室内で勉強会をした際に発表した資料です!
himura467
August 16, 2024
Tweet
Share
More Decks by himura467
See All by himura467
Bun もすなる Zig といふものをしてみむとてするなり
himura
0
1
Python アプリケーションの裏側とその機序 -WSGI, ASGI 編-
himura
0
70
人生における期待効用の最大化について考える
himura
0
90
CA_kube-scheduler
himura
0
10
Other Decks in Research
See All in Research
在庫管理のための機械学習と最適化の融合
mickey_kubo
3
1.1k
2021年度-基盤研究B-研究計画調書
trycycle
PRO
0
300
20250725-bet-ai-day
cipepser
2
420
AI エージェントを活用した研究再現性の自動定量評価 / scisci2025
upura
1
150
Mechanistic Interpretability:解釈可能性研究の新たな潮流
koshiro_aoki
1
410
大学見本市2025 JSTさきがけ事業セミナー「顔の見えないセンシング技術:多様なセンサにもとづく個人情報に配慮した人物状態推定」
miso2024
0
140
snlp2025_prevent_llm_spikes
takase
0
170
データxデジタルマップで拓く ミラノ発・地域共創最前線
mapconcierge4agu
0
210
Language Models Are Implicitly Continuous
eumesy
PRO
0
230
Agentic AIとMCPを利用したサービス作成入門
mickey_kubo
0
550
数理最適化に基づく制御
mickey_kubo
6
730
2025/7/5 応用音響研究会招待講演@北海道大学
takuma_okamoto
1
190
Featured
See All Featured
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
32
1.6k
Making Projects Easy
brettharned
117
6.4k
Why You Should Never Use an ORM
jnunemaker
PRO
59
9.5k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
30
9.7k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
53k
Gamification - CAS2011
davidbonilla
81
5.4k
Thoughts on Productivity
jonyablonski
70
4.8k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
4k
Writing Fast Ruby
sferik
628
62k
How to train your dragon (web standard)
notwaldorf
96
6.2k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
Transcript
Improving Language Understanding by Generative Pre-Training Alec Radford, Karthik Narasimhan,
Tim Salimans, Ilya Sutskever 設楽朗人 1/10
従来のAIによる自然言語理解と課題 自然言語理解(NLP) ・様々なタスクに対応する必要がある - Textual Retailing - Question Answering -
Semantic Similarity Assessment - Document Classification ・大量の Labeled な Dataset が必要 これは手作業であり、しんどい ・学習モデルを調整するために、最適化されていない heuristic な” 秘伝のタレ”が必要 2/10
自然言語理解AIに求められている要素 ・様々なタスクに汎用的に通用する ・学習のためのラベリングの負担が少ない 従来の手作業でのラベリングのコストを削減 ・学習モデルの細かい調整というタスクが必要ない 学習モデルのパラメータ調整の大部分を 人間がやる必要がないように 3/10
本稿の手法による自然言語理解 本稿の目標: 様々なタスクに汎用的に通用するモデル作成 提案する手法: Unlabeled なコーパスと手作業でターゲットタスクに特化させた学習 例のみを学習対象とする。 これらは同じ領域(Domain)の文章である必要はない。 学習の手順: 1.
Unlabeled Data に対して言語モデリングを行い初期パラメータを 決定 2. 学習例を用いてターゲットタスクに適合させる 4/10
事前学習 Train フェーズ: Unlabeled な Corpus を Byte Pair Encoding(BPE)
という手法で tokenize し、以下で与えられる尤度を最大化する。 ※Θ は学習モデルのパラメータ, k は window size Predict フェーズ: 右の計算により 予測を出力 5/10
Transformer Transformer Block の処理 ・Multi-headed self-attention layer 予測すべきトークン以降のトー クンの情報を隠した状態でトー クンを予測できるよう学習
・Feed forward layer 実験時は活性化関数として GELU 関数を用いている ・最適化アルゴリズム 実験時は ADAM を使用している Ref: [1] 6/10 [1] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin. Attention Is All You Need, 2017.
Supervised fine-tuning 7/10 タスクに合わせたファインチューニングを行いながら言語モデ ル自体の学習も並行して実行することで、汎化性能の向上と収 束の高速化を実現 ファインチューニングの目標としては上記の L3 を最大化すること ・L2
は各タスク毎のファインチューニングを行う尤度関数 ・L1 は事前学習における尤度関数 ・λ でそれらの割合を設定する
トランスフォーマーへの入力 タスク毎に入力の形式は異なる。 ・Entailment は、 ・Start ・Delimiter ・Extract トークンが入力される ・Similarity は、
・2つのText が入力される など 8/10
本稿の手法による成果 自然言語理解(NLP)のタスクとして挙げた - Textual Retailing - Question Answering - Semantic
Similarity Assessment - Document Classification を含む12タスクのうち、9タスクで従来の最高記録を更新した。 Zero-shot(未知の Domain に対する振る舞い)についても 有用な言語知識を有していることを実証した。 9/10
まとめ 10/10 ・AI の自然言語理解のための学習手法を提案 ・様々なタスクに汎用的に通用する ・学習のためのラベリングの負担が少ない ・学習モデルの細かい調整というタスクが必要ない - 事前学習 -
Transformer - Fine-Tuning - トランスフォーマーへの入力 ・本稿の手法の成果 ・各タスクに汎用的に高水準の結果 ・Zero-shot に対しても有用