Slide 1

Slide 1 text

大規模言語モデルの インパクトと課題 一橋大学大学院 ソーシャル・データサイエンス研究科 小町守

Slide 2

Slide 2 text

自己紹介: 小町守(こまちまもる) • 2005.03 東京大学教養学部基礎科学科 科学史・科学哲学分科卒業 • 2010.03 奈良先端科学技術大学院大学 博士(工学) • 2010.04〜2013.03 奈良先端大 助教(自然言語処理研究室) • 2013.04〜2023.03 首都大学東京(現都立大) 准教授〜教授(自然言語処理研究室) • 2023.04〜 一橋大学 教授(計算言語学研究室) 2

Slide 3

Slide 3 text

自然言語処理の発展の歴史 機械翻訳 人工知能 統計的手法 深層学習 3 ELIZA 1960年代 1980年代 2000年代 2020年代 ChatGPT

Slide 4

Slide 4 text

古典的な機械翻訳のアプローチ • 原言語文を解析して中間言語 に落とし込み、目的言語文を 生成する • 1990年代までは(商用の)機 械翻訳では主流のアプローチ 4 CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php?curid=683855

Slide 5

Slide 5 text

1990年代以降の統計的機械翻訳の発展 1. 翻訳モデルの開発 2. オープンソースのツール 3. 自動評価手法の普及 4. 最適化手法の発展 5. 対訳データの拡充 5 IBM モデル (1993) からフレーズベースの手法 (2003) GIZA++ (1999) Moses (2003) BLEU: 参照訳を用いた自動評価 (2002) 誤り率最小化学習 (2003) EU 議事録 (2005) 国連議事録 (2016) カナダの国会議事録

Slide 6

Slide 6 text

学習データが多ければ多いほど性能向上 6 低い 翻訳性能 高い 少ない データ 多い Large Language Models in Machine Translation [Brants+, 2007] 言語モデルの学習 データ量に対し、 対数スケールで直線 的に翻訳性能向上

Slide 7

Slide 7 text

統計的手法の問題点 • それぞれのタスクごとに大規模な学習データが必要 (機械翻訳、対話、文書要約、等々・・・) • それぞれの言語ごとに個別のデータ・システムが必要 (英語はいいが、日本語は・・・) 7

Slide 8

Slide 8 text

言語モデルが自然言語処理の基礎 吾輩 は 猫 で ある 8 P(吾輩は猫である) ・・・文の生成確率 =P(吾輩) ×P(は|吾輩) × P(猫|吾輩は) × P(で|吾輩は猫) × P(ある|吾輩は猫) 周辺文脈から 単語を予測

Slide 9

Slide 9 text

マスク言語モデルで自己教師あり学習 • 単語を隠して(マスク)正解 データを作成し、周辺文脈か ら予測する言語モデルを学習 (自己教師あり学習) 9 吾輩 は ? で ある

Slide 10

Slide 10 text

深層学習モデルを用いた文のモデリング • マスク言語モデルで自己教師あり学習した言語モデル 10 BERT: Bidirectional Encoder Representations from Transformers [Devlin+, 2019] 少ないデータで微調整するだけで多くのタスクに転用可能 事前学習 微調整

Slide 11

Slide 11 text

分野に特化したテキストデータを使って 事前学習することでさらに改善 • Liu et al. 2020. FinBERT: A Pre-trained Financial Language Representation Model for Financial Text Mining. IJCAI. • Chalkiodis et al. 2020. LEGAL-BERT: The Muppets straight out of Law School. EMNLP. 11 ↑ LEGAL-BERT ← FinBERT

Slide 12

Slide 12 text

言語理解ベンチマーク (SuperGLUE) で 2021 には人間を超えるパフォーマンス 12 https://sh-tsang.medium.com/brief-review-deberta-decoding-enhanced-bert-with-disentangled-attention-f5cdb9a8bf0b

Slide 13

Slide 13 text

マスク言語モデルによる文のモデリング: BERT は何をエンコードしているか? • 文法や意味をエンコード [Coenen+, 2019] • 多言語 BERT でも文法をエン コード [Chi+, 2020] 13 単語ベクトルによる用例の分析が可能

Slide 14

Slide 14 text

統計的手法の問題点の克服① • それぞれのタスクごとに大規模な学習データが必要 (機械翻訳、対話、文書要約、等々・・・) →マスク言語モデルを使えば大規模データを自動生成できる • それぞれの言語ごとに個別のデータ・システムが必要 (英語はいいが、日本語は・・・) 14

Slide 15

Slide 15 text

ChatGPT を支える技術 15 事前学習 教師あり学習 強化学習 どういう出力が良くて どういう出力がダメか 教える 多言語データで 大規模言語モデルを 自己教師あり学習 どう生成すれば いい出力になるのか 学習する

Slide 16

Slide 16 text

プロンプトを用いた言語モデルの操作 • プロンプト(テキストによる指示)でタスクを指示可能 16 Language Models are Few-Shot Learners [Brown+, 2020] 言語による説明と事例 があれば、微調整不要

Slide 17

Slide 17 text

GPT: 大規模言語モデル時代の新常識 モデルサイズ(横軸) を大きくすればするほ ど性能(縦軸)が向上 突然できるようになる ことがある(創発) 17 Language Models are Few-Shot Learners [Brown+, 2020]

Slide 18

Slide 18 text

学習データの大半は英語だがなぜか動く 18 https://commoncrawl.github.io/cc-crawl-statistics/plots/languages https://twitter.com/janleike/status/1625207251630960640 ウェブ中に 日本語は4%

Slide 19

Slide 19 text

クロスリンガル言語モデルを用いた 文の意味の分析と可視化 • 複数コーパスで同時学習した言語モデルによる言語表現の分析 19 複数言語対での同じ意味の文ベクトルの可視化(同じ色が同じ意味の文) Google’s Multilingual Neural Machine Translation System [Johnson+, 2017] 文ベクトルによる分析と評価が可能

Slide 20

Slide 20 text

統計的手法の問題点の克服② • それぞれのタスクごとに大規模な学習データが必要 (機械翻訳、対話、文書要約、等々・・・) →マスク言語モデルを使えば大規模データを自動生成できる →プロンプトによる指示で多くのタスクに転用できる • それぞれの言語ごとに個別のデータ・システムが必要 (英語はいいが、日本語は・・・) →多言語モデルでサイズを大きくするとなぜかできる →なぜできるようになるのかは現在盛んに研究されている 20

Slide 21

Slide 21 text

生成AIの問題〜社会科学との交差点① • 訓練データの著作権や生成されたデータの著作権 • 個人情報保護、忘れられる権利 21 https://www.garanteprivacy.it/home/docweb/-/docweb-display/docweb/9870847#english イタリアのデータ保護当局が 一時的にChatGPTの使用を禁止 ←Stable Diffusion で生成 させた一橋大学のロゴ

Slide 22

Slide 22 text

生成AIの問題〜社会科学との交差点② • 差別的な出力の生成、モデルに内在するバイアス • 事実とは異なる内容を生成する(ハルシネーション) 22 Towards Automatic Generation of Messages Countering Online Hate Speech and Microaggressions [Ashida and Komachi, 2022] https://www.un.org/en/hate-speech/understanding-hate-speech/hate-speech-versus-freedom-of-speech

Slide 23

Slide 23 text

生成AIの問題〜社会科学との交差点③ • 言語モデルの訓練にかかるコスト • AI開発の主導権 23 GPT-3 (2020) $1.4M(2億円) https://sunyan.substack.com/p/the-economics-of-large-language-models PaLM (2022) $11.2M(15億円) https://www.riken.jp/pr/news/2023/20230522_2/index.html

Slide 24

Slide 24 text

まとめ: 大規模言語モデルのインパクトと課題 • それぞれのタスクごとに大規模なデータが必要 (機械翻訳、対話、文書要約、等々・・・) →マスク言語モデルを使えば大規模データを自動生成できる →プロンプトによる指示で多くのタスクに転用できる • それぞれの言語ごとにシステムを用意しないといけない (英語はいいが、日本語は・・・) →多言語モデルでサイズを大きくするとなぜかできる →なぜできるようになるのかは現在盛んに研究されている • 技術だけでは解決できない社会科学的問題→SDS にようこそ!