大規模言語モデルのインパクトと課題/oc2023

大規模言語モデルのインパクトと課題一橋大学大学院ソーシャル・データサイエンス研究科小町守 <[email protected]>

自己紹介: 小町守（こまちまもる） • 2005.03 東京大学教養学部基礎科学科科学史・科学哲学分科卒業 • 2010.03 奈良先端科学技術大学院大学博士（工学）
• 2010.04〜2013.03 奈良先端大助教（自然言語処理研究室） • 2013.04〜2023.03 首都大学東京（現都立大）准教授〜教授（自然言語処理研究室） • 2023.04〜一橋大学教授（計算言語学研究室） 2

自然言語処理の発展の歴史機械翻訳人工知能統計的手法深層学習 3 ELIZA 1960年代 1980年代 2000年代
2020年代 ChatGPT

古典的な機械翻訳のアプローチ • 原言語文を解析して中間言語に落とし込み、目的言語文を生成する • 1990年代までは（商用の）機械翻訳では主流のアプローチ 4 CC
BY-SA 3.0, https://commons.wikimedia.org/w/index.php?curid=683855

1990年代以降の統計的機械翻訳の発展 1. 翻訳モデルの開発 2. オープンソースのツール 3. 自動評価手法の普及 4. 最適化手法の発展 5.
対訳データの拡充 5 IBM モデル (1993) からフレーズベースの手法 (2003) GIZA++ (1999) Moses (2003) BLEU: 参照訳を用いた自動評価 (2002) 誤り率最小化学習 (2003) EU 議事録 (2005) 国連議事録 (2016) カナダの国会議事録

学習データが多ければ多いほど性能向上 6 低い翻訳性能高い少ないデータ多い Large Language
Models in Machine Translation [Brants+, 2007] 言語モデルの学習データ量に対し、対数スケールで直線的に翻訳性能向上

統計的手法の問題点 • それぞれのタスクごとに大規模な学習データが必要（機械翻訳、対話、文書要約、等々・・・） • それぞれの言語ごとに個別のデータ・システムが必要（英語はいいが、日本語は・・・） 7

言語モデルが自然言語処理の基礎吾輩は猫である 8 P(吾輩は猫である) ・・・文の生成確率 =P(吾輩)
×P(は|吾輩) × P(猫|吾輩は) × P(で|吾輩は猫) × P(ある|吾輩は猫) 周辺文脈から単語を予測

マスク言語モデルで自己教師あり学習 • 単語を隠して（マスク）正解データを作成し、周辺文脈から予測する言語モデルを学習（自己教師あり学習） 9 吾輩は？
である

深層学習モデルを用いた文のモデリング • マスク言語モデルで自己教師あり学習した言語モデル 10 BERT: Bidirectional Encoder Representations from Transformers
[Devlin+, 2019] 少ないデータで微調整するだけで多くのタスクに転用可能事前学習微調整

分野に特化したテキストデータを使って事前学習することでさらに改善 • Liu et al. 2020. FinBERT: A Pre-trained
Financial Language Representation Model for Financial Text Mining. IJCAI. • Chalkiodis et al. 2020. LEGAL-BERT: The Muppets straight out of Law School. EMNLP. 11 ↑ LEGAL-BERT ← FinBERT

言語理解ベンチマーク (SuperGLUE) で 2021 には人間を超えるパフォーマンス 12 https://sh-tsang.medium.com/brief-review-deberta-decoding-enhanced-bert-with-disentangled-attention-f5cdb9a8bf0b

マスク言語モデルによる文のモデリング: BERT は何をエンコードしているか？ • 文法や意味をエンコード [Coenen+, 2019] • 多言語 BERT
でも文法をエンコード [Chi+, 2020] 13 単語ベクトルによる用例の分析が可能

統計的手法の問題点の克服① • それぞれのタスクごとに大規模な学習データが必要（機械翻訳、対話、文書要約、等々・・・） →マスク言語モデルを使えば大規模データを自動生成できる • それぞれの言語ごとに個別のデータ・システムが必要（英語はいいが、日本語は・・・） 14

ChatGPT を支える技術 15 事前学習教師あり学習強化学習どういう出力が良くてどういう出力がダメか教える多言語データで
大規模言語モデルを自己教師あり学習どう生成すればいい出力になるのか学習する

プロンプトを用いた言語モデルの操作 • プロンプト（テキストによる指示）でタスクを指示可能 16 Language Models are Few-Shot Learners [Brown+,
2020] 言語による説明と事例があれば、微調整不要

GPT: 大規模言語モデル時代の新常識モデルサイズ（横軸）を大きくすればするほど性能（縦軸）が向上突然できるようになることがある（創発） 17 Language Models
are Few-Shot Learners [Brown+, 2020]

学習データの大半は英語だがなぜか動く 18 https://commoncrawl.github.io/cc-crawl-statistics/plots/languages https://twitter.com/janleike/status/1625207251630960640 ウェブ中に日本語は4%

クロスリンガル言語モデルを用いた文の意味の分析と可視化 • 複数コーパスで同時学習した言語モデルによる言語表現の分析 19 複数言語対での同じ意味の文ベクトルの可視化（同じ色が同じ意味の文） Google’s Multilingual Neural Machine
Translation System [Johnson+, 2017] 文ベクトルによる分析と評価が可能

統計的手法の問題点の克服② • それぞれのタスクごとに大規模な学習データが必要（機械翻訳、対話、文書要約、等々・・・） →マスク言語モデルを使えば大規模データを自動生成できる →プロンプトによる指示で多くのタスクに転用できる • それぞれの言語ごとに個別のデータ・システムが必要（英語はいいが、日本語は・・・） →多言語モデルでサイズを大きくするとなぜかできる
→なぜできるようになるのかは現在盛んに研究されている 20

生成AIの問題〜社会科学との交差点① • 訓練データの著作権や生成されたデータの著作権 • 個人情報保護、忘れられる権利 21 https://www.garanteprivacy.it/home/docweb/-/docweb-display/docweb/9870847#english イタリアのデータ保護当局が一時的にChatGPTの使用を禁止 ←Stable
Diffusion で生成させた一橋大学のロゴ

生成AIの問題〜社会科学との交差点② • 差別的な出力の生成、モデルに内在するバイアス • 事実とは異なる内容を生成する（ハルシネーション） 22 Towards Automatic Generation of
Messages Countering Online Hate Speech and Microaggressions [Ashida and Komachi, 2022] https://www.un.org/en/hate-speech/understanding-hate-speech/hate-speech-versus-freedom-of-speech

生成AIの問題〜社会科学との交差点③ • 言語モデルの訓練にかかるコスト • AI開発の主導権 23 GPT-3 (2020) $1.4M（2億円） https://sunyan.substack.com/p/the-economics-of-large-language-models
PaLM (2022) $11.2M（15億円） https://www.riken.jp/pr/news/2023/20230522_2/index.html

まとめ: 大規模言語モデルのインパクトと課題 • それぞれのタスクごとに大規模なデータが必要（機械翻訳、対話、文書要約、等々・・・） →マスク言語モデルを使えば大規模データを自動生成できる →プロンプトによる指示で多くのタスクに転用できる • それぞれの言語ごとにシステムを用意しないといけない（英語はいいが、日本語は・・・）
→多言語モデルでサイズを大きくするとなぜかできる →なぜできるようになるのかは現在盛んに研究されている • 技術だけでは解決できない社会科学的問題→SDS にようこそ！

大規模言語モデルのインパクトと課題/oc2023

大規模言語モデルのインパクトと課題/oc2023

Mamoru Komachi

More Decks by Mamoru Komachi

Featured

Transcript

大規模言語モデルのインパクトと課題一橋大学大学院ソーシャル・データサイエンス研究科小町守 <[email protected]>

自己紹介: 小町守（こまちまもる） • 2005.03 東京大学教養学部基礎科学科科学史・科学哲学分科卒業 • 2010.03 奈良先端科学技術大学院大学博士（工学）

自然言語処理の発展の歴史機械翻訳人工知能統計的手法深層学習 3 ELIZA 1960年代 1980年代 2000年代

古典的な機械翻訳のアプローチ • 原言語文を解析して中間言語に落とし込み、目的言語文を生成する • 1990年代までは（商用の）機械翻訳では主流のアプローチ 4 CC

1990年代以降の統計的機械翻訳の発展 1. 翻訳モデルの開発 2. オープンソースのツール 3. 自動評価手法の普及 4. 最適化手法の発展 5.

学習データが多ければ多いほど性能向上 6 低い翻訳性能高い少ないデータ多い Large Language

統計的手法の問題点 • それぞれのタスクごとに大規模な学習データが必要（機械翻訳、対話、文書要約、等々・・・） • それぞれの言語ごとに個別のデータ・システムが必要（英語はいいが、日本語は・・・） 7

言語モデルが自然言語処理の基礎吾輩は猫である 8 P(吾輩は猫である) ・・・文の生成確率 =P(吾輩)

マスク言語モデルで自己教師あり学習 • 単語を隠して（マスク）正解データを作成し、周辺文脈から予測する言語モデルを学習（自己教師あり学習） 9 吾輩は？

深層学習モデルを用いた文のモデリング • マスク言語モデルで自己教師あり学習した言語モデル 10 BERT: Bidirectional Encoder Representations from Transformers

分野に特化したテキストデータを使って事前学習することでさらに改善 • Liu et al. 2020. FinBERT: A Pre-trained

言語理解ベンチマーク (SuperGLUE) で 2021 には人間を超えるパフォーマンス 12 https://sh-tsang.medium.com/brief-review-deberta-decoding-enhanced-bert-with-disentangled-attention-f5cdb9a8bf0b

マスク言語モデルによる文のモデリング: BERT は何をエンコードしているか？ • 文法や意味をエンコード [Coenen+, 2019] • 多言語 BERT

ChatGPT を支える技術 15 事前学習教師あり学習強化学習どういう出力が良くてどういう出力がダメか教える多言語データで

プロンプトを用いた言語モデルの操作 • プロンプト（テキストによる指示）でタスクを指示可能 16 Language Models are Few-Shot Learners [Brown+,

GPT: 大規模言語モデル時代の新常識モデルサイズ（横軸）を大きくすればするほど性能（縦軸）が向上突然できるようになることがある（創発） 17 Language Models

学習データの大半は英語だがなぜか動く 18 https://commoncrawl.github.io/cc-crawl-statistics/plots/languages https://twitter.com/janleike/status/1625207251630960640 ウェブ中に日本語は4%

生成AIの問題〜社会科学との交差点② • 差別的な出力の生成、モデルに内在するバイアス • 事実とは異なる内容を生成する（ハルシネーション） 22 Towards Automatic Generation of

生成AIの問題〜社会科学との交差点③ • 言語モデルの訓練にかかるコスト • AI開発の主導権 23 GPT-3 (2020) $1.4M（2億円） https://sunyan.substack.com/p/the-economics-of-large-language-models