情報処理学会関西支部2024年度定期講演会「自然言語処理と大規模言語モデルの基礎」

⾃然⾔語処理と⼤規模⾔語モデルの基礎須藤克仁奈良⼥⼦⼤学研究院⽣活環境科学系∕⽣活環境学部⽂化情報学科⽣活情報通信科学コース

本⽇の内容 • ⾃然⾔語処理や⼤規模⾔語モデルはみんなの役に⽴つ！ • という話の前座を務めます（基礎的なことがらの説明） • 須藤パートの⼤きな流れ 1. ⾃然⾔語処理とは 2.
⾔語モデルとは 3. ⼤規模⾔語モデルに⾄る流れ 4. ⼤規模⾔語モデルとは 3 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」

⾃然⾔語処理とは 4 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」

⾃然⾔語処理の役割 • ⾃然⾔語を解析する • ことばがどう組み上げられているか？ • 形態素解析，構⽂解析，… • ⾃然⾔語を操る •
ことばをどう活⽤するか？ • ⽂書分類，翻訳，要約，⽣成，… 5 外国 | ⼈参 | 政権名詞名詞名詞 He saw the girl with a telescope NP NP PP VP VP S 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」

分類：あらゆる処理の基本⽂書分類外国⼈参政権外国⼈参政権昨⽇
本を買った名詞：⼀般接尾辞：助数詞形態素解析出典 https://twitter.com/nkmr_aki/status/1030799586737020930 構⽂解析 6 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」

系列の分類 • 系列全体の分類 • 系列要素の分類（系列ラベリング） 7 村⼭富市⾸相は年頭にあたり内閣記者会内閣記者会と⼆⼗⼋⽇会⾒し、社会党の新⺠主連合所属議員
の離党問題について「政権に… 昨⽇本を買った名詞（副詞可能）名詞（⼀般）助詞（格助詞）動詞（⼀般）［五段‧連⽤形］助動詞［終⽌形］情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」

何を理由に分類するか？ • 素性（特徴量） • 「⾸相」「衆院」→ 政治 • 頻度(外国→⼈)>頻度(外国→⼈参) • 接尾辞：助数詞
の前は名詞：数 • 頻度(頭が⾚い→猫)≶頻度(頭が⾚い→⿂) • 様々な情報から判断する • どんな素性を使えば良いか？各素性の優先順は？ 8 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」

系列変換の例：翻訳＆要約 • ⼊⼒を変換した結果としての出⼒を予測 • sequence-to-sequence (seq2seq) と呼ぶ系統の問題 9 彼は尻尾の⻑い黒い猫を⾒た。 He
saw a black cat with a long tail. 近年，⼈⼯知能に注⽬が集まっています．⼈⼯知能技術の⼀つとして，私たち⼈間が普段使っている⾔葉を機械で扱う技術，すなわち⾃然⾔語処理技術もさまざまな応⽤が期待されています．世の中には⾃然⾔語で書かれたデータが⾮常に多く存在する上，⼈間と機械のインタフェースにも⾃然⾔語を⽤いることができます．⾃然⾔語処理技術は，新たな製品やサービスを⽣み出したり，業務の効率化を⾏ったりすることにつながり，ビジネスに⼤きく貢献すると考えられますが，まだ幅広く活⽤されているとは⾔えないのが現状です．近年注⽬される⼈⼯知能の⼀つである⾃然⾔語処理技術は様々な応⽤でビジネスに貢献できるものだが，まだ幅広くは活⽤されていない。情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」

系列予測は分類の繰り返し彼は尻尾の⻑い黒い猫を⾒た。 He saw a black cat with a long
tail. ⽂頭 I I I … I he he he … he am am am … am is is is … is saw saw saw … saw a a a … a the the the … the black black black … black … … … … … ⽂末⽂末⽂末 … ⽂末 10 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」

⾔語モデルとは 11 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」

⾔語モデル (Language Model; LM) 12 𝑃 𝑊 = $ !"#
$ 𝑃 𝑤! 𝑤%! ① 𝑡番⽬の単語はそれ以前の単語列（前⽅⽂脈）で確率的に決まる ②⽂の確率は先頭から順に単語の確率を掛け合わせて得られる ※⽂の⽣成確率を計算できるモデルが狭義の「⾔語モデル」で、その他の「ことばのモデル」は本来LMとは呼ばない情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」

単語Nグラムモデル • 直前N-1個の単語で前⽅⽂脈を近似する 𝑃 𝑊 = $ !"# $ 𝑃
𝑤! 𝑤!&# , 𝑤!&' , … , 𝑤!&()# • ゼロ頻度問題 → スムージング（詳細は割愛） • あらゆる 𝑤!"#$% , … , 𝑤! （語彙サイズ 𝑉 に対して 𝑉# の異なり順列）を事前に観測しておくことは不可能 • ⾔語的にありえない組み合わせも多数存在 13 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」

tail. ⽂頭 I I I … I he he he … he am am am … am is is is … is saw saw saw … saw a a a … a the the the … the black black black … black … … … … … ⽂末⽂末⽂末 … ⽂末 14 各ステップで単語Nグラムモデルから直前N-1個の単語の条件付き確率分布として単語の確率分布を得る 𝑃 𝑤! = 𝑣& 𝑤!"% , 𝑤!"' , … , 𝑤!"#$% 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」

ニューラル⾔語モデル He left the car in the parking lot 𝑃
He ⽂頭 𝑃 left ⽂頭, He 𝑃 parking ⽂頭, He,left,the,car,in,the 15 Recurrent Neural Network (RNN) （回帰型ニューラルネットワーク）情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」

多次元空間の点でことばを表現する（word2vec）出典：TensorFlow: Vector Representations of Words https://www.tensorflow.org/tutorials/representation/word2vec 16 情報処理学会関⻄⽀部
2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」

tail. ⽂頭 I I I … I he he he … he am am am … am is is is … is saw saw saw … saw a a a … a the the the … the black black black … black … … … … … ⽂末⽂末⽂末 … ⽂末 17 各ステップでの出⼒層で語彙サイズ数 (𝑉) 次元のベクトルが得られる ↓ softmaxで正規化し各単語の⽣成確率とする 𝑃 𝑤! = 𝑣& 𝑤(! = 𝑒) 𝑤! = 𝑣& 𝑤(! ∑ *+, - 𝑒) 𝑤! = 𝑣* 𝑤(! 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」

ニューラル⾔語モデルの利点 • 単語は多次元空間中の点として扱う • 独⽴した記号でなく「近さ」が類似度として使える • ⼤量のデータにより所与の前⽅⽂脈に対して後続単語が正しく予測できるように学習されている • 正しい⽂は確率が⾼い
＝確率が⾼いものを選べば正しい 18 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」

⼤規模⾔語モデルに⾄る流れ 19 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」

ニューラル機械翻訳 (NMT) He left the car in the parking lot
彼は駐⾞場に⾞を置いてきた読んで記憶するニューラルネットワーク（エンコーダ）別の⾔語で⾔い換えるニューラルネットワーク（デコーダ） 20 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」

なぜNMTが“翻訳”できるのか? He left the car in the parking lot 彼は
駐⾞場に⾞を置いてきた 21 ②読んだ記憶を細かく残す ①多次元空間中の点として記憶する ③局所化した記憶を選択的に参照する ④記憶に最も合致することばを選ぶ ⑤所与の条件でよく出ることばの並びを選ぶ情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」

注意機構 • 注意 (attention) 22 He left the car in
the parking lot 彼は駐⾞場に⾞を置いてきた⼀つのベクトルで全部記憶させるのは難しい各ステップで必要なベクトルを重み付きで混合して利⽤情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」

サブワード • 単語よりも短い単位による表現例: • extraordinary → ex/tra/ord/ina/ry • 作り⽅ •
バイト対符号化（データ圧縮の技術） • 統計モデル • 利点: 語彙サイズ縮⼩, 低頻度語‧未知語減少 • 計算量が減り、品詞や活⽤の変化に対応しやすい • ⽋点: 不⾃然な分割‧結合 23 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」

Transformer • 回帰構造を排したモデル • 直列→並列、並列化で⾼速に • ⾃⼰注視で周囲の情報を取得 • 位置情報は符号化して与える 24
単語ベクトル単語ベクトル単語ベクトル John runs . 単語ベクトル単語ベクトル単語ベクトル <start> ジョンが位置依存単語ベクトル位置依存単語ベクトル位置依存単語ベクトル位置エンコーディング正規化複数ヘッド⾃⼰注視正規化 FFNN 正規化複数ヘッド⾃⼰注視正規化 FFNN 正規化複数ヘッド⾃⼰注視正規化 FFNN N層位置依存単語ベクトル位置依存単語ベクトル位置エンコーディング正規化複数ヘッド⾃⼰注視正規化 FFNN N層複数ヘッドクロス注視正規化正規化複数ヘッド⾃⼰注視正規化 FFNN 複数ヘッドクロス注視正規化ジョンが須藤, ニューラル機械翻訳の進展 ─系列変換モデルの進化とその応⽤─ ⼈⼯知能学会誌 Vo.34, No.4 これは機械翻訳です 1 2 3 4 5 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」

BERT • Transformerのエンコーダで⽂の組を符号化情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」 25 [CLS] my
dog is cute [SEP] he likes play ##ing [SEP] C T1 T2 T3 T4 T5 T6 T7 T8 T9 T10 BERT (Transformerのエンコーダ)

BERTの事前学習（マスク⾔語モデル）情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」 26 [CLS] my dog is
cute [SEP] he likes play ##ing [SEP] C T1 T2 T3 T4 T5 T6 T7 T8 T9 T10 BERT (Transformerのエンコーダ) [MASK] [MASK] is likes

BERTによる⾃然⾔語処理タスクの解き⽅情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」 27 予測（スコアやクラス） [CLS] C
T1 T2 T3 T4 BERT (Transformerのエンコーダ) sentence [CLS] C T1 T2 T3 T4 BERT (Transformerのエンコーダ) sentence 予測（ラベルやスパン）⽂書分類など構⽂解析など

⼤規模テキストによる事前学習の重要性 • 様々な⾃然⾔語処理タスクの性能が⼤きく向上した • マスク⾔語モデル (+α) の事前学習 • ただし学習データ（⽣のテキスト）量は膨⼤ •
所望タスクのデータによる追加学習（ファインチューニング） • 従来の⽂書分類や構⽂解析のデータ（⽣テキストに⽐べれば極少） • BERTはエンコーダ（特徴抽出）のみだが、エンコーダとデコーダを持つ系列変換モデルの事前学習も流⾏ • BART: ノイズ除去学習（マスク⾔語モデルと類似） • T5: マスク除去と各種系列変換タスクによる事前学習 28 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」

⼤規模⾔語モデルとは (Large Language Model: LLM) 29 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」

要は⾔語モデルのバケモノ • ⼤規模なTransformerを⽤いたニューラル⾔語モデル • 積み上げる層の数を増やす • ベクトルの次元数を増やす • それだけといえばそれだけ •
ただし学習データ量が莫⼤ • 学習コスト（電気代）も莫⼤ • 装置コスト（GPU代）も莫⼤ 30 単語ベクトル単語ベクトル単語ベクトル John runs . 単語ベクトル単語ベクトル単語ベクトル <start> ジョンが位置依存単語ベクトル位置依存単語ベクトル位置依存単語ベクトル位置エンコーディング正規化複数ヘッド⾃⼰注視正規化 FFNN 正規化複数ヘッド⾃⼰注視正規化 FFNN 正規化複数ヘッド⾃⼰注視正規化 FFNN N層位置依存単語ベクトル位置依存単語ベクトル位置エンコーディング正規化複数ヘッド⾃⼰注視正規化 FFNN N層複数ヘッドクロス注視正規化正規化複数ヘッド⾃⼰注視正規化 FFNN 複数ヘッドクロス注視正規化ジョンが須藤, ニューラル機械翻訳の進展 ─系列変換モデルの進化とその応⽤─ ⼈⼯知能学会誌 Vo.34, No.4 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」

スケーリング則 (Scaling Law) • 計算量‧データ量‧パラメータ数を指数的に増やせば⾔語モデルの性能（単語予測性能）は向上する 31 Dataset Size tokens
Parameters non-embedding Compute PF-days, non-embedding Test Loss Figure 1 Language modeling performance improves smoothly as we increase the model size, datasetset size, and amount of compute2 used for training. For optimal performance all three factors must be scaled up in tandem. Empirical performance has a power-law relationship with each individual factor when not bottlenecked by the other two. 出典: Kaplan et al., Scaling Laws for Neural Language Models, arXiv preprint 2001.08361 (2020) 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」

GPT-3 (GPT-2以前の説明は割愛) 出典: T. B. Brown et al., Language Models
are Few-Shot Learners, Proc. NeurIPS 2020 (タスク記述) Translate English to French (プロンプト) cheeze => (タスク記述) Translate English to French (実例) sea otter => loutre de mer (プロンプト) cheeze => (タスク記述) Translate English to French (実例) sea otter => loutre de mer peppermint => menthe poivrée plush girafe => girafe peluche (プロンプト) cheeze => Zero-shot (実例なし) One-shot (単⼀実例) Few-shot (少数実例) 32 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」

InstructGPT • GPT-3を追加学習 • ⼈間が作成した指⽰（プロンプト）と応答のペアから学習 • 適当なプロンプトに対する応答を⼈間がランク付けし、「何が良い応答か」を測る尺度（報酬; reward）を学習 •
報酬に基づく強化学習(reinforcement learning) • もう⼈間が正解を与える必要はない (cf. AlphaGo) 33 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」

ChatGPT (GPT-3.5+InstructGPT+α ) • ⾮常に多くの問題が zero-shot で解ける • 前⽅⽂脈を約4000トークン（⽂字と単語の間の単位）分利⽤できるので、対話応答や⻑い⽂章の出⼒も可能
• ただモデル⾃体は「⾔語モデルのバケモノ」のまま • InstructGPTにより様々な要求に対応できるように変化 34 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」

GPT-4 • GPT-3.5をさらに巨⼤にしたもの • マルチモーダル（画像）⼊⼒が可能 • 画像を多次元空間の点の列に変換して利⽤ • 画像とことばの関係も⼤量のデータを与えて学習 35
情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」

GPTシリーズの進化 GPT-1 GPT-2 GPT-3 GPT-4 発表時期 2018.6 2019.2 2020.5 2023.3
パラメータ数 1.2億 15億 1,750億 ??? データ量 4.5GB 40GB 570GB ??? 36 現在はマルチモーダルモデルの GPT-4o や応答前に思考（システム内部で思考過程を⽣成）するOpenAI o1も情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」

様々なサービスや公開モデル • テキスト系⽣成AIサービス • OpenAI: ChatGPT • Google: Gemini •
Anthropic: Claude • Perplexity: Perplexity AI • Microsoft: Copilot • Mistral AI: Mistral AI • 最近は検索拡張⽣成 (RAG) 注⽬されている • 公開モデル（海外） • Meta: Llama • LMSYS: Vicuna • その他たくさん • 公開モデル（国内） • NII: LLM-jp • Science Tokyo: Swallow • その他企業からも様々な LLMが公開 37 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」

LLMがもたらしたもの（主にChatGPT等の対話型LLM） 38 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」

①事例を特に与えることなく (zero-shot) ことばで柔軟に複雑な指⽰が可能 • ことばのスタイル変更、表を書く、プログラムを書く、… • 「呪⽂」が不要、⾃然なことばで気軽に使える • 仕様の明確化（⾔語モデルへの⼗分な条件付け）が重要 •
ノウハウの蓄積が進んでいる • バージョンが変わっても⽐較的頑健であると期待 39 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」

②APIの提供によりサードパーティから様々なサービスが展開 • プロンプトの⼯夫により多様な処理が可能 • サードパーティは中継時に独⾃のプロンプトに加⼯できる • 例: Microsoftの検索エンジンBing •
モデルは固定でもWeb検索結果をプロンプトに反映させることでライブに近い情報を⽤いたチャットができる • 「⾬後の筍」状態 40 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」

③ 【最重要】従来の⽣成AIのような「やらかし」が⾮常に少ない • Toxicな出⼒をしないよう慎重に調整されている • Cf. 2016年のMicrosoftのチャットボット Tay
の事例 • 科学的‧倫理的に問題のある回答を避けるよう学習 • ⼈⼿で作成したデータによる学習のたまもの？ • ⽣成AIの典型的な問題が⼤きく軽減されていた驚き 41 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」

LLMが得意な（はずの）こと • 「平均値」的なことばの⽣成 • 「誰かがどこかで書いていそうなこと」 • 「⾒覚えがあるものの組み合わせ」 • 端的には「学習したこと」に近いことは得意（なはず） •
多くの学習事例があるものほど結果が安定する 42 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」

LLMが苦⼿な（はずの）こと① • （頻出しない）固有名詞の識別 • 例えば須藤について微妙にズレた業績があると⾔う • Wikipediaに載っているような⼈や事物は割といけることが多い • 「多次元空間中の点」としては似ている⼈と混同しやすい •
ただし単なる名前としては安定して出⼒できる 43 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」

LLMが苦⼿な（はずの）こと② • （本質的な）演繹 • 論理的‧記号的な処理を「本当に理解しているかは不明」 • ただ実際にはかなりのケースで解けることも知られている • 真に論理的でなくてもある種確率的に解けてしまう？ •
（実は何かルール的な書き換え処理が埋め込まれている…？） • ある事例の正解をもって能⼒が断定できるかは怪しい • 最近は深い思考を擬似的に⾏う仕組みの研究が進んでおり今後に期待 44 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」

LLMが苦⼿な（はずの）こと③ • 回答の整合性：厳密なコントロールは難しい • 参照可能な前⽅⽂脈の限界 • 「多次元空間中の点」による表現の功罪 • 近傍の「ことば」を含めた柔軟性と厳密な整合性の両⽴が困難 •
プロンプトによる上書きの限界、特に固有名詞がらみ 45 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」

LLMの技術的課題 • 膨⼤な計算量（コンピュータ‧電⼒）≒コスト • 「幻覚 (hallucination)」 • ないはずのものを誤って補ってしまう、学習データに起因？ • 本質的には正しい補完とのトレードオフ
• 前⽅⽂脈の「幅」の確保 46 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」

LLMの法的課題 • いわゆる「⼠業」関連法違反の懸念 • 学習データの著作権 • 「著作権法第三⼗条の四」の限界？ • 著作物に表現された思想⼜は感情の享受を⽬的としない利⽤
• 学習はセーフでも⽣成物の利⽤で侵害が⽣じうる • 参考: STORIA法律事務所（柿沼太⼀⽒）「⽣成AIの猛烈な進化と著作権制度〜技術発展と著作権者の利益のバランスをとるには〜」情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」 47

LLMの倫理的課題 • 悪⽤の懸念 • そもそも良からぬ⽤途で利⽤する • インターネットが機械⽣成のドキュメントで埋め尽くされる（データ汚染、情報の信頼性の崩壊） • 社会的バイアスや格差の拡⼤
• データに対する労働搾取（元⽂章、学習データ整備）情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」 48

おわりに 49 情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」

まとめ • ⼤規模⾔語モデル (LLM) への導⼊ • ⾃然⾔語処理のごく概略 • ⾔語モデル（単語Nグラムモデル、ニューラル⾔語モデル） •
機械翻訳、Transformer、BERTとLLMに⾄る道のり • ⼤規模⾔語モデルのこれまでの歩み • GPT-3/3.5/4 を中⼼に簡単に紹介 • ChatGPTをはじめとする対話型LLMの果たした役割と課題情報処理学会関⻄⽀部 2024年度定期講演会 (2024-11-21) 「⾃然⾔語処理と⼤規模⾔語モデルの基礎」 50

情報処理学会関西支部2024年度定期講演会「自然言語処理と大規模言語モデルの基礎」

情報処理学会関西支部2024年度定期講演会「自然言語処理と大規模言語モデルの基礎」

More Decks by Katsuhito Sudoh

Other Decks in Research

Featured

Transcript