第12回ザッピングセミナー発表資料

NLP2023参加報告岩本蘭日本アイ・ビー・エム株式会社 / 慶應義塾大学第12回ザッピングセミナー 2023/04/03

自己紹介岩本蘭 2 2 日本IBM 東京基礎研究所研究員 / 慶應義塾大学博士課程2年
▪ 経歴 ▪ 研究自然言語処理 2021.3 慶應義塾大学修士課程卒業研究: 信号処理→自然言語処理 2021.4 富士フイルムビジネスイノベーション入社 2022.4 日本IBM入社 / 慶應義塾大学博士課程入学 Twitter: @Ran_Iwamoto ・多言語: 多言語感情分析/構文解析/語彙資源など・階層性: 単語埋め込みなど会場裏のビーチ

はじめに 3 3 ▪ 概要 NLP2023参加報告・現地(沖縄)の模様・ChatGPT ・注目研究発表者の研究について
・極座標を用いた階層構造ベクトル学習・破滅的忘却を防ぐ最適化関数を用いた構文構造の追加学習・構想: NLP × 信号処理/最適化 (人も技術も) ▪ 目的 NLPが専門ではない人 : NLPをざっくり知る/自分の研究分野の応用先の候補に入れてもらう NLPが専門の人 : NLP × 信号処理/最適化に興味を持ってもらう

NLP2023 学会概要 4 4 ・2023年3月13日(月) ~ 17日(金) ・4年ぶりの現地(ハイブリッド)開催＠沖縄, 宜野湾市
・発表件数 579件，参加者数1828人 (事前+直前登録数1761人)，スポンサー 80団体・slackでの活発な議論 (ワークスペース参加者数1677人) 出典: 会場図 https://www.anlp.jp/nlp2023/, 統計 https://www.anlp.jp/guide/nenji_stat.html 第16回については，情報処理学会全国大会と共催したため，参加者数の統計は無し．大会のセッションでは常時300～400名程度の聴講者があったとの情報より350としてグラフに記載． 0 200 400 600 800 1000 1200 1400 1600 1800 2000 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 ⼈数回数⾔語処理学会年次⼤会発表件数参加者数

会場沖縄コンベンションセンター 5 5 会場外会場内沖縄コンベンションセンター

沖縄ならでは 6 6 エイサー＠スポンサーブース実行委員の方々フォトスポット&おやつコーナー

ハイブリッドポスター 7 7

久しぶり/初対面の人わからない問題 8 8 Tシャツを自作する方も作ってもらったアイコンシール

緊急パネル: ChatGPTで自然言語処理は終わるのか 9 9

ChatGPTとは 10 10 自己矛盾が起きることも→ 詳しく知りたい人向けの資料 (ほぼ時系列順, 敬称略) ・横井祥 (東北大)
ChatGPTと自然言語処理/言語の意味の計算と最適輸送・久本空海 (MIERUNE) 沖縄とChatGPT、地理空間と言語処理・岡崎直観 (東工大) 大規模言語モデルの驚異と脅威

何ができるの？表生成 11 11 欠損値の判定参考: https://tomi-kun.hatenablog.com/entry/2023/02/08/004826 Markdown/html出力も可能入力ミスの指摘

何ができるの？コード生成 12 12 参考: https://developer.mamezou-tech.com/blogs/2023/03/26/using-transformer-03/

Twitterでの感想 13 13

現地参加者の感想 14 14 新しいおもちゃが出てきた！またすごいのが出た (パネル翌日にGPT-4が登場) 博論の序章を書き直したい自分の研究に使えそう (知識埋め込み) BERTの時みたいに論文にChatGPTが
関数として論文に登場しそう？完全に負けた(対話) 正誤性判定の研究をアピールできる！私の分野には影響ないかな (形態素解析)

NLP2024 15 15 ▪ 現地参加者の感想・来年も現地参加したい・ポーアイ(ポートアイランドの略)の内か外に泊まるか迷う・肉食べたい ▪
概要・日時: 2024年3月11日(月)〜15日(金) ・会場: 神戸国際会議場 (ハイブリッド開催) ・30周年記念行事: 特別招待講演, 特別セッション (予定)

NLP2023注目論文 16 16 ▪ お気持ち・ガウス埋め込みに基づく文表現生成陽田祥平, 塚越駿, 笹野遼平, 武田浩一
(名大) 若手奨励賞・計算資源が限られた複数組織での出力選択による協働の検討伊藤郁海 (東北大), 伊藤拓海 (東北大/Langsmith), 鈴木潤, 乾健太郎 (東北大/理研) 委員特別賞, 日本電気賞 ▪ 目次・大規模言語モデルの台頭の渦中にあっても，ビジネスでは小さい言語モデルの活用も発展途上・小さいモデルの活用にこそ信号処理/機械学習の知見が使えそう？ ※この先の説明での図は全て論文中より引用

ガウス埋め込みに基づく文表現生成 17 17 ▪ 概要・文の意味をガウス分布を用いて表現・含意関係のデータセットで文同士の包含関係を学習 ▪ 新規性・含意，矛盾のほかに逆向き集合を仮定

ガウス埋め込みに基づく文表現生成 18 18 ▪ 紹介理由・ガウス分布/ガウス過程は意味変化の研究でもよく使用される [3][4][5] (全てNLP2022の研究) ・〇〇の研究において，単語の意味をベクトルで表現→分布で表現は王道でわかりやすい
・機械学習/数理系の方や，逆に文系出身の方でもガウス〇〇は取りかかりやすい研究(主観) ▪ 今後の発展・表現力の向上 vs 計算量本研究ではガウス分布の分散共分散行列をDiagonalと仮定・単語を対象とした既存研究 [1] ではSpherical, Diagonalを比較・複数の意味を表現する方法に発展性あり・(単語の場合だと)混合ガウス分布を用いる[2]など [1] Word Representation via Gaussian Embedding https://arxiv.org/abs/1412.6623 [2] Probablistic FastText for Multi-Sense Word Embeddings https://arxiv.org/pdf/1806.02901.pdf [3] 単語分散表現を用いた新型コロナウイルスによる意味変化検出 https://www.anlp.jp/proceedings/annual_meeting/2022/pdf_dir/PT3-8.pdf [4] ガウス確率場による単語の意味変化と語義数の同時推定 https://www.anlp.jp/proceedings/annual_meeting/2022/pdf_dir/A7-1.pdf [5] 分散表現を用いたロマンス語同源語同士の意味変化の分析 https://www.anlp.jp/proceedings/annual_meeting/2022/pdf_dir/D7-3.pdf

計算資源が限られた複数組織での出力選択による協働の検討 19 19 ▪ 概要・計算資源(訓練データ量&モデルサイズ)に着目し，計算資源が少ない複数の組織が協力した場合より多くの計算資源を費やして作成されたモデルの性能に勝てるのかを英日翻訳タスクで検証・組織ごとに独自のデータを所有し，組織間のデータの共有はしない状況を想定 ▪ 新規性
・(翻訳の)候補文集合からの出力選択 - 参照なし評価指標(COMETKIWI)に基づく出力選択: 各文のCOMETKIWIスコアを計算，最も高スコアの文を選択 (COMETKIWI: 翻訳の原文とモデルの出力を使用する評価指標．) - コサイン類似度に基づく出力選択: 他の全候補文に対して最も意味的に近い文を1つ選択アンサンブルに比べ辞書の統一やモデルの出力分布の共有が不要 COMET BLEURT BLEU ⼩組織単体 0.7605 0.5926 18.4 ⼤組織 0.8026 0.6439 22.3 参照なし出⼒選択 0.8130 0.6474 20.7 アンサンブル 0.7804 0.6172 20.5 ※小組織10個での結果

計算資源が限られた複数組織での出力選択による協働の検討 20 20 ▪ 今後の発展・小組織間でデータサイズが異なる場合どうなるか・モデルサイズの格差をもっと大きくする・訓練データの分布を変える(現在は同じデータを使用) ▪ 紹介理由
・(今後の発展可能性も含めて，)企業などで使えそうな現実的な設定・信号処理でも似たような状況がある・複数の小さなセンサーからの出力を集めて中心となるコンピュータで何かを予測など

研究紹介 NLP×信号処理/最適化 21 21 ▪ 概要・極座標を用いた階層構造埋め込み (NLP2021) ・破滅的忘却を防ぐ最適化関数・構想:
NLP × 信号処理/最適化 (人も技術も) ▪ 目的 NLPが専門ではない人 : NLPをざっくり知る/自分の研究分野の応用先の候補に入れてもらう NLPが専門の人 : NLP × 信号処理/最適化に興味を持ってもらう

ChatGPTに聞いてみた 22 22 ←信号処理＝音声処理になりがち最適化に絞ってみた単語の意味表現→ の最適化問題

極座標を用いた階層構造埋め込み背景 23 訓練時/使用時の空間のギャップをなくし，階層構造を表現したい → 極座標を使用既存分散表現階層構造の直感的な表現よくある分散表現 (Word2vec,
Gloveなど) 訓練時 : ユークリッド空間全体で学習使用時 : 正規化してcos類似度で評価問題点・訓練時と使用時に用いる空間が異なる・階層構造を表現していない 23

Polar Embedding 24 半径：単語の抽象度角度：単語の類似度 ▪階層構造を直感的に表現 ▪使いやすい • 低次元 •
ユークリッド空間内で学習/使用可能 (既存研究としてPoincare embeddingなどがあるが，双曲空間を用いるため応用が難しい) 単語ベクトルの学習に極座標を使用 • 中心からの距離(半径)と角度でベクトルを表現 • デカルト座標との変換が可能極座標 3次元極座標 24

学習⽅法 25 ▪ 角度の最適化変わった関数を使用極座標で角度を最適化するために2つの技術を使用 • Welsch損失(Dennis and Welsch
1978) • Stain variational gradient descent (SVGD; Liu et al. 2016) Polar Embeddingの特徴: 抽象度(半径)と類似度(角度)のパラメータが独立 • 別々に最適化可能 • 半径を正規化(𝑟 = 1)するとGloveなどの既存分散表現と同様に使用可能． ▪半径の最適化 • 頻度情報や木構造の深さから計算 • 抽象度に関する既存の言語資源を使用 25

⾓度の学習 26 ▪ 𝑛次元極座標での単語表現半径 𝑟 : 単語の抽象性を表現角度𝜃, 𝜑!(𝑘
∈ 1, 2, … , 𝑛 − 2) : 単語の類似性を表現 ▪極座標の特徴・角度 𝜑!, 𝜃 が異なる範囲をとる (𝜃 ∈ 0, 2𝜋 , 𝜑! ∈ 0, 𝜋 ) ・デカルト座標との変換が可能 𝜃は円周上，𝜑!は半円上で最適化 ※角度の学習の際は𝑟 = 1とする 3次元極座標 → Polar Embeddingでの角度の最適化↓ 26

Welsch損失(Dennis & Welsch, 1978) 27 ▪ なぜ(二乗誤差ではなく)Welsch損失を用いる？ d: ある次元での角度の差, c:
パラメータ Welsch損失 𝐿! (𝑑) = "! # 1 − exp − $! #"! 勾配 %&"($) %$ = $ # exp − $! #"! • 二乗誤差は十分離れたnegative sampleをさらに遠ざける • 極座標は角度の範囲に制限がある → Welsch損失で勾配を制限し，単語が極に集中することを防ぐ ▪ 性質単語同士が似ていない(角度の差が大きい)時は更新量を小さくする勾配 Welsch損失 27

Stain Variational Gradient Descent (Liu et al. 2016) 28 SVGD:
現在の分布と理想分布とのKL divergenceを最小化する(ある分布を別の分布に近づける)手法 ▪ SVGDの役割低次元のユークリッド空間を広く，効率的に使いたい → 学習に伴う単語分布の偏りを減らし， (𝑟 = 1のとき) 球面上に単語が一様に分布するよう補正する球面上の一様分布(理想分布) 現在の分布 28

実験1 Wordnet Mammal Subtree 29 データセット WordNet mammal subtree (上位下位単語ペアのセット)
学習方法半径: エッジから算出角度: Welsch損失+SVGDで学習次元 2次元 ▪ 実験設定 ▪ 結果 • 単語は円状にばらけて分布 • 似た動物が近くに位置し，階層性が見られる 29

実験2 Wordnet Noun Subtree 30 (a) Squared Loss (c) Welsch
Loss + SVGD (b) Welsch Loss Welsch損失とSVGDを両方用いることで単語がすべての方位に均等に分布 5次元で学習しそのうちの2次元部分を抽出 30

実験3 Noun Subtree Link Prediction (Ganea 2018) 31 単語ペアが上位下位関係を持つ (エッジが存在する)かを判定する
2クラス分類評価尺度: F1 空間モデル 5次元 10次元訓練に使⽤したエッジの割合 10% 25% 50% 10% 25% 50% ユークリッド Polar 78.5% 79.9% 81.8% 82.2% 81.6% 82.3% Simple 71.3% 73.8% 72.8% 75.4% 78.4% 78.1% Order 70.2% 75.9% 81.7% 69.7% 79.4% 84.1% Cone 69.7% 75.0% 77.4% 81.5% 84.5% 81.6% Disk 38.9% 42.5% 45.1% 54.0% 65.8% 72.0% 双曲 Poincare 70.2% 78.2% 83.6% 71.4% 82.0% 85.3% Cone 80.1% 86.0% 92.8% 85.9% 91.0% 94.5% Disk 69.1% 81.3% 83.1% 79.7% 90.5% 94.2% Polar embeddingは5次元で既存のユークリッド空間の分散表現と比べ高精度を達成 31

32 Polar Embedding: 半径で単語の抽象性，角度で類似性を表現 • 極座標を用いることで抽象性と類似性を別々に学習 • Welsch損失＋SVGDで角度を最適化 ▪ 概要
▪ 結果 • 低次元(2, 5,10)次元で階層構造を直感的に表現する分散表現を作成 →変わった関数をNLPに持ち込むことで1つ研究ネタになる・研究室でのロバストな損失関数 (Minimax Concave Penalty) の議論から着想を得た・NLPでもロバスト性を活かしたい → Welsch損失を用いた論文[5]を発見 32 結論 [6] Sparse ECG Denoising with Generalized Minimax Concave Penalty https://www.mdpi.com/1424-8220/19/7/1718 (MC penaltyの図) [7] A General and Adaptive Robust Loss Function https://arxiv.org/pdf/1701.03077.pdf 参考リーマン系 Spherical Text Embedding https://arxiv.org/pdf/1911.01196.pdf slide https://yumeng5.github.io/files/Spherical-Text-Embedding.pdf

大規模言語モデル×信号処理/最適化 33 33 ▪ 背景・大抵の大規模言語モデルを用いた研究・何かしら作る・ひたすらパラメータチューニング・いい結果が出ると論文化 →
パラメータチューニングしたくない… ▪ お気持ち・(再)就職して(大規模な)計算資源が使用可能に・世は大規模言語モデル時代・皆が使える(大きさの)モデルの研究をしたい → BERTから手を出してみるか

背景事前学習済モデル×構⽂情報の変遷 34 追加モジュール事前学習のみ事前学習＋追加モジュール・機械読解 (Z.Zhang AAAI) ・言語理解
(Z.Zhang AAAI) ・翻訳 (Bugliarello ACL) ・係り受け予測 (Wang ACL) ・係り受け距離予測 (Xu ACL) ・対照学習 (S.Zhang ACL) ・係り受けマスク (Tian ACL) ・混合モデル (Yang ACL) 構文情報を事前学習のみを用いてモデルに埋め込む →モデル構造は不変、後段タスクで使いやすい 2020 ---------->-----------------2021--------------->---------------2022 34

事前学習済モデル×構⽂情報の効果 35 (Xu ACL2021) 35

破滅的忘却を防ぐ最適化関数 36 ▪ 課題事前学習済モデルに構文情報を追加学習させる → 破滅的忘却が発生 ▪ 解決案最適化関数の選択
・Gradient Surgery (GS) 2つのタスクの勾配の対立部分を削除・Elastic Weight Consolidation (EWC) 前のタスクで重要なパラメータの値を保持 θ パラメータ ▪ 事前学習(MLM)で低損失の領域 ▪ 構文追加学習で低損失の領域 • SGD, AdamW GS EWC • • 𝜃,-, 𝜃 ,-,/構文 𝜃構文破滅的忘却 ▪ 構文事前学習時の最適化 36

Gradient Surgery 37 37 grad_multitask = grad_task1 (gj ) +
grad_task2 (gi ) If gj ・gi < 0 projection 最適化前のタスクのデータの使い⽅マルチタスク学習 Gradient Surgery 勾配を⾜して更新継続学習 Elastic Weight Consolidation パラメータの重要度判定

Elastic Weight Consolidation 1/2 38 38 最適化前のタスクのデータの使い⽅マルチタスク学習 Gradient
Surgery 勾配を⾜して更新継続学習 Elastic Weight Consolidation パラメータの重要度判定 grad_continuous = grad_taskB + taskAに関する制約項 θA *: previously found solution for task A F: (diagonal) Fisher information matrix ▪ 学習法 1. task Aを学習 2. nサンプルのtask Aを用いてFisher情報行列を計算 3. task Aに関する制約項を付けてtask Bの勾配を更新 Overcoming catastrophic forgetting in neural networks https://arxiv.org/abs/1612.00796

Elastic Weight Consolidation 2/2 39 39 ▪ 制約項なし (青) 通常の最適化
→破滅的忘却の発生 ▪ L2 (緑) task Aに関するL2制約をかける task Bのよいパラメータを見つけにくくなる ▪ EWC (赤) task Aで重要でないパラメータを更新・taskAで獲得した知識を保ちつつtask Bに最適化可能

信号処理/言語処理の対比 40 40 ▪ 所感・信号処理に興味ある若手を増やしたい・言語処理と, 人/研究の異分野交流をしたい・構想: NLP
× 信号処理/最適化現状: 細々と一人で異分野融合中 ▪ 現状信号処理 (音声音響除く) 言語処理に使える研究のアイデアが豊富 / 若手少なめ言語処理信号処理/最適化に馴染みがない人が多い / 若手多め実はNLP2023の前に1回沖縄に行っていました (音声・音響・信号処理ワークショップ)

ChatGPTに聞いてみた(2回目) 41 41 2 異なる分野の手法を組み合わせる今日のお話 1 他の分野の専門家と協力する → まずは知り合う機会を作る

宣伝 NLP若手の会 (YANS) 42 42 NLPをもっと知りたい / NLPや異分野の研究者と交流したいと思った方へ ▪
YANS NLPおよび関連分野の若手コミュニティ・夏: シンポジウム (ハッカソン) ・春: YANS懇 (言語処理学会に合わせて開催) 今年のYANSは一味違う・久々のオンサイト開催 🎉 ・異分野交流ハッカソン・NLP初心者だけでなく若手研究者ら(異分野含む)の参加を歓迎 (切望) 興味を持っていただいた方々@yans_officialで5月以降順次情報を公開します！

第12回ザッピングセミナー発表資料

第12回ザッピングセミナー発表資料

Featured

Transcript