Upgrade to Pro — share decks privately, control downloads, hide ads and more …

第12回ザッピングセミナー発表資料

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for Ran Iwamoto Ran Iwamoto
April 02, 2023
480

 第12回ザッピングセミナー発表資料

Avatar for Ran Iwamoto

Ran Iwamoto

April 02, 2023
Tweet

Transcript

  1. 自己紹介 岩本蘭 2 2 日本IBM 東京基礎研究所 研究員 / 慶應義塾大学 博士課程2年

    ▪ 経歴 ▪ 研究 自然言語処理 2021.3 慶應義塾大学修士課程 卒業 研究: 信号処理→自然言語処理 2021.4 富士フイルムビジネスイノベーション 入社 2022.4 日本IBM入社 / 慶應義塾大学博士課程 入学 Twitter: @Ran_Iwamoto ・多言語: 多言語感情分析/構文解析/語彙資源など ・階層性: 単語埋め込みなど 会場裏のビーチ
  2. はじめに 3 3 ▪ 概要 NLP2023参加報告 ・現地(沖縄)の模様 ・ChatGPT ・注目研究 発表者の研究について

    ・極座標を用いた階層構造ベクトル学習 ・破滅的忘却を防ぐ最適化関数を用いた構文構造の追加学習 ・構想: NLP × 信号処理/最適化 (人も技術も) ▪ 目的 NLPが専門ではない人 : NLPをざっくり知る/自分の研究分野の応用先の候補に入れてもらう NLPが専門の人 : NLP × 信号処理/最適化に興味を持ってもらう
  3. NLP2023 学会概要 4 4 ・2023年3月13日(月) ~ 17日(金) ・4年ぶりの現地(ハイブリッド)開催 @沖縄, 宜野湾市

    ・発表件数 579件,参加者数1828人 (事前+直前登録数1761人),スポンサー 80団体 ・slackでの活発な議論 (ワークスペース参加者数1677人) 出典: 会場図 https://www.anlp.jp/nlp2023/, 統計 https://www.anlp.jp/guide/nenji_stat.html 第16回については,情報処理学会全国大会と共催したため,参加者数の統計は無し.大会のセッションでは常時300~400名程度の聴講者があったとの情報より350としてグラフに記載. 0 200 400 600 800 1000 1200 1400 1600 1800 2000 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 ⼈数 回数 ⾔語処理学会年次⼤会 発表件数 参加者数
  4. ChatGPTとは 10 10 自己矛盾が 起きることも→ 詳しく知りたい人向けの資料 (ほぼ時系列順, 敬称略) ・横井祥 (東北大)

    ChatGPTと自然言語処理/言語の意味の計算と最適輸送 ・久本空海 (MIERUNE) 沖縄とChatGPT、地理空間と言語処理 ・岡崎直観 (東工大) 大規模言語モデルの驚異と脅威
  5. 現地参加者の感想 14 14 新しいおもちゃが出てきた! またすごいのが出た (パネル翌日にGPT-4が登場) 博論の序章を書き直したい 自分の研究に使えそう (知識埋め込み) BERTの時みたいに論文にChatGPTが

    関数として論文に登場しそう? 完全に負けた(対話) 正誤性判定の研究を アピールできる! 私の分野には影響ないかな (形態素解析)
  6. NLP2024 15 15 ▪ 現地参加者の感想 ・来年も現地参加したい ・ポーアイ(ポートアイランドの略)の内か外に 泊まるか迷う ・肉食べたい ▪

    概要 ・日時: 2024年3月11日(月)〜15日(金) ・会場: 神戸国際会議場 (ハイブリッド開催) ・30周年記念行事: 特別招待講演, 特別セッション (予定)
  7. NLP2023注目論文 16 16 ▪ お気持ち ・ガウス埋め込みに基づく文表現生成 陽田祥平, 塚越駿, 笹野遼平, 武田浩一

    (名大) 若手奨励賞 ・計算資源が限られた複数組織での出力選択による協働の検討 伊藤郁海 (東北大), 伊藤拓海 (東北大/Langsmith), 鈴木潤, 乾健太郎 (東北大/理研) 委員特別賞, 日本電気賞 ▪ 目次 ・大規模言語モデルの台頭の渦中にあっても,ビジネスでは小さい言語モデルの活用も発展途上 ・小さいモデルの活用にこそ信号処理/機械学習の知見が使えそう? ※この先の説明での図は全て論文中より引用
  8. ガウス埋め込みに基づく文表現生成 18 18 ▪ 紹介理由 ・ガウス分布/ガウス過程は意味変化の研究でもよく使用される [3][4][5] (全てNLP2022の研究) ・〇〇の研究において,単語の意味をベクトルで表現→分布で表現 は王道でわかりやすい

    ・機械学習/数理系の方や,逆に文系出身の方でもガウス〇〇は取りかかりやすい研究(主観) ▪ 今後の発展 ・表現力の向上 vs 計算量 本研究ではガウス分布の分散共分散行列をDiagonalと仮定 ・単語を対象とした既存研究 [1] ではSpherical, Diagonalを比較 ・複数の意味を表現する方法に発展性あり ・(単語の場合だと)混合ガウス分布を用いる[2]など [1] Word Representation via Gaussian Embedding https://arxiv.org/abs/1412.6623 [2] Probablistic FastText for Multi-Sense Word Embeddings https://arxiv.org/pdf/1806.02901.pdf [3] 単語分散表現を用いた新型コロナウイルスによる意味変化検出 https://www.anlp.jp/proceedings/annual_meeting/2022/pdf_dir/PT3-8.pdf [4] ガウス確率場による単語の意味変化と語義数の同時推定 https://www.anlp.jp/proceedings/annual_meeting/2022/pdf_dir/A7-1.pdf [5] 分散表現を用いたロマンス語同源語同士の意味変化の分析 https://www.anlp.jp/proceedings/annual_meeting/2022/pdf_dir/D7-3.pdf
  9. 計算資源が限られた複数組織での出力選択による協働の検討 19 19 ▪ 概要 ・計算資源(訓練データ量&モデルサイズ)に着目し,計算資源が少ない複数の組織が協力した場合 より多くの計算資源を費やして作成されたモデルの性能に勝てるのかを英日翻訳タスクで検証 ・組織ごとに独自のデータを所有し,組織間のデータの共有はしない状況を想定 ▪ 新規性

    ・(翻訳の)候補文集合からの出力選択 - 参照なし評価指標(COMETKIWI)に基づく出力選択: 各文のCOMETKIWIスコアを計算,最も高スコアの文を選択 (COMETKIWI: 翻訳の原文とモデルの出力を使用する評価指標.) - コサイン類似度に基づく出力選択: 他の全候補文に対して最も意味的に近い文を1つ選択 アンサンブルに比べ辞書の統一やモデルの出力分布の共有が不要 COMET BLEURT BLEU ⼩組織単体 0.7605 0.5926 18.4 ⼤組織 0.8026 0.6439 22.3 参照なし出⼒選択 0.8130 0.6474 20.7 アンサンブル 0.7804 0.6172 20.5 ※小組織10個での結果
  10. 計算資源が限られた複数組織での出力選択による協働の検討 20 20 ▪ 今後の発展 ・小組織間でデータサイズが異なる場合どうなるか ・モデルサイズの格差をもっと大きくする ・訓練データの分布を変える(現在は同じデータを使用) ▪ 紹介理由

    ・(今後の発展可能性も含めて,)企業などで使えそうな現実的な設定 ・信号処理でも似たような状況がある ・複数の小さなセンサーからの出力を集めて中心となるコンピュータで何かを予測 など
  11. 研究紹介 NLP×信号処理/最適化 21 21 ▪ 概要 ・極座標を用いた階層構造埋め込み (NLP2021) ・破滅的忘却を防ぐ最適化関数 ・構想:

    NLP × 信号処理/最適化 (人も技術も) ▪ 目的 NLPが専門ではない人 : NLPをざっくり知る/自分の研究分野の応用先の候補に入れてもらう NLPが専門の人 : NLP × 信号処理/最適化に興味を持ってもらう
  12. 極座標を用いた階層構造埋め込み 背景 23 訓練時/使用時の空間のギャップをなくし,階層構造を表現したい → 極座標を使用 既存分散表現 階層構造の直感的な表現 よくある分散表現 (Word2vec,

    Gloveなど) 訓練時 : ユークリッド空間全体で学習 使用時 : 正規化してcos類似度で評価 問題点 ・訓練時と使用時に用いる空間が異なる ・階層構造を表現していない 23
  13. Polar Embedding 24 半径:単語の抽象度 角度:単語の類似度 ▪階層構造を直感的に表現 ▪使いやすい • 低次元 •

    ユークリッド空間内で学習/使用可能 (既存研究としてPoincare embeddingなどがあるが,双曲空間を用いるため応用が難しい) 単語ベクトルの学習に極座標を使用 • 中心からの距離(半径)と 角度でベクトルを表現 • デカルト座標との変換が可能 極座標 3次元極座標 24
  14. 学習⽅法 25 ▪ 角度の最適化 変わった関数を使用 極座標で角度を最適化するために2つの技術を使用 • Welsch損失(Dennis and Welsch

    1978) • Stain variational gradient descent (SVGD; Liu et al. 2016) Polar Embeddingの特徴: 抽象度(半径)と類似度(角度)のパラメータが独立 • 別々に最適化可能 • 半径を正規化(𝑟 = 1)するとGloveなどの既存分散表現と同様に使用可能. ▪半径の最適化 • 頻度情報や木構造の深さから計算 • 抽象度に関する既存の言語資源を使用 25
  15. ⾓度の学習 26 ▪ 𝑛次元極座標での単語表現 半径 𝑟 : 単語の抽象性を表現 角度𝜃, 𝜑!(𝑘

    ∈ 1, 2, … , 𝑛 − 2) : 単語の類似性を表現 ▪極座標の特徴 ・角度 𝜑!, 𝜃 が異なる範囲をとる (𝜃 ∈ 0, 2𝜋 , 𝜑! ∈ 0, 𝜋 ) ・デカルト座標との変換が可能 𝜃は円周上,𝜑!は半円上で最適化 ※角度の学習の際は𝑟 = 1とする 3次元極座標 → Polar Embeddingでの角度の最適化↓ 26
  16. Welsch損失(Dennis & Welsch, 1978) 27 ▪ なぜ(二乗誤差ではなく)Welsch損失を用いる? d: ある次元での角度の差, c:

    パラメータ Welsch損失 𝐿! (𝑑) = "! # 1 − exp − $! #"! 勾配 %&"($) %$ = $ # exp − $! #"! • 二乗誤差は十分離れたnegative sampleをさらに遠ざける • 極座標は角度の範囲に制限がある → Welsch損失で勾配を制限し,単語が極に集中することを防ぐ ▪ 性質 単語同士が似ていない(角度の差が大きい)時は更新量を小さくする 勾配 Welsch損失 27
  17. Stain Variational Gradient Descent (Liu et al. 2016) 28 SVGD:

    現在の分布と理想分布とのKL divergenceを最小化する(ある分布を別の分布に近づける)手法 ▪ SVGDの役割 低次元のユークリッド空間を広く,効率的に使いたい → 学習に伴う単語分布の偏りを減らし, (𝑟 = 1のとき) 球面上に単語が一様に分布するよう補正する 球面上の一様分布(理想分布) 現在の分布 28
  18. 実験1 Wordnet Mammal Subtree 29 データセット WordNet mammal subtree (上位下位単語ペアのセット)

    学習方法 半径: エッジから算出 角度: Welsch損失+SVGDで学習 次元 2次元 ▪ 実験設定 ▪ 結果 • 単語は円状にばらけて分布 • 似た動物が近くに位置し,階層性が見られる 29
  19. 実験2 Wordnet Noun Subtree 30 (a) Squared Loss (c) Welsch

    Loss + SVGD (b) Welsch Loss Welsch損失とSVGDを両方用いることで単語がすべての方位に均等に分布 5次元で学習しそのうちの2次元部分を抽出 30
  20. 実験3 Noun Subtree Link Prediction (Ganea 2018) 31 単語ペアが上位下位関係を持つ (エッジが存在する)かを判定する

    2クラス分類 評価尺度: F1 空間 モデル 5次元 10次元 訓練に使⽤したエッジの割合 10% 25% 50% 10% 25% 50% ユークリッド Polar 78.5% 79.9% 81.8% 82.2% 81.6% 82.3% Simple 71.3% 73.8% 72.8% 75.4% 78.4% 78.1% Order 70.2% 75.9% 81.7% 69.7% 79.4% 84.1% Cone 69.7% 75.0% 77.4% 81.5% 84.5% 81.6% Disk 38.9% 42.5% 45.1% 54.0% 65.8% 72.0% 双曲 Poincare 70.2% 78.2% 83.6% 71.4% 82.0% 85.3% Cone 80.1% 86.0% 92.8% 85.9% 91.0% 94.5% Disk 69.1% 81.3% 83.1% 79.7% 90.5% 94.2% Polar embeddingは5次元で 既存のユークリッド空間の 分散表現と比べ高精度を達成 31
  21. 32 Polar Embedding: 半径で単語の抽象性,角度で類似性を表現 • 極座標を用いることで抽象性と類似性を別々に学習 • Welsch損失+SVGDで角度を最適化 ▪ 概要

    ▪ 結果 • 低次元(2, 5,10)次元で階層構造を直感的に表現する分散表現を作成 →変わった関数をNLPに持ち込むことで1つ研究ネタになる ・研究室でのロバストな損失関数 (Minimax Concave Penalty) の 議論から着想を得た ・NLPでもロバスト性を活かしたい → Welsch損失を用いた論文[5]を発見 32 結論 [6] Sparse ECG Denoising with Generalized Minimax Concave Penalty https://www.mdpi.com/1424-8220/19/7/1718 (MC penaltyの図) [7] A General and Adaptive Robust Loss Function https://arxiv.org/pdf/1701.03077.pdf 参考 リーマン系 Spherical Text Embedding https://arxiv.org/pdf/1911.01196.pdf slide https://yumeng5.github.io/files/Spherical-Text-Embedding.pdf
  22. 大規模言語モデル×信号処理/最適化 33 33 ▪ 背景 ・大抵の大規模言語モデルを用いた研究 ・何かしら作る ・ひたすらパラメータチューニング ・いい結果が出ると論文化 →

    パラメータチューニングしたくない… ▪ お気持ち ・(再)就職して(大規模な)計算資源が使用可能に ・世は大規模言語モデル時代 ・皆が使える(大きさの)モデルの研究をしたい → BERTから手を出してみるか
  23. 背景 事前学習済モデル×構⽂情報の変遷 34 追加モジュール 事前学習のみ 事前学習+追加モジュール ・機械読解 (Z.Zhang AAAI) ・言語理解

    (Z.Zhang AAAI) ・翻訳 (Bugliarello ACL) ・係り受け予測 (Wang ACL) ・係り受け距離予測 (Xu ACL) ・対照学習 (S.Zhang ACL) ・係り受けマスク (Tian ACL) ・混合モデル (Yang ACL) 構文情報を事前学習のみを用いてモデルに埋め込む →モデル構造は不変、後段タスクで使いやすい 2020 ---------->-----------------2021--------------->---------------2022 34
  24. 破滅的忘却を防ぐ最適化関数 36 ▪ 課題 事前学習済モデルに構文情報を追加学習させる → 破滅的忘却が発生 ▪ 解決案 最適化関数の選択

    ・Gradient Surgery (GS) 2つのタスクの勾配の対立部分を削除 ・Elastic Weight Consolidation (EWC) 前のタスクで重要なパラメータの値を保持 θ パラメータ ▪ 事前学習(MLM)で低損失の領域 ▪ 構文追加学習で低損失の領域 • SGD, AdamW GS EWC • • 𝜃,-, 𝜃 ,-,/構文 𝜃構文 破滅的忘却 ▪ 構文事前学習時の最適化 36
  25. Gradient Surgery 37 37 grad_multitask = grad_task1 (gj ) +

    grad_task2 (gi ) If gj ・gi < 0 projection 最適化 前のタスクのデータの使い⽅ マルチタスク学習 Gradient Surgery 勾配を⾜して更新 継続学習 Elastic Weight Consolidation パラメータの重要度判定
  26. Elastic Weight Consolidation 1/2 38 38 最適化 前のタスクのデータの使い⽅ マルチタスク学習 Gradient

    Surgery 勾配を⾜して更新 継続学習 Elastic Weight Consolidation パラメータの重要度判定 grad_continuous = grad_taskB + taskAに関する制約項 θA *: previously found solution for task A F: (diagonal) Fisher information matrix ▪ 学習法 1. task Aを学習 2. nサンプルのtask Aを用いてFisher情報行列を計算 3. task Aに関する制約項を付けてtask Bの勾配を更新 Overcoming catastrophic forgetting in neural networks https://arxiv.org/abs/1612.00796
  27. Elastic Weight Consolidation 2/2 39 39 ▪ 制約項なし (青) 通常の最適化

    →破滅的忘却の発生 ▪ L2 (緑) task Aに関するL2制約をかける task Bのよいパラメータを見つけにくくなる ▪ EWC (赤) task Aで重要でないパラメータを更新 ・taskAで獲得した知識を保ちつつtask Bに最適化可能
  28. 信号処理/言語処理の対比 40 40 ▪ 所感 ・信号処理に興味ある若手を増やしたい ・言語処理と, 人/研究の異分野交流をしたい ・構想: NLP

    × 信号処理/最適化 現状: 細々と一人で異分野融合中 ▪ 現状 信号処理 (音声音響除く) 言語処理に使える研究のアイデアが豊富 / 若手少なめ 言語処理 信号処理/最適化に馴染みがない人が多い / 若手多め 実はNLP2023の前に1回沖縄に行っていました (音声・音響・信号処理ワークショップ)
  29. 宣伝 NLP若手の会 (YANS) 42 42 NLPをもっと知りたい / NLPや異分野の研究者と交流したい と思った方へ ▪

    YANS NLPおよび関連分野の若手コミュニティ ・夏: シンポジウム (ハッカソン) ・春: YANS懇 (言語処理学会に合わせて開催) 今年のYANSは一味違う ・久々のオンサイト開催 🎉 ・異分野交流ハッカソン ・NLP初心者だけでなく若手研究者ら(異分野含む)の参加を歓迎 (切望) 興味を持っていただいた方々@yans_officialで5月以降順次情報を公開します!