Slide 1

Slide 1 text

Task-Oriented Word Segmentation Tatsuya Hiraoka Okazaki-lab Doctoral Dissertation 2022/1/5 博⼠論⽂発表会(平岡達也) 1

Slide 2

Slide 2 text

本研究の概要 • ⽬的: • 後段タスクに応じて適切な単語分割を探索し,⾃然⾔語処理タスクで の性能向上を⽬指す • 解決⽅策: • 単語分割と後段モデルを同時に最適化することで, 後段タスクに応じた適切な単語分割を学習 • 貢献: • 後段モデルと単語分割を同時に最適化する初めての試みである • タスクやモデルに応じた単語分割を獲得できる⼿法を提案 • 複数のNLPタスクで性能向上に寄与する 2022/1/5 博⼠論⽂発表会(平岡達也) 2 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

Slide 3

Slide 3 text

単語分割 どちらも「単語分割」と呼ぶことにします 今⽇はとてもいい天気ですね 今⽇ は とても いい 天気 です ね Itʼs sunny today . It ##ʼ ##s sun ##ny to ##day . 2022/1/5 博⼠論⽂発表会(平岡達也) 3 ⽂→単語列 単語列→サブワード列 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

Slide 4

Slide 4 text

text text … text text … 単語分割器 Corpus Tokenized corpus 後段モデル 問題意識 • 「前処理」としての単語分割に問題意識 • ⼀般的なNLPにおける単語分割と後段モデルの関係 - ⽂書分類 - 機械翻訳 - 固有表現抽出 - … - MeCab - BPE - … 2022/1/5 博⼠論⽂発表会(平岡達也) 4 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

Slide 5

Slide 5 text

text text … text text … 単語分割器 Corpus Tokenized corpus 後段モデル 問題意識 • 「前処理」としての単語分割に問題意識 • ⼀般的なNLPにおける単語分割と後段モデルの関係 - ⽂書分類 - 機械翻訳 - 固有表現抽出 - … - MeCab - BPE - … 適切な単語分割で性能向上 →後段タスク/モデルに依存* 2022/1/5 博⼠論⽂発表会(平岡達也) 5 *Xu+, 2008; Chang+, 2008; Nguyen+, 2010; Domingo+, 2018; Hiraoka+, 2019; Gowada and May, 2020. 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

Slide 6

Slide 6 text

text text … text text … 単語分割器 Corpus Tokenized corpus 後段モデル 問題意識 • 「前処理」としての単語分割に問題意識 • ⼀般的なNLPにおける単語分割と後段モデルの関係 - ⽂書分類 - 機械翻訳 - 固有表現抽出 - … - MeCab - BPE - … 前処理として単語分割を 決定しなければいけない 前処理 適切な単語分割で性能向上 →後段タスク/モデルに依存* 2022/1/5 博⼠論⽂発表会(平岡達也) 6 *Xu+, 2008; Chang+, 2008; Nguyen+, 2010; Domingo+, 2018; Hiraoka+, 2019; Gowada and May, 2020. 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

Slide 7

Slide 7 text

text text … text text … 単語分割器 Corpus Tokenized corpus 後段モデル 問題意識 • 「前処理」としての単語分割に問題意識 • ⼀般的なNLPにおける単語分割と後段モデルの関係 - ⽂書分類 - 機械翻訳 - 固有表現抽出 - … - MeCab - BPE - … 前処理として単語分割を 決定しなければいけない 前処理 適切な単語分割で性能向上 →後段タスク/モデルに依存* GAP 2022/1/5 博⼠論⽂発表会(平岡達也) 7 *Xu+, 2008; Chang+, 2008; Nguyen+, 2010; Domingo+, 2018; Hiraoka+, 2019; Gowada and May, 2020. 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

Slide 8

Slide 8 text

解決方策 • 後段モデルの性能が向上するように単語分割を更新する text text … text text … 単語分割器 Corpus Tokenized corpus 後段モデル 後段モデルと同時に単語分割器を学習 単語分割を更新 2022/1/5 博⼠論⽂発表会(平岡達也) 8 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

Slide 9

Slide 9 text

従来の単語分割 2022/1/5 博⼠論⽂発表会(平岡達也) 9 辞書を⽤いた単語分割 教師あり単語分割 教師なし単語分割 text text … text text … 単語分割器 Corpus Tokenized corpus 後段モデル おおまかに3種類のアプローチ 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

Slide 10

Slide 10 text

従来の単語分割 2022/1/5 博⼠論⽂発表会(平岡達也) 10 辞書を⽤いた単語分割 教師あり単語分割 教師なし単語分割 • 主に⽇本語のMeCab,JUMAN++,Sudachi* • 辞書に含まれる単語候補とそのスコアをもとに分割 • ⼀般的には品詞推定と合わせて形態素解析として扱われる text text … text text … 単語分割器 Corpus Tokenized corpus 後段モデル 辞書引き *Kudo, 2006; Morita+, 2015; Takaoka+, 2018. 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

Slide 11

Slide 11 text

従来の単語分割 2022/1/5 博⼠論⽂発表会(平岡達也) 11 辞書を⽤いた単語分割 教師あり単語分割 教師なし単語分割 • 主に中国語で⽤いられる* • PKUやCTBなどのデータで学習したNNを⽤いた単語分割 text text … text text … 単語分割器 Corpus Tokenized corpus 後段モデル 単語分割 学習⽤データ 学習 *Yang+, 2017; Cai+, 2017; Yang+, 2018. 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

Slide 12

Slide 12 text

従来の単語分割 2022/1/5 博⼠論⽂発表会(平岡達也) 12 辞書を⽤いた単語分割 教師あり単語分割 教師なし単語分割 • 主に英語などのサブワード分割(BPE,SentencePiece*) • 後段⽤の学習データなどを⽤いて教師なしで単語分割を学習 text text … text text … 単語分割器 Corpus Tokenized corpus 後段モデル 教師なしで 単語分割を学習 *Sennrich+, 2016; Kudo and Richardson, 2018. 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

Slide 13

Slide 13 text

従来の単語分割 2022/1/5 博⼠論⽂発表会(平岡達也) 13 辞書を⽤いた単語分割 教師あり単語分割 教師なし単語分割 • 主に英語などのサブワード分割(BPE,SentencePiece*) • 後段⽤の学習データなどを⽤いて教師なしで単語分割を学習 • 提案⼿法は教師なし単語分割の流れを汲む • 後段タスクの情報を⽤いて単語分割を探索する亜種 text text … text text … 単語分割器 Corpus Tokenized corpus 後段モデル 教師なしで 単語分割を学習 +後段モデルの 情報も利⽤ *Sennrich+, 2016; Kudo and Richardson, 2018. 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

Slide 14

Slide 14 text

text text … text text … 単語分割器 Corpus Tokenized corpus 後段モデル 単語分割問題への取り組み 前処理 適切な単語分割で性能向上 →後段タスク/モデルに依存 GAP 2022/1/5 博⼠論⽂発表会(平岡達也) 14 前処理として単語分割を 決定しなければいけない 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

Slide 15

Slide 15 text

text text … text text … 単語分割器 Corpus Tokenized corpus 後段モデル 単語分割問題への取り組み 前処理 適切な単語分割で性能向上 →後段タスク/モデルに依存 GAP 2022/1/5 博⼠論⽂発表会(平岡達也) 15 サブワード正則化 複数の単語分割を 受け取る後段モデル 単語分割器の探索 おおまかに3種類の対処法 前処理として単語分割を 決定しなければいけない 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

Slide 16

Slide 16 text

単語分割問題への取り組み 2022/1/5 博⼠論⽂発表会(平岡達也) 16 サブワード正則化 複数の単語分割を 受け取る後段モデル 単語分割器の探索 … text text Corpus 単語分割器A 単語分割器B 単語分割器C … text text … text text … text text 複数の異なる単語分割器 複数の単語分割を受け取れる ように拡張した後段モデル • 後段モデルを拡張し,複数の単語分割を同時に⼊⼒する* • 複数の単語分割の中に,後段モデルに適したものがあるはず • 後段モデルの仕組みを⼤きく変える必要があり,処理も遅い *Chen+, 2017; Zhang and Yang, 2018; Yang+, 2018. 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

Slide 17

Slide 17 text

単語分割問題への取り組み 2022/1/5 博⼠論⽂発表会(平岡達也) 17 サブワード正則化 複数の単語分割を 受け取る後段モデル 単語分割器の探索 … text text Corpus 単語分割器 … text text … text text … text text 単語分割を毎回サンプリングして学習 • 学習エポックごとに使⽤する単語分割をサンプリング* • 後段モデルは複数の単語分割を学習事例に使⽤可能 • 後段モデルの構造を変える必要なし 後段モデル *Kudo, 2018; Hiraoka+, 2019; Provilkov+, 2019. 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

Slide 18

Slide 18 text

単語分割問題への取り組み 2022/1/5 博⼠論⽂発表会(平岡達也) 18 サブワード正則化 複数の単語分割を 受け取る後段モデル 単語分割器の探索 … text text Corpus 単語分割器A 単語分割器B 単語分割器C … text text … text text … text text 実際に性能を測ってみる • 何らかの指標で「適切な」単語分割器を選択 • 究極的には,あらゆる単語分割器で後段モデルを学習してみて, 性能が良いものを選択する • 現実的ではない 後段モデル 後段モデル 後段モデル 採⽤ Chang et al., 2008. 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

Slide 19

Slide 19 text

単語分割問題への取り組み 2022/1/5 博⼠論⽂発表会(平岡達也) 19 サブワード正則化 複数の単語分割を 受け取る後段モデル 単語分割器の探索 … text text Corpus 単語分割器 複数の or サンプリングした 単語分割で学習 • 提案⼿法は,複数の単語分割で後段モデルを学習しつつ, 「適切な」単語分割器を直接学習していく複合的なアプローチ 後段モデル 性能向上に繋がる 単語分割の情報を フィードバック … text text … text text … text text 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

Slide 20

Slide 20 text

本発表の流れ 2022/1/5 博⼠論⽂発表会(平岡達也) 20 ⽬的:後段タスクに応じた単語分割の最適化 Approach 1: ⽂書分類タスクに限定した 単語分割の最適化⼿法 Approach 2: 後段タスクの種類を限定しない 単語分割の最適化⼿法 実験:⽂書分類で性能向上 拡張 実験:⽂書分類,機械翻訳 で性能向上 分析 • 後処理として単語分割を最適化しても性能向上 • 最適化対象とは異なるタスクでは⼩さい性能向上 • タスクに応じて異なる単語分割を獲得 • マルチタスク学習では各タスクの性質を あわせ持った単語分割を獲得 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

Slide 21

Slide 21 text

⽬的:後段タスクに応じた単語分割の最適化 Approach 1: ⽂書分類タスクに限定した 単語分割の最適化⼿法 Approach 2: 後段タスクの種類を限定しない 単語分割の最適化⼿法 実験:⽂書分類で性能向上 拡張 実験:⽂書分類,機械翻訳 で性能向上 分析 • 後処理として単語分割を最適化しても性能向上 • 最適化対象とは異なるタスクでは⼩さい性能向上 • タスクに応じて異なる単語分割を獲得 • マルチタスク学習では各タスクの性質を あわせ持った単語分割を獲得 Approach 1 2022/1/5 博⼠論⽂発表会(平岡達也) 21 ⾃然⾔語処理 28号vol.2, 2021. 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

Slide 22

Slide 22 text

目的と解決方策(再掲) • 後段モデルの性能が向上するように単語分割を更新する text text … text text … 単語分割器 Corpus Tokenized corpus 後段モデル 後段モデルと同時に単語分割器を学習 単語分割を更新 2022/1/5 博⼠論⽂発表会(平岡達也) 22 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

Slide 23

Slide 23 text

コアアイディア • 後段モデルの性能が向上するように単語分割を更新する text text … text text … 単語分割器 Corpus Tokenized corpus 後段モデル 後段モデルと同時に単語分割器を学習 単語分割を更新 ニューラルネットで作成 ↓ 後段モデルの損失で更新 2022/1/5 博⼠論⽂発表会(平岡達也) 23 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

Slide 24

Slide 24 text

手法概観 法改正反対 法/改正/反対 法/改/正/反対 法/改/正反対 Neural Unigram LM N-best分割 2022/1/5 博⼠論⽂発表会(平岡達也) 24 ニューラル⾔語モデル による単語分割器 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

Slide 25

Slide 25 text

手法概観 法改正反対 法/改正/反対 法/改/正/反対 法/改/正反対 Neural Unigram LM N-best分割 2022/1/5 博⼠論⽂発表会(平岡達也) 25 ニューラル⾔語モデル による単語分割器 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ 単語分割の確率を単語確率の積で計算 𝑝 法/改正/反対 = 𝑝 法 𝑝 改正 𝑝 反対 単語確率が学習可能パラメータ

Slide 26

Slide 26 text

手法概観 法改正反対 法/改正/反対 法/改/正/反対 法/改/正反対 Neural Unigram LM N-best分割 エ ン コ $ ダ $ 𝒗!! 𝒗!" 𝒗!# 2022/1/5 博⼠論⽂発表会(平岡達也) 26 ニューラル⾔語モデル による単語分割器 ⽂ベクトル LSTM, BiLSTM, Transformerなど 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ 単語分割の確率を単語確率の積で計算 𝑝 法/改正/反対 = 𝑝 法 𝑝 改正 𝑝 反対 単語確率が学習可能パラメータ

Slide 27

Slide 27 text

手法概観 法改正反対 法/改正/反対 法/改/正/反対 法/改/正反対 Neural Unigram LM N-best分割 × 𝑝 法/改正/反対 𝑍 × 𝑝 法/改/正/反対 𝑍 × 𝑝 法/改/正反対 𝑍 単語分割の確率で ⽂ベクトルに重み付け * 重みの総和は1 エ ン コ $ ダ $ 𝒗!! 𝒗!" 𝒗!# 2022/1/5 博⼠論⽂発表会(平岡達也) 27 ニューラル⾔語モデル による単語分割器 ⽂ベクトル LSTM, BiLSTM, Transformerなど 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ 単語分割の確率を単語確率の積で計算 𝑝 法/改正/反対 = 𝑝 法 𝑝 改正 𝑝 反対 単語確率が学習可能パラメータ

Slide 28

Slide 28 text

手法概観 法改正反対 法/改正/反対 法/改/正/反対 法/改/正反対 正解ラベル: Negative Neural Unigram LM N-best分割 × 𝑝 法/改正/反対 𝑍 × 𝑝 法/改/正/反対 𝑍 × 𝑝 法/改/正反対 𝑍 Σ 単語分割の確率で ⽂ベクトルに重み付け * 重みの総和は1 エ ン コ $ ダ $ 𝒗!! 𝒗!" 𝒗!# 𝒗! ℒ% MLP 損 失 関 数 2022/1/5 博⼠論⽂発表会(平岡達也) 28 ニューラル⾔語モデル による単語分割器 ⽂ベクトル LSTM, BiLSTM, Transformerなど 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ 単語分割の確率を単語確率の積で計算 𝑝 法/改正/反対 = 𝑝 法 𝑝 改正 𝑝 反対 単語確率が学習可能パラメータ

Slide 29

Slide 29 text

ニューラル⾔語モデル による単語分割器 手法概観 法改正反対 法/改正/反対 法/改/正/反対 法/改/正反対 正解ラベル: Negative Neural Unigram LM N-best分割 × 𝑝 法/改正/反対 𝑍 × 𝑝 法/改/正/反対 𝑍 × 𝑝 法/改/正反対 𝑍 Σ 単語分割の確率で ⽂ベクトルに重み付け * 重みの総和は1 エ ン コ $ ダ $ 𝒗!! 𝒗!" 𝒗!# 𝒗! ℒ% 損 失 関 数 2022/1/5 博⼠論⽂発表会(平岡達也) 29 ⽂ベクトル MLP LSTM, BiLSTM, Transformerなど 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ 分類器の更新 単語分割の確率を単語確率の積で計算 𝑝 法/改正/反対 = 𝑝 法 𝑝 改正 𝑝 反対 単語確率が学習可能パラメータ

Slide 30

Slide 30 text

単語分割の確率を単語確率の積で計算 𝑝 法/改正/反対 = 𝑝 法 𝑝 改正 𝑝 反対 ニューラル⾔語モデル による単語分割器 手法概観 法改正反対 法/改正/反対 法/改/正/反対 法/改/正反対 正解ラベル: Negative Neural Unigram LM N-best分割 × 𝑝 法/改正/反対 𝑍 × 𝑝 法/改/正/反対 𝑍 × 𝑝 法/改/正反対 𝑍 Σ 単語分割の確率で ⽂ベクトルに重み付け * 重みの総和は1 エ ン コ $ ダ $ 𝒗!! 𝒗!" 𝒗!# 𝒗! ℒ% 損 失 関 数 2022/1/5 博⼠論⽂発表会(平岡達也) 30 ⽂ベクトル MLP LSTM, BiLSTM, Transformerなど 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ 分類器の更新 単語確率が学習可能パラメータ ℒ! が⼩さくなる単語分割に⾼ い確率を与えるように更新

Slide 31

Slide 31 text

推論時の単語分割 • 推論時は学習済みの単語分割器を⽤いて1-best分割 2022/1/5 博⼠論⽂発表会(平岡達也) 31 0 0.2 0.4 0.6 0.8 Positive Negative ラベルの予測確率 法改正反対 法/改/正/反対 Neural Unigram LM 1-best分割 MLP エ ン コ $ ダ $ 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

Slide 32

Slide 32 text

単語分割器の初期化 • 単語分割器はSentencePiece*で学習した語彙・単語確率で初期化 • 与えられた語彙から適切な単語分割を求める 2022/1/5 博⼠論⽂発表会(平岡達也) 32 法改正反対 法/改正/反対 法/改/正/反対 法/改/正反対 Neural Unigram LM N-best分割 × 𝑝 法/改正/反対 𝑍 × 𝑝 法/改/正/反対 𝑍 × 𝑝 法/改/正反対 𝑍 Σ 単語分割の確率で ⽂ベクトルに重み付け * 重みの総和は1 エ ン コ $ ダ $ 𝒗!! 𝒗!" 𝒗!# 𝒗! ℒ% MLP 損 失 関 数 * Kudo and Richardson, 2018. 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

Slide 33

Slide 33 text

文書分類タスクで性能向上 タスク ⾔語 単語分割の 最適化なし 単語分割の 最適化あり 感情分析 中 92.79 92.93 ⽇ 86.51 87.39 英 77.31 79.04 レビューのジャンル予測 中 47.95 48.22 ⽇ 47.86 50.21 英 71.19 71.88 レビューのレート予測 中 49.41 49.63 ⽇ 52.30 53.19 英 67.53 67.68 SNLI 英 76.75 77.04 2022/1/5 博⼠論⽂発表会(平岡達也) 33 • ⽂書分類モデルのエンコーダーはBiLSTM 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ F1値(%),5回試⾏の平均,下線: ベースラインと有意差 (McNemar検定p<0.05)

Slide 34

Slide 34 text

文書分類タスクで性能向上 タスク ⾔語 単語分割の 最適化なし 単語分割の 最適化あり 感情分析 中 92.79 92.93 ⽇ 86.51 87.39 英 77.31 79.04 レビューのジャンル予測 中 47.95 48.22 ⽇ 47.86 50.21 英 71.19 71.88 レビューのレート予測 中 49.41 49.63 ⽇ 52.30 53.19 英 67.53 67.68 SNLI 英 76.75 77.04 2022/1/5 博⼠論⽂発表会(平岡達也) 34 Weibo, Twitter • ⽂書分類モデルのエンコーダーはBiLSTM 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ F1値(%),5回試⾏の平均,下線: ベースラインと有意差 (McNemar検定p<0.05)

Slide 35

Slide 35 text

文書分類タスクで性能向上 タスク ⾔語 単語分割の 最適化なし 単語分割の 最適化あり 感情分析 中 92.79 92.93 ⽇ 86.51 87.39 英 77.31 79.04 レビューのジャンル予測 中 47.95 48.22 ⽇ 47.86 50.21 英 71.19 71.88 レビューのレート予測 中 49.41 49.63 ⽇ 52.30 53.19 英 67.53 67.68 SNLI 英 76.75 77.04 2022/1/5 博⼠論⽂発表会(平岡達也) 35 Weibo, Twitter JD.com, 楽天市場, Amazon JD.com, 楽天市場, Amazon • ⽂書分類モデルのエンコーダーはBiLSTM 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ F1値(%),5回試⾏の平均,下線: ベースラインと有意差 (McNemar検定p<0.05)

Slide 36

Slide 36 text

文書分類タスクで性能向上 タスク ⾔語 単語分割の 最適化なし 単語分割の 最適化あり 感情分析 中 92.79 92.93 ⽇ 86.51 87.39 英 77.31 79.04 レビューのジャンル予測 中 47.95 48.22 ⽇ 47.86 50.21 英 71.19 71.88 レビューのレート予測 中 49.41 49.63 ⽇ 52.30 53.19 英 67.53 67.68 SNLI 英 76.75 77.04 2022/1/5 博⼠論⽂発表会(平岡達也) 36 F1値(%),5回試⾏の平均,下線: ベースラインと有意差 (McNemar検定p<0.05) Weibo, Twitter JD.com, 楽天市場, Amazon JD.com, 楽天市場, Amazon ⼊⼒が2⽂ • ⽂書分類モデルのエンコーダーはBiLSTM 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

Slide 37

Slide 37 text

単語分割の更新のみでも性能が向上 法改正反対 法/改正/反対 法/改/正/反対 法/改/正反対 正解ラベル: Negative Neural Unigram LM N-best分割 × 𝑝 法/改正/反対 𝑍 × 𝑝 法/改/正/反対 𝑍 × 𝑝 法/改/正反対 𝑍 Σ 単語分割の確率で ⽂ベクトルに重み付け * 重みの総和は1 エ ン コ $ ダ $ 𝒗!! 𝒗!" 𝒗!# 𝒗! ℒ% 損 失 関 数 2022/1/5 博⼠論⽂発表会(平岡達也) 37 • 単語分割以外のパラメータを固定して学習 →学習できるのは単語分割器(Neural Unigram LM)のみ 固定 ⽂ベクトル MLP 固定 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

Slide 38

Slide 38 text

単語分割の更新のみでも性能が向上 • 提案⼿法によって単語分割を更新することが, 性能の向上に寄与することを⽰唆 • ⽇本語感情分析データセットで実験 2022/1/5 博⼠論⽂発表会(平岡達也) 38 単語分割の更新のみで 検証データの性能が向上 単語分割の更新のみで 学習データの損失が低下 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

Slide 39

Slide 39 text

本発表の流れ 2022/1/5 博⼠論⽂発表会(平岡達也) 39 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ ⽬的:後段タスクに応じた単語分割の最適化 Approach 1: ⽂書分類タスクに限定した 単語分割の最適化⼿法 Approach 2: 後段タスクの種類を限定しない 単語分割の最適化⼿法 実験:⽂書分類で性能向上 拡張 実験:⽂書分類,機械翻訳 で性能向上 分析 • 後処理として単語分割を最適化しても性能向上 • 最適化対象とは異なるタスクでは⼩さい性能向上 • タスクに応じて異なる単語分割を獲得 • マルチタスク学習では各タスクの性質を あわせ持った単語分割を獲得

Slide 40

Slide 40 text

Approach 2 2022/1/5 博⼠論⽂発表会(平岡達也) 40 Findings of ACL-IJCNLP 2021 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

Slide 41

Slide 41 text

法改正反対 法/改正/反対 法/改/正/反対 法/改/正反対 正解ラベル: Negative Neural Unigram LM N-best分割 × " 法/改正/反対 # × " 法/改/正/反対 # × " 法/改/正反対 # Σ 単語分割の確率で ⽂ベクトルに重み付け * 重みの総和は1 エ ン コ $ ダ $ !!! !!" !!# !! ℒ! 損 失 関 数 MLP ℒ! が⼩さくなる単語分割に⾼ い確率を与えるように更新 Approach 1の問題点 2022/1/5 博⼠論⽂発表会(平岡達也) 41 Approach 1 ⽂ベクトルの計算が必須 →⽂書分類タスクなどに限定 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ 後段モデル

Slide 42

Slide 42 text

法改正反対 法/改正/反対 法/改/正/反対 法/改/正反対 正解ラベル: Negative Neural Unigram LM N-best分割 × " 法/改正/反対 # × " 法/改/正/反対 # × " 法/改/正反対 # Σ 単語分割の確率で ⽂ベクトルに重み付け * 重みの総和は1 エ ン コ $ ダ $ !!! !!" !!# !! ℒ! 損 失 関 数 MLP ℒ! が⼩さくなる単語分割に⾼ い確率を与えるように更新 Approach 1 後段モデル Approach 1の問題点 2022/1/5 博⼠論⽂発表会(平岡達也) 42 ⽂ベクトルの計算が必須 →⽂書分類タスクなどに限定 後段モデルの内部に埋め込む必要がある →スケーラビリティが低い 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

Slide 43

Slide 43 text

法改正反対 法/改正/反対 法/改/正/反対 法/改/正反対 正解ラベル: Negative Neural Unigram LM N-best分割 × " 法/改正/反対 # × " 法/改/正/反対 # × " 法/改/正反対 # Σ 単語分割の確率で ⽂ベクトルに重み付け * 重みの総和は1 エ ン コ $ ダ $ !!! !!" !!# !! ℒ! 損 失 関 数 MLP ℒ! が⼩さくなる単語分割に⾼ い確率を与えるように更新 Approach 1 後段モデル Approach 1の問題点 2022/1/5 博⼠論⽂発表会(平岡達也) 43 ⽂ベクトルの計算が必須 →⽂書分類タスクなどに限定 後段モデルの内部に埋め込む必要がある →スケーラビリティが低い 様々な後段タスク・後段モデルに適⽤可能な単語分割の最適化⼿法は存在していない 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

Slide 44

Slide 44 text

基本戦略 • 適切な単語分割:後段モデルの損失が最も低くなる単語分割 • 後段モデルの構造やパラメータ,後段タスクの性質に依存 2022/1/5 博⼠論⽂発表会(平岡達也) 44 法改正反対 法/改/正/反対 正解ラベル: Negative 0.69 後 段 モ デ ル 損 失 関 数 * 後段タスクが感情分析の場合 損失値 LSTM⽂書分類器など 交差エントロピー誤差など 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

Slide 45

Slide 45 text

法/改正/反対 0.22 基本戦略 • 適切な単語分割:後段モデルの損失が最も低くなる単語分割 • 後段モデルの構造やパラメータ,後段タスクの性質に依存 2022/1/5 博⼠論⽂発表会(平岡達也) 45 複数の単語分割候補 法改正反対 法/改/正/反対 法/改/正反対 正解ラベル: Negative 0.69 0.91 後 段 モ デ ル 損 失 関 数 * 後段タスクが感情分析の場合 LSTM⽂書分類器など 交差エントロピー誤差など 損失値 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

Slide 46

Slide 46 text

基本戦略 • 適切な単語分割:後段モデルの損失が最も低くなる単語分割 • 後段モデルの構造やパラメータ,後段タスクの性質に依存 2022/1/5 博⼠論⽂発表会(平岡達也) 46 複数の単語分割候補 損失値が最も低くなる 単語分割を採⽤したい →後段モデルの損失を 利⽤した単語分割器の学習 法改正反対 法/改正/反対 法/改/正/反対 法/改/正反対 正解ラベル: Negative 0.22 0.69 0.91 後 段 モ デ ル 損 失 関 数 * 後段タスクが感情分析の場合 LSTM⽂書分類器など 交差エントロピー誤差など 損失値 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

Slide 47

Slide 47 text

単語分割器の学習 • 単語分割器としてニューラルユニグラム⾔語モデルを⽤いる • 単語分散表現から単語の確率𝑝(𝑤)を計算 2022/1/5 博⼠論⽂発表会(平岡達也) 47 法改正反対 法/改正/反対 法/改/正/反対 法/改/正反対 正解ラベル: Negative 0.22 0.69 0.91 後 段 モ デ ル 損 失 関 数 Neural Unigram LM N-best分割 × 𝑝 法/改正/反対 𝑍 × 𝑝 法/改/正/反対 𝑍 × 𝑝 法/改/正反対 𝑍 単語分割の確率で損失に重み付け * 重みの総和は1 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

Slide 48

Slide 48 text

単語分割器の学習 • 単語分割器としてニューラルユニグラム⾔語モデルを⽤いる • 単語分散表現から単語の確率𝑝(𝑤)を計算 2022/1/5 博⼠論⽂発表会(平岡達也) 48 法改正反対 法/改正/反対 法/改/正/反対 法/改/正反対 正解ラベル: Negative 0.22 0.69 0.91 後 段 モ デ ル 損 失 関 数 Neural Unigram LM N-best分割 × 𝑝 法/改正/反対 𝑍 × 𝑝 法/改/正/反対 𝑍 × 𝑝 法/改/正反対 𝑍 Σ loss 単語分割の確率で損失に重み付け * 重みの総和は1 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

Slide 49

Slide 49 text

単語分割器の学習 • 単語分割器としてニューラルユニグラム⾔語モデルを⽤いる • 単語分散表現から単語の確率𝑝(𝑤)を計算 2022/1/5 博⼠論⽂発表会(平岡達也) 49 法改正反対 法/改正/反対 法/改/正/反対 法/改/正反対 正解ラベル: Negative 0.22 0.69 0.91 後 段 モ デ ル 損 失 関 数 Neural Unigram LM N-best分割 × 𝑝 法/改正/反対 𝑍 × 𝑝 法/改/正/反対 𝑍 × 𝑝 法/改/正反対 𝑍 Σ loss 単語分割の確率で損失に重み付け * 重みの総和は1 この損失への誤差逆伝播で LMと後段モデルを同時に更新 →損失が⼩さい単語分割の 確率が上昇するように更新 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ 勾配が計算できる

Slide 50

Slide 50 text

単語分割器の学習 • 単語分割器としてニューラルユニグラム⾔語モデルを⽤いる • 単語分散表現から単語の確率𝑝(𝑤)を計算 2022/1/5 博⼠論⽂発表会(平岡達也) 50 法改正反対 法/改正/反対 法/改/正/反対 法/改/正反対 正解ラベル: Negative 0.22 0.69 0.91 後 段 モ デ ル 損 失 関 数 Neural Unigram LM N-best分割 × 𝑝 法/改正/反対 𝑍 × 𝑝 法/改/正/反対 𝑍 × 𝑝 法/改/正反対 𝑍 Σ loss 単語分割の確率で損失に重み付け この損失への誤差逆伝播で LMと後段モデルを同時に更新 →損失が⼩さい単語分割の 確率が上昇するように更新 後段モデルと損失関数は 何でも良いので タスクやモデルを選ばない * 重みの総和は1 勾配が計算できる 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

Slide 51

Slide 51 text

後段モデルの学習 • 最終的なlossから後段モデルを学習するのは困難 2022/1/5 博⼠論⽂発表会(平岡達也) 51 法改正反対 法/改正/反対 法/改/正/反対 法/改/正反対 正解ラベル: Negative 0.22 0.69 0.91 損 失 関 数 Neural Unigram LM N-best分割 × 𝑝 法/改正/反対 𝑍 × 𝑝 法/改/正/反対 𝑍 × 𝑝 法/改/正反対 𝑍 Σ loss 単語分割の確率で損失に重み付け * 重みの総和は1 後 段 モ デ ル 更新には計算グラフを保持したまま N個の後段モデルの計算が必要 →後段モデルが巨⼤な場合は学習不可能 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ 勾配が計算できる

Slide 52

Slide 52 text

正解ラベル: Negative 更新には計算グラフを保持したまま N個の後段モデルの前向き計算が必要 →後段モデルが巨⼤な場合は学習不可能 後段モデルの学習 • 最終的なlossから後段モデルを学習するのは困難 • サブワード正則化を⽤いた学習により解決 2022/1/5 博⼠論⽂発表会(平岡達也) 52 法改正反対 法/改正/反対 法/改/正/反対 法/改/正反対 0.22 0.69 0.91 損 失 関 数 Neural Unigram LM N-best分割 × 𝑝 法/改正/反対 𝑍 × 𝑝 法/改/正/反対 𝑍 × 𝑝 法/改/正反対 𝑍 Σ loss 単語分割の確率で損失に重み付け * 重みの総和は1 後 段 モ デ ル ランダムに選択した単語分割による lossだけで後段モデルを更新 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ 勾配が計算できる

Slide 53

Slide 53 text

法改正反対 法/改正/反対 法/改/正/反対 法/改/正反対 正解ラベル: Negative 0.22 0.69 0.91 後 段 モ デ ル 損 失 関 数 Neural Unigram LM N-best分割 × " 法/改正/反対 # × " 法/改/正/反対 # × " 法/改/正反対 # Σ loss 単語分割の確率で損失に重み付け * 重みの総和は1 勾配が計算できる 法改正反対 法/改正/反対 法/改/正/反対 法/改/正反対 正解ラベル: Negative Neural Unigram LM N-best分割 × " 法/改正/反対 # × " 法/改/正/反対 # × " 法/改/正反対 # Σ 単語分割の確率で ⽂ベクトルに重み付け * 重みの総和は1 エ ン コ $ ダ $ !!! !!" !!# !! ℒ! 損 失 関 数 MLP ℒ! が⼩さくなる単語分割に⾼ い確率を与えるように更新 Approach 1 vs. 2: 構造的比較 2022/1/5 博⼠論⽂発表会(平岡達也) 53 Approach 1 Approach 2 後段モデル ⽂ベクトル(後段モデルの内部) →スケーラビリティ👎 損失値(後段モデルの外部) →スケーラビリティ👍 単語分割確率の重み付けを⾏う箇所 単語分割確率の重み付けを⾏う箇所 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

Slide 54

Slide 54 text

法改正反対 法/改正/反対 法/改/正/反対 法/改/正反対 正解ラベル: Negative 0.22 0.69 0.91 後 段 モ デ ル 損 失 関 数 Neural Unigram LM N-best分割 × " 法/改正/反対 # × " 法/改/正/反対 # × " 法/改/正反対 # Σ loss 単語分割の確率で損失に重み付け * 重みの総和は1 勾配が計算できる 法改正反対 法/改正/反対 法/改/正/反対 法/改/正反対 正解ラベル: Negative Neural Unigram LM N-best分割 × " 法/改正/反対 # × " 法/改/正/反対 # × " 法/改/正反対 # Σ 単語分割の確率で ⽂ベクトルに重み付け * 重みの総和は1 エ ン コ $ ダ $ !!! !!" !!# !! ℒ! 損 失 関 数 MLP ℒ! が⼩さくなる単語分割に⾼ い確率を与えるように更新 Approach 1 Approach 2 後段モデル Approach 1 vs. 2: 構造的比較 2022/1/5 博⼠論⽂発表会(平岡達也) 54 ⽂ベクトル(後段モデルの内部) →スケーラビリティ👎 N-best単語分割 損失値(後段モデルの外部) →スケーラビリティ👍 サンプリングされた1つの単語分割 単語分割確率の重み付けを⾏う箇所 単語分割確率の重み付けを⾏う箇所 後段モデルの学習に使⽤する⼊⼒ 後段モデルの学習に使⽤する⼊⼒ 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

Slide 55

Slide 55 text

文書分類タスクで性能向上 • Approach 2は7/10データセットでApproach 1の数値を上回る • Approach1, 2の間に統計的有意差はなし タスク ⾔語 単語分割の 最適化なし Approach1 Approach2 感情分析 中 92.79 92.93 93.06 ⽇ 86.51 87.39 87.27 英 77.31 79.04 78.63 レビューのジャンル予測 中 47.95 48.22 48.41 ⽇ 47.86 50.21 50.79 英 71.19 71.88 71.83 レビューのレート予測 中 49.41 49.63 49.76 ⽇ 52.30 53.19 53.37 英 67.53 67.68 67.90 SNLI 英 76.75 77.04 77.05 2022/1/5 博⼠論⽂発表会(平岡達也) 55 Weibo, Twitter JD.com, 楽天市場, Amazon JD.com, 楽天市場, Amazon ⼊⼒が2⽂ 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ F1値(%),5回試⾏の平均,下線: ベースラインと有意差 (McNemar検定p<0.05)

Slide 56

Slide 56 text

文書分類タスクで性能向上 • Approach 2は7/10データセットでApproach 1の数値を上回る • Approach1, 2の間に統計的有意差はなし タスク ⾔語 単語分割の 最適化なし Approach1 Approach2 感情分析 中 92.79 92.93 93.06 ⽇ 86.51 87.39 87.27 英 77.31 79.04 78.63 レビューのジャンル予測 中 47.95 48.22 48.41 ⽇ 47.86 50.21 50.79 英 71.19 71.88 71.83 レビューのレート予測 中 49.41 49.63 49.76 ⽇ 52.30 53.19 53.37 英 67.53 67.68 67.90 SNLI 英 76.75 77.04 77.05 2022/1/5 博⼠論⽂発表会(平岡達也) 56 Weibo, Twitter JD.com, 楽天市場, Amazon JD.com, 楽天市場, Amazon ⼊⼒が2⽂ 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ F1値(%),5回試⾏の平均,下線: ベースラインと有意差 (McNemar検定p<0.05)

Slide 57

Slide 57 text

文書分類タスクで性能向上 • Approach 2は7/10データセットでApproach 1の数値を上回る • Approach1, 2の間に統計的有意差はなし タスク ⾔語 単語分割の 最適化なし Approach1 Approach2 感情分析 中 92.79 92.93 93.06 ⽇ 86.51 87.39 87.27 英 77.31 79.04 78.63 レビューのジャンル予測 中 47.95 48.22 48.41 ⽇ 47.86 50.21 50.79 英 71.19 71.88 71.83 レビューのレート予測 中 49.41 49.63 49.76 ⽇ 52.30 53.19 53.37 英 67.53 67.68 67.90 SNLI 英 76.75 77.04 77.05 2022/1/5 博⼠論⽂発表会(平岡達也) 57 Weibo, Twitter JD.com, 楽天市場, Amazon JD.com, 楽天市場, Amazon ⼊⼒が2⽂ 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ F1値(%),5回試⾏の平均,下線: ベースラインと有意差 (McNemar検定p<0.05)

Slide 58

Slide 58 text

単語分割の更新のみでも性能が向上 2022/1/5 博⼠論⽂発表会(平岡達也) 58 • 単語分割以外のパラメータを固定して学習 →学習できるのは単語分割器(Neural Unigram LM)のみ 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ 法改正反対 法/改正/反対 法/改/正/反対 法/改/正反対 正解ラベル: Negative 0.22 0.69 0.91 損 失 関 数 Neural Unigram LM N-best分割 × 𝑝 法/改正/反対 𝑍 × 𝑝 法/改/正/反対 𝑍 × 𝑝 法/改/正反対 𝑍 Σ loss 単語分割の確率で損失に重み付け * 重みの総和は1 勾配が計算できる 後 段 モ デ ル 固定

Slide 59

Slide 59 text

単語分割の更新のみでも性能が向上 • Approach1, 2ともに単語分割の更新が性能の向上に寄与 • ⽇本語感情分析データセットで実験 2022/1/5 博⼠論⽂発表会(平岡達也) 59 0 2 4 6 8 10 -25 -20 -15 -10 -5 0 1 2 3 4 5 6 7 8 9 10 Valid F1% Diff. Loss Diff. Epoch Loss-Diff (OpTok) Loss-Diff (OpTok4AT) F1-Diff(OpTok) F1-Diff(OpTok4AT) 単語分割の更新のみで 検証データの性能が向上 単語分割の更新のみで 学習データの損失が低下 0 1 2 3 4 5 6 7 8 9 (Approach1) (Approach1) (Approach2) (Approach2) 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

Slide 60

Slide 60 text

単語分割の更新のみでも性能が向上 • Approach1, 2ともに単語分割の更新が性能の向上に寄与 • ⽇本語感情分析データセットで実験 2022/1/5 博⼠論⽂発表会(平岡達也) 60 単語分割の更新のみで 検証データの性能が向上 単語分割の更新のみで 学習データの損失が低下 更新初期に Approach1, 2で 振る舞いに差 0 1 2 3 4 5 6 7 8 9 (Approach1) (Approach1) (Approach2) (Approach2) 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

Slide 61

Slide 61 text

機械翻訳でも性能向上に寄与 • 機械翻訳⼿法: Transformer ソース側の単語分割の最適化 ターゲット側の単語分割の最適化 データセット ⾔語対 なし あり なし あり なし なし あり あり IWSLT15 Vi→En 28.78 29.34 29.69 29.44 En→Vi 31.60 31.41 31.74 31.70 Zh→En 21.17 21.63 21.65 21.89 En→Zh 15.25 15.45 15.59 15.31 WMT14 De→En 31.89 32.19 31.98 31.90 En→De 27.41 27.62 27.52 27.44 2022/1/5 博⼠論⽂発表会(平岡達也) 61 SacreBLEU*値,3回試⾏の平均,下線: ベースラインと有意差** (p<0.05), *Post 2018, **Koehn+ 2004 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

Slide 62

Slide 62 text

機械翻訳でも性能向上に寄与 • 機械翻訳⼿法: Transformer データセット ⾔語対 なし あり なし あり なし なし あり あり IWSLT15 Vi→En 28.78 29.34 29.69 29.44 En→Vi 31.60 31.41 31.74 31.70 Zh→En 21.17 21.63 21.65 21.89 En→Zh 15.25 15.45 15.59 15.31 WMT14 De→En 31.89 32.19 31.98 31.90 En→De 27.41 27.62 27.52 27.44 例:ソース側の単語分割 のみを提案⼿法で最適化 2022/1/5 博⼠論⽂発表会(平岡達也) 62 ソース側の単語分割の最適化 ターゲット側の単語分割の最適化 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ SacreBLEU*値,3回試⾏の平均,下線: ベースラインと有意差** (p<0.05), *Post 2018, **Koehn+ 2004

Slide 63

Slide 63 text

機械翻訳でも性能向上に寄与 • 機械翻訳⼿法: Transformer ※ベースラインを超える数値 データセット ⾔語対 なし あり なし あり なし なし あり あり IWSLT15 Vi→En 28.78 29.34 29.69 29.44 En→Vi 31.60 31.41 31.74 31.70 Zh→En 21.17 21.63 21.65 21.89 En→Zh 15.25 15.45 15.59 15.31 WMT14 De→En 31.89 32.19 31.98 31.90 En→De 27.41 27.62 27.52 27.44 例:ソース側の単語分割 のみを提案⼿法で最適化 ベースライン 2022/1/5 博⼠論⽂発表会(平岡達也) 63 ソース側の単語分割の最適化 ターゲット側の単語分割の最適化 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ SacreBLEU*値,3回試⾏の平均,下線: ベースラインと有意差** (p<0.05), *Post 2018, **Koehn+ 2004

Slide 64

Slide 64 text

ベースライン 機械翻訳でも性能向上に寄与 • 機械翻訳⼿法: Transformer ※ベースラインを超える数値 データセット ⾔語対 なし あり なし あり なし なし あり あり IWSLT15 Vi→En 28.78 29.34 29.69 29.44 En→Vi 31.60 31.41 31.74 31.70 Zh→En 21.17 21.63 21.65 21.89 En→Zh 15.25 15.45 15.59 15.31 WMT14 De→En 31.89 32.19 31.98 31.90 En→De 27.41 27.62 27.52 27.44 ターゲット側に提案⼿法を ⽤いると性能が⾼い傾向がある 例:ソース側の単語分割 のみを提案⼿法で最適化 2022/1/5 博⼠論⽂発表会(平岡達也) 64 ソース側の単語分割の最適化 ターゲット側の単語分割の最適化 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ SacreBLEU*値,3回試⾏の平均,下線: ベースラインと有意差** (p<0.05), *Post 2018, **Koehn+ 2004

Slide 65

Slide 65 text

SacreBLEU*値,3回試⾏の平均,下線: ベースラインと有意差** (p<0.05), *Post 2018, **Koehn+ 2004 ベースライン 機械翻訳でも性能向上に寄与 • 機械翻訳⼿法: Transformer ※ベースラインを超える数値 データセット ⾔語対 なし あり なし あり なし なし あり あり IWSLT15 Vi→En 28.78 29.34 29.69 29.44 En→Vi 31.60 31.41 31.74 31.70 Zh→En 21.17 21.63 21.65 21.89 En→Zh 15.25 15.45 15.59 15.31 WMT14 De→En 31.89 32.19 31.98 31.90 En→De 27.41 27.62 27.52 27.44 例:ソース側の単語分割 のみを提案⼿法で最適化 ターゲット側に提案⼿法を ⽤いると性能が⾼い傾向がある 両側に提案⼿法を⽤いると 性能は低め →学習が安定しないためか 2022/1/5 博⼠論⽂発表会(平岡達也) 65 ソース側の単語分割の最適化 ターゲット側の単語分割の最適化 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

Slide 66

Slide 66 text

モジュールごとに学習すると性能向上 • ソース側・ターゲット側の単語分割の同時最適化は難しい? • ⽚側ずつ最適化することで性能は向上するか • ソース側から順に最適化すると性能が向上 • ソース側の単語分割は最適化によって⼤きく変わるため, 先に決定しておくことで性能が安定すると⾒られる 2022/1/5 博⼠論⽂発表会(平岡達也) 66 ⾔語対 同時に最適化 Src→Tgt Tgt→Src ランダム Vi→En 29.44 30.22 29.47 29.37 En→Vi 31.70 31.78 31.33 31.70 Zh→En 21.89 21.99 21.82 21.66 En→Zh 15.31 15.54 14.88 15.14 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

Slide 67

Slide 67 text

モジュールごとに学習すると性能向上 • ソース側・ターゲット側の単語分割の同時最適化は難しい? • ⽚側ずつ最適化することで性能は向上するか • ソース側から順に最適化すると性能が向上 • ソース側の単語分割は最適化によって⼤きく変わるため, 先に決定しておくことで性能が安定すると⾒られる 2022/1/5 博⼠論⽂発表会(平岡達也) 67 ⾔語対 同時に最適化 Src→Tgt Tgt→Src ランダム Vi→En 29.44 30.22 29.47 29.37 En→Vi 31.70 31.78 31.33 31.70 Zh→En 21.89 21.99 21.82 21.66 En→Zh 15.31 15.54 14.88 15.14 ⼀つ前のスライドの結果 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

Slide 68

Slide 68 text

モジュールごとに学習すると性能向上 • ソース側・ターゲット側の単語分割の同時最適化は難しい? • ⽚側ずつ最適化することで性能は向上するか • ソース側から順に最適化すると性能が向上 • ソース側の単語分割は最適化によって⼤きく変わるため, 先に決定しておくことで性能が安定すると⾒られる 2022/1/5 博⼠論⽂発表会(平岡達也) 68 ⾔語対 同時に最適化 Src→Tgt Tgt→Src ランダム Vi→En 29.44 30.22 29.47 29.37 En→Vi 31.70 31.78 31.33 31.70 Zh→En 21.89 21.99 21.82 21.66 En→Zh 15.31 15.54 14.88 15.14 ⼀つ前のスライドの結果 前半50epoch: ソース側 後半50epoch: ターゲット側 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

Slide 69

Slide 69 text

モジュールごとに学習すると性能向上 • ソース側・ターゲット側の単語分割の同時最適化は難しい? • ⽚側ずつ最適化することで性能は向上するか • ソース側から順に最適化すると性能が向上 • ソース側の単語分割は最適化によって⼤きく変わるため, 先に決定しておくことで性能が安定すると⾒られる 2022/1/5 博⼠論⽂発表会(平岡達也) 69 ⾔語対 同時に最適化 Src→Tgt Tgt→Src ランダム Vi→En 29.44 30.22 29.47 29.37 En→Vi 31.70 31.78 31.33 31.70 Zh→En 21.89 21.99 21.82 21.66 En→Zh 15.31 15.54 14.88 15.14 ⼀つ前のスライドの結果 前半50epoch: ソース側 後半50epoch: ターゲット側 前半50epoch: ターゲット側 後半50epoch: ソース側 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

Slide 70

Slide 70 text

モジュールごとに学習すると性能向上 • ソース側・ターゲット側の単語分割の同時最適化は難しい? • ⽚側ずつ最適化することで性能は向上するか • ソース側から順に最適化すると性能が向上 • ソース側の単語分割は最適化によって⼤きく変わるため, 先に決定しておくことで性能が安定すると⾒られる 2022/1/5 博⼠論⽂発表会(平岡達也) 70 ⾔語対 同時に最適化 Src→Tgt Tgt→Src ランダム Vi→En 29.44 30.22 29.47 29.37 En→Vi 31.70 31.78 31.33 31.70 Zh→En 21.89 21.99 21.82 21.66 En→Zh 15.31 15.54 14.88 15.14 ⼀つ前のスライドの結果 前半50epoch: ソース側 後半50epoch: ターゲット側 前半50epoch: ターゲット側 後半50epoch: ソース側 ミニバッチごとに ソース側・ターゲット側を ランダムに選択して学習 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

Slide 71

Slide 71 text

本発表の流れ 2022/1/5 博⼠論⽂発表会(平岡達也) 71 導⼊ 背景 Approach 1 Approach 2 分析 ■ □ □ □ まとめ ⽬的:後段タスクに応じた単語分割の最適化 Approach 1: ⽂書分類タスクに限定した 単語分割の最適化⼿法 Approach 2: 後段タスクの種類を限定しない 単語分割の最適化⼿法 実験:⽂書分類で性能向上 拡張 実験:⽂書分類,機械翻訳 で性能向上 分析 • 後処理として単語分割を最適化しても性能向上 • 最適化対象とは異なるタスクでは⼩さい性能向上 • タスクに応じて異なる単語分割を獲得 • マルチタスク学習では各タスクの性質を あわせ持った単語分割を獲得

Slide 72

Slide 72 text

後処理としての単語分割モデルの最適化 • 学習済みの後段モデルに対して,単語分割モデルだけを最適化 • 後段モデルが学習済みかつ固定されていても有効であることを確認 2022/1/5 博⼠論⽂発表会(平岡達也) 72 法改正反対 法/改正/反対 法/改/正/反対 法/改/正反対 0.22 0.69 0.91 損 失 関 数 Neural Unigram LM N-best分割 × 𝑝 法/改正/反対 𝑍 × 𝑝 法/改/正/反対 𝑍 × 𝑝 法/改/正反対 𝑍 Σ loss * 重みの総和は1 ⼀般的な⽅法(=単語分割の最適化なし) で学習し,パラメータを固定して使⽤ 後 段 モ デ ル 導⼊ 背景 Approach 1 Approach 2 分析 ■ □ □ □ まとめ

Slide 73

Slide 73 text

後処理としての単語分割モデルの最適化 • 学習済みの後段モデルであっても,性能の向上が⾒られる • ⼀般的な⽅法で学習したモデルでも,提案⼿法によって単語分割の 最適化のみで更なる性能向上が得られる可能性を⽰唆 2022/1/5 博⼠論⽂発表会(平岡達也) 73 単語分割のみ最適化 (5epoch) タスク データセット 最適化なし Approach1 Approach2 感情分析 Weibo (Zh) 92.69 93.08 92.99 (F1値) Twitter(Ja) 85.88 86.23 86.28 Twitter(En) 77.21 77.41 77.77 機械翻訳 Vi-En 28.82 - 28.91 (BLEU) En-Vi 30.48 - 30.60 Zh-En 21.55 - 21.82 En-Zh 14.57 - 14.83 学習済みモデルを固定して 単語分割モデルのみを最適化 導⼊ 背景 Approach 1 Approach 2 分析 ■ □ □ □ まとめ

Slide 74

Slide 74 text

本発表の流れ 2022/1/5 博⼠論⽂発表会(平岡達也) 74 導⼊ 背景 Approach 1 Approach 2 分析 □ ■ □ □ まとめ ⽬的:後段タスクに応じた単語分割の最適化 Approach 1: ⽂書分類タスクに限定した 単語分割の最適化⼿法 Approach 2: 後段タスクの種類を限定しない 単語分割の最適化⼿法 実験:⽂書分類で性能向上 拡張 実験:⽂書分類,機械翻訳 で性能向上 分析 • 後処理として単語分割を最適化しても性能向上 • 最適化対象とは異なるタスクでは⼩さい性能向上 • タスクに応じて異なる単語分割を獲得 • マルチタスク学習では各タスクの性質を あわせ持った単語分割を獲得

Slide 75

Slide 75 text

最適化対象とは異なるタスクでの評価 • ジャンル予測・レート予測タスクは同⼀のコーパスから作成 • 最適化された単語分割がタスクに特化しているかを確認 2022/1/5 博⼠論⽂発表会(平岡達也) 75 E-commerce コーパス (Amazon, 楽天, JD.com) ジャンル予測タスク レート予測タスク ジャンル予測タスク 提案⼿法 単語分割の最適化 提案⼿法 単語分割の最適化 最適化したタスクとは 異なるタスクに単語分割を利⽤ →性能が下がるはず 導⼊ 背景 Approach 1 Approach 2 分析 □ ■ □ □ まとめ

Slide 76

Slide 76 text

最適化対象とは異なるタスクでの性能 • 単語分割を最適化することで性能向上 • 異なるタスクに最適化した単語分割も性能向上に寄与する場合がある • 評価タスクと同じタスクに単語分割を最適化すると性能向上 2022/1/5 博⼠論⽂発表会(平岡達也) 76 単語分割を最適化したタスク ⾔語 評価タスク 最適化なし ジャンル予測 レート予測 中 ジャンル予測 48.85 49.29 49.14 レート予測 53.39 53.37 53.66 ⽇ ジャンル予測 45.48 46.12 45.64 レート予測 48.94 49.07 49.18 英 ジャンル予測 71.64 71.78 71.66 レート予測 67.56 67.56 67.72 後処理として最適化 F1値(%),5回試⾏の平均,下線: タスク違いの単語分割最適化設定と有意差(McNemar検定 p<0.05) (Approach2) 導⼊ 背景 Approach 1 Approach 2 分析 □ ■ □ □ まとめ

Slide 77

Slide 77 text

最適化対象とは異なるタスクでの性能 • 単語分割を最適化することで性能向上 • 異なるタスクに最適化した単語分割も性能向上に寄与する場合がある • 評価タスクと同じタスクに単語分割を最適化すると性能向上 2022/1/5 博⼠論⽂発表会(平岡達也) 77 単語分割を最適化したタスク ⾔語 評価タスク 最適化なし ジャンル予測 レート予測 中 ジャンル予測 48.85 49.29 49.14 レート予測 53.39 53.37 53.66 ⽇ ジャンル予測 45.48 46.12 45.64 レート予測 48.94 49.07 49.18 英 ジャンル予測 71.64 71.78 71.66 レート予測 67.56 67.56 67.72 後処理として最適化 ジャンル予測タスクで 学習を⾏った後段モデルの性能 (Approach2) 導⼊ 背景 Approach 1 Approach 2 分析 □ ■ □ □ まとめ F1値(%),5回試⾏の平均,下線: タスク違いの単語分割最適化設定と有意差(McNemar検定 p<0.05)

Slide 78

Slide 78 text

最適化対象とは異なるタスクでの性能 • 単語分割を最適化することで性能向上 • 異なるタスクに最適化した単語分割も性能向上に寄与する場合がある • 評価タスクと同じタスクに単語分割を最適化すると性能向上 2022/1/5 博⼠論⽂発表会(平岡達也) 78 単語分割を最適化したタスク ⾔語 評価タスク 最適化なし ジャンル予測 レート予測 中 ジャンル予測 48.85 49.29 49.14 レート予測 53.39 53.37 53.66 ⽇ ジャンル予測 45.48 46.12 45.64 レート予測 48.94 49.07 49.18 英 ジャンル予測 71.64 71.78 71.66 レート予測 67.56 67.56 67.72 後処理として最適化 ジャンル予測タスクで 学習を⾏った後段モデルの性能 ジャンル予測に最適化した 単語分割をジャンル予測で評価 (Approach2) 導⼊ 背景 Approach 1 Approach 2 分析 □ ■ □ □ まとめ F1値(%),5回試⾏の平均,下線: タスク違いの単語分割最適化設定と有意差(McNemar検定 p<0.05)

Slide 79

Slide 79 text

F1値(%),5回試⾏の平均,下線: タスク違いの単語分割最適化設定と有意差(McNemar検定 p<0.05) 最適化対象とは異なるタスクでの性能 • 単語分割を最適化することで性能向上 • 異なるタスクに最適化した単語分割も性能向上に寄与する場合がある • 評価タスクと同じタスクに単語分割を最適化すると性能向上 2022/1/5 博⼠論⽂発表会(平岡達也) 79 単語分割を最適化したタスク ⾔語 評価タスク 最適化なし ジャンル予測 レート予測 中 ジャンル予測 48.85 49.29 49.14 レート予測 53.39 53.37 53.66 ⽇ ジャンル予測 45.48 46.12 45.64 レート予測 48.94 49.07 49.18 英 ジャンル予測 71.64 71.78 71.66 レート予測 67.56 67.56 67.72 後処理として最適化 ジャンル予測タスクで 学習を⾏った後段モデルの性能 ジャンル予測に最適化した 単語分割をジャンル予測で評価 レート予測に最適化した 単語分割をジャンル予測で評価 (Approach2) 導⼊ 背景 Approach 1 Approach 2 分析 □ ■ □ □ まとめ

Slide 80

Slide 80 text

最適化対象とは異なるタスクでの性能 • 単語分割を最適化することで性能向上 • 異なるタスクに最適化した単語分割も性能向上に寄与する場合がある • 評価タスクと同じタスクに単語分割を最適化すると性能向上 2022/1/5 博⼠論⽂発表会(平岡達也) 80 単語分割を最適化したタスク ⾔語 評価タスク 最適化なし ジャンル予測 レート予測 中 ジャンル予測 48.85 49.29 49.14 レート予測 53.39 53.37 53.66 ⽇ ジャンル予測 45.48 46.12 45.64 レート予測 48.94 49.07 49.18 英 ジャンル予測 71.64 71.78 71.66 レート予測 67.56 67.56 67.72 後処理として最適化 (Approach2) 導⼊ 背景 Approach 1 Approach 2 分析 □ ■ □ □ まとめ F1値(%),5回試⾏の平均,下線: タスク違いの単語分割最適化設定と有意差(McNemar検定 p<0.05)

Slide 81

Slide 81 text

最適化対象とは異なるタスクでの性能 • 単語分割を最適化することで性能向上 • 異なるタスクに最適化した単語分割も性能向上に寄与する場合がある • 評価タスクと同じタスクに単語分割を最適化すると性能向上 2022/1/5 博⼠論⽂発表会(平岡達也) 81 単語分割を最適化したタスク ⾔語 評価タスク 最適化なし ジャンル予測 レート予測 中 ジャンル予測 48.85 49.29 49.14 レート予測 53.39 53.37 53.66 ⽇ ジャンル予測 45.48 46.12 45.64 レート予測 48.94 49.07 49.18 英 ジャンル予測 71.64 71.78 71.66 レート予測 67.56 67.56 67.72 後処理として最適化 (Approach2) 導⼊ 背景 Approach 1 Approach 2 分析 □ ■ □ □ まとめ F1値(%),5回試⾏の平均,下線: タスク違いの単語分割最適化設定と有意差(McNemar検定 p<0.05)

Slide 82

Slide 82 text

最適化対象とは異なるタスクでの性能 • 単語分割を最適化することで性能向上 • 異なるタスクに最適化した単語分割も性能向上に寄与する場合がある • 評価タスクと同じタスクに単語分割を最適化すると性能向上 2022/1/5 博⼠論⽂発表会(平岡達也) 82 単語分割を最適化したタスク ⾔語 評価タスク 最適化なし ジャンル予測 レート予測 中 ジャンル予測 48.85 49.29 49.14 レート予測 53.39 53.37 53.66 ⽇ ジャンル予測 45.48 46.12 45.64 レート予測 48.94 49.07 49.18 英 ジャンル予測 71.64 71.78 71.66 レート予測 67.56 67.56 67.72 後処理として最適化 (Approach2) 導⼊ 背景 Approach 1 Approach 2 分析 □ ■ □ □ まとめ F1値(%),5回試⾏の平均,下線: タスク違いの単語分割最適化設定と有意差(McNemar検定 p<0.05)

Slide 83

Slide 83 text

本発表の流れ 2022/1/5 博⼠論⽂発表会(平岡達也) 83 導⼊ 背景 Approach 1 Approach 2 分析 □ □ ■ □ まとめ ⽬的:後段タスクに応じた単語分割の最適化 Approach 1: ⽂書分類タスクに限定した 単語分割の最適化⼿法 Approach 2: 後段タスクの種類を限定しない 単語分割の最適化⼿法 実験:⽂書分類で性能向上 拡張 実験:⽂書分類,機械翻訳 で性能向上 分析 • 後処理として単語分割を最適化しても性能向上 • 最適化対象とは異なるタスクでは⼩さい性能向上 • タスクに応じて異なる単語分割を獲得 • マルチタスク学習では各タスクの性質を あわせ持った単語分割を獲得

Slide 84

Slide 84 text

タスクごとに単語分割は変わるか? • ジャンル予測・レート予測タスクは同⼀のコーパスから作成 • 同じ⽂の単語分割が,タスクごとに変化しているかを確認 2022/1/5 博⼠論⽂発表会(平岡達也) 84 E-commerce コーパス (Amazon, 楽天, JD.com) ジャンル予測タスク レート予測タスク 提案⼿法 提案⼿法 単語分割の最適化 単語分割の最適化 異なる単語分割を 獲得しているはず 導⼊ 背景 Approach 1 Approach 2 分析 □ □ ■ □ まとめ

Slide 85

Slide 85 text

タスクに応じた単語分割を獲得(日) ⼿法 単語分割 最適化なし ⾹りは すき だけど 、 痛 んだ 髪に は全然 効果なし 。 ジャンル予測タスクに最適化(正解:美容・コスメ・⾹⽔) Approach 1 ⾹り は すき だけど 、 痛 んだ 髪 に は全然 効果 なし 。 Approach 2 ⾹り は すき だけど 、 痛 んだ 髪 に は全然 効果 なし 。 レート予測タスクに最適化(正解:2/5) Approach 1 ⾹りは すき だけど 、 痛 んだ 髪に は 全然 効果なし 。 Approach 2 ⾹りは すき だけど 、 痛 んだ 髪に は 全然 効果なし 。 2022/1/5 博⼠論⽂発表会(平岡達也) 85 ジャンル予測:商品のジャンルに関わる単語を切り出す レート予測 :品質や印象に関わる単語を切り出す 導⼊ 背景 Approach 1 Approach 2 分析 □ □ ■ □ まとめ

Slide 86

Slide 86 text

タスクに応じた単語分割を獲得(中) ⼿法 単語分割 最適化なし 东੢ ඇৗෆ޷ ׬શ ෆ๷׈ ジャンル予測タスクに最適化(正解:家居⽣活) Approach 1 东੢ ඇৗෆ޷ ׬શෆ ๷׈ Approach 2 东੢ ඇৗෆ޷ ׬શෆ ๷׈ レート予測タスク(正解:1/5) Approach 1 东੢ ඇৗ ෆ޷ ׬શ ෆ๷׈ Approach 2 东੢ ඇৗ ෆ޷ ׬શ ෆ๷׈ 2022/1/5 博⼠論⽂発表会(平岡達也) 86 ジャンル予測:商品のジャンルに関わる単語を切り出す レート予測 :品質や印象に関わる単語を切り出す 導⼊ 背景 Approach 1 Approach 2 分析 □ □ ■ □ まとめ

Slide 87

Slide 87 text

タスクに応じた単語分割を獲得(英) ⼿法 単語分割 最適化なし I like to listen to CDs when traveling and this is a one of my favorites . ジャンル予測タスクに最適化(正解:CDs and Vinyl) Approach 1 I like to listen to CD s when travel ing and this is a one of my favorites . Approach 2 I like to listen to CD s when traveling and this is a one of my favorites . レート予測タスクに最適化(正解:5/5) Approach 1 I like to listen to CDs when traveling and this is a one of my favorite s . Approach 2 I like to listen to CDs when traveling and this is a one of my favorites . 2022/1/5 博⼠論⽂発表会(平岡達也) 87 ジャンル予測:商品のジャンルに関わる単語を切り出す レート予測 :品質や印象に関わる単語を切り出す • travel/ing • 提案⼿法は⽂脈によって単語分割を変えられない 導⼊ 背景 Approach 1 Approach 2 分析 □ □ ■ □ まとめ

Slide 88

Slide 88 text

タスクごとに単語分割の細かさが異なる 獲得した単語分割が含む単語数 初期状態の単語分割が含む単語数 ⾔語 タスク Approach 1 Approach 2 中 ジャンル予測 1.5405 1.5137 レート予測 1.4249 1.3807 ⽇ ジャンル予測 1.5205 1.5834 レート予測 1.3224 1.2742 英 ジャンル予測 1.0620 1.0845 レート予測 1.0415 1.0305 2022/1/5 博⼠論⽂発表会(平岡達也) 88 • 全体的に提案⼿法によって単語分割は細かくなる • レート予測よりジャンル予測のほうが単語分割は細かくなる • ジャンル数が多く,ラベルに特徴的な単語が多いため • 英語の単語分割の細かさは⼤きく変わらない 導⼊ 背景 Approach 1 Approach 2 分析 □ □ ■ □ まとめ 値が1.0より⼤きい →学習後に単語数が増えている →単語分割が細かくなっている

Slide 89

Slide 89 text

タスクごとに単語分割の細かさが異なる 2022/1/5 博⼠論⽂発表会(平岡達也) 89 • 全体的に提案⼿法によって単語分割は細かくなる • レート予測よりジャンル予測のほうが単語分割は細かくなる • ジャンル数が多く,ラベルに特徴的な単語が多いため • 英語の単語分割の細かさは⼤きく変わらない 導⼊ 背景 Approach 1 Approach 2 分析 □ □ ■ □ まとめ 獲得した単語分割が含む単語数 初期状態の単語分割が含む単語数 ⾔語 タスク Approach 1 Approach 2 中 ジャンル予測 1.5405 1.5137 レート予測 1.4249 1.3807 ⽇ ジャンル予測 1.5205 1.5834 レート予測 1.3224 1.2742 英 ジャンル予測 1.0620 1.0845 レート予測 1.0415 1.0305 値が1.0より⼤きい →学習後に単語数が増えている →単語分割が細かくなっている

Slide 90

Slide 90 text

タスクごとに単語分割の細かさが異なる 2022/1/5 博⼠論⽂発表会(平岡達也) 90 • 全体的に提案⼿法によって単語分割は細かくなる • レート予測よりジャンル予測のほうが単語分割は細かくなる • ジャンル数が多く,ラベルに特徴的な単語が多いため • 英語の単語分割の細かさは⼤きく変わらない 導⼊ 背景 Approach 1 Approach 2 分析 □ □ ■ □ まとめ 獲得した単語分割が含む単語数 初期状態の単語分割が含む単語数 ⾔語 タスク Approach 1 Approach 2 中 ジャンル予測 1.5405 1.5137 レート予測 1.4249 1.3807 ⽇ ジャンル予測 1.5205 1.5834 レート予測 1.3224 1.2742 英 ジャンル予測 1.0620 1.0845 レート予測 1.0415 1.0305 値が1.0より⼤きい →学習後に単語数が増えている →単語分割が細かくなっている

Slide 91

Slide 91 text

獲得された単語分割の比較(機械翻訳) • ソース側の分割 • 提案⼿法は接尾辞などを細かく分割する傾向 • ターゲット側の分割 • 主要な接尾辞(-edなど)の分割を変更する程度 最適化なし Student s don ' t have long hours of learning . 最適化あり Student s do n ' t hav e long hour s of learning . ターゲット⽂ 学生 在 校 学习 时间 不 长 。 ソース⽂ 引力 与 其它 力 分 隔 开来 最適化なし Gra vity separate d away from the other force s . 最適化あり Gra vity separat ed away from the other force s . 2022/1/5 博⼠論⽂発表会(平岡達也) 91 導⼊ 背景 Approach 1 Approach 2 分析 □ □ ■ □ まとめ

Slide 92

Slide 92 text

獲得された単語分割の比較(機械翻訳) • ソース側の分割 • 提案⼿法は接尾辞などを細かく分割する傾向 • ターゲット側の分割 • 主要な接尾辞(-edなど)の分割を変更する程度 最適化なし Student s don ' t have long hours of learning . 最適化あり Student s do n ' t hav e long hour s of learning . ターゲット⽂ 学生 在 校 学习 时间 不 长 。 ソース⽂ 引力 与 其它 力 分 隔 开来 最適化なし Gra vity separate d away from the other force s . 最適化あり Gra vity separat ed away from the other force s . 提案⼿法の系列⻑は “最適化なし”の1.35倍 2022/1/5 博⼠論⽂発表会(平岡達也) 92 導⼊ 背景 Approach 1 Approach 2 分析 □ □ ■ □ まとめ

Slide 93

Slide 93 text

獲得された単語分割の比較(機械翻訳) • ソース側の分割 • 提案⼿法は接尾辞などを細かく分割する傾向 • ターゲット側の分割 • 主要な接尾辞(-edなど)の分割を変更する程度 最適化なし Student s don ' t have long hours of learning . 最適化あり Student s do n ' t hav e long hour s of learning . ターゲット⽂ 学生 在 校 学习 时间 不 长 。 ソース⽂ 引力 与 其它 力 分 隔 开来 最適化なし Gra vity separate d away from the other force s . 最適化あり Gra vity separat ed away from the other force s . 提案⼿法の系列⻑は “最適化なし”の1.35倍 提案⼿法の系列⻑は “最適化なし”の0.99倍 2022/1/5 博⼠論⽂発表会(平岡達也) 93 導⼊ 背景 Approach 1 Approach 2 分析 □ □ ■ □ まとめ

Slide 94

Slide 94 text

獲得された単語分割の比較(機械翻訳) • ソース側の分割 • 提案⼿法は接尾辞などを細かく分割する傾向 • ターゲット側の分割 • 主要な接尾辞(-edなど)の分割を変更する程度 最適化なし Student s don ' t have long hours of learning . 最適化あり Student s do n ' t hav e long hour s of learning . ターゲット⽂ 学生 在 校 学习 时间 不 长 。 ソース⽂ 引力 与 其它 力 分 隔 开来 最適化なし Gra vity separate d away from the other force s . 最適化あり Gra vity separat ed away from the other force s . 系列⻑が⻑くなるとデコードで不利になるためか 提案⼿法の系列⻑は “最適化なし”の1.35倍 提案⼿法の系列⻑は “最適化なし”の0.99倍 2022/1/5 博⼠論⽂発表会(平岡達也) 94 導⼊ 背景 Approach 1 Approach 2 分析 □ □ ■ □ まとめ

Slide 95

Slide 95 text

言語・モジュールごとに単語分割の細かさが異なる • ソース側は細かく,ターゲット側は粗く学習 • 細かい系列(多くの短いトークンを含む)を出⼒するのは難しいため • 中国語はターゲット側も細かくなっている • ソース側と系列の細かさを揃えるためか 2022/1/5 博⼠論⽂発表会(平岡達也) 95 (ソース側の⻑さ) (ターゲット側の⻑さ) 導⼊ 背景 Approach 1 Approach 2 分析 □ □ ■ □ まとめ 獲得した単語分割が含む単語数 初期状態の単語分割が含む単語数 ソース側の最適化 あり なし ターゲット側の最適化 なし あり ドイツ語 → 英語 2.5353 0.9992 英語 → ドイツ語 1.3809 0.9996 ベトナム語 → 英語 1.5320 0.9993 英語 → ベトナム語 1.4650 0.9999 中国語 → 英語 1.5175 0.9994 英語 → 中国語 1.3516 1.4713 値が1.0より⼤きい →学習後に単語数が増えている →単語分割が細かくなっている

Slide 96

Slide 96 text

2022/1/5 博⼠論⽂発表会(平岡達也) 96 獲得した単語分割が含む単語数 初期状態の単語分割が含む単語数 ソース側の最適化 あり なし ターゲット側の最適化 なし あり ドイツ語 → 英語 2.5353 0.9992 英語 → ドイツ語 1.3809 0.9996 ベトナム語 → 英語 1.5320 0.9993 英語 → ベトナム語 1.4650 0.9999 中国語 → 英語 1.5175 0.9994 英語 → 中国語 1.3516 1.4713 (ソース側の⻑さ) (ターゲット側の⻑さ) 導⼊ 背景 Approach 1 Approach 2 分析 □ □ ■ □ まとめ 値が1.0より⼤きい →学習後に単語数が増えている →単語分割が細かくなっている 言語・モジュールごとに単語分割の細かさが異なる • ソース側は細かく,ターゲット側は粗く学習 • 細かい系列(多くの短いトークンを含む)を出⼒するのは難しいため • 中国語はターゲット側も細かくなっている • ソース側と系列の細かさを揃えるためか

Slide 97

Slide 97 text

2022/1/5 博⼠論⽂発表会(平岡達也) 97 (ソース側の⻑さ) (ターゲット側の⻑さ) 導⼊ 背景 Approach 1 Approach 2 分析 □ □ ■ □ まとめ 獲得した単語分割が含む単語数 初期状態の単語分割が含む単語数 ソース側の最適化 あり なし ターゲット側の最適化 なし あり ドイツ語 → 英語 2.5353 0.9992 英語 → ドイツ語 1.3809 0.9996 ベトナム語 → 英語 1.5320 0.9993 英語 → ベトナム語 1.4650 0.9999 中国語 → 英語 1.5175 0.9994 英語 → 中国語 1.3516 1.4713 値が1.0より⼤きい →学習後に単語数が増えている →単語分割が細かくなっている 言語・モジュールごとに単語分割の細かさが異なる • ソース側は細かく,ターゲット側は粗く学習 • 細かい系列(多くの短いトークンを含む)を出⼒するのは難しいため • 中国語はターゲット側も細かくなっている • ソース側と系列の細かさを揃えるためか

Slide 98

Slide 98 text

2022/1/5 博⼠論⽂発表会(平岡達也) 98 (ソース側の⻑さ) (ターゲット側の⻑さ) 導⼊ 背景 Approach 1 Approach 2 分析 □ □ ■ □ まとめ 獲得した単語分割が含む単語数 初期状態の単語分割が含む単語数 ソース側の最適化 あり なし ターゲット側の最適化 なし あり ドイツ語 → 英語 2.5353 0.9992 英語 → ドイツ語 1.3809 0.9996 ベトナム語 → 英語 1.5320 0.9993 英語 → ベトナム語 1.4650 0.9999 中国語 → 英語 1.5175 0.9994 英語 → 中国語 1.3516 1.4713 値が1.0より⼤きい →学習後に単語数が増えている →単語分割が細かくなっている 言語・モジュールごとに単語分割の細かさが異なる • ソース側は細かく,ターゲット側は粗く学習 • 細かい系列(多くの短いトークンを含む)を出⼒するのは難しいため • 中国語はターゲット側も細かくなっている • ソース側と系列の細かさを揃えるためか

Slide 99

Slide 99 text

本発表の流れ 2022/1/5 博⼠論⽂発表会(平岡達也) 99 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ ■ まとめ ⽬的:後段タスクに応じた単語分割の最適化 Approach 1: ⽂書分類タスクに限定した 単語分割の最適化⼿法 Approach 2: 後段タスクの種類を限定しない 単語分割の最適化⼿法 実験:⽂書分類で性能向上 拡張 実験:⽂書分類,機械翻訳 で性能向上 分析 • 後処理として単語分割を最適化しても性能向上 • 最適化対象とは異なるタスクでは⼩さい性能向上 • タスクに応じて異なる単語分割を獲得 • マルチタスク学習では各タスクの性質を あわせ持った単語分割を獲得

Slide 100

Slide 100 text

マルチタスク学習での単語分割最適化 • ジャンル予測・レート予測タスクは同⼀のコーパスから作成 • 同じ⽂を⽤いたマルチタスク学習で単語分割を最適化 2022/1/5 博⼠論⽂発表会(平岡達也) 100 E-commerce コーパス (Amazon, 楽天, JD.com) ジャンル予測タスク レート予測タスク 提案⼿法 単語分割の最適化 単語分割の最適化 どのような 単語分割になるか? 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ ■ まとめ

Slide 101

Slide 101 text

マルチタスク学習での単語分割最適化 • シングルタスク学習と⽐べると性能低下 • ジャンル・レート予測はあまり関係がないため • 提案⼿法はマルチタスク学習でも性能向上に寄与 2022/1/5 博⼠論⽂発表会(平岡達也) 101 評価タスク ⾔語 単語分割の 最適化なし Approach1 Approach2 レビューのジャンル予測 中 46.32 (47.95) 46.64 (48.22) 47.60 (48.41) ⽇ 47.11 (47.86) 48.00 (50.21) 49.87 (50.79) 英 70.81 (71.19) 70.61 (71.88) 71.46 (71.83) レビューのレート予測 中 46.77 (49.41) 47.19 (49.63) 48.15 (49.76) ⽇ 51.23 (52.30) 51.08 (53.19) 52.21 (53.37) 英 65.67 (67.53) 65.79 (67.68) 65.67 (67.90) F1値(%),5回試⾏の平均,下線: ベースラインと有意差 (McNemar検定, p<0.05) 括弧内の数値はシングルタスク設定での性能 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ ■ まとめ

Slide 102

Slide 102 text

マルチタスク学習での単語分割最適化 • シングルタスク学習と⽐べると性能低下 • ジャンル・レート予測はあまり関係がないため • 提案⼿法はマルチタスク学習でも性能向上に寄与 2022/1/5 博⼠論⽂発表会(平岡達也) 102 評価タスク ⾔語 単語分割の 最適化なし Approach1 Approach2 レビューのジャンル予測 中 46.32 (47.95) 46.64 (48.22) 47.60 (48.41) ⽇ 47.11 (47.86) 48.00 (50.21) 49.87 (50.79) 英 70.81 (71.19) 70.61 (71.88) 71.46 (71.83) レビューのレート予測 中 46.77 (49.41) 47.19 (49.63) 48.15 (49.76) ⽇ 51.23 (52.30) 51.08 (53.19) 52.21 (53.37) 英 65.67 (67.53) 65.79 (67.68) 65.67 (67.90) 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ ■ まとめ F1値(%),5回試⾏の平均,下線: ベースラインと有意差 (McNemar検定, p<0.05) 括弧内の数値はシングルタスク設定での性能 オレンジ背景は単語分割の最適化なしよりも⾼い数値

Slide 103

Slide 103 text

マルチタスク学習で得られた単語分割 2022/1/5 博⼠論⽂発表会(平岡達也) 103 ⼿法 単語分割 最適化なし ⾹りは すき だけど 、 痛 んだ 髪に は全然 効果なし 。 ジャンル予測タスクに最適化(正解:美容・コスメ・⾹⽔) Approach 1 ⾹り は すき だけど 、 痛 んだ 髪 に は全然 効果 なし 。 Approach 2 ⾹り は すき だけど 、 痛 んだ 髪 に は全然 効果 なし 。 レート予測タスクに最適化(正解:2/5) Approach 1 ⾹りは すき だけど 、 痛 んだ 髪に は 全然 効果なし 。 Approach 2 ⾹りは すき だけど 、 痛 んだ 髪に は 全然 効果なし 。 マルチタスクで最適化 Approach 1 ⾹り は すき だけど 、 痛 んだ 髪 には 全然 効果 なし 。 Approach 2 ⾹り は すき だけど 、 痛 んだ 髪 には 全然 効果 なし 。 ジャンル予測:商品のジャンルに関わる単語を切り出す レート予測 :品質や印象に関わる単語を切り出す • ジャンル・レート予測双⽅の性質を持つ単語分割を獲得 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ ■ まとめ

Slide 104

Slide 104 text

本発表の流れ 2022/1/5 博⼠論⽂発表会(平岡達也) 104 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ ⽬的:後段タスクに応じた単語分割の最適化 Approach 1: ⽂書分類タスクに限定した 単語分割の最適化⼿法 Approach 2: 後段タスクの種類を限定しない 単語分割の最適化⼿法 実験:⽂書分類で性能向上 拡張 実験:⽂書分類,機械翻訳 で性能向上 分析 • 後処理として単語分割を最適化しても性能向上 • 最適化対象とは異なるタスクでは⼩さい性能向上 • タスクに応じて異なる単語分割を獲得 • マルチタスク学習では各タスクの性質を あわせ持った単語分割を獲得

Slide 105

Slide 105 text

本研究の概要 • ⽬的: • 後段タスクに応じて適切な単語分割を探索し,⾃然⾔語処理タスクで の性能向上を⽬指す • 解決⽅策: • 単語分割と後段モデルを同時に最適化することで, 後段タスクに応じた適切な単語分割を学習 • 貢献: • 後段モデルと単語分割を同時に最適化する初めての試みである • タスクやモデルに応じた単語分割を獲得できる⼿法を提案 • 複数のNLPタスクで性能向上に寄与する • NLP以外にも応⽤の余地あり • 天候やゲノムなどの(時)系列データ、画像の分割など 2022/1/5 博⼠論⽂発表会(平岡達也) 105 導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

Slide 106

Slide 106 text

発表文献 • 申請論⽂ • Tatsuya Hiraoka, Sho Takase, Kei Uchiumi, Atsushi Keyaki, Naoaki Okazaki. Joint Optimization of Tokenization and Downstream Model. Findings of ACL-IJCNLP 2021, pages 244‒255 (double-column), August 2021. • 平岡 達也, ⾼瀬 翔, 内海 慶, 欅 惇志, 岡崎 直観. テキストベクトルの重みづけを⽤いたタスクに対する単語分割の最 適化. ⾃然⾔語処理, Vol. 28, No. 2, pages 479-507 (シングルカラム), 2021年6⽉. • その他の主著論⽂ • 平岡 達也, ⾼瀬 翔, 内海 慶, 欅 惇志, 岡崎 直観. 単語分割と後段モデルの損失値を⽤いた同時最適化. ⾃然⾔語処理, 29(1):to appear, 33 pages (シングルカラム), 2022年3⽉. • Tatsuya Hiraoka, Sho Takase, Kei Uchiumi, Atsushi Keyaki, Naoaki Okazaki. Recurrent Neural Hidden Markov Model for High-Order Transition. ACM TALLIP, 21(2): pages 1‒15 (double-column), March 2022. • Tatsuya Hiraoka, Sho Takase, Kei Uchiumi, Atsushi Keyaki, Naoaki Okazaki. Optimizing Word Segmentation for Downstream Task. Findings of EMNLP, pages 1341‒1351 (double-column), Association for Computational Linguistics, November 2020. • Tatsuya Hiraoka, Hiroyuki Shindo, Yuji Matsumoto. Stochastic Tokenization with a Language Model for Neural Text Classification. ACL, pages 1620‒1629 (double-column), July 2019. • 平岡 達也, ⾼瀬 翔, 内海 慶, 欅 惇志, 岡崎 直観. 後段モデルの損失値を⽤いた単語分割のタスクへの最適化. ⾔語処 理学会第27回年次⼤会 (NLP2021), pages486‒491 (ダブルカラム), 2021年3⽉.(若⼿奨励賞) • 平岡 達也, ⾼瀬 翔, 内海 慶, 欅 惇志, 岡崎 直観. RNNにより⾼次の依存を考慮したニューラル隠れマルコフモデル. ⾔語処理学会第26回年次⼤会 (NLP2020), pp. A4‒2 (4 pages,ダブルカラム), 茨城⼤学(茨城県), 2020年3⽉. • 平岡 達也, ⾼瀬 翔, 内海 慶, 欅 惇志, 岡崎 直観. RNNによる遷移確率計算を⽤いた隠れマルコフモデル. 第242回⾃ 然⾔語処理研究会, 2019-NL-242(2), pp. 1‒6 (ダブルカラム), 奈良先端科学技術⼤学院⼤学(奈良県), 2019年10⽉. (若⼿奨励賞) 2022/1/5 博⼠論⽂発表会(平岡達也) 106

Slide 107

Slide 107 text

参考文献1 • Xu, Jia, et al. "Bayesian semi-supervised chinese word segmentation for statistical machine translation." Proceedings of the 22nd International Conference on Computational Linguistics (Coling 2008). 2008. • Chang, Pi-Chuan, Michel Galley, and Christopher D. Manning. "Optimizing Chinese word segmentation for machine translation performance." Proceedings of the third workshop on statistical machine translation. 2008. • Nguyen, ThuyLinh, Stephan Vogel, and Noah A. Smith. "Nonparametric word segmentation for machine translation." Proceedings of the 23rd International Conference on Computational Linguistics (Coling 2010). 2010. • Domingo, Miguel, et al. "How Much Does Tokenization Affect Neural Machine Translation?." arXiv preprint arXiv:1812.08621 (2018). • Thamme Gowda and Jonathan May. 2020. Finding the optimal vocabulary size for neural machine transla- tion. In Findings of the Association for Computational Linguistics: EMNLP 2020, pages 3955‒3964, Online. Association for Computational Linguistics. • Taku Kudo. 2006. Mecab: Yet another part-of-speech and morphological analyzer. http://taku910.github.io/mecab/. • Morita, Hajime, Daisuke Kawahara, and Sadao Kurohashi. "Morphological analysis for unsegmented languages using recurrent neural network language model." Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. 2015. • Kazuma Takaoka, Sorami Hisamoto, Noriko Kawa- hara, Miho Sakamoto, Yoshitaka Uchida, and Yuji Matsumoto. 2018. Sudachi: a japanese tokenizer for business. In Proceedings of the Eleventh International Conference on Language Resources and Eval- uation (LREC 2018), Paris, France. European Lan- guage Resources Association (ELRA). • Yang, Jie, Yue Zhang, and Fei Dong. "Neural Word Segmentation with Rich Pretraining." Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2017. 2022/1/5 博⼠論⽂発表会(平岡達也) 107

Slide 108

Slide 108 text

参考文献2 • Deng Cai, Hai Zhao, Zhisong Zhang, Yuan Xin, Yongjian Wu, and Feiyue Huang. 2017. Fast and accurate neural word segmentation for chinese. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), volume 2, pages 608‒615. • Yang, Jie, Yue Zhang, and Shuailong Liang. "Subword Encoding in Lattice LSTM for Chinese Word Segmentation." Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). 2019. • Rico Sennrich, Barry Haddow, and Alexandra Birch. 2016. Neural machine translation of rare words with subword units. In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), volume 1, pages P1715‒1725. • Kudo, Taku, and John Richardson. "Sentencepiece: A simple and language independent subword tokenizer and detokenizer for neural text processing." arXiv preprint arXiv:1808.06226 (2018). • Xinchi Chen, Zhan Shi, Xipeng Qiu, and Xuanjing Huang. 2017. Dag-based long short-term memory for neural word segmentation. arXiv preprintarXiv:1707.00248. • Yue Zhang and Jie Yang. 2018. Chinese ner using lattice lstm. In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1554‒1564. • Jie Yang, Yue Zhang, and Shuailong Liang. 2018. Subword encoding in lattice lstm for chinese word segmentation. arXiv preprint arXiv:1810.12594. • Taku Kudo. 2018. Subword regularization: Improving neural network translation models with multiple subword candidates. In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 66‒75. • Ivan Provilkov, Dmitrii Emelianenko, and Elena Voita. 2019. Bpe-dropout: Simple and effective subword regularization. arXiv preprint arXiv:1910.13267. 2022/1/5 博⼠論⽂発表会(平岡達也) 108

Slide 109

Slide 109 text

参考文献3 • Matt Post. A call for clarity in reporting BLEU scores. In Proceedings of the Third Conference on Machine Translation (WMT), pages 186‒191, 2018. • Philipp Koehn. Statistical significance tests for machine translation evaluation. In Proceedings of the 2004 conference on empirical methods in natural language processing, pages 388‒395, 2004. 2022/1/5 博⼠論⽂発表会(平岡達也) 109

Slide 110

Slide 110 text

追加資料:Attention Encoderでの実験 2022/1/5 博⼠論⽂発表会(平岡達也) 110

Slide 111

Slide 111 text

追加資料:データサイズ(文書分類) 2022/1/5 博⼠論⽂発表会(平岡達也) 111

Slide 112

Slide 112 text

追加資料:データサイズ(機械翻訳) 2022/1/5 博⼠論⽂発表会(平岡達也) 112

Slide 113

Slide 113 text

追加資料:Nの影響 2022/1/5 博⼠論⽂発表会(平岡達也) 113 機械翻訳 ⽂書分類 Approach1 Approach2

Slide 114

Slide 114 text

追加資料:言語モデルの性質の維持 2022/1/5 博⼠論⽂発表会(平岡達也) 114 学習データに対する単語分割の尤もらしさ (低いほどよい) 検証データでの性能の差 (0より⼤きいほどよい)

Slide 115

Slide 115 text

追加資料:SentencePiece以外の初期化 2022/1/5 博⼠論⽂発表会(平岡達也) 115 (後処理としての単語分割の最適化) Approach1 Approach2

Slide 116

Slide 116 text

追加資料:BERTを用いた実験 2022/1/5 博⼠論⽂発表会(平岡達也) 116 Approach1 Approach2 BiLSTMの最⾼性能

Slide 117

Slide 117 text

追加資料:機械翻訳での全実験 2022/1/5 博⼠論⽂発表会(平岡達也) 117

Slide 118

Slide 118 text

追加資料:Approach2の詳細な学習1/2 2022/1/5 博⼠論⽂発表会(平岡達也) 118

Slide 119

Slide 119 text

追加資料:Approach2の詳細な学習2/2 2022/1/5 博⼠論⽂発表会(平岡達也) 119

Slide 120

Slide 120 text

追加資料:ロジスティック回帰での実験 2022/1/5 博⼠論⽂発表会(平岡達也) 120

Slide 121

Slide 121 text

追加資料:ロジスティック回帰の重み 2022/1/5 博⼠論⽂発表会(平岡達也) 121

Slide 122

Slide 122 text

追加資料:マルチタスク学習モデル 2022/1/5 博⼠論⽂発表会(平岡達也) 122

Slide 123

Slide 123 text

追加資料:確率が大きく向上した単語 2022/1/5 博⼠論⽂発表会(平岡達也) 123