Task-Oriented Word Segmentation (Presentation for Doctoral Dissertation)

Task-Oriented Word Segmentation Tatsuya Hiraoka Okazaki-lab Doctoral Dissertation 2022/1/5 博⼠論⽂発表会（平岡達也）
1

本研究の概要 • ⽬的： • 後段タスクに応じて適切な単語分割を探索し，⾃然⾔語処理タスクでの性能向上を⽬指す • 解決⽅策： • 単語分割と後段モデルを同時に最適化することで，
後段タスクに応じた適切な単語分割を学習 • 貢献： • 後段モデルと単語分割を同時に最適化する初めての試みである • タスクやモデルに応じた単語分割を獲得できる⼿法を提案 • 複数のNLPタスクで性能向上に寄与する 2022/1/5 博⼠論⽂発表会（平岡達也） 2 導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

単語分割どちらも「単語分割」と呼ぶことにします今⽇はとてもいい天気ですね今⽇はとてもいい天気ですね
Itʼs sunny today . It ##ʼ ##s sun ##ny to ##day . 2022/1/5 博⼠論⽂発表会（平岡達也） 3 ⽂→単語列単語列→サブワード列導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

text text … text text … 単語分割器 Corpus Tokenized corpus
後段モデル問題意識 • 「前処理」としての単語分割に問題意識 • ⼀般的なNLPにおける単語分割と後段モデルの関係 - ⽂書分類 - 機械翻訳 - 固有表現抽出 - … - MeCab - BPE - … 2022/1/5 博⼠論⽂発表会（平岡達也） 4 導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

後段モデル問題意識 • 「前処理」としての単語分割に問題意識 • ⼀般的なNLPにおける単語分割と後段モデルの関係 - ⽂書分類 - 機械翻訳 - 固有表現抽出 - … - MeCab - BPE - … 適切な単語分割で性能向上 →後段タスク/モデルに依存* 2022/1/5 博⼠論⽂発表会（平岡達也） 5 *Xu+, 2008; Chang+, 2008; Nguyen+, 2010; Domingo+, 2018; Hiraoka+, 2019; Gowada and May, 2020. 導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

後段モデル問題意識 • 「前処理」としての単語分割に問題意識 • ⼀般的なNLPにおける単語分割と後段モデルの関係 - ⽂書分類 - 機械翻訳 - 固有表現抽出 - … - MeCab - BPE - … 前処理として単語分割を決定しなければいけない前処理適切な単語分割で性能向上 →後段タスク/モデルに依存* 2022/1/5 博⼠論⽂発表会（平岡達也） 6 *Xu+, 2008; Chang+, 2008; Nguyen+, 2010; Domingo+, 2018; Hiraoka+, 2019; Gowada and May, 2020. 導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

後段モデル問題意識 • 「前処理」としての単語分割に問題意識 • ⼀般的なNLPにおける単語分割と後段モデルの関係 - ⽂書分類 - 機械翻訳 - 固有表現抽出 - … - MeCab - BPE - … 前処理として単語分割を決定しなければいけない前処理適切な単語分割で性能向上 →後段タスク/モデルに依存* GAP 2022/1/5 博⼠論⽂発表会（平岡達也） 7 *Xu+, 2008; Chang+, 2008; Nguyen+, 2010; Domingo+, 2018; Hiraoka+, 2019; Gowada and May, 2020. 導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

解決方策 • 後段モデルの性能が向上するように単語分割を更新する text text … text text … 単語分割器
Corpus Tokenized corpus 後段モデル後段モデルと同時に単語分割器を学習単語分割を更新 2022/1/5 博⼠論⽂発表会（平岡達也） 8 導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

従来の単語分割 2022/1/5 博⼠論⽂発表会（平岡達也） 9 辞書を⽤いた単語分割教師あり単語分割教師なし単語分割 text text …
text text … 単語分割器 Corpus Tokenized corpus 後段モデルおおまかに3種類のアプローチ導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

従来の単語分割 2022/1/5 博⼠論⽂発表会（平岡達也） 10 辞書を⽤いた単語分割教師あり単語分割教師なし単語分割 • 主に⽇本語のMeCab，JUMAN++，Sudachi* •
辞書に含まれる単語候補とそのスコアをもとに分割 • ⼀般的には品詞推定と合わせて形態素解析として扱われる text text … text text … 単語分割器 Corpus Tokenized corpus 後段モデル辞書引き *Kudo, 2006; Morita+, 2015; Takaoka+, 2018. 導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

従来の単語分割 2022/1/5 博⼠論⽂発表会（平岡達也） 11 辞書を⽤いた単語分割教師あり単語分割教師なし単語分割 • 主に中国語で⽤いられる* •
PKUやCTBなどのデータで学習したNNを⽤いた単語分割 text text … text text … 単語分割器 Corpus Tokenized corpus 後段モデル単語分割学習⽤データ学習 *Yang+, 2017; Cai+, 2017; Yang+, 2018. 導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

従来の単語分割 2022/1/5 博⼠論⽂発表会（平岡達也） 12 辞書を⽤いた単語分割教師あり単語分割教師なし単語分割 • 主に英語などのサブワード分割（BPE，SentencePiece*） •
後段⽤の学習データなどを⽤いて教師なしで単語分割を学習 text text … text text … 単語分割器 Corpus Tokenized corpus 後段モデル教師なしで単語分割を学習 *Sennrich+, 2016; Kudo and Richardson, 2018. 導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

従来の単語分割 2022/1/5 博⼠論⽂発表会（平岡達也） 13 辞書を⽤いた単語分割教師あり単語分割教師なし単語分割 • 主に英語などのサブワード分割（BPE，SentencePiece*） •
後段⽤の学習データなどを⽤いて教師なしで単語分割を学習 • 提案⼿法は教師なし単語分割の流れを汲む • 後段タスクの情報を⽤いて単語分割を探索する亜種 text text … text text … 単語分割器 Corpus Tokenized corpus 後段モデル教師なしで単語分割を学習＋後段モデルの情報も利⽤ *Sennrich+, 2016; Kudo and Richardson, 2018. 導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

後段モデル単語分割問題への取り組み前処理適切な単語分割で性能向上 →後段タスク/モデルに依存 GAP 2022/1/5 博⼠論⽂発表会（平岡達也） 14 前処理として単語分割を決定しなければいけない導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

後段モデル単語分割問題への取り組み前処理適切な単語分割で性能向上 →後段タスク/モデルに依存 GAP 2022/1/5 博⼠論⽂発表会（平岡達也） 15 サブワード正則化複数の単語分割を受け取る後段モデル単語分割器の探索おおまかに3種類の対処法前処理として単語分割を決定しなければいけない導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

単語分割問題への取り組み 2022/1/5 博⼠論⽂発表会（平岡達也） 16 サブワード正則化複数の単語分割を受け取る後段モデル単語分割器の探索 … text
text Corpus 単語分割器A 単語分割器B 単語分割器C … text text … text text … text text 複数の異なる単語分割器複数の単語分割を受け取れるように拡張した後段モデル • 後段モデルを拡張し，複数の単語分割を同時に⼊⼒する* • 複数の単語分割の中に，後段モデルに適したものがあるはず • 後段モデルの仕組みを⼤きく変える必要があり，処理も遅い *Chen+, 2017; Zhang and Yang, 2018; Yang+, 2018. 導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

text Corpus 単語分割器 … text text … text text … text text 単語分割を毎回サンプリングして学習 • 学習エポックごとに使⽤する単語分割をサンプリング* • 後段モデルは複数の単語分割を学習事例に使⽤可能 • 後段モデルの構造を変える必要なし後段モデル *Kudo, 2018; Hiraoka+, 2019; Provilkov+, 2019. 導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

text Corpus 単語分割器A 単語分割器B 単語分割器C … text text … text text … text text 実際に性能を測ってみる • 何らかの指標で「適切な」単語分割器を選択 • 究極的には，あらゆる単語分割器で後段モデルを学習してみて，性能が良いものを選択する • 現実的ではない後段モデル後段モデル後段モデル採⽤ Chang et al., 2008. 導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

text Corpus 単語分割器複数の or サンプリングした単語分割で学習 • 提案⼿法は，複数の単語分割で後段モデルを学習しつつ，「適切な」単語分割器を直接学習していく複合的なアプローチ後段モデル性能向上に繋がる単語分割の情報をフィードバック … text text … text text … text text 導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

本発表の流れ 2022/1/5 博⼠論⽂発表会（平岡達也） 20 ⽬的：後段タスクに応じた単語分割の最適化 Approach 1：⽂書分類タスクに限定した単語分割の最適化⼿法 Approach
2：後段タスクの種類を限定しない単語分割の最適化⼿法実験：⽂書分類で性能向上拡張実験：⽂書分類，機械翻訳で性能向上分析 • 後処理として単語分割を最適化しても性能向上 • 最適化対象とは異なるタスクでは⼩さい性能向上 • タスクに応じて異なる単語分割を獲得 • マルチタスク学習では各タスクの性質をあわせ持った単語分割を獲得導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

⽬的：後段タスクに応じた単語分割の最適化 Approach 1：⽂書分類タスクに限定した単語分割の最適化⼿法 Approach 2：後段タスクの種類を限定しない単語分割の最適化⼿法実験：⽂書分類で性能向上
拡張実験：⽂書分類，機械翻訳で性能向上分析 • 後処理として単語分割を最適化しても性能向上 • 最適化対象とは異なるタスクでは⼩さい性能向上 • タスクに応じて異なる単語分割を獲得 • マルチタスク学習では各タスクの性質をあわせ持った単語分割を獲得 Approach 1 2022/1/5 博⼠論⽂発表会（平岡達也） 21 ⾃然⾔語処理 28号vol.2, 2021. 導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

目的と解決方策（再掲） • 後段モデルの性能が向上するように単語分割を更新する text text … text text … 単語分割器
Corpus Tokenized corpus 後段モデル後段モデルと同時に単語分割器を学習単語分割を更新 2022/1/5 博⼠論⽂発表会（平岡達也） 22 導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

コアアイディア • 後段モデルの性能が向上するように単語分割を更新する text text … text text … 単語分割器
Corpus Tokenized corpus 後段モデル後段モデルと同時に単語分割器を学習単語分割を更新ニューラルネットで作成 ↓ 後段モデルの損失で更新 2022/1/5 博⼠論⽂発表会（平岡達也） 23 導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

手法概観法改正反対法/改正/反対法/改/正/反対法/改/正反対 Neural Unigram LM N-best分割 2022/1/5
博⼠論⽂発表会（平岡達也） 24 ニューラル⾔語モデルによる単語分割器導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

手法概観法改正反対法/改正/反対法/改/正/反対法/改/正反対 Neural Unigram LM N-best分割 2022/1/5
博⼠論⽂発表会（平岡達也） 25 ニューラル⾔語モデルによる単語分割器導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ単語分割の確率を単語確率の積で計算 𝑝 法/改正/反対 = 𝑝 法 𝑝 改正 𝑝 反対単語確率が学習可能パラメータ

手法概観法改正反対法/改正/反対法/改/正/反対法/改/正反対 Neural Unigram LM N-best分割エ
ンコ $ ダ $ 𝒗!! 𝒗!" 𝒗!# 2022/1/5 博⼠論⽂発表会（平岡達也） 26 ニューラル⾔語モデルによる単語分割器⽂ベクトル LSTM, BiLSTM, Transformerなど導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ単語分割の確率を単語確率の積で計算 𝑝 法/改正/反対 = 𝑝 法 𝑝 改正 𝑝 反対単語確率が学習可能パラメータ

手法概観法改正反対法/改正/反対法/改/正/反対法/改/正反対 Neural Unigram LM N-best分割 ×
𝑝 法/改正/反対 𝑍 × 𝑝 法/改/正/反対 𝑍 × 𝑝 法/改/正反対 𝑍 単語分割の確率で⽂ベクトルに重み付け * 重みの総和は1 エンコ $ ダ $ 𝒗!! 𝒗!" 𝒗!# 2022/1/5 博⼠論⽂発表会（平岡達也） 27 ニューラル⾔語モデルによる単語分割器⽂ベクトル LSTM, BiLSTM, Transformerなど導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ単語分割の確率を単語確率の積で計算 𝑝 法/改正/反対 = 𝑝 法 𝑝 改正 𝑝 反対単語確率が学習可能パラメータ

手法概観法改正反対法/改正/反対法/改/正/反対法/改/正反対正解ラベル: Negative Neural Unigram LM
N-best分割 × 𝑝 法/改正/反対 𝑍 × 𝑝 法/改/正/反対 𝑍 × 𝑝 法/改/正反対 𝑍 Σ 単語分割の確率で⽂ベクトルに重み付け * 重みの総和は1 エンコ $ ダ $ 𝒗!! 𝒗!" 𝒗!# 𝒗! ℒ% MLP 損失関数 2022/1/5 博⼠論⽂発表会（平岡達也） 28 ニューラル⾔語モデルによる単語分割器⽂ベクトル LSTM, BiLSTM, Transformerなど導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ単語分割の確率を単語確率の積で計算 𝑝 法/改正/反対 = 𝑝 法 𝑝 改正 𝑝 反対単語確率が学習可能パラメータ

ニューラル⾔語モデルによる単語分割器手法概観法改正反対法/改正/反対法/改/正/反対法/改/正反対正解ラベル: Negative Neural
Unigram LM N-best分割 × 𝑝 法/改正/反対 𝑍 × 𝑝 法/改/正/反対 𝑍 × 𝑝 法/改/正反対 𝑍 Σ 単語分割の確率で⽂ベクトルに重み付け * 重みの総和は1 エンコ $ ダ $ 𝒗!! 𝒗!" 𝒗!# 𝒗! ℒ% 損失関数 2022/1/5 博⼠論⽂発表会（平岡達也） 29 ⽂ベクトル MLP LSTM, BiLSTM, Transformerなど導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ分類器の更新単語分割の確率を単語確率の積で計算 𝑝 法/改正/反対 = 𝑝 法 𝑝 改正 𝑝 反対単語確率が学習可能パラメータ

単語分割の確率を単語確率の積で計算 𝑝 法/改正/反対 = 𝑝 法 𝑝 改正 𝑝 反対
ニューラル⾔語モデルによる単語分割器手法概観法改正反対法/改正/反対法/改/正/反対法/改/正反対正解ラベル: Negative Neural Unigram LM N-best分割 × 𝑝 法/改正/反対 𝑍 × 𝑝 法/改/正/反対 𝑍 × 𝑝 法/改/正反対 𝑍 Σ 単語分割の確率で⽂ベクトルに重み付け * 重みの総和は1 エンコ $ ダ $ 𝒗!! 𝒗!" 𝒗!# 𝒗! ℒ% 損失関数 2022/1/5 博⼠論⽂発表会（平岡達也） 30 ⽂ベクトル MLP LSTM, BiLSTM, Transformerなど導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ分類器の更新単語確率が学習可能パラメータ ℒ! が⼩さくなる単語分割に⾼い確率を与えるように更新

推論時の単語分割 • 推論時は学習済みの単語分割器を⽤いて1-best分割 2022/1/5 博⼠論⽂発表会（平岡達也） 31 0 0.2 0.4 0.6
0.8 Positive Negative ラベルの予測確率法改正反対法/改/正/反対 Neural Unigram LM 1-best分割 MLP エンコ $ ダ $ 導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

単語分割器の初期化 • 単語分割器はSentencePiece*で学習した語彙・単語確率で初期化 • 与えられた語彙から適切な単語分割を求める 2022/1/5 博⼠論⽂発表会（平岡達也） 32 法改正反対法/改正/反対
法/改/正/反対法/改/正反対 Neural Unigram LM N-best分割 × 𝑝 法/改正/反対 𝑍 × 𝑝 法/改/正/反対 𝑍 × 𝑝 法/改/正反対 𝑍 Σ 単語分割の確率で⽂ベクトルに重み付け * 重みの総和は1 エンコ $ ダ $ 𝒗!! 𝒗!" 𝒗!# 𝒗! ℒ% MLP 損失関数 * Kudo and Richardson, 2018. 導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

文書分類タスクで性能向上タスク⾔語単語分割の最適化なし単語分割の最適化あり感情分析中 92.79
92.93 ⽇ 86.51 87.39 英 77.31 79.04 レビューのジャンル予測中 47.95 48.22 ⽇ 47.86 50.21 英 71.19 71.88 レビューのレート予測中 49.41 49.63 ⽇ 52.30 53.19 英 67.53 67.68 SNLI 英 76.75 77.04 2022/1/5 博⼠論⽂発表会（平岡達也） 33 • ⽂書分類モデルのエンコーダーはBiLSTM 導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ F1値(%)，5回試⾏の平均，下線: ベースラインと有意差 (McNemar検定p<0.05)

92.93 ⽇ 86.51 87.39 英 77.31 79.04 レビューのジャンル予測中 47.95 48.22 ⽇ 47.86 50.21 英 71.19 71.88 レビューのレート予測中 49.41 49.63 ⽇ 52.30 53.19 英 67.53 67.68 SNLI 英 76.75 77.04 2022/1/5 博⼠論⽂発表会（平岡達也） 34 Weibo, Twitter • ⽂書分類モデルのエンコーダーはBiLSTM 導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ F1値(%)，5回試⾏の平均，下線: ベースラインと有意差 (McNemar検定p<0.05)

92.93 ⽇ 86.51 87.39 英 77.31 79.04 レビューのジャンル予測中 47.95 48.22 ⽇ 47.86 50.21 英 71.19 71.88 レビューのレート予測中 49.41 49.63 ⽇ 52.30 53.19 英 67.53 67.68 SNLI 英 76.75 77.04 2022/1/5 博⼠論⽂発表会（平岡達也） 35 Weibo, Twitter JD.com, 楽天市場, Amazon JD.com, 楽天市場, Amazon • ⽂書分類モデルのエンコーダーはBiLSTM 導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ F1値(%)，5回試⾏の平均，下線: ベースラインと有意差 (McNemar検定p<0.05)

92.93 ⽇ 86.51 87.39 英 77.31 79.04 レビューのジャンル予測中 47.95 48.22 ⽇ 47.86 50.21 英 71.19 71.88 レビューのレート予測中 49.41 49.63 ⽇ 52.30 53.19 英 67.53 67.68 SNLI 英 76.75 77.04 2022/1/5 博⼠論⽂発表会（平岡達也） 36 F1値(%)，5回試⾏の平均，下線: ベースラインと有意差 (McNemar検定p<0.05) Weibo, Twitter JD.com, 楽天市場, Amazon JD.com, 楽天市場, Amazon ⼊⼒が2⽂ • ⽂書分類モデルのエンコーダーはBiLSTM 導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

単語分割の更新のみでも性能が向上法改正反対法/改正/反対法/改/正/反対法/改/正反対正解ラベル: Negative Neural Unigram LM
N-best分割 × 𝑝 法/改正/反対 𝑍 × 𝑝 法/改/正/反対 𝑍 × 𝑝 法/改/正反対 𝑍 Σ 単語分割の確率で⽂ベクトルに重み付け * 重みの総和は1 エンコ $ ダ $ 𝒗!! 𝒗!" 𝒗!# 𝒗! ℒ% 損失関数 2022/1/5 博⼠論⽂発表会（平岡達也） 37 • 単語分割以外のパラメータを固定して学習 →学習できるのは単語分割器（Neural Unigram LM）のみ固定⽂ベクトル MLP 固定導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

単語分割の更新のみでも性能が向上 • 提案⼿法によって単語分割を更新することが，性能の向上に寄与することを⽰唆 • ⽇本語感情分析データセットで実験 2022/1/5 博⼠論⽂発表会（平岡達也） 38 単語分割の更新のみで
検証データの性能が向上単語分割の更新のみで学習データの損失が低下導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

本発表の流れ 2022/1/5 博⼠論⽂発表会（平岡達也） 39 導⼊背景 Approach 1 Approach 2
分析 □ □ □ □ まとめ⽬的：後段タスクに応じた単語分割の最適化 Approach 1：⽂書分類タスクに限定した単語分割の最適化⼿法 Approach 2：後段タスクの種類を限定しない単語分割の最適化⼿法実験：⽂書分類で性能向上拡張実験：⽂書分類，機械翻訳で性能向上分析 • 後処理として単語分割を最適化しても性能向上 • 最適化対象とは異なるタスクでは⼩さい性能向上 • タスクに応じて異なる単語分割を獲得 • マルチタスク学習では各タスクの性質をあわせ持った単語分割を獲得

Approach 2 2022/1/5 博⼠論⽂発表会（平岡達也） 40 Findings of ACL-IJCNLP 2021 導⼊
背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

法改正反対法/改正/反対法/改/正/反対法/改/正反対正解ラベル: Negative Neural Unigram LM N-best分割
× " 法/改正/反対 # × " 法/改/正/反対 # × " 法/改/正反対 # Σ 単語分割の確率で⽂ベクトルに重み付け * 重みの総和は1 エンコ $ ダ $ !!! !!" !!# !! ℒ! 損失関数 MLP ℒ! が⼩さくなる単語分割に⾼い確率を与えるように更新 Approach 1の問題点 2022/1/5 博⼠論⽂発表会（平岡達也） 41 Approach 1 ⽂ベクトルの計算が必須 →⽂書分類タスクなどに限定導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ後段モデル

× " 法/改正/反対 # × " 法/改/正/反対 # × " 法/改/正反対 # Σ 単語分割の確率で⽂ベクトルに重み付け * 重みの総和は1 エンコ $ ダ $ !!! !!" !!# !! ℒ! 損失関数 MLP ℒ! が⼩さくなる単語分割に⾼い確率を与えるように更新 Approach 1 後段モデル Approach 1の問題点 2022/1/5 博⼠論⽂発表会（平岡達也） 42 ⽂ベクトルの計算が必須 →⽂書分類タスクなどに限定後段モデルの内部に埋め込む必要がある →スケーラビリティが低い導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

× " 法/改正/反対 # × " 法/改/正/反対 # × " 法/改/正反対 # Σ 単語分割の確率で⽂ベクトルに重み付け * 重みの総和は1 エンコ $ ダ $ !!! !!" !!# !! ℒ! 損失関数 MLP ℒ! が⼩さくなる単語分割に⾼い確率を与えるように更新 Approach 1 後段モデル Approach 1の問題点 2022/1/5 博⼠論⽂発表会（平岡達也） 43 ⽂ベクトルの計算が必須 →⽂書分類タスクなどに限定後段モデルの内部に埋め込む必要がある →スケーラビリティが低い様々な後段タスク・後段モデルに適⽤可能な単語分割の最適化⼿法は存在していない導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

基本戦略 • 適切な単語分割：後段モデルの損失が最も低くなる単語分割 • 後段モデルの構造やパラメータ，後段タスクの性質に依存 2022/1/5 博⼠論⽂発表会（平岡達也） 44 法改正反対法/改/正/反対
正解ラベル: Negative 0.69 後段モデル損失関数 * 後段タスクが感情分析の場合損失値 LSTM⽂書分類器など交差エントロピー誤差など導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

法/改正/反対 0.22 基本戦略 • 適切な単語分割：後段モデルの損失が最も低くなる単語分割 • 後段モデルの構造やパラメータ，後段タスクの性質に依存 2022/1/5 博⼠論⽂発表会（平岡達也） 45
複数の単語分割候補法改正反対法/改/正/反対法/改/正反対正解ラベル: Negative 0.69 0.91 後段モデル損失関数 * 後段タスクが感情分析の場合 LSTM⽂書分類器など交差エントロピー誤差など損失値導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

基本戦略 • 適切な単語分割：後段モデルの損失が最も低くなる単語分割 • 後段モデルの構造やパラメータ，後段タスクの性質に依存 2022/1/5 博⼠論⽂発表会（平岡達也） 46 複数の単語分割候補損失値が最も低くなる
単語分割を採⽤したい →後段モデルの損失を利⽤した単語分割器の学習法改正反対法/改正/反対法/改/正/反対法/改/正反対正解ラベル: Negative 0.22 0.69 0.91 後段モデル損失関数 * 後段タスクが感情分析の場合 LSTM⽂書分類器など交差エントロピー誤差など損失値導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

単語分割器の学習 • 単語分割器としてニューラルユニグラム⾔語モデルを⽤いる • 単語分散表現から単語の確率𝑝(𝑤)を計算 2022/1/5 博⼠論⽂発表会（平岡達也） 47 法改正反対法/改正/反対
法/改/正/反対法/改/正反対正解ラベル: Negative 0.22 0.69 0.91 後段モデル損失関数 Neural Unigram LM N-best分割 × 𝑝 法/改正/反対 𝑍 × 𝑝 法/改/正/反対 𝑍 × 𝑝 法/改/正反対 𝑍 単語分割の確率で損失に重み付け * 重みの総和は1 導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

法/改/正/反対法/改/正反対正解ラベル: Negative 0.22 0.69 0.91 後段モデル損失関数 Neural Unigram LM N-best分割 × 𝑝 法/改正/反対 𝑍 × 𝑝 法/改/正/反対 𝑍 × 𝑝 法/改/正反対 𝑍 Σ loss 単語分割の確率で損失に重み付け * 重みの総和は1 導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

法/改/正/反対法/改/正反対正解ラベル: Negative 0.22 0.69 0.91 後段モデル損失関数 Neural Unigram LM N-best分割 × 𝑝 法/改正/反対 𝑍 × 𝑝 法/改/正/反対 𝑍 × 𝑝 法/改/正反対 𝑍 Σ loss 単語分割の確率で損失に重み付け * 重みの総和は1 この損失への誤差逆伝播で LMと後段モデルを同時に更新 →損失が⼩さい単語分割の確率が上昇するように更新導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ勾配が計算できる

法/改/正/反対法/改/正反対正解ラベル: Negative 0.22 0.69 0.91 後段モデル損失関数 Neural Unigram LM N-best分割 × 𝑝 法/改正/反対 𝑍 × 𝑝 法/改/正/反対 𝑍 × 𝑝 法/改/正反対 𝑍 Σ loss 単語分割の確率で損失に重み付けこの損失への誤差逆伝播で LMと後段モデルを同時に更新 →損失が⼩さい単語分割の確率が上昇するように更新後段モデルと損失関数は何でも良いのでタスクやモデルを選ばない * 重みの総和は1 勾配が計算できる導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

後段モデルの学習 • 最終的なlossから後段モデルを学習するのは困難 2022/1/5 博⼠論⽂発表会（平岡達也） 51 法改正反対法/改正/反対法/改/正/反対法/改/正反対
正解ラベル: Negative 0.22 0.69 0.91 損失関数 Neural Unigram LM N-best分割 × 𝑝 法/改正/反対 𝑍 × 𝑝 法/改/正/反対 𝑍 × 𝑝 法/改/正反対 𝑍 Σ loss 単語分割の確率で損失に重み付け * 重みの総和は1 後段モデル更新には計算グラフを保持したまま N個の後段モデルの計算が必要 →後段モデルが巨⼤な場合は学習不可能導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ勾配が計算できる

正解ラベル: Negative 更新には計算グラフを保持したまま N個の後段モデルの前向き計算が必要 →後段モデルが巨⼤な場合は学習不可能後段モデルの学習 • 最終的なlossから後段モデルを学習するのは困難 • サブワード正則化を⽤いた学習により解決
2022/1/5 博⼠論⽂発表会（平岡達也） 52 法改正反対法/改正/反対法/改/正/反対法/改/正反対 0.22 0.69 0.91 損失関数 Neural Unigram LM N-best分割 × 𝑝 法/改正/反対 𝑍 × 𝑝 法/改/正/反対 𝑍 × 𝑝 法/改/正反対 𝑍 Σ loss 単語分割の確率で損失に重み付け * 重みの総和は1 後段モデルランダムに選択した単語分割による lossだけで後段モデルを更新導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ勾配が計算できる

法改正反対法/改正/反対法/改/正/反対法/改/正反対正解ラベル: Negative 0.22 0.69 0.91 後
段モデル損失関数 Neural Unigram LM N-best分割 × " 法/改正/反対 # × " 法/改/正/反対 # × " 法/改/正反対 # Σ loss 単語分割の確率で損失に重み付け * 重みの総和は1 勾配が計算できる法改正反対法/改正/反対法/改/正/反対法/改/正反対正解ラベル: Negative Neural Unigram LM N-best分割 × " 法/改正/反対 # × " 法/改/正/反対 # × " 法/改/正反対 # Σ 単語分割の確率で⽂ベクトルに重み付け * 重みの総和は1 エンコ $ ダ $ !!! !!" !!# !! ℒ! 損失関数 MLP ℒ! が⼩さくなる単語分割に⾼い確率を与えるように更新 Approach 1 vs. 2: 構造的比較 2022/1/5 博⼠論⽂発表会（平岡達也） 53 Approach 1 Approach 2 後段モデル⽂ベクトル（後段モデルの内部） →スケーラビリティ👎 損失値（後段モデルの外部） →スケーラビリティ👍 単語分割確率の重み付けを⾏う箇所単語分割確率の重み付けを⾏う箇所導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

法改正反対法/改正/反対法/改/正/反対法/改/正反対正解ラベル: Negative 0.22 0.69 0.91 後
段モデル損失関数 Neural Unigram LM N-best分割 × " 法/改正/反対 # × " 法/改/正/反対 # × " 法/改/正反対 # Σ loss 単語分割の確率で損失に重み付け * 重みの総和は1 勾配が計算できる法改正反対法/改正/反対法/改/正/反対法/改/正反対正解ラベル: Negative Neural Unigram LM N-best分割 × " 法/改正/反対 # × " 法/改/正/反対 # × " 法/改/正反対 # Σ 単語分割の確率で⽂ベクトルに重み付け * 重みの総和は1 エンコ $ ダ $ !!! !!" !!# !! ℒ! 損失関数 MLP ℒ! が⼩さくなる単語分割に⾼い確率を与えるように更新 Approach 1 Approach 2 後段モデル Approach 1 vs. 2: 構造的比較 2022/1/5 博⼠論⽂発表会（平岡達也） 54 ⽂ベクトル（後段モデルの内部） →スケーラビリティ👎 N-best単語分割損失値（後段モデルの外部） →スケーラビリティ👍 サンプリングされた1つの単語分割単語分割確率の重み付けを⾏う箇所単語分割確率の重み付けを⾏う箇所後段モデルの学習に使⽤する⼊⼒後段モデルの学習に使⽤する⼊⼒導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

文書分類タスクで性能向上 • Approach 2は7/10データセットでApproach 1の数値を上回る • Approach1, 2の間に統計的有意差はなしタスク⾔語
単語分割の最適化なし Approach1 Approach2 感情分析中 92.79 92.93 93.06 ⽇ 86.51 87.39 87.27 英 77.31 79.04 78.63 レビューのジャンル予測中 47.95 48.22 48.41 ⽇ 47.86 50.21 50.79 英 71.19 71.88 71.83 レビューのレート予測中 49.41 49.63 49.76 ⽇ 52.30 53.19 53.37 英 67.53 67.68 67.90 SNLI 英 76.75 77.04 77.05 2022/1/5 博⼠論⽂発表会（平岡達也） 55 Weibo, Twitter JD.com, 楽天市場, Amazon JD.com, 楽天市場, Amazon ⼊⼒が2⽂導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ F1値(%)，5回試⾏の平均，下線: ベースラインと有意差 (McNemar検定p<0.05)

単語分割の更新のみでも性能が向上 2022/1/5 博⼠論⽂発表会（平岡達也） 58 • 単語分割以外のパラメータを固定して学習 →学習できるのは単語分割器（Neural Unigram LM）のみ導⼊
背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ法改正反対法/改正/反対法/改/正/反対法/改/正反対正解ラベル: Negative 0.22 0.69 0.91 損失関数 Neural Unigram LM N-best分割 × 𝑝 法/改正/反対 𝑍 × 𝑝 法/改/正/反対 𝑍 × 𝑝 法/改/正反対 𝑍 Σ loss 単語分割の確率で損失に重み付け * 重みの総和は1 勾配が計算できる後段モデル固定

単語分割の更新のみでも性能が向上 • Approach1, 2ともに単語分割の更新が性能の向上に寄与 • ⽇本語感情分析データセットで実験 2022/1/5 博⼠論⽂発表会（平岡達也） 59 0
2 4 6 8 10 -25 -20 -15 -10 -5 0 1 2 3 4 5 6 7 8 9 10 Valid F1% Diff. Loss Diff. Epoch Loss-Diff (OpTok) Loss-Diff (OpTok4AT) F1-Diff(OpTok) F1-Diff(OpTok4AT) 単語分割の更新のみで検証データの性能が向上単語分割の更新のみで学習データの損失が低下 0 1 2 3 4 5 6 7 8 9 (Approach1) (Approach1) (Approach2) (Approach2) 導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

単語分割の更新のみでも性能が向上 • Approach1, 2ともに単語分割の更新が性能の向上に寄与 • ⽇本語感情分析データセットで実験 2022/1/5 博⼠論⽂発表会（平岡達也） 60 単語分割の更新のみで
検証データの性能が向上単語分割の更新のみで学習データの損失が低下更新初期に Approach1, 2で振る舞いに差 0 1 2 3 4 5 6 7 8 9 (Approach1) (Approach1) (Approach2) (Approach2) 導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

機械翻訳でも性能向上に寄与 • 機械翻訳⼿法: Transformer ソース側の単語分割の最適化ターゲット側の単語分割の最適化データセット⾔語対なしあり
なしありなしなしありあり IWSLT15 Vi→En 28.78 29.34 29.69 29.44 En→Vi 31.60 31.41 31.74 31.70 Zh→En 21.17 21.63 21.65 21.89 En→Zh 15.25 15.45 15.59 15.31 WMT14 De→En 31.89 32.19 31.98 31.90 En→De 27.41 27.62 27.52 27.44 2022/1/5 博⼠論⽂発表会（平岡達也） 61 SacreBLEU*値，3回試⾏の平均，下線: ベースラインと有意差** (p<0.05), *Post 2018, **Koehn+ 2004 導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

機械翻訳でも性能向上に寄与 • 機械翻訳⼿法: Transformer データセット⾔語対なしありなしあり
なしなしありあり IWSLT15 Vi→En 28.78 29.34 29.69 29.44 En→Vi 31.60 31.41 31.74 31.70 Zh→En 21.17 21.63 21.65 21.89 En→Zh 15.25 15.45 15.59 15.31 WMT14 De→En 31.89 32.19 31.98 31.90 En→De 27.41 27.62 27.52 27.44 例：ソース側の単語分割のみを提案⼿法で最適化 2022/1/5 博⼠論⽂発表会（平岡達也） 62 ソース側の単語分割の最適化ターゲット側の単語分割の最適化導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ SacreBLEU*値，3回試⾏の平均，下線: ベースラインと有意差** (p<0.05), *Post 2018, **Koehn+ 2004

機械翻訳でも性能向上に寄与 • 機械翻訳⼿法: Transformer ※ベースラインを超える数値データセット⾔語対なしありなし
ありなしなしありあり IWSLT15 Vi→En 28.78 29.34 29.69 29.44 En→Vi 31.60 31.41 31.74 31.70 Zh→En 21.17 21.63 21.65 21.89 En→Zh 15.25 15.45 15.59 15.31 WMT14 De→En 31.89 32.19 31.98 31.90 En→De 27.41 27.62 27.52 27.44 例：ソース側の単語分割のみを提案⼿法で最適化ベースライン 2022/1/5 博⼠論⽂発表会（平岡達也） 63 ソース側の単語分割の最適化ターゲット側の単語分割の最適化導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ SacreBLEU*値，3回試⾏の平均，下線: ベースラインと有意差** (p<0.05), *Post 2018, **Koehn+ 2004

ベースライン機械翻訳でも性能向上に寄与 • 機械翻訳⼿法: Transformer ※ベースラインを超える数値データセット⾔語対なしあり
なしありなしなしありあり IWSLT15 Vi→En 28.78 29.34 29.69 29.44 En→Vi 31.60 31.41 31.74 31.70 Zh→En 21.17 21.63 21.65 21.89 En→Zh 15.25 15.45 15.59 15.31 WMT14 De→En 31.89 32.19 31.98 31.90 En→De 27.41 27.62 27.52 27.44 ターゲット側に提案⼿法を⽤いると性能が⾼い傾向がある例：ソース側の単語分割のみを提案⼿法で最適化 2022/1/5 博⼠論⽂発表会（平岡達也） 64 ソース側の単語分割の最適化ターゲット側の単語分割の最適化導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ SacreBLEU*値，3回試⾏の平均，下線: ベースラインと有意差** (p<0.05), *Post 2018, **Koehn+ 2004

SacreBLEU*値，3回試⾏の平均，下線: ベースラインと有意差** (p<0.05), *Post 2018, **Koehn+ 2004 ベースライン機械翻訳でも性能向上に寄与 •
機械翻訳⼿法: Transformer ※ベースラインを超える数値データセット⾔語対なしありなしありなしなしありあり IWSLT15 Vi→En 28.78 29.34 29.69 29.44 En→Vi 31.60 31.41 31.74 31.70 Zh→En 21.17 21.63 21.65 21.89 En→Zh 15.25 15.45 15.59 15.31 WMT14 De→En 31.89 32.19 31.98 31.90 En→De 27.41 27.62 27.52 27.44 例：ソース側の単語分割のみを提案⼿法で最適化ターゲット側に提案⼿法を⽤いると性能が⾼い傾向がある両側に提案⼿法を⽤いると性能は低め →学習が安定しないためか 2022/1/5 博⼠論⽂発表会（平岡達也） 65 ソース側の単語分割の最適化ターゲット側の単語分割の最適化導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

モジュールごとに学習すると性能向上 • ソース側・ターゲット側の単語分割の同時最適化は難しい？ • ⽚側ずつ最適化することで性能は向上するか • ソース側から順に最適化すると性能が向上 • ソース側の単語分割は最適化によって⼤きく変わるため，先に決定しておくことで性能が安定すると⾒られる
2022/1/5 博⼠論⽂発表会（平岡達也） 66 ⾔語対同時に最適化 Src→Tgt Tgt→Src ランダム Vi→En 29.44 30.22 29.47 29.37 En→Vi 31.70 31.78 31.33 31.70 Zh→En 21.89 21.99 21.82 21.66 En→Zh 15.31 15.54 14.88 15.14 導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

2022/1/5 博⼠論⽂発表会（平岡達也） 67 ⾔語対同時に最適化 Src→Tgt Tgt→Src ランダム Vi→En 29.44 30.22 29.47 29.37 En→Vi 31.70 31.78 31.33 31.70 Zh→En 21.89 21.99 21.82 21.66 En→Zh 15.31 15.54 14.88 15.14 ⼀つ前のスライドの結果導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

2022/1/5 博⼠論⽂発表会（平岡達也） 68 ⾔語対同時に最適化 Src→Tgt Tgt→Src ランダム Vi→En 29.44 30.22 29.47 29.37 En→Vi 31.70 31.78 31.33 31.70 Zh→En 21.89 21.99 21.82 21.66 En→Zh 15.31 15.54 14.88 15.14 ⼀つ前のスライドの結果前半50epoch: ソース側後半50epoch: ターゲット側導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

2022/1/5 博⼠論⽂発表会（平岡達也） 69 ⾔語対同時に最適化 Src→Tgt Tgt→Src ランダム Vi→En 29.44 30.22 29.47 29.37 En→Vi 31.70 31.78 31.33 31.70 Zh→En 21.89 21.99 21.82 21.66 En→Zh 15.31 15.54 14.88 15.14 ⼀つ前のスライドの結果前半50epoch: ソース側後半50epoch: ターゲット側前半50epoch: ターゲット側後半50epoch: ソース側導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

2022/1/5 博⼠論⽂発表会（平岡達也） 70 ⾔語対同時に最適化 Src→Tgt Tgt→Src ランダム Vi→En 29.44 30.22 29.47 29.37 En→Vi 31.70 31.78 31.33 31.70 Zh→En 21.89 21.99 21.82 21.66 En→Zh 15.31 15.54 14.88 15.14 ⼀つ前のスライドの結果前半50epoch: ソース側後半50epoch: ターゲット側前半50epoch: ターゲット側後半50epoch: ソース側ミニバッチごとにソース側・ターゲット側をランダムに選択して学習導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

分析 ▪ □ □ □ まとめ⽬的：後段タスクに応じた単語分割の最適化 Approach 1：⽂書分類タスクに限定した単語分割の最適化⼿法 Approach 2：後段タスクの種類を限定しない単語分割の最適化⼿法実験：⽂書分類で性能向上拡張実験：⽂書分類，機械翻訳で性能向上分析 • 後処理として単語分割を最適化しても性能向上 • 最適化対象とは異なるタスクでは⼩さい性能向上 • タスクに応じて異なる単語分割を獲得 • マルチタスク学習では各タスクの性質をあわせ持った単語分割を獲得

後処理としての単語分割モデルの最適化 • 学習済みの後段モデルに対して，単語分割モデルだけを最適化 • 後段モデルが学習済みかつ固定されていても有効であることを確認 2022/1/5 博⼠論⽂発表会（平岡達也） 72 法改正反対法/改正/反対
法/改/正/反対法/改/正反対 0.22 0.69 0.91 損失関数 Neural Unigram LM N-best分割 × 𝑝 法/改正/反対 𝑍 × 𝑝 法/改/正/反対 𝑍 × 𝑝 法/改/正反対 𝑍 Σ loss * 重みの総和は1 ⼀般的な⽅法（＝単語分割の最適化なし）で学習し，パラメータを固定して使⽤後段モデル導⼊背景 Approach 1 Approach 2 分析 ▪ □ □ □ まとめ

後処理としての単語分割モデルの最適化 • 学習済みの後段モデルであっても，性能の向上が⾒られる • ⼀般的な⽅法で学習したモデルでも，提案⼿法によって単語分割の最適化のみで更なる性能向上が得られる可能性を⽰唆 2022/1/5 博⼠論⽂発表会（平岡達也） 73 単語分割のみ最適化
(5epoch) タスクデータセット最適化なし Approach1 Approach2 感情分析 Weibo (Zh) 92.69 93.08 92.99 （F1値） Twitter(Ja) 85.88 86.23 86.28 Twitter(En) 77.21 77.41 77.77 機械翻訳 Vi-En 28.82 - 28.91 （BLEU） En-Vi 30.48 - 30.60 Zh-En 21.55 - 21.82 En-Zh 14.57 - 14.83 学習済みモデルを固定して単語分割モデルのみを最適化導⼊背景 Approach 1 Approach 2 分析 ▪ □ □ □ まとめ

分析 □ ▪ □ □ まとめ⽬的：後段タスクに応じた単語分割の最適化 Approach 1：⽂書分類タスクに限定した単語分割の最適化⼿法 Approach 2：後段タスクの種類を限定しない単語分割の最適化⼿法実験：⽂書分類で性能向上拡張実験：⽂書分類，機械翻訳で性能向上分析 • 後処理として単語分割を最適化しても性能向上 • 最適化対象とは異なるタスクでは⼩さい性能向上 • タスクに応じて異なる単語分割を獲得 • マルチタスク学習では各タスクの性質をあわせ持った単語分割を獲得

最適化対象とは異なるタスクでの評価 • ジャンル予測・レート予測タスクは同⼀のコーパスから作成 • 最適化された単語分割がタスクに特化しているかを確認 2022/1/5 博⼠論⽂発表会（平岡達也） 75 E-commerce コーパス
（Amazon, 楽天, JD.com）ジャンル予測タスクレート予測タスクジャンル予測タスク提案⼿法単語分割の最適化提案⼿法単語分割の最適化最適化したタスクとは異なるタスクに単語分割を利⽤ →性能が下がるはず導⼊背景 Approach 1 Approach 2 分析 □ ▪ □ □ まとめ

最適化対象とは異なるタスクでの性能 • 単語分割を最適化することで性能向上 • 異なるタスクに最適化した単語分割も性能向上に寄与する場合がある • 評価タスクと同じタスクに単語分割を最適化すると性能向上 2022/1/5 博⼠論⽂発表会（平岡達也） 76
単語分割を最適化したタスク⾔語評価タスク最適化なしジャンル予測レート予測中ジャンル予測 48.85 49.29 49.14 レート予測 53.39 53.37 53.66 ⽇ジャンル予測 45.48 46.12 45.64 レート予測 48.94 49.07 49.18 英ジャンル予測 71.64 71.78 71.66 レート予測 67.56 67.56 67.72 後処理として最適化 F1値(%)，5回試⾏の平均，下線: タスク違いの単語分割最適化設定と有意差(McNemar検定 p<0.05) （Approach2）導⼊背景 Approach 1 Approach 2 分析 □ ▪ □ □ まとめ

単語分割を最適化したタスク⾔語評価タスク最適化なしジャンル予測レート予測中ジャンル予測 48.85 49.29 49.14 レート予測 53.39 53.37 53.66 ⽇ジャンル予測 45.48 46.12 45.64 レート予測 48.94 49.07 49.18 英ジャンル予測 71.64 71.78 71.66 レート予測 67.56 67.56 67.72 後処理として最適化ジャンル予測タスクで学習を⾏った後段モデルの性能（Approach2）導⼊背景 Approach 1 Approach 2 分析 □ ▪ □ □ まとめ F1値(%)，5回試⾏の平均，下線: タスク違いの単語分割最適化設定と有意差(McNemar検定 p<0.05)

単語分割を最適化したタスク⾔語評価タスク最適化なしジャンル予測レート予測中ジャンル予測 48.85 49.29 49.14 レート予測 53.39 53.37 53.66 ⽇ジャンル予測 45.48 46.12 45.64 レート予測 48.94 49.07 49.18 英ジャンル予測 71.64 71.78 71.66 レート予測 67.56 67.56 67.72 後処理として最適化ジャンル予測タスクで学習を⾏った後段モデルの性能ジャンル予測に最適化した単語分割をジャンル予測で評価（Approach2）導⼊背景 Approach 1 Approach 2 分析 □ ▪ □ □ まとめ F1値(%)，5回試⾏の平均，下線: タスク違いの単語分割最適化設定と有意差(McNemar検定 p<0.05)

F1値(%)，5回試⾏の平均，下線: タスク違いの単語分割最適化設定と有意差(McNemar検定 p<0.05) 最適化対象とは異なるタスクでの性能 • 単語分割を最適化することで性能向上 • 異なるタスクに最適化した単語分割も性能向上に寄与する場合がある • 評価タスクと同じタスクに単語分割を最適化すると性能向上
2022/1/5 博⼠論⽂発表会（平岡達也） 79 単語分割を最適化したタスク⾔語評価タスク最適化なしジャンル予測レート予測中ジャンル予測 48.85 49.29 49.14 レート予測 53.39 53.37 53.66 ⽇ジャンル予測 45.48 46.12 45.64 レート予測 48.94 49.07 49.18 英ジャンル予測 71.64 71.78 71.66 レート予測 67.56 67.56 67.72 後処理として最適化ジャンル予測タスクで学習を⾏った後段モデルの性能ジャンル予測に最適化した単語分割をジャンル予測で評価レート予測に最適化した単語分割をジャンル予測で評価（Approach2）導⼊背景 Approach 1 Approach 2 分析 □ ▪ □ □ まとめ

単語分割を最適化したタスク⾔語評価タスク最適化なしジャンル予測レート予測中ジャンル予測 48.85 49.29 49.14 レート予測 53.39 53.37 53.66 ⽇ジャンル予測 45.48 46.12 45.64 レート予測 48.94 49.07 49.18 英ジャンル予測 71.64 71.78 71.66 レート予測 67.56 67.56 67.72 後処理として最適化（Approach2）導⼊背景 Approach 1 Approach 2 分析 □ ▪ □ □ まとめ F1値(%)，5回試⾏の平均，下線: タスク違いの単語分割最適化設定と有意差(McNemar検定 p<0.05)

分析 □ □ ▪ □ まとめ⽬的：後段タスクに応じた単語分割の最適化 Approach 1：⽂書分類タスクに限定した単語分割の最適化⼿法 Approach 2：後段タスクの種類を限定しない単語分割の最適化⼿法実験：⽂書分類で性能向上拡張実験：⽂書分類，機械翻訳で性能向上分析 • 後処理として単語分割を最適化しても性能向上 • 最適化対象とは異なるタスクでは⼩さい性能向上 • タスクに応じて異なる単語分割を獲得 • マルチタスク学習では各タスクの性質をあわせ持った単語分割を獲得

タスクごとに単語分割は変わるか？ • ジャンル予測・レート予測タスクは同⼀のコーパスから作成 • 同じ⽂の単語分割が，タスクごとに変化しているかを確認 2022/1/5 博⼠論⽂発表会（平岡達也） 84 E-commerce コーパス
（Amazon, 楽天, JD.com）ジャンル予測タスクレート予測タスク提案⼿法提案⼿法単語分割の最適化単語分割の最適化異なる単語分割を獲得しているはず導⼊背景 Approach 1 Approach 2 分析 □ □ ▪ □ まとめ

タスクに応じた単語分割を獲得（日）⼿法単語分割最適化なし⾹りはすきだけど、痛んだ
髪には全然効果なし。ジャンル予測タスクに最適化（正解：美容・コスメ・⾹⽔） Approach 1 ⾹りはすきだけど、痛んだ髪には全然効果なし。 Approach 2 ⾹りはすきだけど、痛んだ髪には全然効果なし。レート予測タスクに最適化（正解：2/5） Approach 1 ⾹りはすきだけど、痛んだ髪には全然効果なし。 Approach 2 ⾹りはすきだけど、痛んだ髪には全然効果なし。 2022/1/5 博⼠論⽂発表会（平岡達也） 85 ジャンル予測：商品のジャンルに関わる単語を切り出すレート予測：品質や印象に関わる単語を切り出す導⼊背景 Approach 1 Approach 2 分析 □ □ ▪ □ まとめ

タスクに応じた単語分割を獲得（中）⼿法単語分割最適化なし东੢ ඇৗෆ޷ ׬શ ෆ๷׈
ジャンル予測タスクに最適化（正解：家居⽣活） Approach 1 东੢ ඇৗෆ޷ ׬શෆ ๷׈ Approach 2 东੢ ඇৗෆ޷ ׬શෆ ๷׈ レート予測タスク（正解：1/5） Approach 1 东੢ ඇৗ ෆ޷ ׬શ ෆ๷׈ Approach 2 东੢ ඇৗ ෆ޷ ׬શ ෆ๷׈ 2022/1/5 博⼠論⽂発表会（平岡達也） 86 ジャンル予測：商品のジャンルに関わる単語を切り出すレート予測：品質や印象に関わる単語を切り出す導⼊背景 Approach 1 Approach 2 分析 □ □ ▪ □ まとめ

タスクに応じた単語分割を獲得（英）⼿法単語分割最適化なし I like to listen to CDs
when traveling and this is a one of my favorites . ジャンル予測タスクに最適化（正解：CDs and Vinyl） Approach 1 I like to listen to CD s when travel ing and this is a one of my favorites . Approach 2 I like to listen to CD s when traveling and this is a one of my favorites . レート予測タスクに最適化（正解：5/5） Approach 1 I like to listen to CDs when traveling and this is a one of my favorite s . Approach 2 I like to listen to CDs when traveling and this is a one of my favorites . 2022/1/5 博⼠論⽂発表会（平岡達也） 87 ジャンル予測：商品のジャンルに関わる単語を切り出すレート予測：品質や印象に関わる単語を切り出す • travel/ing • 提案⼿法は⽂脈によって単語分割を変えられない導⼊背景 Approach 1 Approach 2 分析 □ □ ▪ □ まとめ

タスクごとに単語分割の細かさが異なる獲得した単語分割が含む単語数初期状態の単語分割が含む単語数⾔語タスク Approach 1 Approach 2 中
ジャンル予測 1.5405 1.5137 レート予測 1.4249 1.3807 ⽇ジャンル予測 1.5205 1.5834 レート予測 1.3224 1.2742 英ジャンル予測 1.0620 1.0845 レート予測 1.0415 1.0305 2022/1/5 博⼠論⽂発表会（平岡達也） 88 • 全体的に提案⼿法によって単語分割は細かくなる • レート予測よりジャンル予測のほうが単語分割は細かくなる • ジャンル数が多く，ラベルに特徴的な単語が多いため • 英語の単語分割の細かさは⼤きく変わらない導⼊背景 Approach 1 Approach 2 分析 □ □ ▪ □ まとめ値が1.0より⼤きい →学習後に単語数が増えている →単語分割が細かくなっている

タスクごとに単語分割の細かさが異なる 2022/1/5 博⼠論⽂発表会（平岡達也） 89 • 全体的に提案⼿法によって単語分割は細かくなる • レート予測よりジャンル予測のほうが単語分割は細かくなる • ジャンル数が多く，ラベルに特徴的な単語が多いため
• 英語の単語分割の細かさは⼤きく変わらない導⼊背景 Approach 1 Approach 2 分析 □ □ ▪ □ まとめ獲得した単語分割が含む単語数初期状態の単語分割が含む単語数⾔語タスク Approach 1 Approach 2 中ジャンル予測 1.5405 1.5137 レート予測 1.4249 1.3807 ⽇ジャンル予測 1.5205 1.5834 レート予測 1.3224 1.2742 英ジャンル予測 1.0620 1.0845 レート予測 1.0415 1.0305 値が1.0より⼤きい →学習後に単語数が増えている →単語分割が細かくなっている

タスクごとに単語分割の細かさが異なる 2022/1/5 博⼠論⽂発表会（平岡達也） 90 • 全体的に提案⼿法によって単語分割は細かくなる • レート予測よりジャンル予測のほうが単語分割は細かくなる • ジャンル数が多く，ラベルに特徴的な単語が多いため
• 英語の単語分割の細かさは⼤きく変わらない導⼊背景 Approach 1 Approach 2 分析 □ □ ▪ □ まとめ獲得した単語分割が含む単語数初期状態の単語分割が含む単語数⾔語タスク Approach 1 Approach 2 中ジャンル予測 1.5405 1.5137 レート予測 1.4249 1.3807 ⽇ジャンル予測 1.5205 1.5834 レート予測 1.3224 1.2742 英ジャンル予測 1.0620 1.0845 レート予測 1.0415 1.0305 値が1.0より⼤きい →学習後に単語数が増えている →単語分割が細かくなっている

獲得された単語分割の比較（機械翻訳） • ソース側の分割 • 提案⼿法は接尾辞などを細かく分割する傾向 • ターゲット側の分割 • 主要な接尾辞（-edなど）の分割を変更する程度最適化なし
Student s don ' t have long hours of learning . 最適化あり Student s do n ' t hav e long hour s of learning . ターゲット⽂学生在校学习时间不长。ソース⽂引力与其它力分隔开来最適化なし Gra vity separate d away from the other force s . 最適化あり Gra vity separat ed away from the other force s . 2022/1/5 博⼠論⽂発表会（平岡達也） 91 導⼊背景 Approach 1 Approach 2 分析 □ □ ▪ □ まとめ

Student s don ' t have long hours of learning . 最適化あり Student s do n ' t hav e long hour s of learning . ターゲット⽂学生在校学习时间不长。ソース⽂引力与其它力分隔开来最適化なし Gra vity separate d away from the other force s . 最適化あり Gra vity separat ed away from the other force s . 提案⼿法の系列⻑は “最適化なし”の1.35倍 2022/1/5 博⼠論⽂発表会（平岡達也） 92 導⼊背景 Approach 1 Approach 2 分析 □ □ ▪ □ まとめ

Student s don ' t have long hours of learning . 最適化あり Student s do n ' t hav e long hour s of learning . ターゲット⽂学生在校学习时间不长。ソース⽂引力与其它力分隔开来最適化なし Gra vity separate d away from the other force s . 最適化あり Gra vity separat ed away from the other force s . 提案⼿法の系列⻑は “最適化なし”の1.35倍提案⼿法の系列⻑は “最適化なし”の0.99倍 2022/1/5 博⼠論⽂発表会（平岡達也） 93 導⼊背景 Approach 1 Approach 2 分析 □ □ ▪ □ まとめ

Student s don ' t have long hours of learning . 最適化あり Student s do n ' t hav e long hour s of learning . ターゲット⽂学生在校学习时间不长。ソース⽂引力与其它力分隔开来最適化なし Gra vity separate d away from the other force s . 最適化あり Gra vity separat ed away from the other force s . 系列⻑が⻑くなるとデコードで不利になるためか提案⼿法の系列⻑は “最適化なし”の1.35倍提案⼿法の系列⻑は “最適化なし”の0.99倍 2022/1/5 博⼠論⽂発表会（平岡達也） 94 導⼊背景 Approach 1 Approach 2 分析 □ □ ▪ □ まとめ

言語・モジュールごとに単語分割の細かさが異なる • ソース側は細かく，ターゲット側は粗く学習 • 細かい系列（多くの短いトークンを含む）を出⼒するのは難しいため • 中国語はターゲット側も細かくなっている • ソース側と系列の細かさを揃えるためか 2022/1/5
博⼠論⽂発表会（平岡達也） 95 (ソース側の⻑さ) (ターゲット側の⻑さ) 導⼊背景 Approach 1 Approach 2 分析 □ □ ▪ □ まとめ獲得した単語分割が含む単語数初期状態の単語分割が含む単語数ソース側の最適化ありなしターゲット側の最適化なしありドイツ語 → 英語 2.5353 0.9992 英語 → ドイツ語 1.3809 0.9996 ベトナム語 → 英語 1.5320 0.9993 英語 → ベトナム語 1.4650 0.9999 中国語 → 英語 1.5175 0.9994 英語 → 中国語 1.3516 1.4713 値が1.0より⼤きい →学習後に単語数が増えている →単語分割が細かくなっている

2022/1/5 博⼠論⽂発表会（平岡達也） 96 獲得した単語分割が含む単語数初期状態の単語分割が含む単語数ソース側の最適化ありなしターゲット側の最適化なし
ありドイツ語 → 英語 2.5353 0.9992 英語 → ドイツ語 1.3809 0.9996 ベトナム語 → 英語 1.5320 0.9993 英語 → ベトナム語 1.4650 0.9999 中国語 → 英語 1.5175 0.9994 英語 → 中国語 1.3516 1.4713 (ソース側の⻑さ) (ターゲット側の⻑さ) 導⼊背景 Approach 1 Approach 2 分析 □ □ ▪ □ まとめ値が1.0より⼤きい →学習後に単語数が増えている →単語分割が細かくなっている言語・モジュールごとに単語分割の細かさが異なる • ソース側は細かく，ターゲット側は粗く学習 • 細かい系列（多くの短いトークンを含む）を出⼒するのは難しいため • 中国語はターゲット側も細かくなっている • ソース側と系列の細かさを揃えるためか

2022/1/5 博⼠論⽂発表会（平岡達也） 97 (ソース側の⻑さ) (ターゲット側の⻑さ) 導⼊背景 Approach 1 Approach
2 分析 □ □ ▪ □ まとめ獲得した単語分割が含む単語数初期状態の単語分割が含む単語数ソース側の最適化ありなしターゲット側の最適化なしありドイツ語 → 英語 2.5353 0.9992 英語 → ドイツ語 1.3809 0.9996 ベトナム語 → 英語 1.5320 0.9993 英語 → ベトナム語 1.4650 0.9999 中国語 → 英語 1.5175 0.9994 英語 → 中国語 1.3516 1.4713 値が1.0より⼤きい →学習後に単語数が増えている →単語分割が細かくなっている言語・モジュールごとに単語分割の細かさが異なる • ソース側は細かく，ターゲット側は粗く学習 • 細かい系列（多くの短いトークンを含む）を出⼒するのは難しいため • 中国語はターゲット側も細かくなっている • ソース側と系列の細かさを揃えるためか

2022/1/5 博⼠論⽂発表会（平岡達也） 98 (ソース側の⻑さ) (ターゲット側の⻑さ) 導⼊背景 Approach 1 Approach
2 分析 □ □ ▪ □ まとめ獲得した単語分割が含む単語数初期状態の単語分割が含む単語数ソース側の最適化ありなしターゲット側の最適化なしありドイツ語 → 英語 2.5353 0.9992 英語 → ドイツ語 1.3809 0.9996 ベトナム語 → 英語 1.5320 0.9993 英語 → ベトナム語 1.4650 0.9999 中国語 → 英語 1.5175 0.9994 英語 → 中国語 1.3516 1.4713 値が1.0より⼤きい →学習後に単語数が増えている →単語分割が細かくなっている言語・モジュールごとに単語分割の細かさが異なる • ソース側は細かく，ターゲット側は粗く学習 • 細かい系列（多くの短いトークンを含む）を出⼒するのは難しいため • 中国語はターゲット側も細かくなっている • ソース側と系列の細かさを揃えるためか

分析 □ □ □ ▪ まとめ⽬的：後段タスクに応じた単語分割の最適化 Approach 1：⽂書分類タスクに限定した単語分割の最適化⼿法 Approach 2：後段タスクの種類を限定しない単語分割の最適化⼿法実験：⽂書分類で性能向上拡張実験：⽂書分類，機械翻訳で性能向上分析 • 後処理として単語分割を最適化しても性能向上 • 最適化対象とは異なるタスクでは⼩さい性能向上 • タスクに応じて異なる単語分割を獲得 • マルチタスク学習では各タスクの性質をあわせ持った単語分割を獲得

マルチタスク学習での単語分割最適化 • ジャンル予測・レート予測タスクは同⼀のコーパスから作成 • 同じ⽂を⽤いたマルチタスク学習で単語分割を最適化 2022/1/5 博⼠論⽂発表会（平岡達也） 100 E-commerce コーパス
（Amazon, 楽天, JD.com）ジャンル予測タスクレート予測タスク提案⼿法単語分割の最適化単語分割の最適化どのような単語分割になるか？導⼊背景 Approach 1 Approach 2 分析 □ □ □ ▪ まとめ

マルチタスク学習での単語分割最適化 • シングルタスク学習と⽐べると性能低下 • ジャンル・レート予測はあまり関係がないため • 提案⼿法はマルチタスク学習でも性能向上に寄与 2022/1/5 博⼠論⽂発表会（平岡達也） 101
評価タスク⾔語単語分割の最適化なし Approach1 Approach2 レビューのジャンル予測中 46.32 (47.95) 46.64 (48.22) 47.60 (48.41) ⽇ 47.11 (47.86) 48.00 (50.21) 49.87 (50.79) 英 70.81 (71.19) 70.61 (71.88) 71.46 (71.83) レビューのレート予測中 46.77 (49.41) 47.19 (49.63) 48.15 (49.76) ⽇ 51.23 (52.30) 51.08 (53.19) 52.21 (53.37) 英 65.67 (67.53) 65.79 (67.68) 65.67 (67.90) F1値(%)，5回試⾏の平均，下線: ベースラインと有意差 (McNemar検定, p<0.05) 括弧内の数値はシングルタスク設定での性能導⼊背景 Approach 1 Approach 2 分析 □ □ □ ▪ まとめ

マルチタスク学習での単語分割最適化 • シングルタスク学習と⽐べると性能低下 • ジャンル・レート予測はあまり関係がないため • 提案⼿法はマルチタスク学習でも性能向上に寄与 2022/1/5 博⼠論⽂発表会（平岡達也） 102
評価タスク⾔語単語分割の最適化なし Approach1 Approach2 レビューのジャンル予測中 46.32 (47.95) 46.64 (48.22) 47.60 (48.41) ⽇ 47.11 (47.86) 48.00 (50.21) 49.87 (50.79) 英 70.81 (71.19) 70.61 (71.88) 71.46 (71.83) レビューのレート予測中 46.77 (49.41) 47.19 (49.63) 48.15 (49.76) ⽇ 51.23 (52.30) 51.08 (53.19) 52.21 (53.37) 英 65.67 (67.53) 65.79 (67.68) 65.67 (67.90) 導⼊背景 Approach 1 Approach 2 分析 □ □ □ ▪ まとめ F1値(%)，5回試⾏の平均，下線: ベースラインと有意差 (McNemar検定, p<0.05) 括弧内の数値はシングルタスク設定での性能オレンジ背景は単語分割の最適化なしよりも⾼い数値

マルチタスク学習で得られた単語分割 2022/1/5 博⼠論⽂発表会（平岡達也） 103 ⼿法単語分割最適化なし⾹りはすきだけど
、痛んだ髪には全然効果なし。ジャンル予測タスクに最適化（正解：美容・コスメ・⾹⽔） Approach 1 ⾹りはすきだけど、痛んだ髪には全然効果なし。 Approach 2 ⾹りはすきだけど、痛んだ髪には全然効果なし。レート予測タスクに最適化（正解：2/5） Approach 1 ⾹りはすきだけど、痛んだ髪には全然効果なし。 Approach 2 ⾹りはすきだけど、痛んだ髪には全然効果なし。マルチタスクで最適化 Approach 1 ⾹りはすきだけど、痛んだ髪には全然効果なし。 Approach 2 ⾹りはすきだけど、痛んだ髪には全然効果なし。ジャンル予測：商品のジャンルに関わる単語を切り出すレート予測：品質や印象に関わる単語を切り出す • ジャンル・レート予測双⽅の性質を持つ単語分割を獲得導⼊背景 Approach 1 Approach 2 分析 □ □ □ ▪ まとめ

分析 □ □ □ □ まとめ⽬的：後段タスクに応じた単語分割の最適化 Approach 1：⽂書分類タスクに限定した単語分割の最適化⼿法 Approach 2：後段タスクの種類を限定しない単語分割の最適化⼿法実験：⽂書分類で性能向上拡張実験：⽂書分類，機械翻訳で性能向上分析 • 後処理として単語分割を最適化しても性能向上 • 最適化対象とは異なるタスクでは⼩さい性能向上 • タスクに応じて異なる単語分割を獲得 • マルチタスク学習では各タスクの性質をあわせ持った単語分割を獲得

本研究の概要 • ⽬的： • 後段タスクに応じて適切な単語分割を探索し，⾃然⾔語処理タスクでの性能向上を⽬指す • 解決⽅策： • 単語分割と後段モデルを同時に最適化することで，
後段タスクに応じた適切な単語分割を学習 • 貢献： • 後段モデルと単語分割を同時に最適化する初めての試みである • タスクやモデルに応じた単語分割を獲得できる⼿法を提案 • 複数のNLPタスクで性能向上に寄与する • NLP以外にも応⽤の余地あり • 天候やゲノムなどの（時）系列データ、画像の分割など 2022/1/5 博⼠論⽂発表会（平岡達也） 105 導⼊背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

発表文献 • 申請論⽂ • Tatsuya Hiraoka, Sho Takase, Kei Uchiumi,
Atsushi Keyaki, Naoaki Okazaki. Joint Optimization of Tokenization and Downstream Model. Findings of ACL-IJCNLP 2021, pages 244‒255 (double-column), August 2021. • 平岡達也, ⾼瀬翔, 内海慶, 欅惇志, 岡崎直観. テキストベクトルの重みづけを⽤いたタスクに対する単語分割の最適化. ⾃然⾔語処理, Vol. 28, No. 2, pages 479-507 (シングルカラム), 2021年6⽉. • その他の主著論⽂ • 平岡達也, ⾼瀬翔, 内海慶, 欅惇志, 岡崎直観. 単語分割と後段モデルの損失値を⽤いた同時最適化. ⾃然⾔語処理, 29(1):to appear, 33 pages （シングルカラム）, 2022年3⽉. • Tatsuya Hiraoka, Sho Takase, Kei Uchiumi, Atsushi Keyaki, Naoaki Okazaki. Recurrent Neural Hidden Markov Model for High-Order Transition. ACM TALLIP, 21(2): pages 1‒15 (double-column), March 2022. • Tatsuya Hiraoka, Sho Takase, Kei Uchiumi, Atsushi Keyaki, Naoaki Okazaki. Optimizing Word Segmentation for Downstream Task. Findings of EMNLP, pages 1341‒1351 (double-column), Association for Computational Linguistics, November 2020. • Tatsuya Hiraoka, Hiroyuki Shindo, Yuji Matsumoto. Stochastic Tokenization with a Language Model for Neural Text Classification. ACL, pages 1620‒1629 (double-column), July 2019. • 平岡達也, ⾼瀬翔, 内海慶, 欅惇志, 岡崎直観. 後段モデルの損失値を⽤いた単語分割のタスクへの最適化. ⾔語処理学会第27回年次⼤会 (NLP2021), pages486‒491 (ダブルカラム), 2021年3⽉.(若⼿奨励賞) • 平岡達也, ⾼瀬翔, 内海慶, 欅惇志, 岡崎直観. RNNにより⾼次の依存を考慮したニューラル隠れマルコフモデル. ⾔語処理学会第26回年次⼤会 (NLP2020), pp. A4‒2 (4 pages,ダブルカラム), 茨城⼤学（茨城県）, 2020年3⽉. • 平岡達也, ⾼瀬翔, 内海慶, 欅惇志, 岡崎直観. RNNによる遷移確率計算を⽤いた隠れマルコフモデル. 第242回⾃然⾔語処理研究会, 2019-NL-242(2), pp. 1‒6 (ダブルカラム), 奈良先端科学技術⼤学院⼤学（奈良県）, 2019年10⽉. (若⼿奨励賞) 2022/1/5 博⼠論⽂発表会（平岡達也） 106

参考文献1 • Xu, Jia, et al. "Bayesian semi-supervised chinese word
segmentation for statistical machine translation." Proceedings of the 22nd International Conference on Computational Linguistics (Coling 2008). 2008. • Chang, Pi-Chuan, Michel Galley, and Christopher D. Manning. "Optimizing Chinese word segmentation for machine translation performance." Proceedings of the third workshop on statistical machine translation. 2008. • Nguyen, ThuyLinh, Stephan Vogel, and Noah A. Smith. "Nonparametric word segmentation for machine translation." Proceedings of the 23rd International Conference on Computational Linguistics (Coling 2010). 2010. • Domingo, Miguel, et al. "How Much Does Tokenization Affect Neural Machine Translation?." arXiv preprint arXiv:1812.08621 (2018). • Thamme Gowda and Jonathan May. 2020. Finding the optimal vocabulary size for neural machine translation. In Findings of the Association for Computational Linguistics: EMNLP 2020, pages 3955‒3964, Online. Association for Computational Linguistics. • Taku Kudo. 2006. Mecab: Yet another part-of-speech and morphological analyzer. http://taku910.github.io/mecab/. • Morita, Hajime, Daisuke Kawahara, and Sadao Kurohashi. "Morphological analysis for unsegmented languages using recurrent neural network language model." Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. 2015. • Kazuma Takaoka, Sorami Hisamoto, Noriko Kawa- hara, Miho Sakamoto, Yoshitaka Uchida, and Yuji Matsumoto. 2018. Sudachi: a japanese tokenizer for business. In Proceedings of the Eleventh International Conference on Language Resources and Eval- uation (LREC 2018), Paris, France. European Lan- guage Resources Association (ELRA). • Yang, Jie, Yue Zhang, and Fei Dong. "Neural Word Segmentation with Rich Pretraining." Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2017. 2022/1/5 博⼠論⽂発表会（平岡達也） 107

参考文献2 • Deng Cai, Hai Zhao, Zhisong Zhang, Yuan Xin,
Yongjian Wu, and Feiyue Huang. 2017. Fast and accurate neural word segmentation for chinese. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), volume 2, pages 608‒615. • Yang, Jie, Yue Zhang, and Shuailong Liang. "Subword Encoding in Lattice LSTM for Chinese Word Segmentation." Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). 2019. • Rico Sennrich, Barry Haddow, and Alexandra Birch. 2016. Neural machine translation of rare words with subword units. In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), volume 1, pages P1715‒1725. • Kudo, Taku, and John Richardson. "Sentencepiece: A simple and language independent subword tokenizer and detokenizer for neural text processing." arXiv preprint arXiv:1808.06226 (2018). • Xinchi Chen, Zhan Shi, Xipeng Qiu, and Xuanjing Huang. 2017. Dag-based long short-term memory for neural word segmentation. arXiv preprintarXiv:1707.00248. • Yue Zhang and Jie Yang. 2018. Chinese ner using lattice lstm. In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1554‒1564. • Jie Yang, Yue Zhang, and Shuailong Liang. 2018. Subword encoding in lattice lstm for chinese word segmentation. arXiv preprint arXiv:1810.12594. • Taku Kudo. 2018. Subword regularization: Improving neural network translation models with multiple subword candidates. In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 66‒75. • Ivan Provilkov, Dmitrii Emelianenko, and Elena Voita. 2019. Bpe-dropout: Simple and effective subword regularization. arXiv preprint arXiv:1910.13267. 2022/1/5 博⼠論⽂発表会（平岡達也） 108

参考文献3 • Matt Post. A call for clarity in reporting
BLEU scores. In Proceedings of the Third Conference on Machine Translation (WMT), pages 186‒191, 2018. • Philipp Koehn. Statistical significance tests for machine translation evaluation. In Proceedings of the 2004 conference on empirical methods in natural language processing, pages 388‒395, 2004. 2022/1/5 博⼠論⽂発表会（平岡達也） 109

追加資料：Attention Encoderでの実験 2022/1/5 博⼠論⽂発表会（平岡達也） 110

追加資料：データサイズ（文書分類） 2022/1/5 博⼠論⽂発表会（平岡達也） 111

追加資料：データサイズ（機械翻訳） 2022/1/5 博⼠論⽂発表会（平岡達也） 112

追加資料：Nの影響 2022/1/5 博⼠論⽂発表会（平岡達也） 113 機械翻訳⽂書分類 Approach1 Approach2

追加資料：言語モデルの性質の維持 2022/1/5 博⼠論⽂発表会（平岡達也） 114 学習データに対する単語分割の尤もらしさ（低いほどよい）検証データでの性能の差（0より⼤きいほどよい）

追加資料：SentencePiece以外の初期化 2022/1/5 博⼠論⽂発表会（平岡達也） 115 （後処理としての単語分割の最適化） Approach1 Approach2

追加資料：BERTを用いた実験 2022/1/5 博⼠論⽂発表会（平岡達也） 116 Approach1 Approach2 BiLSTMの最⾼性能

追加資料：機械翻訳での全実験 2022/1/5 博⼠論⽂発表会（平岡達也） 117

追加資料：Approach2の詳細な学習1/2 2022/1/5 博⼠論⽂発表会（平岡達也） 118

追加資料：Approach2の詳細な学習2/2 2022/1/5 博⼠論⽂発表会（平岡達也） 119

追加資料：ロジスティック回帰での実験 2022/1/5 博⼠論⽂発表会（平岡達也） 120

追加資料：ロジスティック回帰の重み 2022/1/5 博⼠論⽂発表会（平岡達也） 121

追加資料：マルチタスク学習モデル 2022/1/5 博⼠論⽂発表会（平岡達也） 122

追加資料：確率が大きく向上した単語 2022/1/5 博⼠論⽂発表会（平岡達也） 123

Task-Oriented Word Segmentation (Presentation f...

Task-Oriented Word Segmentation (Presentation for Doctoral Dissertation)

More Decks by tatHi

Other Decks in Research

Featured

Transcript