テキストベクトルの重み付けを用いたタスクに対する単語分割の最適化

Slide 1

Slide 1 text

テキストベクトルの重みづけを⽤いたタスクに対する単語分割の最適化平岡達也1，⾼瀬翔1 ，内海慶2，欅惇志2，岡崎直観1 1東京⼯業⼤学 2デンソーITラボラトリ 2022/3/17 年次⼤会（平岡達也 @7a7hi） 1

Slide 2

Slide 2 text

どんな話？ 2022/3/17 年次⼤会（平岡達也 @7a7hi） 2 単語分割をタスクに応じて最適化する話

Slide 3

Slide 3 text

どんな話？ 2022/3/17 年次⼤会（平岡達也 @7a7hi） 3 単語分割をタスクに応じて最適化する話単語分割器後段モデル（トピック予測）外国⼈参政権⽣⽂外国/⼈参/政権分割済み⽂⾷品トピック

Slide 4

Slide 4 text

どんな話？ 2022/3/17 年次⼤会（平岡達也 @7a7hi） 4 単語分割をタスクに応じて最適化する話単語分割器後段モデル（トピック予測）外国⼈参政権⽣⽂外国/⼈参/政権分割済み⽂⾷品トピック適切な単語分割で性能向上 →後段タスク/モデルに依存

Slide 5

Slide 5 text

どんな話？ 2022/3/17 年次⼤会（平岡達也 @7a7hi） 5 単語分割をタスクに応じて最適化する話単語分割器後段モデル（トピック予測）外国⼈参政権⽣⽂外国/⼈参/政権分割済み⽂⾷品トピック適切な単語分割で性能向上 →後段タスク/モデルに依存前処理前処理として単語分割を決定しなければいけない

Slide 6

Slide 6 text

どんな話？ 2022/3/17 年次⼤会（平岡達也 @7a7hi） 6 単語分割をタスクに応じて最適化する話単語分割器後段モデル（トピック予測）外国⼈参政権⽣⽂外国/⼈参/政権分割済み⽂⾷品トピック適切な単語分割で性能向上 →後段タスク/モデルに依存 GAP 前処理前処理として単語分割を決定しなければいけない

Slide 7

Slide 7 text

コアアイディア 2022/3/17 年次⼤会（平岡達也 @7a7hi） 7 単語分割をタスクに応じて最適化する話単語分割器後段モデル（トピック予測）外国⼈参政権⽣⽂外国/⼈参/政権分割済み⽂⾷品トピック後段モデルと同時に単語分割器を学習

Slide 8

Slide 8 text

嬉しさ 2022/3/17 年次⼤会（平岡達也 @7a7hi） 8 単語分割をタスクに応じて最適化する話 ① タスクの性能が上がると嬉しい ② タスクに適切な単語分割が得られると嬉しい

Slide 9

Slide 9 text

嬉しさ 2022/3/17 年次⼤会（平岡達也 @7a7hi） 9 単語分割をタスクに応じて最適化する話 ① タスクの性能が上がると嬉しい ② タスクに適切な単語分割が得られると嬉しい今回の研究では⽂書分類に限定

Slide 10

Slide 10 text

コアアイディア 2022/3/17 年次⼤会（平岡達也 @7a7hi） 10 単語分割をタスクに応じて最適化する話単語分割器後段モデル（トピック予測）外国⼈参政権⽣⽂外国/⼈参/政権分割済み⽂⾷品トピック後段モデルと同時に単語分割器を学習

Slide 11

Slide 11 text

後段の学習 2022/3/17 年次⼤会（平岡達也 @7a7hi） 11 単語分割器外国⼈参政権⽣⽂外国/⼈参/政権分割済み⽂⾷品トピック政治正解後段モデル（トピック予測）誤差逆伝播で更新

Slide 12

Slide 12 text

後段の学習に単語分割器を組み込みたい 2022/3/17 年次⼤会（平岡達也 @7a7hi） 12 単語分割器外国⼈参政権⽣⽂外国/⼈参/政権分割済み⽂⾷品トピック政治正解後段モデル（トピック予測）誤差逆伝播で更新単語分割器も誤差逆伝播で更新したい

Slide 13

Slide 13 text

後段の学習に単語分割器を組み込みたい 2022/3/17 年次⼤会（平岡達也 @7a7hi） 13 単語分割器外国⼈参政権⽣⽂外国/⼈参/政権分割済み⽂⾷品トピック政治正解後段モデル（トピック予測）誤差逆伝播で更新単語分割器も誤差逆伝播で更新したい単語分割器と後段モデルを繋がないといけない

Slide 14

Slide 14 text

単語分割器と後段モデルを繋がないといけない後段の学習に単語分割器を組み込みたい 2022/3/17 年次⼤会（平岡達也 @7a7hi） 14 単語分割器外国⼈参政権⽣⽂外国/⼈参/政権分割済み⽂⾷品トピック政治正解後段モデル（トピック予測）誤差逆伝播で更新単語分割器も誤差逆伝播で更新したいここをどうにか⼯夫しないと…

Slide 15

Slide 15 text

後段の学習に単語分割器を組み込む 2022/3/17 年次⼤会（平岡達也 @7a7hi） 15 単語分割器外国⼈参政権⽣⽂⾷品トピック外国/⼈参/政権 𝑣 分類器後段モデル⽂ベクトル意味深な空⽩

Slide 16

Slide 16 text

後段の学習に単語分割器を組み込む 2022/3/17 年次⼤会（平岡達也 @7a7hi） 16 Neural Unigram LM (単語分割器) 外国⼈参政権⽣⽂⾷品トピック外国/⼈参/政権 𝑣 分類器後段モデル⽂ベクトル単語分割の確率を単語確率の積で計算 𝑝 外国/⼈参/政権 = 𝑝 外国 𝑝 ⼈参 𝑝 政権単語確率が学習可能パラメータ意味深な空⽩

Slide 17

Slide 17 text

後段の学習に単語分割器を組み込む 2022/3/17 年次⼤会（平岡達也 @7a7hi） 17 Neural Unigram LM (単語分割器) 外国⼈参政権⽣⽂⾷品トピック外国/⼈参/政権 𝑣 分類器後段モデル⽂ベクトル単語分割の確率を単語確率の積で計算 𝑝 外国/⼈参/政権 = 𝑝 外国 𝑝 ⼈参 𝑝 政権単語確率が学習可能パラメータ意味深な空⽩

Slide 18

Slide 18 text

後段の学習に単語分割器を組み込む 2022/3/17 年次⼤会（平岡達也 @7a7hi） 18 Neural Unigram LM (単語分割器) 外国⼈参政権⽣⽂⾷品トピック外国⼈/参/政権外国/⼈参/政権外国/⼈/参政権分類器後段モデル ① N-best分割単語分割の確率を単語確率の積で計算 𝑝 外国/⼈参/政権 = 𝑝 外国 𝑝 ⼈参 𝑝 政権単語確率が学習可能パラメータ

Slide 19

Slide 19 text

後段の学習に単語分割器を組み込む 2022/3/17 年次⼤会（平岡達也 @7a7hi） 19 Neural Unigram LM (単語分割器) 外国⼈参政権⽣⽂⾷品トピック外国⼈/参/政権外国/⼈参/政権外国/⼈/参政権 𝑣! 𝑣" 𝑣# 分類器後段モデル ① N-best分割 ② エンコード単語分割の確率を単語確率の積で計算 𝑝 外国/⼈参/政権 = 𝑝 外国 𝑝 ⼈参 𝑝 政権単語確率が学習可能パラメータ

Slide 20

Slide 20 text

後段の学習に単語分割器を組み込む 2022/3/17 年次⼤会（平岡達也 @7a7hi） 20 Neural Unigram LM (単語分割器) 外国⼈参政権⽣⽂⾷品トピック外国⼈/参/政権外国/⼈参/政権外国/⼈/参政権 𝑣! × 𝑝 外国⼈/参/政権 𝑍 𝑣" × 𝑝 外国/⼈参/政権 𝑍 𝑣# × 𝑝 外国/⼈/参政権 𝑍 分類器後段モデル単語分割の確率を単語確率の積で計算 𝑝 外国/⼈参/政権 = 𝑝 外国 𝑝 ⼈参 𝑝 政権単語確率が学習可能パラメータ ① N-best分割 ② エンコード ③ 単語分割の確率で重み付けつながった！

Slide 21

Slide 21 text

後段の学習に単語分割器を組み込む 2022/3/17 年次⼤会（平岡達也 @7a7hi） 21 Neural Unigram LM (単語分割器) 外国⼈参政権⽣⽂⾷品トピック外国⼈/参/政権外国/⼈参/政権外国/⼈/参政権 𝑣! × 𝑝 外国⼈/参/政権 𝑍 𝑣" × 𝑝 外国/⼈参/政権 𝑍 𝑣# × 𝑝 外国/⼈/参政権 𝑍 Σ 分類器後段モデル単語分割の確率を単語確率の積で計算 𝑝 外国/⼈参/政権 = 𝑝 外国 𝑝 ⼈参 𝑝 政権単語確率が学習可能パラメータ ④ ⽂ベクトルの重み付き和で分類 ① N-best分割 ② エンコード ③ 単語分割の確率で重み付けつながった！

Slide 22

Slide 22 text

後段の学習に単語分割器を組み込む 2022/3/17 年次⼤会（平岡達也 @7a7hi） 22 Neural Unigram LM (単語分割器) 外国⼈参政権⽣⽂⾷品トピック外国⼈/参/政権外国/⼈参/政権外国/⼈/参政権 𝑣! × 𝑝 外国⼈/参/政権 𝑍 𝑣" × 𝑝 外国/⼈参/政権 𝑍 𝑣# × 𝑝 外国/⼈/参政権 𝑍 Σ 分類器後段モデル単語分割の確率を単語確率の積で計算 𝑝 外国/⼈参/政権 = 𝑝 外国 𝑝 ⼈参 𝑝 政権単語確率が学習可能パラメータ政治正解

Slide 23

Slide 23 text

後段の学習に単語分割器を組み込む 2022/3/17 年次⼤会（平岡達也 @7a7hi） 23 Neural Unigram LM (単語分割器) 外国⼈参政権⽣⽂⾷品トピック外国⼈/参/政権外国/⼈参/政権外国/⼈/参政権 𝑣! × 𝑝 外国⼈/参/政権 𝑍 𝑣" × 𝑝 外国/⼈参/政権 𝑍 𝑣# × 𝑝 外国/⼈/参政権 𝑍 Σ 分類器後段モデル単語分割の確率を単語確率の積で計算 𝑝 外国/⼈参/政権 = 𝑝 外国 𝑝 ⼈参 𝑝 政権単語確率が学習可能パラメータ政治正解適切な単語分割の確率が⾼くなるように更新（後段モデルの性能が⾼くなるような単語分割）

Slide 24

Slide 24 text

推論時は1-best分割 2022/3/17 年次⼤会（平岡達也 @7a7hi） 24 Neural Unigram LM (単語分割器) 外国⼈参政権⽣⽂政治トピック外国/⼈/参政権 𝑣 分類器後段モデル学習済み獲得された「良い」単語分割

Slide 25

Slide 25 text

嬉しさ 2022/3/17 年次⼤会（平岡達也 @7a7hi） 25 単語分割をタスクに応じて最適化する話 ① タスクの性能が上がると嬉しい ② タスクに適切な単語分割が得られると嬉しい

Slide 26

Slide 26 text

文書分類タスクで性能向上タスク⾔語単語分割の最適化なし単語分割の最適化あり感情分析中 92.79 92.93 ⽇ 86.51 87.39 英 77.31 79.04 レビューのジャンル予測中 47.95 48.22 ⽇ 47.86 50.21 英 71.19 71.88 レビューのレート予測中 49.41 49.63 ⽇ 52.30 53.19 英 67.53 67.68 SNLI 英 76.75 77.04 2022/3/17 年次⼤会（平岡達也 @7a7hi） 26 F1値(%)，5回試⾏の平均，下線: ベースラインと有意差 (McNemar検定p<0.05) Weibo, Twitter JD.com, 楽天市場, Amazon JD.com, 楽天市場, Amazon ⼊⼒が2⽂ • ⽂書分類モデルのエンコーダーはBiLSTM

Slide 27

Slide 27 text

文書分類タスクで性能向上タスク⾔語単語分割の最適化なし単語分割の最適化あり感情分析中 92.79 92.93 ⽇ 86.51 87.39 英 77.31 79.04 レビューのジャンル予測中 47.95 48.22 ⽇ 47.86 50.21 英 71.19 71.88 レビューのレート予測中 49.41 49.63 ⽇ 52.30 53.19 英 67.53 67.68 SNLI 英 76.75 77.04 2022/3/17 年次⼤会（平岡達也 @7a7hi） 27 F1値(%)，5回試⾏の平均，下線: ベースラインと有意差 (McNemar検定p<0.05) Weibo, Twitter JD.com, 楽天市場, Amazon JD.com, 楽天市場, Amazon ⼊⼒が2⽂ • ⽂書分類モデルのエンコーダーはBiLSTM

Slide 28

Slide 28 text

文書分類タスクで性能向上タスク⾔語単語分割の最適化なし単語分割の最適化あり感情分析中 92.79 92.93 ⽇ 86.51 87.39 英 77.31 79.04 レビューのジャンル予測中 47.95 48.22 ⽇ 47.86 50.21 英 71.19 71.88 レビューのレート予測中 49.41 49.63 ⽇ 52.30 53.19 英 67.53 67.68 SNLI 英 76.75 77.04 2022/3/17 年次⼤会（平岡達也 @7a7hi） 28 F1値(%)，5回試⾏の平均，下線: ベースラインと有意差 (McNemar検定p<0.05) Weibo, Twitter JD.com, 楽天市場, Amazon JD.com, 楽天市場, Amazon ⼊⼒が2⽂ • ⽂書分類モデルのエンコーダーはBiLSTM

Slide 29

Slide 29 text

文書分類タスクで性能向上タスク⾔語単語分割の最適化なし単語分割の最適化あり感情分析中 92.79 92.93 ⽇ 86.51 87.39 英 77.31 79.04 レビューのジャンル予測中 47.95 48.22 ⽇ 47.86 50.21 英 71.19 71.88 レビューのレート予測中 49.41 49.63 ⽇ 52.30 53.19 英 67.53 67.68 SNLI 英 76.75 77.04 2022/3/17 年次⼤会（平岡達也 @7a7hi） 29 F1値(%)，5回試⾏の平均，下線: ベースラインと有意差 (McNemar検定p<0.05) Weibo, Twitter JD.com, 楽天市場, Amazon JD.com, 楽天市場, Amazon ⼊⼒が2⽂ • ⽂書分類モデルのエンコーダーはBiLSTM

Slide 30

Slide 30 text

文書分類タスクで性能向上タスク⾔語単語分割の最適化なし単語分割の最適化あり感情分析中 92.79 92.93 ⽇ 86.51 87.39 英 77.31 79.04 レビューのジャンル予測中 47.95 48.22 ⽇ 47.86 50.21 英 71.19 71.88 レビューのレート予測中 49.41 49.63 ⽇ 52.30 53.19 英 67.53 67.68 SNLI 英 76.75 77.04 2022/3/17 年次⼤会（平岡達也 @7a7hi） 30 F1値(%)，5回試⾏の平均，下線: ベースラインと有意差 (McNemar検定p<0.05) Weibo, Twitter JD.com, 楽天市場, Amazon JD.com, 楽天市場, Amazon ⼊⼒が2⽂ • ⽂書分類モデルのエンコーダーはBiLSTM

Slide 31

Slide 31 text

単語分割の更新のみでも性能が向上？ 2022/3/17 年次⼤会（平岡達也 @7a7hi） 31 設定単語分割器後段モデル（感情予測）外国⼈参政権⽣⽂外国/⼈参/政権分割済み⽂ Positive 感情固定更新

Slide 32

Slide 32 text

単語分割の更新のみでも性能が向上 2022/3/17 年次⼤会（平岡達也 @7a7hi） 32 単語分割の更新のみで検証データの性能が向上単語分割の更新のみで学習データの損失が低下設定単語分割器後段モデル（感情予測）外国⼈参政権⽣⽂外国/⼈参/政権分割済み⽂ Positive 感情固定更新

Slide 33

Slide 33 text

嬉しさ 2022/3/17 年次⼤会（平岡達也 @7a7hi） 33 単語分割をタスクに応じて最適化する話 ① タスクの性能が上がると嬉しい ② タスクに適切な単語分割が得られると嬉しい

Slide 34

Slide 34 text

タスクに応じた単語分割を獲得⼿法単語分割最適化なし⾹りはすきだけど、痛んだ髪には全然効果なし。ジャンル予測タスクに最適化（正解：美容・コスメ・⾹⽔）最適化あり⾹りはすきだけど、痛んだ髪には全然効果なし。レート予測タスクに最適化（正解：2/5）最適化あり⾹りはすきだけど、痛んだ髪には全然効果なし。 2022/3/17 年次⼤会（平岡達也 @7a7hi） 34 ジャンル予測：商品のジャンルに関わる単語を切り出すレート予測：品質や印象に関わる単語を切り出す

Slide 35

Slide 35 text

タスクに応じた単語分割を獲得⼿法単語分割最適化なし⾹りはすきだけど、痛んだ髪には全然効果なし。ジャンル予測タスクに最適化（正解：美容・コスメ・⾹⽔）最適化あり⾹りはすきだけど、痛んだ髪には全然効果なし。レート予測タスクに最適化（正解：2/5）最適化あり⾹りはすきだけど、痛んだ髪には全然効果なし。 2022/3/17 年次⼤会（平岡達也 @7a7hi） 35 ジャンル予測：商品のジャンルに関わる単語を切り出すレート予測：品質や印象に関わる単語を切り出す⻑くなってない？

Slide 36

Slide 36 text

タスクに応じた単語分割を獲得⼿法単語分割最適化なし⾹りはすきだけど、痛んだ髪には全然効果なし。ジャンル予測タスクに最適化（正解：美容・コスメ・⾹⽔）最適化あり⾹りはすきだけど、痛んだ髪には全然効果なし。レート予測タスクに最適化（正解：2/5）最適化あり⾹りはすきだけど、痛んだ髪には全然効果なし。 2022/3/17 年次⼤会（平岡達也 @7a7hi） 36 ジャンル予測：商品のジャンルに関わる単語を切り出すレート予測：品質や印象に関わる単語を切り出す 10 tokens 13 tokens 11 tokens x 1.3 x 1.1 ⻑くなってない？

Slide 37

Slide 37 text

提案手法で系列長が長くなる最適化後の系列⻑⾔語タスク最適化前の系列⻑中ジャンル予測 1.5405 レート予測 1.4249 ⽇ジャンル予測 1.5205 レート予測 1.3224 英ジャンル予測 1.0620 レート予測 1.0415 2022/3/17 年次⼤会（平岡達也 @7a7hi） 37 • 全体的に提案⼿法によって系列⻑が⻑くなる • レート予測よりジャンル予測のほうが系列⻑が⻑くなる • 英語の単語分割の系列⻑は⼤きく変わらない何倍⻑くなったか

Slide 38

Slide 38 text

タスクごとに単語分割の系列長が異なる最適化後の系列⻑⾔語タスク最適化前の系列⻑中ジャンル予測 1.5405 レート予測 1.4249 ⽇ジャンル予測 1.5205 レート予測 1.3224 英ジャンル予測 1.0620 レート予測 1.0415 2022/3/17 年次⼤会（平岡達也 @7a7hi） 38 • 全体的に提案⼿法によって系列⻑が⻑くなる • レート予測よりジャンル予測のほうが系列⻑が⻑くなる • 英語の単語分割の系列⻑は⼤きく変わらない何倍⻑くなったか

Slide 39

Slide 39 text

言語ごとに単語分割の系列長が異なる最適化後の系列⻑⾔語タスク最適化前の系列⻑中ジャンル予測 1.5405 レート予測 1.4249 ⽇ジャンル予測 1.5205 レート予測 1.3224 英ジャンル予測 1.0620 レート予測 1.0415 2022/3/17 年次⼤会（平岡達也 @7a7hi） 39 • 全体的に提案⼿法によって系列⻑が⻑くなる • レート予測よりジャンル予測のほうが系列⻑が⻑くなる • 英語の単語分割の系列⻑は⼤きく変わらない何倍⻑くなったか

Slide 40

Slide 40 text

嬉しさ 2022/3/17 年次⼤会（平岡達也 @7a7hi） 40 単語分割をタスクに応じて最適化する話 ① タスクの性能が上がると嬉しい ② タスクに適切な単語分割が得られると嬉しい

Slide 41

Slide 41 text

その後の話 2022/3/17 年次⼤会（平岡達也 @7a7hi） 41 • Optimizing Word Segmentation for Downstream Task • Findings of EMNLP 2020 • テキストベクトルの重みづけを⽤いたタスクに対する単語分割の最適化 • ⾃然⾔語処理 28-2 • 後段モデルの損失値を⽤いた単語分割のタスクへの最適化 • 第27回年次⼤会（短い＋⽇本語なのでおすすめ） • Joint Optimization of Tokenization and Downstream Model • Findings of ACL 2021 • 単語分割と後段モデルの損失値を⽤いた同時最適化 • ⾃然⾔語処理 29-1 (先⽇公開！) 今回の話（⽂書分類に限定）続きの話（⽂書分類＋機械翻訳） • Task-Oriented Word Segmentation • 博論（スライドはTwitter @7a7hi から探せます）まとめた話