Upgrade to Pro — share decks privately, control downloads, hide ads and more …

テキストベクトルの重み付けを用いたタスクに対する単語分割の最適化

tatHi
March 17, 2022

 テキストベクトルの重み付けを用いたタスクに対する単語分割の最適化

NLP2022の招待論文枠での発表で使用したスライドです.

tatHi

March 17, 2022
Tweet

More Decks by tatHi

Other Decks in Research

Transcript

  1. テキストベクトルの重みづけを⽤いた
    タスクに対する単語分割の最適化
    平岡 達也1,⾼瀬 翔1 ,内海 慶2,欅 惇志2,岡崎 直観1
    1東京⼯業⼤学
    2デンソーITラボラトリ
    2022/3/17 年次⼤会(平岡達也 @7a7hi) 1

    View Slide

  2. どんな話?
    2022/3/17 年次⼤会(平岡達也 @7a7hi) 2
    単語分割をタスクに応じて最適化する話

    View Slide

  3. どんな話?
    2022/3/17 年次⼤会(平岡達也 @7a7hi) 3
    単語分割をタスクに応じて最適化する話
    単語分割器 後段モデル
    (トピック予測)
    外国⼈参政権
    ⽣⽂
    外国/⼈参/政権
    分割済み⽂
    ⾷品
    トピック

    View Slide

  4. どんな話?
    2022/3/17 年次⼤会(平岡達也 @7a7hi) 4
    単語分割をタスクに応じて最適化する話
    単語分割器 後段モデル
    (トピック予測)
    外国⼈参政権
    ⽣⽂
    外国/⼈参/政権
    分割済み⽂
    ⾷品
    トピック
    適切な単語分割で性能向上
    →後段タスク/モデルに依存

    View Slide

  5. どんな話?
    2022/3/17 年次⼤会(平岡達也 @7a7hi) 5
    単語分割をタスクに応じて最適化する話
    単語分割器 後段モデル
    (トピック予測)
    外国⼈参政権
    ⽣⽂
    外国/⼈参/政権
    分割済み⽂
    ⾷品
    トピック
    適切な単語分割で性能向上
    →後段タスク/モデルに依存
    前処理
    前処理として単語分割を
    決定しなければいけない

    View Slide

  6. どんな話?
    2022/3/17 年次⼤会(平岡達也 @7a7hi) 6
    単語分割をタスクに応じて最適化する話
    単語分割器 後段モデル
    (トピック予測)
    外国⼈参政権
    ⽣⽂
    外国/⼈参/政権
    分割済み⽂
    ⾷品
    トピック
    適切な単語分割で性能向上
    →後段タスク/モデルに依存
    GAP
    前処理
    前処理として単語分割を
    決定しなければいけない

    View Slide

  7. コアアイディア
    2022/3/17 年次⼤会(平岡達也 @7a7hi) 7
    単語分割をタスクに応じて最適化する話
    単語分割器 後段モデル
    (トピック予測)
    外国⼈参政権
    ⽣⽂
    外国/⼈参/政権
    分割済み⽂
    ⾷品
    トピック
    後段モデルと同時に単語分割器を学習

    View Slide

  8. 嬉しさ
    2022/3/17 年次⼤会(平岡達也 @7a7hi) 8
    単語分割をタスクに応じて最適化する話
    ① タスクの性能が上がると嬉しい
    ② タスクに適切な単語分割が
    得られると嬉しい

    View Slide

  9. 嬉しさ
    2022/3/17 年次⼤会(平岡達也 @7a7hi) 9
    単語分割をタスクに応じて最適化する話
    ① タスクの性能が上がると嬉しい
    ② タスクに適切な単語分割が
    得られると嬉しい
    今回の研究では⽂書分類に限定

    View Slide

  10. コアアイディア
    2022/3/17 年次⼤会(平岡達也 @7a7hi) 10
    単語分割をタスクに応じて最適化する話
    単語分割器 後段モデル
    (トピック予測)
    外国⼈参政権
    ⽣⽂
    外国/⼈参/政権
    分割済み⽂
    ⾷品
    トピック
    後段モデルと同時に単語分割器を学習

    View Slide

  11. 後段の学習
    2022/3/17 年次⼤会(平岡達也 @7a7hi) 11
    単語分割器
    外国⼈参政権
    ⽣⽂
    外国/⼈参/政権
    分割済み⽂
    ⾷品
    トピック
    政治
    正解
    後段モデル
    (トピック予測)
    誤差逆伝播で更新

    View Slide

  12. 後段の学習に単語分割器を組み込みたい
    2022/3/17 年次⼤会(平岡達也 @7a7hi) 12
    単語分割器
    外国⼈参政権
    ⽣⽂
    外国/⼈参/政権
    分割済み⽂
    ⾷品
    トピック
    政治
    正解
    後段モデル
    (トピック予測)
    誤差逆伝播で更新
    単語分割器も
    誤差逆伝播で更新したい

    View Slide

  13. 後段の学習に単語分割器を組み込みたい
    2022/3/17 年次⼤会(平岡達也 @7a7hi) 13
    単語分割器
    外国⼈参政権
    ⽣⽂
    外国/⼈参/政権
    分割済み⽂
    ⾷品
    トピック
    政治
    正解
    後段モデル
    (トピック予測)
    誤差逆伝播で更新
    単語分割器も
    誤差逆伝播で更新したい
    単語分割器と後段モデルを
    繋がないといけない

    View Slide

  14. 単語分割器と後段モデルを
    繋がないといけない
    後段の学習に単語分割器を組み込みたい
    2022/3/17 年次⼤会(平岡達也 @7a7hi) 14
    単語分割器
    外国⼈参政権
    ⽣⽂
    外国/⼈参/政権
    分割済み⽂
    ⾷品
    トピック
    政治
    正解
    後段モデル
    (トピック予測)
    誤差逆伝播で更新
    単語分割器も
    誤差逆伝播で更新したい
    ここをどうにか⼯夫しないと…

    View Slide

  15. 後段の学習に単語分割器を組み込む
    2022/3/17 年次⼤会(平岡達也 @7a7hi) 15
    単語分割器
    外国⼈参政権
    ⽣⽂
    ⾷品
    トピック
    外国/⼈参/政権 𝑣



    後段モデル
    ⽂ベクトル
    意味深な空⽩

    View Slide

  16. 後段の学習に単語分割器を組み込む
    2022/3/17 年次⼤会(平岡達也 @7a7hi) 16
    Neural
    Unigram LM
    (単語分割器)
    外国⼈参政権
    ⽣⽂
    ⾷品
    トピック
    外国/⼈参/政権 𝑣



    後段モデル
    ⽂ベクトル
    単語分割の確率を単語確率の積で計算
    𝑝 外国/⼈参/政権 = 𝑝 外国 𝑝 ⼈参 𝑝 政権
    単語確率が学習可能パラメータ
    意味深な空⽩

    View Slide

  17. 後段の学習に単語分割器を組み込む
    2022/3/17 年次⼤会(平岡達也 @7a7hi) 17
    Neural
    Unigram LM
    (単語分割器)
    外国⼈参政権
    ⽣⽂
    ⾷品
    トピック
    外国/⼈参/政権 𝑣



    後段モデル
    ⽂ベクトル
    単語分割の確率を単語確率の積で計算
    𝑝 外国/⼈参/政権 = 𝑝 外国 𝑝 ⼈参 𝑝 政権
    単語確率が学習可能パラメータ
    意味深な空⽩

    View Slide

  18. 後段の学習に単語分割器を組み込む
    2022/3/17 年次⼤会(平岡達也 @7a7hi) 18
    Neural
    Unigram LM
    (単語分割器)
    外国⼈参政権
    ⽣⽂
    ⾷品
    トピック
    外国⼈/参/政権
    外国/⼈参/政権
    外国/⼈/参政権



    後段モデル
    ① N-best分割
    単語分割の確率を単語確率の積で計算
    𝑝 外国/⼈参/政権 = 𝑝 外国 𝑝 ⼈参 𝑝 政権
    単語確率が学習可能パラメータ

    View Slide

  19. 後段の学習に単語分割器を組み込む
    2022/3/17 年次⼤会(平岡達也 @7a7hi) 19
    Neural
    Unigram LM
    (単語分割器)
    外国⼈参政権
    ⽣⽂
    ⾷品
    トピック
    外国⼈/参/政権
    外国/⼈参/政権
    外国/⼈/参政権
    𝑣!
    𝑣"
    𝑣#



    後段モデル
    ① N-best分割
    ② エンコード
    単語分割の確率を単語確率の積で計算
    𝑝 外国/⼈参/政権 = 𝑝 外国 𝑝 ⼈参 𝑝 政権
    単語確率が学習可能パラメータ

    View Slide

  20. 後段の学習に単語分割器を組み込む
    2022/3/17 年次⼤会(平岡達也 @7a7hi) 20
    Neural
    Unigram LM
    (単語分割器)
    外国⼈参政権
    ⽣⽂
    ⾷品
    トピック
    外国⼈/参/政権
    外国/⼈参/政権
    外国/⼈/参政権
    𝑣! ×
    𝑝 外国⼈/参/政権
    𝑍
    𝑣" ×
    𝑝 外国/⼈参/政権
    𝑍
    𝑣# ×
    𝑝 外国/⼈/参政権
    𝑍



    後段モデル
    単語分割の確率を単語確率の積で計算
    𝑝 外国/⼈参/政権 = 𝑝 外国 𝑝 ⼈参 𝑝 政権
    単語確率が学習可能パラメータ
    ① N-best分割
    ② エンコード
    ③ 単語分割の
    確率で重み付け
    つながった!

    View Slide

  21. 後段の学習に単語分割器を組み込む
    2022/3/17 年次⼤会(平岡達也 @7a7hi) 21
    Neural
    Unigram LM
    (単語分割器)
    外国⼈参政権
    ⽣⽂
    ⾷品
    トピック
    外国⼈/参/政権
    外国/⼈参/政権
    外国/⼈/参政権
    𝑣! ×
    𝑝 外国⼈/参/政権
    𝑍
    𝑣" ×
    𝑝 外国/⼈参/政権
    𝑍
    𝑣# ×
    𝑝 外国/⼈/参政権
    𝑍
    Σ



    後段モデル
    単語分割の確率を単語確率の積で計算
    𝑝 外国/⼈参/政権 = 𝑝 外国 𝑝 ⼈参 𝑝 政権
    単語確率が学習可能パラメータ
    ④ ⽂ベクトルの
    重み付き和で分類
    ① N-best分割
    ② エンコード
    ③ 単語分割の
    確率で重み付け
    つながった!

    View Slide

  22. 後段の学習に単語分割器を組み込む
    2022/3/17 年次⼤会(平岡達也 @7a7hi) 22
    Neural
    Unigram LM
    (単語分割器)
    外国⼈参政権
    ⽣⽂
    ⾷品
    トピック
    外国⼈/参/政権
    外国/⼈参/政権
    外国/⼈/参政権
    𝑣! ×
    𝑝 外国⼈/参/政権
    𝑍
    𝑣" ×
    𝑝 外国/⼈参/政権
    𝑍
    𝑣# ×
    𝑝 外国/⼈/参政権
    𝑍
    Σ



    後段モデル
    単語分割の確率を単語確率の積で計算
    𝑝 外国/⼈参/政権 = 𝑝 外国 𝑝 ⼈参 𝑝 政権
    単語確率が学習可能パラメータ
    政治
    正解

    View Slide

  23. 後段の学習に単語分割器を組み込む
    2022/3/17 年次⼤会(平岡達也 @7a7hi) 23
    Neural
    Unigram LM
    (単語分割器)
    外国⼈参政権
    ⽣⽂
    ⾷品
    トピック
    外国⼈/参/政権
    外国/⼈参/政権
    外国/⼈/参政権
    𝑣! ×
    𝑝 外国⼈/参/政権
    𝑍
    𝑣" ×
    𝑝 外国/⼈参/政権
    𝑍
    𝑣# ×
    𝑝 外国/⼈/参政権
    𝑍
    Σ



    後段モデル
    単語分割の確率を単語確率の積で計算
    𝑝 外国/⼈参/政権 = 𝑝 外国 𝑝 ⼈参 𝑝 政権
    単語確率が学習可能パラメータ
    政治
    正解
    適切な単語分割の
    確率が⾼くなるように更新
    (後段モデルの性能が⾼くなるような単語分割)

    View Slide

  24. 推論時は1-best分割
    2022/3/17 年次⼤会(平岡達也 @7a7hi) 24
    Neural
    Unigram LM
    (単語分割器)
    外国⼈参政権
    ⽣⽂
    政治
    トピック
    外国/⼈/参政権 𝑣



    後段モデル
    学習済み
    獲得された
    「良い」単語分割

    View Slide

  25. 嬉しさ
    2022/3/17 年次⼤会(平岡達也 @7a7hi) 25
    単語分割をタスクに応じて最適化する話
    ① タスクの性能が上がると嬉しい
    ② タスクに適切な単語分割が
    得られると嬉しい

    View Slide

  26. 文書分類タスクで性能向上
    タスク ⾔語
    単語分割の
    最適化なし
    単語分割の
    最適化あり
    感情分析 中 92.79 92.93
    ⽇ 86.51 87.39
    英 77.31 79.04
    レビューのジャンル予測 中 47.95 48.22
    ⽇ 47.86 50.21
    英 71.19 71.88
    レビューのレート予測 中 49.41 49.63
    ⽇ 52.30 53.19
    英 67.53 67.68
    SNLI 英 76.75 77.04
    2022/3/17 年次⼤会(平岡達也 @7a7hi) 26
    F1値(%),5回試⾏の平均,下線: ベースラインと有意差 (McNemar検定p<0.05)
    Weibo, Twitter
    JD.com, 楽天市場, Amazon
    JD.com, 楽天市場, Amazon
    ⼊⼒が2⽂
    • ⽂書分類モデルのエンコーダーはBiLSTM

    View Slide

  27. 文書分類タスクで性能向上
    タスク ⾔語
    単語分割の
    最適化なし
    単語分割の
    最適化あり
    感情分析 中 92.79 92.93
    ⽇ 86.51 87.39
    英 77.31 79.04
    レビューのジャンル予測 中 47.95 48.22
    ⽇ 47.86 50.21
    英 71.19 71.88
    レビューのレート予測 中 49.41 49.63
    ⽇ 52.30 53.19
    英 67.53 67.68
    SNLI 英 76.75 77.04
    2022/3/17 年次⼤会(平岡達也 @7a7hi) 27
    F1値(%),5回試⾏の平均,下線: ベースラインと有意差 (McNemar検定p<0.05)
    Weibo, Twitter
    JD.com, 楽天市場, Amazon
    JD.com, 楽天市場, Amazon
    ⼊⼒が2⽂
    • ⽂書分類モデルのエンコーダーはBiLSTM

    View Slide

  28. 文書分類タスクで性能向上
    タスク ⾔語
    単語分割の
    最適化なし
    単語分割の
    最適化あり
    感情分析 中 92.79 92.93
    ⽇ 86.51 87.39
    英 77.31 79.04
    レビューのジャンル予測 中 47.95 48.22
    ⽇ 47.86 50.21
    英 71.19 71.88
    レビューのレート予測 中 49.41 49.63
    ⽇ 52.30 53.19
    英 67.53 67.68
    SNLI 英 76.75 77.04
    2022/3/17 年次⼤会(平岡達也 @7a7hi) 28
    F1値(%),5回試⾏の平均,下線: ベースラインと有意差 (McNemar検定p<0.05)
    Weibo, Twitter
    JD.com, 楽天市場, Amazon
    JD.com, 楽天市場, Amazon
    ⼊⼒が2⽂
    • ⽂書分類モデルのエンコーダーはBiLSTM

    View Slide

  29. 文書分類タスクで性能向上
    タスク ⾔語
    単語分割の
    最適化なし
    単語分割の
    最適化あり
    感情分析 中 92.79 92.93
    ⽇ 86.51 87.39
    英 77.31 79.04
    レビューのジャンル予測 中 47.95 48.22
    ⽇ 47.86 50.21
    英 71.19 71.88
    レビューのレート予測 中 49.41 49.63
    ⽇ 52.30 53.19
    英 67.53 67.68
    SNLI 英 76.75 77.04
    2022/3/17 年次⼤会(平岡達也 @7a7hi) 29
    F1値(%),5回試⾏の平均,下線: ベースラインと有意差 (McNemar検定p<0.05)
    Weibo, Twitter
    JD.com, 楽天市場, Amazon
    JD.com, 楽天市場, Amazon
    ⼊⼒が2⽂
    • ⽂書分類モデルのエンコーダーはBiLSTM

    View Slide

  30. 文書分類タスクで性能向上
    タスク ⾔語
    単語分割の
    最適化なし
    単語分割の
    最適化あり
    感情分析 中 92.79 92.93
    ⽇ 86.51 87.39
    英 77.31 79.04
    レビューのジャンル予測 中 47.95 48.22
    ⽇ 47.86 50.21
    英 71.19 71.88
    レビューのレート予測 中 49.41 49.63
    ⽇ 52.30 53.19
    英 67.53 67.68
    SNLI 英 76.75 77.04
    2022/3/17 年次⼤会(平岡達也 @7a7hi) 30
    F1値(%),5回試⾏の平均,下線: ベースラインと有意差 (McNemar検定p<0.05)
    Weibo, Twitter
    JD.com, 楽天市場, Amazon
    JD.com, 楽天市場, Amazon
    ⼊⼒が2⽂
    • ⽂書分類モデルのエンコーダーはBiLSTM

    View Slide

  31. 単語分割の更新のみでも性能が向上?
    2022/3/17 年次⼤会(平岡達也 @7a7hi) 31
    設定
    単語分割器 後段モデル
    (感情予測)
    外国⼈参政権
    ⽣⽂
    外国/⼈参/政権
    分割済み⽂
    Positive
    感情
    固定
    更新

    View Slide

  32. 単語分割の更新のみでも性能が向上
    2022/3/17 年次⼤会(平岡達也 @7a7hi) 32
    単語分割の更新のみで
    検証データの性能が向上
    単語分割の更新のみで
    学習データの損失が低下
    設定
    単語分割器 後段モデル
    (感情予測)
    外国⼈参政権
    ⽣⽂
    外国/⼈参/政権
    分割済み⽂
    Positive
    感情
    固定
    更新

    View Slide

  33. 嬉しさ
    2022/3/17 年次⼤会(平岡達也 @7a7hi) 33
    単語分割をタスクに応じて最適化する話
    ① タスクの性能が上がると嬉しい
    ② タスクに適切な単語分割が
    得られると嬉しい

    View Slide

  34. タスクに応じた単語分割を獲得
    ⼿法 単語分割
    最適化なし ⾹りは すき だけど 、 痛 んだ 髪に は全然 効果なし 。
    ジャンル予測タスクに最適化(正解:美容・コスメ・⾹⽔)
    最適化あり ⾹り は すき だけど 、 痛 んだ 髪 に は全然 効果 なし 。
    レート予測タスクに最適化(正解:2/5)
    最適化あり ⾹りは すき だけど 、 痛 んだ 髪に は 全然 効果なし 。
    2022/3/17 年次⼤会(平岡達也 @7a7hi) 34
    ジャンル予測:商品のジャンルに関わる単語を切り出す
    レート予測 :品質や印象に関わる単語を切り出す

    View Slide

  35. タスクに応じた単語分割を獲得
    ⼿法 単語分割
    最適化なし ⾹りは すき だけど 、 痛 んだ 髪に は全然 効果なし 。
    ジャンル予測タスクに最適化(正解:美容・コスメ・⾹⽔)
    最適化あり ⾹り は すき だけど 、 痛 んだ 髪 に は全然 効果 なし 。
    レート予測タスクに最適化(正解:2/5)
    最適化あり ⾹りは すき だけど 、 痛 んだ 髪に は 全然 効果なし 。
    2022/3/17 年次⼤会(平岡達也 @7a7hi) 35
    ジャンル予測:商品のジャンルに関わる単語を切り出す
    レート予測 :品質や印象に関わる単語を切り出す
    ⻑くなってない?

    View Slide

  36. タスクに応じた単語分割を獲得
    ⼿法 単語分割
    最適化なし ⾹りは すき だけど 、 痛 んだ 髪に は全然 効果なし 。
    ジャンル予測タスクに最適化(正解:美容・コスメ・⾹⽔)
    最適化あり ⾹り は すき だけど 、 痛 んだ 髪 に は全然 効果 なし 。
    レート予測タスクに最適化(正解:2/5)
    最適化あり ⾹りは すき だけど 、 痛 んだ 髪に は 全然 効果なし 。
    2022/3/17 年次⼤会(平岡達也 @7a7hi) 36
    ジャンル予測:商品のジャンルに関わる単語を切り出す
    レート予測 :品質や印象に関わる単語を切り出す
    10 tokens
    13 tokens
    11 tokens
    x 1.3
    x 1.1
    ⻑くなってない?

    View Slide

  37. 提案手法で系列長が長くなる
    最適化後の系列⻑
    ⾔語 タスク 最適化前の系列⻑
    中 ジャンル予測 1.5405
    レート予測 1.4249
    ⽇ ジャンル予測 1.5205
    レート予測 1.3224
    英 ジャンル予測 1.0620
    レート予測 1.0415
    2022/3/17 年次⼤会(平岡達也 @7a7hi) 37
    • 全体的に提案⼿法によって系列⻑が⻑くなる
    • レート予測よりジャンル予測のほうが系列⻑が⻑くなる
    • 英語の単語分割の系列⻑は⼤きく変わらない
    何倍⻑くなったか

    View Slide

  38. タスクごとに単語分割の系列長が異なる
    最適化後の系列⻑
    ⾔語 タスク 最適化前の系列⻑
    中 ジャンル予測 1.5405
    レート予測 1.4249
    ⽇ ジャンル予測 1.5205
    レート予測 1.3224
    英 ジャンル予測 1.0620
    レート予測 1.0415
    2022/3/17 年次⼤会(平岡達也 @7a7hi) 38
    • 全体的に提案⼿法によって系列⻑が⻑くなる
    • レート予測よりジャンル予測のほうが系列⻑が⻑くなる
    • 英語の単語分割の系列⻑は⼤きく変わらない
    何倍⻑くなったか

    View Slide

  39. 言語ごとに単語分割の系列長が異なる
    最適化後の系列⻑
    ⾔語 タスク 最適化前の系列⻑
    中 ジャンル予測 1.5405
    レート予測 1.4249
    ⽇ ジャンル予測 1.5205
    レート予測 1.3224
    英 ジャンル予測 1.0620
    レート予測 1.0415
    2022/3/17 年次⼤会(平岡達也 @7a7hi) 39
    • 全体的に提案⼿法によって系列⻑が⻑くなる
    • レート予測よりジャンル予測のほうが系列⻑が⻑くなる
    • 英語の単語分割の系列⻑は⼤きく変わらない
    何倍⻑くなったか

    View Slide

  40. 嬉しさ
    2022/3/17 年次⼤会(平岡達也 @7a7hi) 40
    単語分割をタスクに応じて最適化する話
    ① タスクの性能が上がると嬉しい
    ② タスクに適切な単語分割が
    得られると嬉しい

    View Slide

  41. その後の話
    2022/3/17 年次⼤会(平岡達也 @7a7hi) 41
    • Optimizing Word Segmentation for Downstream Task
    • Findings of EMNLP 2020
    • テキストベクトルの重みづけを⽤いたタスクに対する単語分割の最適化
    • ⾃然⾔語処理 28-2
    • 後段モデルの損失値を⽤いた単語分割のタスクへの最適化
    • 第27回年次⼤会(短い+⽇本語なのでおすすめ)
    • Joint Optimization of Tokenization and Downstream Model
    • Findings of ACL 2021
    • 単語分割と後段モデルの損失値を⽤いた同時最適化
    • ⾃然⾔語処理 29-1 (先⽇公開!)
    今回の話(⽂書分類に限定)
    続きの話(⽂書分類+機械翻訳)
    • Task-Oriented Word Segmentation
    • 博論(スライドはTwitter @7a7hi から探せます)
    まとめた話

    View Slide