Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Task-Oriented Word Segmentation (Presentation for Doctoral Dissertation)

tatHi
January 04, 2022

Task-Oriented Word Segmentation (Presentation for Doctoral Dissertation)

Slides for the presentation of my doctoral dissertation (in Japanese).
The contents of the presentation are already published as the following papers:
- https://aclanthology.org/2020.findings-emnlp.120/
- https://aclanthology.org/2021.findings-acl.21/

tatHi

January 04, 2022
Tweet

More Decks by tatHi

Other Decks in Research

Transcript

  1. Task-Oriented Word Segmentation
    Tatsuya Hiraoka
    Okazaki-lab
    Doctoral Dissertation
    2022/1/5 博⼠論⽂発表会(平岡達也) 1

    View full-size slide

  2. 本研究の概要
    • ⽬的:
    • 後段タスクに応じて適切な単語分割を探索し,⾃然⾔語処理タスクで
    の性能向上を⽬指す
    • 解決⽅策:
    • 単語分割と後段モデルを同時に最適化することで,
    後段タスクに応じた適切な単語分割を学習
    • 貢献:
    • 後段モデルと単語分割を同時に最適化する初めての試みである
    • タスクやモデルに応じた単語分割を獲得できる⼿法を提案
    • 複数のNLPタスクで性能向上に寄与する
    2022/1/5 博⼠論⽂発表会(平岡達也) 2
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

    View full-size slide

  3. 単語分割
    どちらも「単語分割」と呼ぶことにします
    今⽇はとてもいい天気ですね
    今⽇ は とても いい 天気 です ね
    Itʼs sunny today .
    It ##ʼ ##s sun ##ny to ##day .
    2022/1/5 博⼠論⽂発表会(平岡達也) 3
    ⽂→単語列
    単語列→サブワード列
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

    View full-size slide

  4. text
    text

    text
    text

    単語分割器
    Corpus Tokenized corpus
    後段モデル
    問題意識
    • 「前処理」としての単語分割に問題意識
    • ⼀般的なNLPにおける単語分割と後段モデルの関係
    - ⽂書分類
    - 機械翻訳
    - 固有表現抽出
    - …
    - MeCab
    - BPE
    - …
    2022/1/5 博⼠論⽂発表会(平岡達也) 4
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

    View full-size slide

  5. text
    text

    text
    text

    単語分割器
    Corpus Tokenized corpus
    後段モデル
    問題意識
    • 「前処理」としての単語分割に問題意識
    • ⼀般的なNLPにおける単語分割と後段モデルの関係
    - ⽂書分類
    - 機械翻訳
    - 固有表現抽出
    - …
    - MeCab
    - BPE
    - …
    適切な単語分割で性能向上
    →後段タスク/モデルに依存*
    2022/1/5 博⼠論⽂発表会(平岡達也) 5
    *Xu+, 2008; Chang+, 2008; Nguyen+, 2010; Domingo+, 2018; Hiraoka+, 2019; Gowada and May, 2020.
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

    View full-size slide

  6. text
    text

    text
    text

    単語分割器
    Corpus Tokenized corpus
    後段モデル
    問題意識
    • 「前処理」としての単語分割に問題意識
    • ⼀般的なNLPにおける単語分割と後段モデルの関係
    - ⽂書分類
    - 機械翻訳
    - 固有表現抽出
    - …
    - MeCab
    - BPE
    - …
    前処理として単語分割を
    決定しなければいけない
    前処理
    適切な単語分割で性能向上
    →後段タスク/モデルに依存*
    2022/1/5 博⼠論⽂発表会(平岡達也) 6
    *Xu+, 2008; Chang+, 2008; Nguyen+, 2010; Domingo+, 2018; Hiraoka+, 2019; Gowada and May, 2020.
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

    View full-size slide

  7. text
    text

    text
    text

    単語分割器
    Corpus Tokenized corpus
    後段モデル
    問題意識
    • 「前処理」としての単語分割に問題意識
    • ⼀般的なNLPにおける単語分割と後段モデルの関係
    - ⽂書分類
    - 機械翻訳
    - 固有表現抽出
    - …
    - MeCab
    - BPE
    - …
    前処理として単語分割を
    決定しなければいけない
    前処理
    適切な単語分割で性能向上
    →後段タスク/モデルに依存*
    GAP
    2022/1/5 博⼠論⽂発表会(平岡達也) 7
    *Xu+, 2008; Chang+, 2008; Nguyen+, 2010; Domingo+, 2018; Hiraoka+, 2019; Gowada and May, 2020.
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

    View full-size slide

  8. 解決方策
    • 後段モデルの性能が向上するように単語分割を更新する
    text
    text

    text
    text

    単語分割器
    Corpus Tokenized corpus
    後段モデル
    後段モデルと同時に単語分割器を学習
    単語分割を更新
    2022/1/5 博⼠論⽂発表会(平岡達也) 8
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

    View full-size slide

  9. 従来の単語分割
    2022/1/5 博⼠論⽂発表会(平岡達也) 9
    辞書を⽤いた単語分割 教師あり単語分割 教師なし単語分割
    text
    text

    text
    text

    単語分割器
    Corpus Tokenized corpus
    後段モデル
    おおまかに3種類のアプローチ
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

    View full-size slide

  10. 従来の単語分割
    2022/1/5 博⼠論⽂発表会(平岡達也) 10
    辞書を⽤いた単語分割 教師あり単語分割 教師なし単語分割
    • 主に⽇本語のMeCab,JUMAN++,Sudachi*
    • 辞書に含まれる単語候補とそのスコアをもとに分割
    • ⼀般的には品詞推定と合わせて形態素解析として扱われる
    text
    text

    text
    text

    単語分割器
    Corpus Tokenized corpus
    後段モデル
    辞書引き
    *Kudo, 2006; Morita+, 2015; Takaoka+, 2018.
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

    View full-size slide

  11. 従来の単語分割
    2022/1/5 博⼠論⽂発表会(平岡達也) 11
    辞書を⽤いた単語分割 教師あり単語分割 教師なし単語分割
    • 主に中国語で⽤いられる*
    • PKUやCTBなどのデータで学習したNNを⽤いた単語分割
    text
    text

    text
    text

    単語分割器
    Corpus Tokenized corpus
    後段モデル
    単語分割
    学習⽤データ
    学習
    *Yang+, 2017; Cai+, 2017; Yang+, 2018.
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

    View full-size slide

  12. 従来の単語分割
    2022/1/5 博⼠論⽂発表会(平岡達也) 12
    辞書を⽤いた単語分割 教師あり単語分割 教師なし単語分割
    • 主に英語などのサブワード分割(BPE,SentencePiece*)
    • 後段⽤の学習データなどを⽤いて教師なしで単語分割を学習
    text
    text

    text
    text

    単語分割器
    Corpus Tokenized corpus
    後段モデル
    教師なしで
    単語分割を学習
    *Sennrich+, 2016; Kudo and Richardson, 2018.
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

    View full-size slide

  13. 従来の単語分割
    2022/1/5 博⼠論⽂発表会(平岡達也) 13
    辞書を⽤いた単語分割 教師あり単語分割 教師なし単語分割
    • 主に英語などのサブワード分割(BPE,SentencePiece*)
    • 後段⽤の学習データなどを⽤いて教師なしで単語分割を学習
    • 提案⼿法は教師なし単語分割の流れを汲む
    • 後段タスクの情報を⽤いて単語分割を探索する亜種
    text
    text

    text
    text

    単語分割器
    Corpus Tokenized corpus
    後段モデル
    教師なしで
    単語分割を学習
    +後段モデルの
    情報も利⽤
    *Sennrich+, 2016; Kudo and Richardson, 2018.
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

    View full-size slide

  14. text
    text

    text
    text

    単語分割器
    Corpus Tokenized corpus
    後段モデル
    単語分割問題への取り組み
    前処理
    適切な単語分割で性能向上
    →後段タスク/モデルに依存
    GAP
    2022/1/5 博⼠論⽂発表会(平岡達也) 14
    前処理として単語分割を
    決定しなければいけない
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

    View full-size slide

  15. text
    text

    text
    text

    単語分割器
    Corpus Tokenized corpus
    後段モデル
    単語分割問題への取り組み
    前処理
    適切な単語分割で性能向上
    →後段タスク/モデルに依存
    GAP
    2022/1/5 博⼠論⽂発表会(平岡達也) 15
    サブワード正則化
    複数の単語分割を
    受け取る後段モデル
    単語分割器の探索
    おおまかに3種類の対処法
    前処理として単語分割を
    決定しなければいけない
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

    View full-size slide

  16. 単語分割問題への取り組み
    2022/1/5 博⼠論⽂発表会(平岡達也) 16
    サブワード正則化
    複数の単語分割を
    受け取る後段モデル
    単語分割器の探索

    text
    text
    Corpus
    単語分割器A
    単語分割器B
    単語分割器C

    text
    text

    text
    text

    text
    text
    複数の異なる単語分割器
    複数の単語分割を受け取れる
    ように拡張した後段モデル
    • 後段モデルを拡張し,複数の単語分割を同時に⼊⼒する*
    • 複数の単語分割の中に,後段モデルに適したものがあるはず
    • 後段モデルの仕組みを⼤きく変える必要があり,処理も遅い
    *Chen+, 2017; Zhang and Yang, 2018; Yang+, 2018.
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

    View full-size slide

  17. 単語分割問題への取り組み
    2022/1/5 博⼠論⽂発表会(平岡達也) 17
    サブワード正則化
    複数の単語分割を
    受け取る後段モデル
    単語分割器の探索

    text
    text
    Corpus
    単語分割器

    text
    text

    text
    text

    text
    text
    単語分割を毎回サンプリングして学習
    • 学習エポックごとに使⽤する単語分割をサンプリング*
    • 後段モデルは複数の単語分割を学習事例に使⽤可能
    • 後段モデルの構造を変える必要なし
    後段モデル
    *Kudo, 2018; Hiraoka+, 2019; Provilkov+, 2019.
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

    View full-size slide

  18. 単語分割問題への取り組み
    2022/1/5 博⼠論⽂発表会(平岡達也) 18
    サブワード正則化
    複数の単語分割を
    受け取る後段モデル
    単語分割器の探索

    text
    text
    Corpus
    単語分割器A
    単語分割器B
    単語分割器C

    text
    text

    text
    text

    text
    text
    実際に性能を測ってみる
    • 何らかの指標で「適切な」単語分割器を選択
    • 究極的には,あらゆる単語分割器で後段モデルを学習してみて,
    性能が良いものを選択する
    • 現実的ではない
    後段モデル
    後段モデル
    後段モデル
    採⽤
    Chang et al., 2008.
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

    View full-size slide

  19. 単語分割問題への取り組み
    2022/1/5 博⼠論⽂発表会(平岡達也) 19
    サブワード正則化
    複数の単語分割を
    受け取る後段モデル
    単語分割器の探索

    text
    text
    Corpus
    単語分割器
    複数の or サンプリングした
    単語分割で学習
    • 提案⼿法は,複数の単語分割で後段モデルを学習しつつ,
    「適切な」単語分割器を直接学習していく複合的なアプローチ
    後段モデル
    性能向上に繋がる
    単語分割の情報を
    フィードバック

    text
    text

    text
    text

    text
    text
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

    View full-size slide

  20. 本発表の流れ
    2022/1/5 博⼠論⽂発表会(平岡達也) 20
    ⽬的:後段タスクに応じた単語分割の最適化
    Approach 1:
    ⽂書分類タスクに限定した
    単語分割の最適化⼿法
    Approach 2:
    後段タスクの種類を限定しない
    単語分割の最適化⼿法
    実験:⽂書分類で性能向上
    拡張
    実験:⽂書分類,機械翻訳
    で性能向上
    分析
    • 後処理として単語分割を最適化しても性能向上
    • 最適化対象とは異なるタスクでは⼩さい性能向上
    • タスクに応じて異なる単語分割を獲得
    • マルチタスク学習では各タスクの性質を
    あわせ持った単語分割を獲得
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

    View full-size slide

  21. ⽬的:後段タスクに応じた単語分割の最適化
    Approach 1:
    ⽂書分類タスクに限定した
    単語分割の最適化⼿法
    Approach 2:
    後段タスクの種類を限定しない
    単語分割の最適化⼿法
    実験:⽂書分類で性能向上
    拡張
    実験:⽂書分類,機械翻訳
    で性能向上
    分析
    • 後処理として単語分割を最適化しても性能向上
    • 最適化対象とは異なるタスクでは⼩さい性能向上
    • タスクに応じて異なる単語分割を獲得
    • マルチタスク学習では各タスクの性質を
    あわせ持った単語分割を獲得
    Approach 1
    2022/1/5 博⼠論⽂発表会(平岡達也) 21
    ⾃然⾔語処理 28号vol.2, 2021.
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

    View full-size slide

  22. 目的と解決方策(再掲)
    • 後段モデルの性能が向上するように単語分割を更新する
    text
    text

    text
    text

    単語分割器
    Corpus Tokenized corpus
    後段モデル
    後段モデルと同時に単語分割器を学習
    単語分割を更新
    2022/1/5 博⼠論⽂発表会(平岡達也) 22
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

    View full-size slide

  23. コアアイディア
    • 後段モデルの性能が向上するように単語分割を更新する
    text
    text

    text
    text

    単語分割器
    Corpus Tokenized corpus
    後段モデル
    後段モデルと同時に単語分割器を学習
    単語分割を更新
    ニューラルネットで作成

    後段モデルの損失で更新
    2022/1/5 博⼠論⽂発表会(平岡達也) 23
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

    View full-size slide

  24. 手法概観
    法改正反対
    法/改正/反対
    法/改/正/反対
    法/改/正反対
    Neural
    Unigram LM
    N-best分割
    2022/1/5 博⼠論⽂発表会(平岡達也) 24
    ニューラル⾔語モデル
    による単語分割器
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

    View full-size slide

  25. 手法概観
    法改正反対
    法/改正/反対
    法/改/正/反対
    法/改/正反対
    Neural
    Unigram LM
    N-best分割
    2022/1/5 博⼠論⽂発表会(平岡達也) 25
    ニューラル⾔語モデル
    による単語分割器
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
    単語分割の確率を単語確率の積で計算
    𝑝 法/改正/反対 = 𝑝 法 𝑝 改正 𝑝 反対
    単語確率が学習可能パラメータ

    View full-size slide

  26. 手法概観
    法改正反対
    法/改正/反対
    法/改/正/反対
    法/改/正反対
    Neural
    Unigram LM
    N-best分割



    $

    $
    𝒗!!
    𝒗!"
    𝒗!#
    2022/1/5 博⼠論⽂発表会(平岡達也) 26
    ニューラル⾔語モデル
    による単語分割器
    ⽂ベクトル
    LSTM, BiLSTM,
    Transformerなど
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
    単語分割の確率を単語確率の積で計算
    𝑝 法/改正/反対 = 𝑝 法 𝑝 改正 𝑝 反対
    単語確率が学習可能パラメータ

    View full-size slide

  27. 手法概観
    法改正反対
    法/改正/反対
    法/改/正/反対
    法/改/正反対
    Neural
    Unigram LM
    N-best分割
    ×
    𝑝 法/改正/反対
    𝑍
    ×
    𝑝 法/改/正/反対
    𝑍
    ×
    𝑝 法/改/正反対
    𝑍
    単語分割の確率で
    ⽂ベクトルに重み付け
    * 重みの総和は1



    $

    $
    𝒗!!
    𝒗!"
    𝒗!#
    2022/1/5 博⼠論⽂発表会(平岡達也) 27
    ニューラル⾔語モデル
    による単語分割器
    ⽂ベクトル
    LSTM, BiLSTM,
    Transformerなど
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
    単語分割の確率を単語確率の積で計算
    𝑝 法/改正/反対 = 𝑝 法 𝑝 改正 𝑝 反対
    単語確率が学習可能パラメータ

    View full-size slide

  28. 手法概観
    法改正反対
    法/改正/反対
    法/改/正/反対
    法/改/正反対
    正解ラベル: Negative
    Neural
    Unigram LM
    N-best分割
    ×
    𝑝 法/改正/反対
    𝑍
    ×
    𝑝 法/改/正/反対
    𝑍
    ×
    𝑝 法/改/正反対
    𝑍
    Σ
    単語分割の確率で
    ⽂ベクトルに重み付け
    * 重みの総和は1



    $

    $
    𝒗!!
    𝒗!"
    𝒗!#
    𝒗!
    ℒ%
    MLP




    2022/1/5 博⼠論⽂発表会(平岡達也) 28
    ニューラル⾔語モデル
    による単語分割器
    ⽂ベクトル
    LSTM, BiLSTM,
    Transformerなど
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
    単語分割の確率を単語確率の積で計算
    𝑝 法/改正/反対 = 𝑝 法 𝑝 改正 𝑝 反対
    単語確率が学習可能パラメータ

    View full-size slide

  29. ニューラル⾔語モデル
    による単語分割器
    手法概観
    法改正反対
    法/改正/反対
    法/改/正/反対
    法/改/正反対
    正解ラベル: Negative
    Neural
    Unigram LM
    N-best分割
    ×
    𝑝 法/改正/反対
    𝑍
    ×
    𝑝 法/改/正/反対
    𝑍
    ×
    𝑝 法/改/正反対
    𝑍
    Σ
    単語分割の確率で
    ⽂ベクトルに重み付け
    * 重みの総和は1



    $

    $
    𝒗!!
    𝒗!"
    𝒗!#
    𝒗!
    ℒ%




    2022/1/5 博⼠論⽂発表会(平岡達也) 29
    ⽂ベクトル
    MLP
    LSTM, BiLSTM,
    Transformerなど
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
    分類器の更新
    単語分割の確率を単語確率の積で計算
    𝑝 法/改正/反対 = 𝑝 法 𝑝 改正 𝑝 反対
    単語確率が学習可能パラメータ

    View full-size slide

  30. 単語分割の確率を単語確率の積で計算
    𝑝 法/改正/反対 = 𝑝 法 𝑝 改正 𝑝 反対
    ニューラル⾔語モデル
    による単語分割器
    手法概観
    法改正反対
    法/改正/反対
    法/改/正/反対
    法/改/正反対
    正解ラベル: Negative
    Neural
    Unigram LM
    N-best分割
    ×
    𝑝 法/改正/反対
    𝑍
    ×
    𝑝 法/改/正/反対
    𝑍
    ×
    𝑝 法/改/正反対
    𝑍
    Σ
    単語分割の確率で
    ⽂ベクトルに重み付け
    * 重みの総和は1



    $

    $
    𝒗!!
    𝒗!"
    𝒗!#
    𝒗!
    ℒ%




    2022/1/5 博⼠論⽂発表会(平岡達也) 30
    ⽂ベクトル
    MLP
    LSTM, BiLSTM,
    Transformerなど
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
    分類器の更新
    単語確率が学習可能パラメータ
    ℒ!
    が⼩さくなる単語分割に⾼
    い確率を与えるように更新

    View full-size slide

  31. 推論時の単語分割
    • 推論時は学習済みの単語分割器を⽤いて1-best分割
    2022/1/5 博⼠論⽂発表会(平岡達也) 31
    0
    0.2
    0.4
    0.6
    0.8
    Positive Negative
    ラベルの予測確率
    法改正反対 法/改/正/反対
    Neural
    Unigram LM
    1-best分割
    MLP



    $

    $
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

    View full-size slide

  32. 単語分割器の初期化
    • 単語分割器はSentencePiece*で学習した語彙・単語確率で初期化
    • 与えられた語彙から適切な単語分割を求める
    2022/1/5 博⼠論⽂発表会(平岡達也) 32
    法改正反対
    法/改正/反対
    法/改/正/反対
    法/改/正反対
    Neural
    Unigram LM
    N-best分割
    ×
    𝑝 法/改正/反対
    𝑍
    ×
    𝑝 法/改/正/反対
    𝑍
    ×
    𝑝 法/改/正反対
    𝑍
    Σ
    単語分割の確率で
    ⽂ベクトルに重み付け
    * 重みの総和は1



    $

    $
    𝒗!!
    𝒗!"
    𝒗!#
    𝒗!
    ℒ%
    MLP




    * Kudo and Richardson, 2018.
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

    View full-size slide

  33. 文書分類タスクで性能向上
    タスク ⾔語
    単語分割の
    最適化なし
    単語分割の
    最適化あり
    感情分析 中 92.79 92.93
    ⽇ 86.51 87.39
    英 77.31 79.04
    レビューのジャンル予測 中 47.95 48.22
    ⽇ 47.86 50.21
    英 71.19 71.88
    レビューのレート予測 中 49.41 49.63
    ⽇ 52.30 53.19
    英 67.53 67.68
    SNLI 英 76.75 77.04
    2022/1/5 博⼠論⽂発表会(平岡達也) 33
    • ⽂書分類モデルのエンコーダーはBiLSTM
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
    F1値(%),5回試⾏の平均,下線: ベースラインと有意差 (McNemar検定p<0.05)

    View full-size slide

  34. 文書分類タスクで性能向上
    タスク ⾔語
    単語分割の
    最適化なし
    単語分割の
    最適化あり
    感情分析 中 92.79 92.93
    ⽇ 86.51 87.39
    英 77.31 79.04
    レビューのジャンル予測 中 47.95 48.22
    ⽇ 47.86 50.21
    英 71.19 71.88
    レビューのレート予測 中 49.41 49.63
    ⽇ 52.30 53.19
    英 67.53 67.68
    SNLI 英 76.75 77.04
    2022/1/5 博⼠論⽂発表会(平岡達也) 34
    Weibo, Twitter
    • ⽂書分類モデルのエンコーダーはBiLSTM
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
    F1値(%),5回試⾏の平均,下線: ベースラインと有意差 (McNemar検定p<0.05)

    View full-size slide

  35. 文書分類タスクで性能向上
    タスク ⾔語
    単語分割の
    最適化なし
    単語分割の
    最適化あり
    感情分析 中 92.79 92.93
    ⽇ 86.51 87.39
    英 77.31 79.04
    レビューのジャンル予測 中 47.95 48.22
    ⽇ 47.86 50.21
    英 71.19 71.88
    レビューのレート予測 中 49.41 49.63
    ⽇ 52.30 53.19
    英 67.53 67.68
    SNLI 英 76.75 77.04
    2022/1/5 博⼠論⽂発表会(平岡達也) 35
    Weibo, Twitter
    JD.com, 楽天市場, Amazon
    JD.com, 楽天市場, Amazon
    • ⽂書分類モデルのエンコーダーはBiLSTM
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
    F1値(%),5回試⾏の平均,下線: ベースラインと有意差 (McNemar検定p<0.05)

    View full-size slide

  36. 文書分類タスクで性能向上
    タスク ⾔語
    単語分割の
    最適化なし
    単語分割の
    最適化あり
    感情分析 中 92.79 92.93
    ⽇ 86.51 87.39
    英 77.31 79.04
    レビューのジャンル予測 中 47.95 48.22
    ⽇ 47.86 50.21
    英 71.19 71.88
    レビューのレート予測 中 49.41 49.63
    ⽇ 52.30 53.19
    英 67.53 67.68
    SNLI 英 76.75 77.04
    2022/1/5 博⼠論⽂発表会(平岡達也) 36
    F1値(%),5回試⾏の平均,下線: ベースラインと有意差 (McNemar検定p<0.05)
    Weibo, Twitter
    JD.com, 楽天市場, Amazon
    JD.com, 楽天市場, Amazon
    ⼊⼒が2⽂
    • ⽂書分類モデルのエンコーダーはBiLSTM
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

    View full-size slide

  37. 単語分割の更新のみでも性能が向上
    法改正反対
    法/改正/反対
    法/改/正/反対
    法/改/正反対
    正解ラベル: Negative
    Neural
    Unigram LM
    N-best分割
    ×
    𝑝 法/改正/反対
    𝑍
    ×
    𝑝 法/改/正/反対
    𝑍
    ×
    𝑝 法/改/正反対
    𝑍
    Σ
    単語分割の確率で
    ⽂ベクトルに重み付け
    * 重みの総和は1



    $

    $
    𝒗!!
    𝒗!"
    𝒗!#
    𝒗!
    ℒ%




    2022/1/5 博⼠論⽂発表会(平岡達也) 37
    • 単語分割以外のパラメータを固定して学習
    →学習できるのは単語分割器(Neural Unigram LM)のみ
    固定
    ⽂ベクトル
    MLP
    固定
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

    View full-size slide

  38. 単語分割の更新のみでも性能が向上
    • 提案⼿法によって単語分割を更新することが,
    性能の向上に寄与することを⽰唆
    • ⽇本語感情分析データセットで実験
    2022/1/5 博⼠論⽂発表会(平岡達也) 38
    単語分割の更新のみで
    検証データの性能が向上
    単語分割の更新のみで
    学習データの損失が低下
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

    View full-size slide

  39. 本発表の流れ
    2022/1/5 博⼠論⽂発表会(平岡達也) 39
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
    ⽬的:後段タスクに応じた単語分割の最適化
    Approach 1:
    ⽂書分類タスクに限定した
    単語分割の最適化⼿法
    Approach 2:
    後段タスクの種類を限定しない
    単語分割の最適化⼿法
    実験:⽂書分類で性能向上
    拡張
    実験:⽂書分類,機械翻訳
    で性能向上
    分析
    • 後処理として単語分割を最適化しても性能向上
    • 最適化対象とは異なるタスクでは⼩さい性能向上
    • タスクに応じて異なる単語分割を獲得
    • マルチタスク学習では各タスクの性質を
    あわせ持った単語分割を獲得

    View full-size slide

  40. Approach 2
    2022/1/5 博⼠論⽂発表会(平岡達也) 40
    Findings of ACL-IJCNLP 2021
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

    View full-size slide

  41. 法改正反対
    法/改正/反対
    法/改/正/反対
    法/改/正反対
    正解ラベル: Negative
    Neural
    Unigram LM
    N-best分割
    ×
    " 法/改正/反対
    #
    ×
    " 法/改/正/反対
    #
    ×
    " 法/改/正反対
    #
    Σ
    単語分割の確率で
    ⽂ベクトルに重み付け
    * 重みの総和は1



    $

    $
    !!!
    !!"
    !!#
    !!
    ℒ!




    MLP
    ℒ!
    が⼩さくなる単語分割に⾼
    い確率を与えるように更新
    Approach 1の問題点
    2022/1/5 博⼠論⽂発表会(平岡達也) 41
    Approach 1
    ⽂ベクトルの計算が必須
    →⽂書分類タスクなどに限定
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
    後段モデル

    View full-size slide

  42. 法改正反対
    法/改正/反対
    法/改/正/反対
    法/改/正反対
    正解ラベル: Negative
    Neural
    Unigram LM
    N-best分割
    ×
    " 法/改正/反対
    #
    ×
    " 法/改/正/反対
    #
    ×
    " 法/改/正反対
    #
    Σ
    単語分割の確率で
    ⽂ベクトルに重み付け
    * 重みの総和は1



    $

    $
    !!!
    !!"
    !!#
    !!
    ℒ!




    MLP
    ℒ!
    が⼩さくなる単語分割に⾼
    い確率を与えるように更新
    Approach 1
    後段モデル
    Approach 1の問題点
    2022/1/5 博⼠論⽂発表会(平岡達也) 42
    ⽂ベクトルの計算が必須
    →⽂書分類タスクなどに限定 後段モデルの内部に埋め込む必要がある
    →スケーラビリティが低い
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

    View full-size slide

  43. 法改正反対
    法/改正/反対
    法/改/正/反対
    法/改/正反対
    正解ラベル: Negative
    Neural
    Unigram LM
    N-best分割
    ×
    " 法/改正/反対
    #
    ×
    " 法/改/正/反対
    #
    ×
    " 法/改/正反対
    #
    Σ
    単語分割の確率で
    ⽂ベクトルに重み付け
    * 重みの総和は1



    $

    $
    !!!
    !!"
    !!#
    !!
    ℒ!




    MLP
    ℒ!
    が⼩さくなる単語分割に⾼
    い確率を与えるように更新
    Approach 1
    後段モデル
    Approach 1の問題点
    2022/1/5 博⼠論⽂発表会(平岡達也) 43
    ⽂ベクトルの計算が必須
    →⽂書分類タスクなどに限定 後段モデルの内部に埋め込む必要がある
    →スケーラビリティが低い
    様々な後段タスク・後段モデルに適⽤可能な単語分割の最適化⼿法は存在していない
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

    View full-size slide

  44. 基本戦略
    • 適切な単語分割:後段モデルの損失が最も低くなる単語分割
    • 後段モデルの構造やパラメータ,後段タスクの性質に依存
    2022/1/5 博⼠論⽂発表会(平岡達也) 44
    法改正反対 法/改/正/反対
    正解ラベル: Negative
    0.69









    * 後段タスクが感情分析の場合
    損失値
    LSTM⽂書分類器など
    交差エントロピー誤差など
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

    View full-size slide

  45. 法/改正/反対 0.22
    基本戦略
    • 適切な単語分割:後段モデルの損失が最も低くなる単語分割
    • 後段モデルの構造やパラメータ,後段タスクの性質に依存
    2022/1/5 博⼠論⽂発表会(平岡達也) 45
    複数の単語分割候補
    法改正反対 法/改/正/反対
    法/改/正反対
    正解ラベル: Negative
    0.69
    0.91









    * 後段タスクが感情分析の場合
    LSTM⽂書分類器など
    交差エントロピー誤差など
    損失値
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

    View full-size slide

  46. 基本戦略
    • 適切な単語分割:後段モデルの損失が最も低くなる単語分割
    • 後段モデルの構造やパラメータ,後段タスクの性質に依存
    2022/1/5 博⼠論⽂発表会(平岡達也) 46
    複数の単語分割候補
    損失値が最も低くなる
    単語分割を採⽤したい
    →後段モデルの損失を
    利⽤した単語分割器の学習
    法改正反対
    法/改正/反対
    法/改/正/反対
    法/改/正反対
    正解ラベル: Negative
    0.22
    0.69
    0.91









    * 後段タスクが感情分析の場合
    LSTM⽂書分類器など
    交差エントロピー誤差など
    損失値
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

    View full-size slide

  47. 単語分割器の学習
    • 単語分割器としてニューラルユニグラム⾔語モデルを⽤いる
    • 単語分散表現から単語の確率𝑝(𝑤)を計算
    2022/1/5 博⼠論⽂発表会(平岡達也) 47
    法改正反対
    法/改正/反対
    法/改/正/反対
    法/改/正反対
    正解ラベル: Negative
    0.22
    0.69
    0.91









    Neural
    Unigram LM
    N-best分割
    ×
    𝑝 法/改正/反対
    𝑍
    ×
    𝑝 法/改/正/反対
    𝑍
    ×
    𝑝 法/改/正反対
    𝑍
    単語分割の確率で損失に重み付け
    * 重みの総和は1
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

    View full-size slide

  48. 単語分割器の学習
    • 単語分割器としてニューラルユニグラム⾔語モデルを⽤いる
    • 単語分散表現から単語の確率𝑝(𝑤)を計算
    2022/1/5 博⼠論⽂発表会(平岡達也) 48
    法改正反対
    法/改正/反対
    法/改/正/反対
    法/改/正反対
    正解ラベル: Negative
    0.22
    0.69
    0.91









    Neural
    Unigram LM
    N-best分割
    ×
    𝑝 法/改正/反対
    𝑍
    ×
    𝑝 法/改/正/反対
    𝑍
    ×
    𝑝 法/改/正反対
    𝑍
    Σ loss
    単語分割の確率で損失に重み付け
    * 重みの総和は1
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

    View full-size slide

  49. 単語分割器の学習
    • 単語分割器としてニューラルユニグラム⾔語モデルを⽤いる
    • 単語分散表現から単語の確率𝑝(𝑤)を計算
    2022/1/5 博⼠論⽂発表会(平岡達也) 49
    法改正反対
    法/改正/反対
    法/改/正/反対
    法/改/正反対
    正解ラベル: Negative
    0.22
    0.69
    0.91









    Neural
    Unigram LM
    N-best分割
    ×
    𝑝 法/改正/反対
    𝑍
    ×
    𝑝 法/改/正/反対
    𝑍
    ×
    𝑝 法/改/正反対
    𝑍
    Σ loss
    単語分割の確率で損失に重み付け
    * 重みの総和は1
    この損失への誤差逆伝播で
    LMと後段モデルを同時に更新
    →損失が⼩さい単語分割の
    確率が上昇するように更新
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
    勾配が計算できる

    View full-size slide

  50. 単語分割器の学習
    • 単語分割器としてニューラルユニグラム⾔語モデルを⽤いる
    • 単語分散表現から単語の確率𝑝(𝑤)を計算
    2022/1/5 博⼠論⽂発表会(平岡達也) 50
    法改正反対
    法/改正/反対
    法/改/正/反対
    法/改/正反対
    正解ラベル: Negative
    0.22
    0.69
    0.91









    Neural
    Unigram LM
    N-best分割
    ×
    𝑝 法/改正/反対
    𝑍
    ×
    𝑝 法/改/正/反対
    𝑍
    ×
    𝑝 法/改/正反対
    𝑍
    Σ loss
    単語分割の確率で損失に重み付け
    この損失への誤差逆伝播で
    LMと後段モデルを同時に更新
    →損失が⼩さい単語分割の
    確率が上昇するように更新
    後段モデルと損失関数は
    何でも良いので
    タスクやモデルを選ばない
    * 重みの総和は1
    勾配が計算できる
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

    View full-size slide

  51. 後段モデルの学習
    • 最終的なlossから後段モデルを学習するのは困難
    2022/1/5 博⼠論⽂発表会(平岡達也) 51
    法改正反対
    法/改正/反対
    法/改/正/反対
    法/改/正反対
    正解ラベル: Negative
    0.22
    0.69
    0.91




    Neural
    Unigram LM
    N-best分割
    ×
    𝑝 法/改正/反対
    𝑍
    ×
    𝑝 法/改/正/反対
    𝑍
    ×
    𝑝 法/改/正反対
    𝑍
    Σ loss
    単語分割の確率で損失に重み付け
    * 重みの総和は1





    更新には計算グラフを保持したまま
    N個の後段モデルの計算が必要
    →後段モデルが巨⼤な場合は学習不可能
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
    勾配が計算できる

    View full-size slide

  52. 正解ラベル: Negative
    更新には計算グラフを保持したまま
    N個の後段モデルの前向き計算が必要
    →後段モデルが巨⼤な場合は学習不可能
    後段モデルの学習
    • 最終的なlossから後段モデルを学習するのは困難
    • サブワード正則化を⽤いた学習により解決
    2022/1/5 博⼠論⽂発表会(平岡達也) 52
    法改正反対
    法/改正/反対
    法/改/正/反対
    法/改/正反対
    0.22
    0.69
    0.91




    Neural
    Unigram LM
    N-best分割
    ×
    𝑝 法/改正/反対
    𝑍
    ×
    𝑝 法/改/正/反対
    𝑍
    ×
    𝑝 法/改/正反対
    𝑍
    Σ loss
    単語分割の確率で損失に重み付け
    * 重みの総和は1





    ランダムに選択した単語分割による
    lossだけで後段モデルを更新
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
    勾配が計算できる

    View full-size slide

  53. 法改正反対
    法/改正/反対
    法/改/正/反対
    法/改/正反対
    正解ラベル: Negative
    0.22
    0.69
    0.91









    Neural
    Unigram LM
    N-best分割
    ×
    " 法/改正/反対
    #
    ×
    " 法/改/正/反対
    #
    ×
    " 法/改/正反対
    #
    Σ loss
    単語分割の確率で損失に重み付け
    * 重みの総和は1
    勾配が計算できる
    法改正反対
    法/改正/反対
    法/改/正/反対
    法/改/正反対
    正解ラベル: Negative
    Neural
    Unigram LM
    N-best分割
    ×
    " 法/改正/反対
    #
    ×
    " 法/改/正/反対
    #
    ×
    " 法/改/正反対
    #
    Σ
    単語分割の確率で
    ⽂ベクトルに重み付け
    * 重みの総和は1



    $

    $
    !!!
    !!"
    !!#
    !!
    ℒ!




    MLP
    ℒ!
    が⼩さくなる単語分割に⾼
    い確率を与えるように更新
    Approach 1 vs. 2: 構造的比較
    2022/1/5 博⼠論⽂発表会(平岡達也) 53
    Approach 1
    Approach 2
    後段モデル
    ⽂ベクトル(後段モデルの内部)
    →スケーラビリティ👎
    損失値(後段モデルの外部)
    →スケーラビリティ👍
    単語分割確率の重み付けを⾏う箇所
    単語分割確率の重み付けを⾏う箇所
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

    View full-size slide

  54. 法改正反対
    法/改正/反対
    法/改/正/反対
    法/改/正反対
    正解ラベル: Negative
    0.22
    0.69
    0.91









    Neural
    Unigram LM
    N-best分割
    ×
    " 法/改正/反対
    #
    ×
    " 法/改/正/反対
    #
    ×
    " 法/改/正反対
    #
    Σ loss
    単語分割の確率で損失に重み付け
    * 重みの総和は1
    勾配が計算できる
    法改正反対
    法/改正/反対
    法/改/正/反対
    法/改/正反対
    正解ラベル: Negative
    Neural
    Unigram LM
    N-best分割
    ×
    " 法/改正/反対
    #
    ×
    " 法/改/正/反対
    #
    ×
    " 法/改/正反対
    #
    Σ
    単語分割の確率で
    ⽂ベクトルに重み付け
    * 重みの総和は1



    $

    $
    !!!
    !!"
    !!#
    !!
    ℒ!




    MLP
    ℒ!
    が⼩さくなる単語分割に⾼
    い確率を与えるように更新
    Approach 1
    Approach 2
    後段モデル
    Approach 1 vs. 2: 構造的比較
    2022/1/5 博⼠論⽂発表会(平岡達也) 54
    ⽂ベクトル(後段モデルの内部)
    →スケーラビリティ👎
    N-best単語分割
    損失値(後段モデルの外部)
    →スケーラビリティ👍
    サンプリングされた1つの単語分割
    単語分割確率の重み付けを⾏う箇所
    単語分割確率の重み付けを⾏う箇所
    後段モデルの学習に使⽤する⼊⼒
    後段モデルの学習に使⽤する⼊⼒
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

    View full-size slide

  55. 文書分類タスクで性能向上
    • Approach 2は7/10データセットでApproach 1の数値を上回る
    • Approach1, 2の間に統計的有意差はなし
    タスク ⾔語
    単語分割の
    最適化なし
    Approach1 Approach2
    感情分析 中 92.79 92.93 93.06
    ⽇ 86.51 87.39 87.27
    英 77.31 79.04 78.63
    レビューのジャンル予測 中 47.95 48.22 48.41
    ⽇ 47.86 50.21 50.79
    英 71.19 71.88 71.83
    レビューのレート予測 中 49.41 49.63 49.76
    ⽇ 52.30 53.19 53.37
    英 67.53 67.68 67.90
    SNLI 英 76.75 77.04 77.05
    2022/1/5 博⼠論⽂発表会(平岡達也) 55
    Weibo, Twitter
    JD.com, 楽天市場, Amazon
    JD.com, 楽天市場, Amazon
    ⼊⼒が2⽂
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
    F1値(%),5回試⾏の平均,下線: ベースラインと有意差 (McNemar検定p<0.05)

    View full-size slide

  56. 文書分類タスクで性能向上
    • Approach 2は7/10データセットでApproach 1の数値を上回る
    • Approach1, 2の間に統計的有意差はなし
    タスク ⾔語
    単語分割の
    最適化なし
    Approach1 Approach2
    感情分析 中 92.79 92.93 93.06
    ⽇ 86.51 87.39 87.27
    英 77.31 79.04 78.63
    レビューのジャンル予測 中 47.95 48.22 48.41
    ⽇ 47.86 50.21 50.79
    英 71.19 71.88 71.83
    レビューのレート予測 中 49.41 49.63 49.76
    ⽇ 52.30 53.19 53.37
    英 67.53 67.68 67.90
    SNLI 英 76.75 77.04 77.05
    2022/1/5 博⼠論⽂発表会(平岡達也) 56
    Weibo, Twitter
    JD.com, 楽天市場, Amazon
    JD.com, 楽天市場, Amazon
    ⼊⼒が2⽂
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
    F1値(%),5回試⾏の平均,下線: ベースラインと有意差 (McNemar検定p<0.05)

    View full-size slide

  57. 文書分類タスクで性能向上
    • Approach 2は7/10データセットでApproach 1の数値を上回る
    • Approach1, 2の間に統計的有意差はなし
    タスク ⾔語
    単語分割の
    最適化なし
    Approach1 Approach2
    感情分析 中 92.79 92.93 93.06
    ⽇ 86.51 87.39 87.27
    英 77.31 79.04 78.63
    レビューのジャンル予測 中 47.95 48.22 48.41
    ⽇ 47.86 50.21 50.79
    英 71.19 71.88 71.83
    レビューのレート予測 中 49.41 49.63 49.76
    ⽇ 52.30 53.19 53.37
    英 67.53 67.68 67.90
    SNLI 英 76.75 77.04 77.05
    2022/1/5 博⼠論⽂発表会(平岡達也) 57
    Weibo, Twitter
    JD.com, 楽天市場, Amazon
    JD.com, 楽天市場, Amazon
    ⼊⼒が2⽂
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
    F1値(%),5回試⾏の平均,下線: ベースラインと有意差 (McNemar検定p<0.05)

    View full-size slide

  58. 単語分割の更新のみでも性能が向上
    2022/1/5 博⼠論⽂発表会(平岡達也) 58
    • 単語分割以外のパラメータを固定して学習
    →学習できるのは単語分割器(Neural Unigram LM)のみ
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
    法改正反対
    法/改正/反対
    法/改/正/反対
    法/改/正反対
    正解ラベル: Negative
    0.22
    0.69
    0.91




    Neural
    Unigram LM
    N-best分割
    ×
    𝑝 法/改正/反対
    𝑍
    ×
    𝑝 法/改/正/反対
    𝑍
    ×
    𝑝 法/改/正反対
    𝑍
    Σ loss
    単語分割の確率で損失に重み付け
    * 重みの総和は1
    勾配が計算できる





    固定

    View full-size slide

  59. 単語分割の更新のみでも性能が向上
    • Approach1, 2ともに単語分割の更新が性能の向上に寄与
    • ⽇本語感情分析データセットで実験
    2022/1/5 博⼠論⽂発表会(平岡達也) 59
    0
    2
    4
    6
    8
    10
    -25
    -20
    -15
    -10
    -5
    0
    1 2 3 4 5 6 7 8 9 10
    Valid F1% Diff.
    Loss Diff.
    Epoch
    Loss-Diff (OpTok) Loss-Diff (OpTok4AT)
    F1-Diff(OpTok) F1-Diff(OpTok4AT)
    単語分割の更新のみで
    検証データの性能が向上
    単語分割の更新のみで
    学習データの損失が低下
    0 1 2 3 4 5 6 7 8 9
    (Approach1)
    (Approach1)
    (Approach2)
    (Approach2)
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

    View full-size slide

  60. 単語分割の更新のみでも性能が向上
    • Approach1, 2ともに単語分割の更新が性能の向上に寄与
    • ⽇本語感情分析データセットで実験
    2022/1/5 博⼠論⽂発表会(平岡達也) 60
    単語分割の更新のみで
    検証データの性能が向上
    単語分割の更新のみで
    学習データの損失が低下
    更新初期に
    Approach1, 2で
    振る舞いに差
    0 1 2 3 4 5 6 7 8 9
    (Approach1)
    (Approach1)
    (Approach2)
    (Approach2)
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

    View full-size slide

  61. 機械翻訳でも性能向上に寄与
    • 機械翻訳⼿法: Transformer
    ソース側の単語分割の最適化
    ターゲット側の単語分割の最適化
    データセット ⾔語対
    なし あり なし あり
    なし なし あり あり
    IWSLT15 Vi→En 28.78 29.34 29.69 29.44
    En→Vi 31.60 31.41 31.74 31.70
    Zh→En 21.17 21.63 21.65 21.89
    En→Zh 15.25 15.45 15.59 15.31
    WMT14 De→En 31.89 32.19 31.98 31.90
    En→De 27.41 27.62 27.52 27.44
    2022/1/5 博⼠論⽂発表会(平岡達也) 61
    SacreBLEU*値,3回試⾏の平均,下線: ベースラインと有意差** (p<0.05), *Post 2018, **Koehn+ 2004
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

    View full-size slide

  62. 機械翻訳でも性能向上に寄与
    • 機械翻訳⼿法: Transformer
    データセット ⾔語対
    なし あり なし あり
    なし なし あり あり
    IWSLT15 Vi→En 28.78 29.34 29.69 29.44
    En→Vi 31.60 31.41 31.74 31.70
    Zh→En 21.17 21.63 21.65 21.89
    En→Zh 15.25 15.45 15.59 15.31
    WMT14 De→En 31.89 32.19 31.98 31.90
    En→De 27.41 27.62 27.52 27.44
    例:ソース側の単語分割
    のみを提案⼿法で最適化
    2022/1/5 博⼠論⽂発表会(平岡達也) 62
    ソース側の単語分割の最適化
    ターゲット側の単語分割の最適化
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
    SacreBLEU*値,3回試⾏の平均,下線: ベースラインと有意差** (p<0.05), *Post 2018, **Koehn+ 2004

    View full-size slide

  63. 機械翻訳でも性能向上に寄与
    • 機械翻訳⼿法: Transformer
    ※ベースラインを超える数値
    データセット ⾔語対
    なし あり なし あり
    なし なし あり あり
    IWSLT15 Vi→En 28.78 29.34 29.69 29.44
    En→Vi 31.60 31.41 31.74 31.70
    Zh→En 21.17 21.63 21.65 21.89
    En→Zh 15.25 15.45 15.59 15.31
    WMT14 De→En 31.89 32.19 31.98 31.90
    En→De 27.41 27.62 27.52 27.44
    例:ソース側の単語分割
    のみを提案⼿法で最適化
    ベースライン
    2022/1/5 博⼠論⽂発表会(平岡達也) 63
    ソース側の単語分割の最適化
    ターゲット側の単語分割の最適化
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
    SacreBLEU*値,3回試⾏の平均,下線: ベースラインと有意差** (p<0.05), *Post 2018, **Koehn+ 2004

    View full-size slide

  64. ベースライン
    機械翻訳でも性能向上に寄与
    • 機械翻訳⼿法: Transformer
    ※ベースラインを超える数値
    データセット ⾔語対
    なし あり なし あり
    なし なし あり あり
    IWSLT15 Vi→En 28.78 29.34 29.69 29.44
    En→Vi 31.60 31.41 31.74 31.70
    Zh→En 21.17 21.63 21.65 21.89
    En→Zh 15.25 15.45 15.59 15.31
    WMT14 De→En 31.89 32.19 31.98 31.90
    En→De 27.41 27.62 27.52 27.44
    ターゲット側に提案⼿法を
    ⽤いると性能が⾼い傾向がある
    例:ソース側の単語分割
    のみを提案⼿法で最適化
    2022/1/5 博⼠論⽂発表会(平岡達也) 64
    ソース側の単語分割の最適化
    ターゲット側の単語分割の最適化
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
    SacreBLEU*値,3回試⾏の平均,下線: ベースラインと有意差** (p<0.05), *Post 2018, **Koehn+ 2004

    View full-size slide

  65. SacreBLEU*値,3回試⾏の平均,下線: ベースラインと有意差** (p<0.05), *Post 2018, **Koehn+ 2004
    ベースライン
    機械翻訳でも性能向上に寄与
    • 機械翻訳⼿法: Transformer
    ※ベースラインを超える数値
    データセット ⾔語対
    なし あり なし あり
    なし なし あり あり
    IWSLT15 Vi→En 28.78 29.34 29.69 29.44
    En→Vi 31.60 31.41 31.74 31.70
    Zh→En 21.17 21.63 21.65 21.89
    En→Zh 15.25 15.45 15.59 15.31
    WMT14 De→En 31.89 32.19 31.98 31.90
    En→De 27.41 27.62 27.52 27.44
    例:ソース側の単語分割
    のみを提案⼿法で最適化
    ターゲット側に提案⼿法を
    ⽤いると性能が⾼い傾向がある
    両側に提案⼿法を⽤いると
    性能は低め
    →学習が安定しないためか
    2022/1/5 博⼠論⽂発表会(平岡達也) 65
    ソース側の単語分割の最適化
    ターゲット側の単語分割の最適化
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

    View full-size slide

  66. モジュールごとに学習すると性能向上
    • ソース側・ターゲット側の単語分割の同時最適化は難しい?
    • ⽚側ずつ最適化することで性能は向上するか
    • ソース側から順に最適化すると性能が向上
    • ソース側の単語分割は最適化によって⼤きく変わるため,
    先に決定しておくことで性能が安定すると⾒られる
    2022/1/5 博⼠論⽂発表会(平岡達也) 66
    ⾔語対 同時に最適化 Src→Tgt Tgt→Src ランダム
    Vi→En 29.44 30.22 29.47 29.37
    En→Vi 31.70 31.78 31.33 31.70
    Zh→En 21.89 21.99 21.82 21.66
    En→Zh 15.31 15.54 14.88 15.14
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

    View full-size slide

  67. モジュールごとに学習すると性能向上
    • ソース側・ターゲット側の単語分割の同時最適化は難しい?
    • ⽚側ずつ最適化することで性能は向上するか
    • ソース側から順に最適化すると性能が向上
    • ソース側の単語分割は最適化によって⼤きく変わるため,
    先に決定しておくことで性能が安定すると⾒られる
    2022/1/5 博⼠論⽂発表会(平岡達也) 67
    ⾔語対 同時に最適化 Src→Tgt Tgt→Src ランダム
    Vi→En 29.44 30.22 29.47 29.37
    En→Vi 31.70 31.78 31.33 31.70
    Zh→En 21.89 21.99 21.82 21.66
    En→Zh 15.31 15.54 14.88 15.14
    ⼀つ前のスライドの結果
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

    View full-size slide

  68. モジュールごとに学習すると性能向上
    • ソース側・ターゲット側の単語分割の同時最適化は難しい?
    • ⽚側ずつ最適化することで性能は向上するか
    • ソース側から順に最適化すると性能が向上
    • ソース側の単語分割は最適化によって⼤きく変わるため,
    先に決定しておくことで性能が安定すると⾒られる
    2022/1/5 博⼠論⽂発表会(平岡達也) 68
    ⾔語対 同時に最適化 Src→Tgt Tgt→Src ランダム
    Vi→En 29.44 30.22 29.47 29.37
    En→Vi 31.70 31.78 31.33 31.70
    Zh→En 21.89 21.99 21.82 21.66
    En→Zh 15.31 15.54 14.88 15.14
    ⼀つ前のスライドの結果
    前半50epoch: ソース側
    後半50epoch: ターゲット側
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

    View full-size slide

  69. モジュールごとに学習すると性能向上
    • ソース側・ターゲット側の単語分割の同時最適化は難しい?
    • ⽚側ずつ最適化することで性能は向上するか
    • ソース側から順に最適化すると性能が向上
    • ソース側の単語分割は最適化によって⼤きく変わるため,
    先に決定しておくことで性能が安定すると⾒られる
    2022/1/5 博⼠論⽂発表会(平岡達也) 69
    ⾔語対 同時に最適化 Src→Tgt Tgt→Src ランダム
    Vi→En 29.44 30.22 29.47 29.37
    En→Vi 31.70 31.78 31.33 31.70
    Zh→En 21.89 21.99 21.82 21.66
    En→Zh 15.31 15.54 14.88 15.14
    ⼀つ前のスライドの結果
    前半50epoch: ソース側
    後半50epoch: ターゲット側 前半50epoch: ターゲット側
    後半50epoch: ソース側
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

    View full-size slide

  70. モジュールごとに学習すると性能向上
    • ソース側・ターゲット側の単語分割の同時最適化は難しい?
    • ⽚側ずつ最適化することで性能は向上するか
    • ソース側から順に最適化すると性能が向上
    • ソース側の単語分割は最適化によって⼤きく変わるため,
    先に決定しておくことで性能が安定すると⾒られる
    2022/1/5 博⼠論⽂発表会(平岡達也) 70
    ⾔語対 同時に最適化 Src→Tgt Tgt→Src ランダム
    Vi→En 29.44 30.22 29.47 29.37
    En→Vi 31.70 31.78 31.33 31.70
    Zh→En 21.89 21.99 21.82 21.66
    En→Zh 15.31 15.54 14.88 15.14
    ⼀つ前のスライドの結果
    前半50epoch: ソース側
    後半50epoch: ターゲット側 前半50epoch: ターゲット側
    後半50epoch: ソース側
    ミニバッチごとに
    ソース側・ターゲット側を
    ランダムに選択して学習
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

    View full-size slide

  71. 本発表の流れ
    2022/1/5 博⼠論⽂発表会(平岡達也) 71
    導⼊ 背景 Approach 1 Approach 2 分析 ■ □ □ □ まとめ
    ⽬的:後段タスクに応じた単語分割の最適化
    Approach 1:
    ⽂書分類タスクに限定した
    単語分割の最適化⼿法
    Approach 2:
    後段タスクの種類を限定しない
    単語分割の最適化⼿法
    実験:⽂書分類で性能向上
    拡張
    実験:⽂書分類,機械翻訳
    で性能向上
    分析
    • 後処理として単語分割を最適化しても性能向上
    • 最適化対象とは異なるタスクでは⼩さい性能向上
    • タスクに応じて異なる単語分割を獲得
    • マルチタスク学習では各タスクの性質を
    あわせ持った単語分割を獲得

    View full-size slide

  72. 後処理としての単語分割モデルの最適化
    • 学習済みの後段モデルに対して,単語分割モデルだけを最適化
    • 後段モデルが学習済みかつ固定されていても有効であることを確認
    2022/1/5 博⼠論⽂発表会(平岡達也) 72
    法改正反対
    法/改正/反対
    法/改/正/反対
    法/改/正反対
    0.22
    0.69
    0.91




    Neural
    Unigram LM
    N-best分割
    ×
    𝑝 法/改正/反対
    𝑍
    ×
    𝑝 法/改/正/反対
    𝑍
    ×
    𝑝 法/改/正反対
    𝑍
    Σ loss
    * 重みの総和は1
    ⼀般的な⽅法(=単語分割の最適化なし)
    で学習し,パラメータを固定して使⽤





    導⼊ 背景 Approach 1 Approach 2 分析 ■ □ □ □ まとめ

    View full-size slide

  73. 後処理としての単語分割モデルの最適化
    • 学習済みの後段モデルであっても,性能の向上が⾒られる
    • ⼀般的な⽅法で学習したモデルでも,提案⼿法によって単語分割の
    最適化のみで更なる性能向上が得られる可能性を⽰唆
    2022/1/5 博⼠論⽂発表会(平岡達也) 73
    単語分割のみ最適化 (5epoch)
    タスク データセット 最適化なし Approach1 Approach2
    感情分析 Weibo (Zh) 92.69 93.08 92.99
    (F1値) Twitter(Ja) 85.88 86.23 86.28
    Twitter(En) 77.21 77.41 77.77
    機械翻訳 Vi-En 28.82 - 28.91
    (BLEU) En-Vi 30.48 - 30.60
    Zh-En 21.55 - 21.82
    En-Zh 14.57 - 14.83
    学習済みモデルを固定して
    単語分割モデルのみを最適化
    導⼊ 背景 Approach 1 Approach 2 分析 ■ □ □ □ まとめ

    View full-size slide

  74. 本発表の流れ
    2022/1/5 博⼠論⽂発表会(平岡達也) 74
    導⼊ 背景 Approach 1 Approach 2 分析 □ ■ □ □ まとめ
    ⽬的:後段タスクに応じた単語分割の最適化
    Approach 1:
    ⽂書分類タスクに限定した
    単語分割の最適化⼿法
    Approach 2:
    後段タスクの種類を限定しない
    単語分割の最適化⼿法
    実験:⽂書分類で性能向上
    拡張
    実験:⽂書分類,機械翻訳
    で性能向上
    分析
    • 後処理として単語分割を最適化しても性能向上
    • 最適化対象とは異なるタスクでは⼩さい性能向上
    • タスクに応じて異なる単語分割を獲得
    • マルチタスク学習では各タスクの性質を
    あわせ持った単語分割を獲得

    View full-size slide

  75. 最適化対象とは異なるタスクでの評価
    • ジャンル予測・レート予測タスクは同⼀のコーパスから作成
    • 最適化された単語分割がタスクに特化しているかを確認
    2022/1/5 博⼠論⽂発表会(平岡達也) 75
    E-commerce
    コーパス
    (Amazon, 楽天, JD.com)
    ジャンル予測タスク レート予測タスク
    ジャンル予測タスク
    提案⼿法
    単語分割の最適化
    提案⼿法
    単語分割の最適化
    最適化したタスクとは
    異なるタスクに単語分割を利⽤
    →性能が下がるはず
    導⼊ 背景 Approach 1 Approach 2 分析 □ ■ □ □ まとめ

    View full-size slide

  76. 最適化対象とは異なるタスクでの性能
    • 単語分割を最適化することで性能向上
    • 異なるタスクに最適化した単語分割も性能向上に寄与する場合がある
    • 評価タスクと同じタスクに単語分割を最適化すると性能向上
    2022/1/5 博⼠論⽂発表会(平岡達也) 76
    単語分割を最適化したタスク
    ⾔語 評価タスク 最適化なし ジャンル予測 レート予測
    中 ジャンル予測 48.85 49.29 49.14
    レート予測 53.39 53.37 53.66
    ⽇ ジャンル予測 45.48 46.12 45.64
    レート予測 48.94 49.07 49.18
    英 ジャンル予測 71.64 71.78 71.66
    レート予測 67.56 67.56 67.72
    後処理として最適化
    F1値(%),5回試⾏の平均,下線: タスク違いの単語分割最適化設定と有意差(McNemar検定 p<0.05)
    (Approach2)
    導⼊ 背景 Approach 1 Approach 2 分析 □ ■ □ □ まとめ

    View full-size slide

  77. 最適化対象とは異なるタスクでの性能
    • 単語分割を最適化することで性能向上
    • 異なるタスクに最適化した単語分割も性能向上に寄与する場合がある
    • 評価タスクと同じタスクに単語分割を最適化すると性能向上
    2022/1/5 博⼠論⽂発表会(平岡達也) 77
    単語分割を最適化したタスク
    ⾔語 評価タスク 最適化なし ジャンル予測 レート予測
    中 ジャンル予測 48.85 49.29 49.14
    レート予測 53.39 53.37 53.66
    ⽇ ジャンル予測 45.48 46.12 45.64
    レート予測 48.94 49.07 49.18
    英 ジャンル予測 71.64 71.78 71.66
    レート予測 67.56 67.56 67.72
    後処理として最適化
    ジャンル予測タスクで
    学習を⾏った後段モデルの性能
    (Approach2)
    導⼊ 背景 Approach 1 Approach 2 分析 □ ■ □ □ まとめ
    F1値(%),5回試⾏の平均,下線: タスク違いの単語分割最適化設定と有意差(McNemar検定 p<0.05)

    View full-size slide

  78. 最適化対象とは異なるタスクでの性能
    • 単語分割を最適化することで性能向上
    • 異なるタスクに最適化した単語分割も性能向上に寄与する場合がある
    • 評価タスクと同じタスクに単語分割を最適化すると性能向上
    2022/1/5 博⼠論⽂発表会(平岡達也) 78
    単語分割を最適化したタスク
    ⾔語 評価タスク 最適化なし ジャンル予測 レート予測
    中 ジャンル予測 48.85 49.29 49.14
    レート予測 53.39 53.37 53.66
    ⽇ ジャンル予測 45.48 46.12 45.64
    レート予測 48.94 49.07 49.18
    英 ジャンル予測 71.64 71.78 71.66
    レート予測 67.56 67.56 67.72
    後処理として最適化
    ジャンル予測タスクで
    学習を⾏った後段モデルの性能
    ジャンル予測に最適化した
    単語分割をジャンル予測で評価
    (Approach2)
    導⼊ 背景 Approach 1 Approach 2 分析 □ ■ □ □ まとめ
    F1値(%),5回試⾏の平均,下線: タスク違いの単語分割最適化設定と有意差(McNemar検定 p<0.05)

    View full-size slide

  79. F1値(%),5回試⾏の平均,下線: タスク違いの単語分割最適化設定と有意差(McNemar検定 p<0.05)
    最適化対象とは異なるタスクでの性能
    • 単語分割を最適化することで性能向上
    • 異なるタスクに最適化した単語分割も性能向上に寄与する場合がある
    • 評価タスクと同じタスクに単語分割を最適化すると性能向上
    2022/1/5 博⼠論⽂発表会(平岡達也) 79
    単語分割を最適化したタスク
    ⾔語 評価タスク 最適化なし ジャンル予測 レート予測
    中 ジャンル予測 48.85 49.29 49.14
    レート予測 53.39 53.37 53.66
    ⽇ ジャンル予測 45.48 46.12 45.64
    レート予測 48.94 49.07 49.18
    英 ジャンル予測 71.64 71.78 71.66
    レート予測 67.56 67.56 67.72
    後処理として最適化
    ジャンル予測タスクで
    学習を⾏った後段モデルの性能
    ジャンル予測に最適化した
    単語分割をジャンル予測で評価
    レート予測に最適化した
    単語分割をジャンル予測で評価
    (Approach2)
    導⼊ 背景 Approach 1 Approach 2 分析 □ ■ □ □ まとめ

    View full-size slide

  80. 最適化対象とは異なるタスクでの性能
    • 単語分割を最適化することで性能向上
    • 異なるタスクに最適化した単語分割も性能向上に寄与する場合がある
    • 評価タスクと同じタスクに単語分割を最適化すると性能向上
    2022/1/5 博⼠論⽂発表会(平岡達也) 80
    単語分割を最適化したタスク
    ⾔語 評価タスク 最適化なし ジャンル予測 レート予測
    中 ジャンル予測 48.85 49.29 49.14
    レート予測 53.39 53.37 53.66
    ⽇ ジャンル予測 45.48 46.12 45.64
    レート予測 48.94 49.07 49.18
    英 ジャンル予測 71.64 71.78 71.66
    レート予測 67.56 67.56 67.72
    後処理として最適化
    (Approach2)
    導⼊ 背景 Approach 1 Approach 2 分析 □ ■ □ □ まとめ
    F1値(%),5回試⾏の平均,下線: タスク違いの単語分割最適化設定と有意差(McNemar検定 p<0.05)

    View full-size slide

  81. 最適化対象とは異なるタスクでの性能
    • 単語分割を最適化することで性能向上
    • 異なるタスクに最適化した単語分割も性能向上に寄与する場合がある
    • 評価タスクと同じタスクに単語分割を最適化すると性能向上
    2022/1/5 博⼠論⽂発表会(平岡達也) 81
    単語分割を最適化したタスク
    ⾔語 評価タスク 最適化なし ジャンル予測 レート予測
    中 ジャンル予測 48.85 49.29 49.14
    レート予測 53.39 53.37 53.66
    ⽇ ジャンル予測 45.48 46.12 45.64
    レート予測 48.94 49.07 49.18
    英 ジャンル予測 71.64 71.78 71.66
    レート予測 67.56 67.56 67.72
    後処理として最適化
    (Approach2)
    導⼊ 背景 Approach 1 Approach 2 分析 □ ■ □ □ まとめ
    F1値(%),5回試⾏の平均,下線: タスク違いの単語分割最適化設定と有意差(McNemar検定 p<0.05)

    View full-size slide

  82. 最適化対象とは異なるタスクでの性能
    • 単語分割を最適化することで性能向上
    • 異なるタスクに最適化した単語分割も性能向上に寄与する場合がある
    • 評価タスクと同じタスクに単語分割を最適化すると性能向上
    2022/1/5 博⼠論⽂発表会(平岡達也) 82
    単語分割を最適化したタスク
    ⾔語 評価タスク 最適化なし ジャンル予測 レート予測
    中 ジャンル予測 48.85 49.29 49.14
    レート予測 53.39 53.37 53.66
    ⽇ ジャンル予測 45.48 46.12 45.64
    レート予測 48.94 49.07 49.18
    英 ジャンル予測 71.64 71.78 71.66
    レート予測 67.56 67.56 67.72
    後処理として最適化
    (Approach2)
    導⼊ 背景 Approach 1 Approach 2 分析 □ ■ □ □ まとめ
    F1値(%),5回試⾏の平均,下線: タスク違いの単語分割最適化設定と有意差(McNemar検定 p<0.05)

    View full-size slide

  83. 本発表の流れ
    2022/1/5 博⼠論⽂発表会(平岡達也) 83
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ ■ □ まとめ
    ⽬的:後段タスクに応じた単語分割の最適化
    Approach 1:
    ⽂書分類タスクに限定した
    単語分割の最適化⼿法
    Approach 2:
    後段タスクの種類を限定しない
    単語分割の最適化⼿法
    実験:⽂書分類で性能向上
    拡張
    実験:⽂書分類,機械翻訳
    で性能向上
    分析
    • 後処理として単語分割を最適化しても性能向上
    • 最適化対象とは異なるタスクでは⼩さい性能向上
    • タスクに応じて異なる単語分割を獲得
    • マルチタスク学習では各タスクの性質を
    あわせ持った単語分割を獲得

    View full-size slide

  84. タスクごとに単語分割は変わるか?
    • ジャンル予測・レート予測タスクは同⼀のコーパスから作成
    • 同じ⽂の単語分割が,タスクごとに変化しているかを確認
    2022/1/5 博⼠論⽂発表会(平岡達也) 84
    E-commerce
    コーパス
    (Amazon, 楽天, JD.com)
    ジャンル予測タスク レート予測タスク
    提案⼿法 提案⼿法
    単語分割の最適化 単語分割の最適化
    異なる単語分割を
    獲得しているはず
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ ■ □ まとめ

    View full-size slide

  85. タスクに応じた単語分割を獲得(日)
    ⼿法 単語分割
    最適化なし ⾹りは すき だけど 、 痛 んだ 髪に は全然 効果なし 。
    ジャンル予測タスクに最適化(正解:美容・コスメ・⾹⽔)
    Approach 1 ⾹り は すき だけど 、 痛 んだ 髪 に は全然 効果 なし 。
    Approach 2 ⾹り は すき だけど 、 痛 んだ 髪 に は全然 効果 なし 。
    レート予測タスクに最適化(正解:2/5)
    Approach 1 ⾹りは すき だけど 、 痛 んだ 髪に は 全然 効果なし 。
    Approach 2 ⾹りは すき だけど 、 痛 んだ 髪に は 全然 効果なし 。
    2022/1/5 博⼠論⽂発表会(平岡達也) 85
    ジャンル予測:商品のジャンルに関わる単語を切り出す
    レート予測 :品質や印象に関わる単語を切り出す
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ ■ □ まとめ

    View full-size slide

  86. タスクに応じた単語分割を獲得(中)
    ⼿法 単語分割
    最適化なし 东੢ ඇৗෆ޷ ׬શ ෆ๷׈
    ジャンル予測タスクに最適化(正解:家居⽣活)
    Approach 1 东੢ ඇৗෆ޷ ׬શෆ ๷׈
    Approach 2 东੢ ඇৗෆ޷ ׬શෆ ๷׈
    レート予測タスク(正解:1/5)
    Approach 1 东੢ ඇৗ ෆ޷ ׬શ ෆ๷׈
    Approach 2 东੢ ඇৗ ෆ޷ ׬શ ෆ๷׈
    2022/1/5 博⼠論⽂発表会(平岡達也) 86
    ジャンル予測:商品のジャンルに関わる単語を切り出す
    レート予測 :品質や印象に関わる単語を切り出す
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ ■ □ まとめ

    View full-size slide

  87. タスクに応じた単語分割を獲得(英)
    ⼿法 単語分割
    最適化なし I like to listen to CDs when traveling and this is a one of my favorites .
    ジャンル予測タスクに最適化(正解:CDs and Vinyl)
    Approach 1 I like to listen to CD s when travel ing and this is a one of my favorites .
    Approach 2 I like to listen to CD s when traveling and this is a one of my favorites .
    レート予測タスクに最適化(正解:5/5)
    Approach 1 I like to listen to CDs when traveling and this is a one of my favorite s .
    Approach 2 I like to listen to CDs when traveling and this is a one of my favorites .
    2022/1/5 博⼠論⽂発表会(平岡達也) 87
    ジャンル予測:商品のジャンルに関わる単語を切り出す
    レート予測 :品質や印象に関わる単語を切り出す
    • travel/ing
    • 提案⼿法は⽂脈によって単語分割を変えられない
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ ■ □ まとめ

    View full-size slide

  88. タスクごとに単語分割の細かさが異なる
    獲得した単語分割が含む単語数
    初期状態の単語分割が含む単語数
    ⾔語 タスク Approach 1 Approach 2
    中 ジャンル予測 1.5405 1.5137
    レート予測 1.4249 1.3807
    ⽇ ジャンル予測 1.5205 1.5834
    レート予測 1.3224 1.2742
    英 ジャンル予測 1.0620 1.0845
    レート予測 1.0415 1.0305
    2022/1/5 博⼠論⽂発表会(平岡達也) 88
    • 全体的に提案⼿法によって単語分割は細かくなる
    • レート予測よりジャンル予測のほうが単語分割は細かくなる
    • ジャンル数が多く,ラベルに特徴的な単語が多いため
    • 英語の単語分割の細かさは⼤きく変わらない
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ ■ □ まとめ
    値が1.0より⼤きい
    →学習後に単語数が増えている
    →単語分割が細かくなっている

    View full-size slide

  89. タスクごとに単語分割の細かさが異なる
    2022/1/5 博⼠論⽂発表会(平岡達也) 89
    • 全体的に提案⼿法によって単語分割は細かくなる
    • レート予測よりジャンル予測のほうが単語分割は細かくなる
    • ジャンル数が多く,ラベルに特徴的な単語が多いため
    • 英語の単語分割の細かさは⼤きく変わらない
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ ■ □ まとめ
    獲得した単語分割が含む単語数
    初期状態の単語分割が含む単語数
    ⾔語 タスク Approach 1 Approach 2
    中 ジャンル予測 1.5405 1.5137
    レート予測 1.4249 1.3807
    ⽇ ジャンル予測 1.5205 1.5834
    レート予測 1.3224 1.2742
    英 ジャンル予測 1.0620 1.0845
    レート予測 1.0415 1.0305
    値が1.0より⼤きい
    →学習後に単語数が増えている
    →単語分割が細かくなっている

    View full-size slide

  90. タスクごとに単語分割の細かさが異なる
    2022/1/5 博⼠論⽂発表会(平岡達也) 90
    • 全体的に提案⼿法によって単語分割は細かくなる
    • レート予測よりジャンル予測のほうが単語分割は細かくなる
    • ジャンル数が多く,ラベルに特徴的な単語が多いため
    • 英語の単語分割の細かさは⼤きく変わらない
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ ■ □ まとめ
    獲得した単語分割が含む単語数
    初期状態の単語分割が含む単語数
    ⾔語 タスク Approach 1 Approach 2
    中 ジャンル予測 1.5405 1.5137
    レート予測 1.4249 1.3807
    ⽇ ジャンル予測 1.5205 1.5834
    レート予測 1.3224 1.2742
    英 ジャンル予測 1.0620 1.0845
    レート予測 1.0415 1.0305
    値が1.0より⼤きい
    →学習後に単語数が増えている
    →単語分割が細かくなっている

    View full-size slide

  91. 獲得された単語分割の比較(機械翻訳)
    • ソース側の分割
    • 提案⼿法は接尾辞などを細かく分割する傾向
    • ターゲット側の分割
    • 主要な接尾辞(-edなど)の分割を変更する程度
    最適化なし Student s don ' t have long hours of learning .
    最適化あり Student s do n ' t hav e long hour s of learning .
    ターゲット⽂ 学生 在 校 学习 时间 不 长 。
    ソース⽂ 引力 与 其它 力 分 隔 开来
    最適化なし Gra vity separate d away from the other force s .
    最適化あり Gra vity separat ed away from the other force s .
    2022/1/5 博⼠論⽂発表会(平岡達也) 91
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ ■ □ まとめ

    View full-size slide

  92. 獲得された単語分割の比較(機械翻訳)
    • ソース側の分割
    • 提案⼿法は接尾辞などを細かく分割する傾向
    • ターゲット側の分割
    • 主要な接尾辞(-edなど)の分割を変更する程度
    最適化なし Student s don ' t have long hours of learning .
    最適化あり Student s do n ' t hav e long hour s of learning .
    ターゲット⽂ 学生 在 校 学习 时间 不 长 。
    ソース⽂ 引力 与 其它 力 分 隔 开来
    最適化なし Gra vity separate d away from the other force s .
    最適化あり Gra vity separat ed away from the other force s .
    提案⼿法の系列⻑は
    “最適化なし”の1.35倍
    2022/1/5 博⼠論⽂発表会(平岡達也) 92
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ ■ □ まとめ

    View full-size slide

  93. 獲得された単語分割の比較(機械翻訳)
    • ソース側の分割
    • 提案⼿法は接尾辞などを細かく分割する傾向
    • ターゲット側の分割
    • 主要な接尾辞(-edなど)の分割を変更する程度
    最適化なし Student s don ' t have long hours of learning .
    最適化あり Student s do n ' t hav e long hour s of learning .
    ターゲット⽂ 学生 在 校 学习 时间 不 长 。
    ソース⽂ 引力 与 其它 力 分 隔 开来
    最適化なし Gra vity separate d away from the other force s .
    最適化あり Gra vity separat ed away from the other force s .
    提案⼿法の系列⻑は
    “最適化なし”の1.35倍
    提案⼿法の系列⻑は
    “最適化なし”の0.99倍
    2022/1/5 博⼠論⽂発表会(平岡達也) 93
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ ■ □ まとめ

    View full-size slide

  94. 獲得された単語分割の比較(機械翻訳)
    • ソース側の分割
    • 提案⼿法は接尾辞などを細かく分割する傾向
    • ターゲット側の分割
    • 主要な接尾辞(-edなど)の分割を変更する程度
    最適化なし Student s don ' t have long hours of learning .
    最適化あり Student s do n ' t hav e long hour s of learning .
    ターゲット⽂ 学生 在 校 学习 时间 不 长 。
    ソース⽂ 引力 与 其它 力 分 隔 开来
    最適化なし Gra vity separate d away from the other force s .
    最適化あり Gra vity separat ed away from the other force s .
    系列⻑が⻑くなるとデコードで不利になるためか
    提案⼿法の系列⻑は
    “最適化なし”の1.35倍
    提案⼿法の系列⻑は
    “最適化なし”の0.99倍
    2022/1/5 博⼠論⽂発表会(平岡達也) 94
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ ■ □ まとめ

    View full-size slide

  95. 言語・モジュールごとに単語分割の細かさが異なる
    • ソース側は細かく,ターゲット側は粗く学習
    • 細かい系列(多くの短いトークンを含む)を出⼒するのは難しいため
    • 中国語はターゲット側も細かくなっている
    • ソース側と系列の細かさを揃えるためか
    2022/1/5 博⼠論⽂発表会(平岡達也) 95
    (ソース側の⻑さ) (ターゲット側の⻑さ)
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ ■ □ まとめ
    獲得した単語分割が含む単語数
    初期状態の単語分割が含む単語数
    ソース側の最適化 あり なし
    ターゲット側の最適化 なし あり
    ドイツ語 → 英語 2.5353 0.9992
    英語 → ドイツ語 1.3809 0.9996
    ベトナム語 → 英語 1.5320 0.9993
    英語 → ベトナム語 1.4650 0.9999
    中国語 → 英語 1.5175 0.9994
    英語 → 中国語 1.3516 1.4713
    値が1.0より⼤きい
    →学習後に単語数が増えている
    →単語分割が細かくなっている

    View full-size slide

  96. 2022/1/5 博⼠論⽂発表会(平岡達也) 96
    獲得した単語分割が含む単語数
    初期状態の単語分割が含む単語数
    ソース側の最適化 あり なし
    ターゲット側の最適化 なし あり
    ドイツ語 → 英語 2.5353 0.9992
    英語 → ドイツ語 1.3809 0.9996
    ベトナム語 → 英語 1.5320 0.9993
    英語 → ベトナム語 1.4650 0.9999
    中国語 → 英語 1.5175 0.9994
    英語 → 中国語 1.3516 1.4713
    (ソース側の⻑さ) (ターゲット側の⻑さ)
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ ■ □ まとめ
    値が1.0より⼤きい
    →学習後に単語数が増えている
    →単語分割が細かくなっている
    言語・モジュールごとに単語分割の細かさが異なる
    • ソース側は細かく,ターゲット側は粗く学習
    • 細かい系列(多くの短いトークンを含む)を出⼒するのは難しいため
    • 中国語はターゲット側も細かくなっている
    • ソース側と系列の細かさを揃えるためか

    View full-size slide

  97. 2022/1/5 博⼠論⽂発表会(平岡達也) 97
    (ソース側の⻑さ) (ターゲット側の⻑さ)
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ ■ □ まとめ
    獲得した単語分割が含む単語数
    初期状態の単語分割が含む単語数
    ソース側の最適化 あり なし
    ターゲット側の最適化 なし あり
    ドイツ語 → 英語 2.5353 0.9992
    英語 → ドイツ語 1.3809 0.9996
    ベトナム語 → 英語 1.5320 0.9993
    英語 → ベトナム語 1.4650 0.9999
    中国語 → 英語 1.5175 0.9994
    英語 → 中国語 1.3516 1.4713
    値が1.0より⼤きい
    →学習後に単語数が増えている
    →単語分割が細かくなっている
    言語・モジュールごとに単語分割の細かさが異なる
    • ソース側は細かく,ターゲット側は粗く学習
    • 細かい系列(多くの短いトークンを含む)を出⼒するのは難しいため
    • 中国語はターゲット側も細かくなっている
    • ソース側と系列の細かさを揃えるためか

    View full-size slide

  98. 2022/1/5 博⼠論⽂発表会(平岡達也) 98
    (ソース側の⻑さ) (ターゲット側の⻑さ)
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ ■ □ まとめ
    獲得した単語分割が含む単語数
    初期状態の単語分割が含む単語数
    ソース側の最適化 あり なし
    ターゲット側の最適化 なし あり
    ドイツ語 → 英語 2.5353 0.9992
    英語 → ドイツ語 1.3809 0.9996
    ベトナム語 → 英語 1.5320 0.9993
    英語 → ベトナム語 1.4650 0.9999
    中国語 → 英語 1.5175 0.9994
    英語 → 中国語 1.3516 1.4713
    値が1.0より⼤きい
    →学習後に単語数が増えている
    →単語分割が細かくなっている
    言語・モジュールごとに単語分割の細かさが異なる
    • ソース側は細かく,ターゲット側は粗く学習
    • 細かい系列(多くの短いトークンを含む)を出⼒するのは難しいため
    • 中国語はターゲット側も細かくなっている
    • ソース側と系列の細かさを揃えるためか

    View full-size slide

  99. 本発表の流れ
    2022/1/5 博⼠論⽂発表会(平岡達也) 99
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ ■ まとめ
    ⽬的:後段タスクに応じた単語分割の最適化
    Approach 1:
    ⽂書分類タスクに限定した
    単語分割の最適化⼿法
    Approach 2:
    後段タスクの種類を限定しない
    単語分割の最適化⼿法
    実験:⽂書分類で性能向上
    拡張
    実験:⽂書分類,機械翻訳
    で性能向上
    分析
    • 後処理として単語分割を最適化しても性能向上
    • 最適化対象とは異なるタスクでは⼩さい性能向上
    • タスクに応じて異なる単語分割を獲得
    • マルチタスク学習では各タスクの性質を
    あわせ持った単語分割を獲得

    View full-size slide

  100. マルチタスク学習での単語分割最適化
    • ジャンル予測・レート予測タスクは同⼀のコーパスから作成
    • 同じ⽂を⽤いたマルチタスク学習で単語分割を最適化
    2022/1/5 博⼠論⽂発表会(平岡達也) 100
    E-commerce
    コーパス
    (Amazon, 楽天, JD.com)
    ジャンル予測タスク レート予測タスク
    提案⼿法
    単語分割の最適化 単語分割の最適化
    どのような
    単語分割になるか?
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ ■ まとめ

    View full-size slide

  101. マルチタスク学習での単語分割最適化
    • シングルタスク学習と⽐べると性能低下
    • ジャンル・レート予測はあまり関係がないため
    • 提案⼿法はマルチタスク学習でも性能向上に寄与
    2022/1/5 博⼠論⽂発表会(平岡達也) 101
    評価タスク ⾔語
    単語分割の
    最適化なし
    Approach1 Approach2
    レビューのジャンル予測 中 46.32 (47.95) 46.64 (48.22) 47.60 (48.41)
    ⽇ 47.11 (47.86) 48.00 (50.21) 49.87 (50.79)
    英 70.81 (71.19) 70.61 (71.88) 71.46 (71.83)
    レビューのレート予測 中 46.77 (49.41) 47.19 (49.63) 48.15 (49.76)
    ⽇ 51.23 (52.30) 51.08 (53.19) 52.21 (53.37)
    英 65.67 (67.53) 65.79 (67.68) 65.67 (67.90)
    F1値(%),5回試⾏の平均,下線: ベースラインと有意差 (McNemar検定, p<0.05)
    括弧内の数値はシングルタスク設定での性能
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ ■ まとめ

    View full-size slide

  102. マルチタスク学習での単語分割最適化
    • シングルタスク学習と⽐べると性能低下
    • ジャンル・レート予測はあまり関係がないため
    • 提案⼿法はマルチタスク学習でも性能向上に寄与
    2022/1/5 博⼠論⽂発表会(平岡達也) 102
    評価タスク ⾔語
    単語分割の
    最適化なし
    Approach1 Approach2
    レビューのジャンル予測 中 46.32 (47.95) 46.64 (48.22) 47.60 (48.41)
    ⽇ 47.11 (47.86) 48.00 (50.21) 49.87 (50.79)
    英 70.81 (71.19) 70.61 (71.88) 71.46 (71.83)
    レビューのレート予測 中 46.77 (49.41) 47.19 (49.63) 48.15 (49.76)
    ⽇ 51.23 (52.30) 51.08 (53.19) 52.21 (53.37)
    英 65.67 (67.53) 65.79 (67.68) 65.67 (67.90)
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ ■ まとめ
    F1値(%),5回試⾏の平均,下線: ベースラインと有意差 (McNemar検定, p<0.05)
    括弧内の数値はシングルタスク設定での性能
    オレンジ背景は単語分割の最適化なしよりも⾼い数値

    View full-size slide

  103. マルチタスク学習で得られた単語分割
    2022/1/5 博⼠論⽂発表会(平岡達也) 103
    ⼿法 単語分割
    最適化なし ⾹りは すき だけど 、 痛 んだ 髪に は全然 効果なし 。
    ジャンル予測タスクに最適化(正解:美容・コスメ・⾹⽔)
    Approach 1 ⾹り は すき だけど 、 痛 んだ 髪 に は全然 効果 なし 。
    Approach 2 ⾹り は すき だけど 、 痛 んだ 髪 に は全然 効果 なし 。
    レート予測タスクに最適化(正解:2/5)
    Approach 1 ⾹りは すき だけど 、 痛 んだ 髪に は 全然 効果なし 。
    Approach 2 ⾹りは すき だけど 、 痛 んだ 髪に は 全然 効果なし 。
    マルチタスクで最適化
    Approach 1 ⾹り は すき だけど 、 痛 んだ 髪 には 全然 効果 なし 。
    Approach 2 ⾹り は すき だけど 、 痛 んだ 髪 には 全然 効果 なし 。
    ジャンル予測:商品のジャンルに関わる単語を切り出す
    レート予測 :品質や印象に関わる単語を切り出す
    • ジャンル・レート予測双⽅の性質を持つ単語分割を獲得
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ ■ まとめ

    View full-size slide

  104. 本発表の流れ
    2022/1/5 博⼠論⽂発表会(平岡達也) 104
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ
    ⽬的:後段タスクに応じた単語分割の最適化
    Approach 1:
    ⽂書分類タスクに限定した
    単語分割の最適化⼿法
    Approach 2:
    後段タスクの種類を限定しない
    単語分割の最適化⼿法
    実験:⽂書分類で性能向上
    拡張
    実験:⽂書分類,機械翻訳
    で性能向上
    分析
    • 後処理として単語分割を最適化しても性能向上
    • 最適化対象とは異なるタスクでは⼩さい性能向上
    • タスクに応じて異なる単語分割を獲得
    • マルチタスク学習では各タスクの性質を
    あわせ持った単語分割を獲得

    View full-size slide

  105. 本研究の概要
    • ⽬的:
    • 後段タスクに応じて適切な単語分割を探索し,⾃然⾔語処理タスクで
    の性能向上を⽬指す
    • 解決⽅策:
    • 単語分割と後段モデルを同時に最適化することで,
    後段タスクに応じた適切な単語分割を学習
    • 貢献:
    • 後段モデルと単語分割を同時に最適化する初めての試みである
    • タスクやモデルに応じた単語分割を獲得できる⼿法を提案
    • 複数のNLPタスクで性能向上に寄与する
    • NLP以外にも応⽤の余地あり
    • 天候やゲノムなどの(時)系列データ、画像の分割など
    2022/1/5 博⼠論⽂発表会(平岡達也) 105
    導⼊ 背景 Approach 1 Approach 2 分析 □ □ □ □ まとめ

    View full-size slide

  106. 発表文献
    • 申請論⽂
    • Tatsuya Hiraoka, Sho Takase, Kei Uchiumi, Atsushi Keyaki, Naoaki Okazaki. Joint Optimization of Tokenization
    and Downstream Model. Findings of ACL-IJCNLP 2021, pages 244‒255 (double-column), August 2021.
    • 平岡 達也, ⾼瀬 翔, 内海 慶, 欅 惇志, 岡崎 直観. テキストベクトルの重みづけを⽤いたタスクに対する単語分割の最
    適化. ⾃然⾔語処理, Vol. 28, No. 2, pages 479-507 (シングルカラム), 2021年6⽉.
    • その他の主著論⽂
    • 平岡 達也, ⾼瀬 翔, 内海 慶, 欅 惇志, 岡崎 直観. 単語分割と後段モデルの損失値を⽤いた同時最適化. ⾃然⾔語処理,
    29(1):to appear, 33 pages (シングルカラム), 2022年3⽉.
    • Tatsuya Hiraoka, Sho Takase, Kei Uchiumi, Atsushi Keyaki, Naoaki Okazaki. Recurrent Neural Hidden Markov
    Model for High-Order Transition. ACM TALLIP, 21(2): pages 1‒15 (double-column), March 2022.
    • Tatsuya Hiraoka, Sho Takase, Kei Uchiumi, Atsushi Keyaki, Naoaki Okazaki. Optimizing Word Segmentation for
    Downstream Task. Findings of EMNLP, pages 1341‒1351 (double-column), Association for Computational
    Linguistics, November 2020.
    • Tatsuya Hiraoka, Hiroyuki Shindo, Yuji Matsumoto. Stochastic Tokenization with a Language Model for Neural
    Text Classification. ACL, pages 1620‒1629 (double-column), July 2019.
    • 平岡 達也, ⾼瀬 翔, 内海 慶, 欅 惇志, 岡崎 直観. 後段モデルの損失値を⽤いた単語分割のタスクへの最適化. ⾔語処
    理学会第27回年次⼤会 (NLP2021), pages486‒491 (ダブルカラム), 2021年3⽉.(若⼿奨励賞)
    • 平岡 達也, ⾼瀬 翔, 内海 慶, 欅 惇志, 岡崎 直観. RNNにより⾼次の依存を考慮したニューラル隠れマルコフモデル.
    ⾔語処理学会第26回年次⼤会 (NLP2020), pp. A4‒2 (4 pages,ダブルカラム), 茨城⼤学(茨城県), 2020年3⽉.
    • 平岡 達也, ⾼瀬 翔, 内海 慶, 欅 惇志, 岡崎 直観. RNNによる遷移確率計算を⽤いた隠れマルコフモデル. 第242回⾃
    然⾔語処理研究会, 2019-NL-242(2), pp. 1‒6 (ダブルカラム), 奈良先端科学技術⼤学院⼤学(奈良県), 2019年10⽉.
    (若⼿奨励賞)
    2022/1/5 博⼠論⽂発表会(平岡達也) 106

    View full-size slide

  107. 参考文献1
    • Xu, Jia, et al. "Bayesian semi-supervised chinese word segmentation for statistical machine
    translation." Proceedings of the 22nd International Conference on Computational Linguistics
    (Coling 2008). 2008.
    • Chang, Pi-Chuan, Michel Galley, and Christopher D. Manning. "Optimizing Chinese word
    segmentation for machine translation performance." Proceedings of the third workshop on
    statistical machine translation. 2008.
    • Nguyen, ThuyLinh, Stephan Vogel, and Noah A. Smith. "Nonparametric word segmentation for
    machine translation." Proceedings of the 23rd International Conference on Computational
    Linguistics (Coling 2010). 2010.
    • Domingo, Miguel, et al. "How Much Does Tokenization Affect Neural Machine Translation?." arXiv
    preprint arXiv:1812.08621 (2018).
    • Thamme Gowda and Jonathan May. 2020. Finding the optimal vocabulary size for neural machine
    transla- tion. In Findings of the Association for Computational Linguistics: EMNLP 2020, pages
    3955‒3964, Online. Association for Computational Linguistics.
    • Taku Kudo. 2006. Mecab: Yet another part-of-speech and morphological analyzer.
    http://taku910.github.io/mecab/.
    • Morita, Hajime, Daisuke Kawahara, and Sadao Kurohashi. "Morphological analysis for
    unsegmented languages using recurrent neural network language model." Proceedings of the 2015
    Conference on Empirical Methods in Natural Language Processing. 2015.
    • Kazuma Takaoka, Sorami Hisamoto, Noriko Kawa- hara, Miho Sakamoto, Yoshitaka Uchida, and
    Yuji Matsumoto. 2018. Sudachi: a japanese tokenizer for business. In Proceedings of the Eleventh
    International Conference on Language Resources and Eval- uation (LREC 2018), Paris, France.
    European Lan- guage Resources Association (ELRA).
    • Yang, Jie, Yue Zhang, and Fei Dong. "Neural Word Segmentation with Rich Pretraining."
    Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume
    1: Long Papers). 2017.
    2022/1/5 博⼠論⽂発表会(平岡達也) 107

    View full-size slide

  108. 参考文献2
    • Deng Cai, Hai Zhao, Zhisong Zhang, Yuan Xin, Yongjian Wu, and Feiyue Huang. 2017. Fast and
    accurate neural word segmentation for chinese. In Proceedings of the 55th Annual Meeting of the
    Association for Computational Linguistics (Volume 2: Short Papers), volume 2, pages 608‒615.
    • Yang, Jie, Yue Zhang, and Shuailong Liang. "Subword Encoding in Lattice LSTM for Chinese Word
    Segmentation." Proceedings of the 2019 Conference of the North American Chapter of the
    Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and
    Short Papers). 2019.
    • Rico Sennrich, Barry Haddow, and Alexandra Birch. 2016. Neural machine translation of rare words
    with subword units. In Proceedings of the 54th Annual Meeting of the Association for
    Computational Linguistics (Volume 1: Long Papers), volume 1, pages P1715‒1725.
    • Kudo, Taku, and John Richardson. "Sentencepiece: A simple and language independent subword
    tokenizer and detokenizer for neural text processing." arXiv preprint arXiv:1808.06226 (2018).
    • Xinchi Chen, Zhan Shi, Xipeng Qiu, and Xuanjing Huang. 2017. Dag-based long short-term memory
    for neural word segmentation. arXiv preprintarXiv:1707.00248.
    • Yue Zhang and Jie Yang. 2018. Chinese ner using lattice lstm. In Proceedings of the 56th Annual
    Meeting of the Association for Computational Linguistics
    (Volume 1: Long Papers), pages 1554‒1564.
    • Jie Yang, Yue Zhang, and Shuailong Liang. 2018. Subword encoding in lattice lstm for chinese word
    segmentation. arXiv preprint arXiv:1810.12594.
    • Taku Kudo. 2018. Subword regularization: Improving neural network translation models with
    multiple subword candidates. In Proceedings of the 56th Annual
    Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 66‒75.
    • Ivan Provilkov, Dmitrii Emelianenko, and Elena Voita. 2019. Bpe-dropout: Simple and effective
    subword regularization. arXiv preprint arXiv:1910.13267.
    2022/1/5 博⼠論⽂発表会(平岡達也) 108

    View full-size slide

  109. 参考文献3
    • Matt Post. A call for clarity in reporting BLEU scores. In Proceedings of the Third Conference on
    Machine Translation (WMT), pages 186‒191, 2018.
    • Philipp Koehn. Statistical significance tests for machine translation evaluation. In Proceedings of
    the 2004 conference on empirical methods in natural language processing, pages 388‒395, 2004.
    2022/1/5 博⼠論⽂発表会(平岡達也) 109

    View full-size slide

  110. 追加資料:Attention Encoderでの実験
    2022/1/5 博⼠論⽂発表会(平岡達也) 110

    View full-size slide

  111. 追加資料:データサイズ(文書分類)
    2022/1/5 博⼠論⽂発表会(平岡達也) 111

    View full-size slide

  112. 追加資料:データサイズ(機械翻訳)
    2022/1/5 博⼠論⽂発表会(平岡達也) 112

    View full-size slide

  113. 追加資料:Nの影響
    2022/1/5 博⼠論⽂発表会(平岡達也) 113
    機械翻訳 ⽂書分類
    Approach1 Approach2

    View full-size slide

  114. 追加資料:言語モデルの性質の維持
    2022/1/5 博⼠論⽂発表会(平岡達也) 114
    学習データに対する単語分割の尤もらしさ
    (低いほどよい)
    検証データでの性能の差
    (0より⼤きいほどよい)

    View full-size slide

  115. 追加資料:SentencePiece以外の初期化
    2022/1/5 博⼠論⽂発表会(平岡達也) 115
    (後処理としての単語分割の最適化)
    Approach1 Approach2

    View full-size slide

  116. 追加資料:BERTを用いた実験
    2022/1/5 博⼠論⽂発表会(平岡達也) 116
    Approach1 Approach2
    BiLSTMの最⾼性能

    View full-size slide

  117. 追加資料:機械翻訳での全実験
    2022/1/5 博⼠論⽂発表会(平岡達也) 117

    View full-size slide

  118. 追加資料:Approach2の詳細な学習1/2
    2022/1/5 博⼠論⽂発表会(平岡達也) 118

    View full-size slide

  119. 追加資料:Approach2の詳細な学習2/2
    2022/1/5 博⼠論⽂発表会(平岡達也) 119

    View full-size slide

  120. 追加資料:ロジスティック回帰での実験
    2022/1/5 博⼠論⽂発表会(平岡達也) 120

    View full-size slide

  121. 追加資料:ロジスティック回帰の重み
    2022/1/5 博⼠論⽂発表会(平岡達也) 121

    View full-size slide

  122. 追加資料:マルチタスク学習モデル
    2022/1/5 博⼠論⽂発表会(平岡達也) 122

    View full-size slide

  123. 追加資料:確率が大きく向上した単語
    2022/1/5 博⼠論⽂発表会(平岡達也) 123

    View full-size slide