Upgrade to Pro — share decks privately, control downloads, hide ads and more …

okazaki_NAIST-DSC2022.pdf

Naoaki Okazaki
PRO
September 05, 2022

 okazaki_NAIST-DSC2022.pdf

近年,訓練データで系列変換(sequence-to-sequence)モデルを学習するだけでなく,与えられた入力と関連が深い事例を推論時に参照し,ニューラル言語生成モデルの性能を高めようとする研究が注目を浴びている.本講演では,対話システム,機械翻訳,データからのテキスト生成(data-to-text),文法誤り訂正などでの研究を概観し,今後の展望を述べる.

(NAIST DSC NLP Seminar 2022 Summer)

Naoaki Okazaki
PRO

September 05, 2022
Tweet

More Decks by Naoaki Okazaki

Other Decks in Research

Transcript

  1. 近傍の事例を活用した
    ニューラル言語生成
    岡崎 直観
    東京工業大学 情報理工学院
    okazaki at c.titech.ac.jp
    https://www.nlp.c.titech.ac.jp/
    NAIST DSC NLP Seminar 2022 Summer
    「デザイン・レイアウトで伝わる!プレゼン資料」のデザイン・テンプレート(https://ppt.design4u.jp/template/)を使用して作成しています

    View Slide

  2. ニューラル言語生成モデルの発展
    1
    35
    29.3
    33.3
    28.4
    25.16
    24.61
    23
    21.6
    20.7
    0 5 10 15 20 25 30 35 40
    Transformer Big + Back translation (Edunov+ 18)
    Transformer Big (Ott+ 18)
    DeepL (press release, 17)
    Transformer (Vaswani+ 17)
    ConvS2S (Gehring+ 17)
    Google's NMT (Wu+ 16)
    Attention mechanism (Luong+ 15)
    RNNsearch (Jean+ 15)
    Statistical Machine Translation (Durrani+ 14) 20年間の統計的機械翻訳の研究
    WMT 2014 英独翻訳のBLEUスコア
    ニューラル
    機械翻訳の
    精度が飛躍
    的に向上
    言語モデルの性能と計算能力、訓練データ量、パラメータ数の間にべき乗則 (Kaplan+ 2020)
    Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu,
    Dario Amodei. 2020. Scaling Laws for Neural Language Models. arXiv:2001.08361.

    View Slide

  3. 自然言語生成の応用の広がり (1): GPT-3の論文より
    2
    Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, et al. 2020. Language Models are Few-Shot Learners. NeurIPS.
    含意関係認識
    The bet, which won him dinner for four, was regarding the existence and mass of
    the top quark, an elementary particle discovered in 1995. The Top Quark
    is the last of six flavors of quarks predicted by the standard model theory of
    particle physics.
    質問応答(WebQA)
    What school did Burne Hogarth establish?
    常識推論(CoPA)
    右よりも左の文の尤度の方が高い
    School of Visual Arts
    False
    Q: A:
    question:
    True or False? answer:
    because
    My body cast a shadow over the grass
    the grass was cut.
    the sun was rising.
    My body cast a shadow over the grass
    because

    View Slide

  4. 自然言語生成の応用の広がり (2): 解析タスク
    3
    固有表現抽出 (Yan+ 2021)
    Hang Yan, Tao Gui, Junqi Dai, Qipeng Guo, Zheng Zhang, Xipeng Qiu. 2021. A Unified Generative Framework for Various NER
    Subtasks. ACL.
    Wenxuan Zhang, Yang Deng, Xin Li, Yifei Yuan, Lidong Bing, Wai Lam. 2021. Aspect Sentiment Quad Prediction as Paraphrase
    Generation. EMNLP.
    評判分析 (Zhang+ 2021)

    View Slide

  5. 自然言語生成の応用の広がり (3): エンティティリンキング
    4
    Nicola De Cao, Gautier Izacard, Sebastian Riedel, Fabio Petroni. 2021. Autoregressive Entity Retrieval. ICLR.
    ※ https://github.com/facebookresearch/GENRE
    GENRE※ (De Cao+ 2021)

    View Slide

  6. 近傍事例を活用した(retrieval augmented)自然言語生成
    5
    英語の文
    記事
    質問
    利用者の発話
    日本語の文
    見出し
    答え
    自動応答
    入力 出力
    入力と関連の
    あるテキスト
    (外部知識)
    通常の系列変換モデル
    すべての世界知識を
    記憶するのは大変

    View Slide

  7. 概要
    6
    Deng Cai, Yan Wang, Lemao Liu, Shuming Shi. 2022. Recent Advances in Retrieval-Augmented Text Generation. SIGIR-2022 Tutorial.
    Huayang Li, Yixuan Su, Deng Cai, Yan Wang, Lemao Liu. 2022. A Survey on Retrieval-Augmented Text Generation. arXiv:2202.01110.
     機械翻訳を中心に、近傍事例を活用した言語生成手法を概観
     デコーダの各時刻の表現ベクトルをクエリとする手法
     入力文をクエリとする手法
     研究室での事例を紹介
     注目すべき方向性のひとつ
     SIGIR 2022のチュートリアル
     サーベイ論文 (Li+ 2022)
     言語生成モデルを外部知識で拡張し、”how to say”と”what to say”を
    分離し、より便利で賢い生成を実現したい

    View Slide

  8. デコーダの各時刻の表現ベクトルで近傍検索
    7

    View Slide

  9. Continuous Cache (Grave+ 2017)
    8
    問題意識: 言語モデルにおける長距離依存の取り扱い
     ある単語が文書で出現すると、その文書ではその単語が再度出現する確率が高まる
     Wikipedia 全 体 で の ”tiger” の 出 現 確 率 は 0.0037% で あ る が 、 ト ラ に 関 す る
    Wikipedia記事中では“tiger”の出現確率が2.8%に上昇
     長距離依存や記憶を扱うために、言語モデルの構築にLSTMやGRUが活用されていた頃
    提案: キャッシュモデル (Kuhn 1988) をニューラル言語モデルに導入
     学習済みの言語モデルにキャッシュモデルを追加する(追加学習は不要)
     推論時に言語モデルの表現ベクトルと予測された単語を記録しておく(キャッシュ)
     デコーダの表現ベクトルと記録してあった近傍事例ベクトルとの類似度(内積)を計算
    し、その類似度から単語予測分布を計算し、言語モデルの単語予測分布と線形補間する
    結果: 言語モデルのパープレキシティを改善
     Penn Treebank, WikiText2, WikiText103, text8, LAMBADAコーパスで実験
    Edouard Grave, Armand Joulin, Nicolas Usunier. 2017. Improving Neural Language Models with a Continuous Cache. ICLR.
    Roland Kuhn. 1988. Speech Recognition and the Frequency of Recently Used Words: A Modified Markov Model for Natural Language.
    COLING.
    Grave+ (2017)

    View Slide

  10. 自己回帰型言語モデルの学習
    9
    ※ 隠れ状態ベクトルのサイズは1024、ドロップアウトあり(p=0.65)、層数は不明(論文中で言及なし)。
    The tiger ( Panthera tigris )
    埋め込み
    ベクトル
    隠れ状態
    ベクトル
    LSTM言語モデル
    入力単語列𝑦𝑦𝑡𝑡
    𝒚𝒚1
    𝒚𝒚2
    𝒚𝒚3
    𝒚𝒚4
    𝒚𝒚5
    𝒚𝒚6
    𝒛𝒛1
    𝒛𝒛2
    𝒛𝒛3
    𝒛𝒛4
    𝒛𝒛5
    𝒛𝒛6
    tiger ( Panthera tigris ) is
    単語の予測
    𝑃𝑃LM
    𝑦𝑦𝑡𝑡+1
    𝑦𝑦1:𝑡𝑡
    正解の単語𝑦𝑦𝑡𝑡+1
    (one-hot)
    訓練コーパスを用いてLSTM言語モデルを交差エントロピー損失で学習※
    自己回帰型言語モデル: 文脈𝑦𝑦1:𝑡𝑡
    = 𝑦𝑦1
    , 𝑦𝑦2
    , … , 𝑦𝑦𝑡𝑡
    に対して、単語𝑦𝑦𝑡𝑡+1
    の予測確率𝑃𝑃LM
    𝑦𝑦𝑡𝑡+1
    𝑦𝑦1:𝑡𝑡
    を計算
    𝑃𝑃LM
    𝑦𝑦𝑡𝑡+1
    𝑦𝑦1:𝑡𝑡
    = softmax 𝑾𝑾𝑜𝑜
    𝒛𝒛𝑡𝑡 𝑦𝑦𝑡𝑡+1
    𝒛𝒛𝑡𝑡
    = LSTM(𝒚𝒚𝑡𝑡
    , 𝒛𝒛𝑡𝑡−1
    )
    Grave+ (2017)

    View Slide

  11. キャッシュによる言語モデルの補間
    10
    tripling the number of wild Bengal
    埋め込み
    ベクトル
    隠れ状態
    ベクトル
    LSTM言語モデル
    入力単語列𝑦𝑦𝑡𝑡
    𝒚𝒚101
    𝒚𝒚102
    𝒚𝒚103
    𝒚𝒚104
    𝒚𝒚105
    𝒚𝒚106
    𝒛𝒛101
    𝒛𝒛102
    𝒛𝒛103
    𝒛𝒛104
    𝒛𝒛105
    𝒛𝒛106
    言語モデルに基づく
    確率分布 𝑃𝑃LM
    (𝑦𝑦𝑡𝑡+1
    |𝑦𝑦1:𝑡𝑡
    )
    キャッシュに基づく
    確率分布𝑃𝑃CACHE
    (𝑦𝑦𝑡𝑡+1
    |𝑦𝑦1:𝑡𝑡
    )
    補間後の確率分布
    𝑃𝑃(𝑦𝑦𝑡𝑡+1
    |𝑦𝑦1:𝑡𝑡
    )
    𝜆𝜆
    1 − 𝜆𝜆
    𝑃𝑃 𝑦𝑦𝑡𝑡+1
    𝑦𝑦1:𝑡𝑡
    = 𝜆𝜆𝑃𝑃CACHE
    𝑦𝑦𝑡𝑡+1
    𝑦𝑦1:𝑡𝑡
    + (1 − 𝜆𝜆)𝑃𝑃LM
    𝑦𝑦𝑡𝑡+1
    𝑦𝑦1:𝑡𝑡
    𝑃𝑃CACHE
    𝑦𝑦𝑡𝑡+1
    𝑦𝑦1:𝑡𝑡
    ∝ �
    𝑖𝑖=1
    𝑡𝑡−1
    1𝑦𝑦𝑡𝑡+1= �
    𝑦𝑦𝑖𝑖+1
    exp(𝜃𝜃𝒛𝒛𝑡𝑡
    ⊤𝒛𝒛𝑖𝑖
    )
    キャッシュモデル※
    𝒛𝒛75
    𝒛𝒛76
    tiger
    skin
    𝒛𝒛73
    𝒛𝒛74
    number
    of
    0.02
    0.01
    0.60
    0.40
    ⋮ ⋮
    ⋮ ⋮
    内積値
    tiger
    cat
    似ている過去の隠れ状態から
    の予測結果を参考にする
    𝜆𝜆で𝑃𝑃CACHE
    と𝑃𝑃LM
    を配合
    ハイパーパラメータ𝜃𝜃と
    expで確率分布を計算
    Grave+ (2017)
    ※ キャッシュモデルが遡る時刻の数(ハイパーパラメータ)は50から10,000までを試し、開発データにおける性能で決定する。
    tiger

    View Slide

  12. 𝑘𝑘NN-LM (Khandelwal+ 2020)
    11
    仮説: 単語の予測よりも埋め込みの学習の方が簡単なのでは?
     “Dickens is the author of”と”Dickens wrote”に続く単語の分布が同じであることは
    分かりやすいが、後に続く単語を予測するのは難しい
    提案: 𝑘𝑘近傍事例を用いて学習済みの言語モデルを補強する
     学習済みの言語モデルの埋め込み表現を用い、訓練コーパスから𝑘𝑘近傍事例を検索する
     検索された事例との距離に基づき、単語予測分布を計算し、言語モデルの単語予測分布
    と線形補間を行う(言語モデルの追加学習は不要)
     稀な単語の出現を言語モデルのパラメータで記憶せず、近傍事例を記憶として活用する
     Continuous Cacheの記憶範囲を訓練コーパス全体に広げ、Faissで𝑘𝑘近傍検索を効率化
    結果: Wikitext-103におけるパープレキシティで最高性能を達成
     近傍事例の保管内容(データストア)を変更するだけで、言語モデルの追加学習をしな
    くてもコーパスの大規模化やドメイン適応が可能
     近傍事例はファクトなどのロングテールな単語の予測に有用
    Urvashi Khandelwal, Omer Levy, Dan Jurafsky, Luke Zettlemoyer, Mike Lewis. 2020. Generalization through Memorization: Nearest
    Neighbor Language Models. ICLR.
    Khandelwal+ (2020)

    View Slide

  13. 自己回帰型言語モデルの学習
    12
    ※ 実験では16層(𝐿𝐿 = 16)、16個のマルチヘッド注意機構、1024次元ベクトルのモデルをWikitext-103で学習している。
    The Beatles - live in Japan
    入力層の
    単語埋め込み
    出力層の
    単語埋め込み
    Transformerのデコーダ部分(𝐿𝐿層)
    入力 𝑦𝑦𝑡𝑡
    𝒛𝒛1
    0 𝒛𝒛2
    0 𝒛𝒛3
    0 𝒛𝒛4
    0 𝒛𝒛5
    0 𝒛𝒛6
    0
    𝒛𝒛1
    𝐿𝐿 𝒛𝒛2
    𝐿𝐿 𝒛𝒛3
    𝐿𝐿 𝒛𝒛4
    𝐿𝐿 𝒛𝒛5
    𝐿𝐿 𝒛𝒛6
    𝐿𝐿
    Beatles - live in Japan 1966
    単語の予測
    𝑃𝑃LM
    (𝑦𝑦𝑡𝑡+1
    |𝑦𝑦1:𝑡𝑡
    )
    正解の単語
    (one-hot)
    訓練コーパスを用いてTransformerデコーダを通常通り(交差エントロピー損失で)学習※
    自己回帰型言語モデル: 文脈𝑦𝑦1:𝑡𝑡
    = 𝑦𝑦1
    , 𝑦𝑦2
    , … , 𝑦𝑦𝑡𝑡
    に対して、単語𝑦𝑦𝑡𝑡+1
    の予測確率𝑃𝑃LM
    (𝑦𝑦𝑡𝑡+1
    |𝑦𝑦1:𝑡𝑡
    )を計算
    Khandelwal+ (2020)

    View Slide

  14. データストアの構築
    13
    ※ 実験では、層正規化の後、フィードフォワード層に入力する直前のベクトルを用いたとき、性能が最も高かったと報告している。
    The Beatles - live in Japan
    入力層の
    単語埋め込み
    出力層の
    単語埋め込み
    Transformerのデコーダ部分(𝐿𝐿層)
    入力 𝑦𝑦𝑡𝑡
    データストア(Datastore)
    (𝒦𝒦, 𝒱𝒱) = (𝒛𝒛𝑡𝑡
    𝐿𝐿, 𝑦𝑦𝑡𝑡+1
    ) 𝑡𝑡=1
    𝑇𝑇
    𝒛𝒛1
    𝐿𝐿
    𝒛𝒛2
    𝐿𝐿
    𝒛𝒛3
    𝐿𝐿
    𝒛𝒛4
    𝐿𝐿
    𝒛𝒛5
    𝐿𝐿
    𝒛𝒛6
    𝐿𝐿
    Beatles
    -
    live
    in
    Japan
    1966
    (
    (
    (
    (
    (
    (
    )
    )
    )
    )
    )
    )
    ,
    ,
    ,
    ,
    ,
    ,
    学習済みの言語モデルに訓練コーパスを再度入力し、全時刻𝑡𝑡のデコーダの隠れ状態ベクト
    ル𝒛𝒛𝑡𝑡
    𝐿𝐿をキー、時刻𝑡𝑡 + 1の正解単語𝑦𝑦𝑡𝑡+1
    をバリューとしてデータストアに格納※
    順伝播のみを行う(モデルのパラメータは更新しない)
    Khandelwal+ (2020)
    𝒛𝒛1
    0 𝒛𝒛2
    0 𝒛𝒛3
    0 𝒛𝒛4
    0 𝒛𝒛5
    0 𝒛𝒛6
    0
    𝒛𝒛1
    𝐿𝐿 𝒛𝒛2
    𝐿𝐿 𝒛𝒛3
    𝐿𝐿 𝒛𝒛4
    𝐿𝐿 𝒛𝒛5
    𝐿𝐿 𝒛𝒛6
    𝐿𝐿

    View Slide

  15. 𝑘𝑘近傍事例による言語モデルの補間
    14
    The Beatles - live in Japan
    入力層の
    単語埋め込み
    出力層の
    単語埋め込み
    Transformerのデコーダ部分(𝐿𝐿層)
    入力 𝑦𝑦𝑡𝑡
    言語モデルに基づく
    確率分布 𝑃𝑃LM
    𝑦𝑦𝑡𝑡+1
    𝑦𝑦1:𝑡𝑡
    データストア(Datastore)
    (𝒦𝒦, 𝒱𝒱) = (𝒛𝒛𝑡𝑡
    𝐿𝐿, 𝑦𝑦𝑡𝑡+1
    ) 𝑡𝑡=1
    𝑇𝑇
    𝑃𝑃 𝑦𝑦𝑡𝑡+1
    𝑦𝑦1:𝑡𝑡
    = 𝜆𝜆𝑃𝑃kNN
    𝑦𝑦𝑡𝑡+1
    𝑦𝑦1:𝑡𝑡
    + (1 − 𝜆𝜆)𝑃𝑃LM
    𝑦𝑦𝑡𝑡+1
    𝑦𝑦1:𝑡𝑡
    𝑃𝑃kNN
    𝑦𝑦𝑡𝑡+1
    𝑦𝑦1:𝑡𝑡
    ∝ �
    𝒌𝒌𝑖𝑖,𝑣𝑣𝑖𝑖 ∈𝒩𝒩𝑘𝑘(𝒛𝒛𝑡𝑡
    𝐿𝐿)
    1𝑦𝑦𝑡𝑡+1=𝑣𝑣𝑖𝑖
    exp(−𝑑𝑑(𝒌𝒌𝑖𝑖
    , 𝒛𝒛𝑡𝑡
    𝐿𝐿))
    デコーダの文脈の空間
    kNNに基づく確率分布
    𝑃𝑃kNN
    𝑦𝑦𝑡𝑡+1
    𝑦𝑦1:𝑡𝑡
    補間後の確率分布
    𝑃𝑃 𝑦𝑦𝑡𝑡+1
    𝑦𝑦1:𝑡𝑡
    𝒛𝒛𝑡𝑡
    𝐿𝐿
    𝒌𝒌𝑖𝑖
    𝑑𝑑(𝒌𝒌𝑖𝑖
    , 𝒛𝒛𝑡𝑡
    𝐿𝐿)
    𝒩𝒩𝑘𝑘
    (𝒛𝒛𝑡𝑡
    𝐿𝐿): 近傍事例集合
    近傍の𝑘𝑘事例を
    検索※
    𝜆𝜆
    1 − 𝜆𝜆
    ※ データストアから近傍事例を高速に検索するため、Faiss (https://github.com/facebookresearch/faiss) を用いる。
    Khandelwal+ (2020)
    𝒛𝒛1
    0 𝒛𝒛2
    0 𝒛𝒛3
    0 𝒛𝒛4
    0 𝒛𝒛5
    0 𝒛𝒛6
    0
    𝒛𝒛1
    𝐿𝐿 𝒛𝒛2
    𝐿𝐿 𝒛𝒛3
    𝐿𝐿 𝒛𝒛4
    𝐿𝐿 𝒛𝒛5
    𝐿𝐿 𝒛𝒛6
    𝐿𝐿
    𝜆𝜆で𝑃𝑃kNN
    と𝑃𝑃LM
    を配合
    近傍事例と現時刻の二乗
    L2距離𝑑𝑑(⋅,⋅)に基づき単語
    の確率分布を計算

    View Slide

  16. 𝑘𝑘近傍事例による言語モデルの補間
    15
    Urvashi Khandelwal, Omer Levy, Dan Jurafsky, Luke Zettlemoyer, Mike Lewis. 2020. Generalization through Memorization: Nearest
    Neighbor Language Models. ICLR.
    Khandelwal+ (2020)
    現在時刻𝑡𝑡のデコーダの表現に近い文脈事例を検索し、そのバリュー(予測されるべき単
    語)を並べ、距離が近いほど確率が大きくなるように確率分布𝑃𝑃kNN
    𝑥𝑥𝑡𝑡+1
    𝑥𝑥1:𝑡𝑡
    を作成する
    Khandelwal+ (2020)

    View Slide

  17. 実験設定
    16
    データ
     Wikitext-103: 103Mトークン(訓練)、250Kトークン(開発・評価)
     Toronto Book Corpus: 0.7Bトークン(開発と評価のみに用いる)
     Wiki-3B: 2.87Bトークン(開発と評価のみに用いる)
     Wiki-100M: Wiki-3Bからランダムに記事を選び、100Mトークンのサブセットを構築
    ※ Wikitext-103は単語によるトークン化(語彙サイズは250K)、それ以外のコーパスは
    BPEによるトークン化(語彙サイズは29K)
    モデル
     デコーダのみのTransformer(16層、16個のマルチヘッド
    自己注意機構、隠れ状態ベクトルのサイズは1024で、
    247M個のパラメータからなるモデル)
     系列長(文脈トークンの長さ)は3072(Wikitext-103)
    および1024(その他)
     Wiktext-103では適応softmax (Grave+ 2017) を用いる
    Edouard Grave, Armand Joulin, Moustapha Cissé, David Grangier, Hervé Jégou. 2017. Efficient softmax approximation for GPUs.
    ICML.
    Grave+ (2017)
    最も高頻度
    なトークン
    語彙グループ
    𝒱𝒱1
    , 𝒱𝒱2
    , 𝒱𝒱3
    を選択
    𝒱𝒱ℎ
    で対応するグループが
    選択されたときに実行
    Khandelwal+ (2020)

    View Slide

  18. Wikitext-103でのパープレキシティ(𝑘𝑘 = 1024)
    17
    Khandelwal+ (2020)
    Urvashi Khandelwal, Omer Levy, Dan Jurafsky, Luke Zettlemoyer, Mike Lewis. 2020. Generalization through Memorization: Nearest
    Neighbor Language Models. ICLR.
    Khandelwal+ (2020)
     kNN-LMは当時の最高性能を達成した
     Continuous CacheよりもkNNの方が高い効果を示し、両者を組み合わせることも可能

    View Slide

  19. 𝑘𝑘NN-MT (Khandelwal+ 2021)
    18
    Khandelwal+ (2021)
    Urvashi Khandelwal, Angela Fan, Dan Jurafsky, Luke Zettlemoyer, Mike Lewis. 2021. Nearest Neighbor Machine Translation. ICLR.
    Khandelwal+ (2021)
    𝑃𝑃 𝑦𝑦𝑡𝑡+1
    𝑥𝑥, 𝑦𝑦1:𝑡𝑡
    = 𝜆𝜆𝑃𝑃kNN
    𝑦𝑦𝑡𝑡+1
    𝑥𝑥, 𝑦𝑦1:𝑡𝑡
    + (1 − 𝜆𝜆)𝑃𝑃MT
    𝑦𝑦𝑡𝑡+1
    𝑥𝑥, 𝑦𝑦1:𝑡𝑡
    𝑃𝑃kNN
    𝑦𝑦𝑡𝑡+1
    𝑥𝑥, 𝑦𝑦1:𝑡𝑡
    ∝ �
    𝒌𝒌𝑖𝑖,𝑣𝑣𝑖𝑖 ∈𝒩𝒩𝑘𝑘(𝒛𝒛𝑡𝑡
    𝐿𝐿)
    1𝑦𝑦𝑡𝑡+1=𝑣𝑣𝑖𝑖
    exp
    −𝑑𝑑(𝒌𝒌𝑖𝑖
    , 𝒛𝒛𝑡𝑡
    𝐿𝐿)
    𝜏𝜏
     kNN-LMを入力𝑥𝑥に条件付ける(モデルをデコーダからエンコーダ・デコーダに変更)
     ソフトマックスに温度のハイパーパラメータ𝜏𝜏を導入し、近傍事例への過適合を調整す
    る(𝜏𝜏を大きくすると確率分布が平坦になる)

    View Slide

  20. 𝑘𝑘NN-MTによる単一言語対翻訳
    19
    Khandelwal+ (2021)
    実験設定
     WMT 2019 Ge-Enで最高性能を達成したモデル (Ng+ 2019)
     6層のTransformer, 隠れ状態のサイズは1024, アテンションヘッドは8個
     100億トークンの逆翻訳データとWMT 2019のデータでモデルを訓練
     FAIRSEQのモデル※として公開されているものを用いた
     𝑘𝑘NN-MTではWMT 2019の訓練データ(770Mトークン)でデータストアを構築
     WMT 2019のGe-Enの評価データ上でSacreBLEUを測定
    Nathan Ng, Kyra Yee, Alexei Baevski, Myle Ott, Michael Auli, and Sergey Edunov. 2019. Facebook Fair’s WMT19 News Translation
    Task Submission. WMT.
    ※ https://github.com/facebookresearch/fairseq/tree/main/examples/translation
    モデル BLEU
    NMT (Ng+ 2019) 37.59
    𝑘𝑘NN-MT 39.08
    追加学習をせずに、訓練データをデータストアとした𝑘𝑘近傍をデコーダに
    組み込むだけで翻訳性能が1.5 BLEUスコア改善した

    View Slide

  21. 𝑘𝑘NN-MTによる複数言語対翻訳
    20
    Khandelwal+ (2021)
    Urvashi Khandelwal, Angela Fan, Dan Jurafsky, Luke Zettlemoyer, Mike Lewis. 2021. Nearest Neighbor Machine Translation. ICLR.
    ※ CCMMatrixの対訳データ(79言語、1546言語対)を用いて12層のトランスフォーマ(パラメータ数は418M)を学習したもの
    Khandelwal+ (2021)
    ターゲットとしている言語対のデータセットからデータストアを構築し、複数言語対翻訳
    モデル※に𝑘𝑘NN-MTとして組み込むだけで、BLEUスコアの改善が見られた

    View Slide

  22. 𝑘𝑘NN-MTによるドメイン適応※
    21
    Khandelwal+ (2021)
    Urvashi Khandelwal, Angela Fan, Dan Jurafsky, Luke Zettlemoyer, Mike Lewis. 2021. Nearest Neighbor Machine Translation. ICLR.
    ※ 単一言語対翻訳で用いたDe-Enの翻訳モデルを用いた。Aharoni & Goldberg (2020) はドメインを考慮したNMTモデルを訓練する。
    Khandelwal+ (2021)
    追加学習を行わなくとも、対象ドメインでデータストアを構築し、𝑘𝑘NN-MTを行うだけで、
    対象ドメインにおけるBLEUスコアを改善できた

    View Slide

  23. Adaptive 𝑘𝑘NN-MT
    22
    Zheng+ (2021)
    Xin Zheng, Zhirui Zhang, Junliang Guo, Shujian Huang, Boxing Chen, Weihua Luo, Jiajun Chen. 2021. Adaptive Nearest Neighbor
    Machine Translation. ACL.
    Zheng+ (2021)
    問題意識: 近傍に適切な事例が存在しないとき、𝑃𝑃kNN
    の確率分布がノイジーになる
    提案: 𝑘𝑘をデコーダの時刻毎に動的に調整する
    1. いったん𝐾𝐾(近傍事例の最大数)で検索しておく
    2. 近傍事例数𝑘𝑘 = 0, 1, 2, 4, …を候補として、それぞれ𝑃𝑃kNN
    の確率分布を作成しておく
    3. 検索された事例の距離や異なり数を特徴量、採用すべき𝑘𝑘を出力とする分類器(Meta-𝑘𝑘
    Network)を学習し、2で求めた𝑃𝑃kNN
    の確率分布を重みづけする

    View Slide

  24. 𝑘𝑘近傍探索の効率化
    23
    He+ (2021)
    Junxian He, Graham Neubig, Taylor Berg-Kirkpatrick. 2021. Efficient Nearest Neighbor Language Models. EMNLP.
    問題意識: デコーダの時刻毎に近傍事例を保存・検索するので、推論が重い
    He+ (2021)
    適応的な検索
    文脈からを𝜆𝜆を推定するモ
    デルを構築し、𝜆𝜆が小さい
    時刻では近傍検索を省略
    次元圧縮
    主成分分析を行い、デー
    タストアとクエリの次元
    を下げる
    データストアの枝刈り
    データストア中で似てい
    る(≒冗長な)要素をクラ
    スタリングで統合
    全時刻で近傍事例を検索
    する必要があるのか?
    データストアから冗長な
    要素を削除できるか?
    表現ベクトルを次元削減
    しても大丈夫か?

    View Slide

  25. Fast 𝑘𝑘NN-MT(入力を活用して推論時にコンパクトなデータストアを構築)
    24
    Meng+ (2022)
    Yuxian Meng, Xiaoya Li, Xiayu Zheng, Fei Wu, Xiaofei Sun, Tianwei Zhang, Jiwei Li. 2022. Fast Nearest Neighbor Machine Translation.
    Findings of ACL.
    ※ 訓練コーパス(パラレルコーパス)の単語対応(アライメント)はFastAlign (Dyer+ 2013) で自動的に求める
    𝒉𝒉11
    𝒉𝒉12
    𝒉𝒉13 𝒉𝒉14
    𝒛𝒛11
    𝒛𝒛12 𝒛𝒛13
    𝒛𝒛14
    b c d a
    A B C D
    𝒉𝒉21
    𝒉𝒉22
    𝒉𝒉23
    𝒛𝒛21
    𝒛𝒛22 𝒛𝒛23
    𝒛𝒛24
    c d e b
    B C D
    𝒉𝒉31
    𝒉𝒉32
    𝒉𝒉33 𝒉𝒉34
    𝒛𝒛31
    𝒛𝒛32 𝒛𝒛33
    𝒛𝒛34
    a b c d
    A B D E
    𝒛𝒛35
    e
    𝒉𝒉41
    𝒉𝒉42
    𝒉𝒉43
    𝒛𝒛41
    𝒛𝒛42 𝒛𝒛43
    b d e
    B D E
    訓練コーパス※(下側は原言語、上側は対象言語、𝒉𝒉はエンコーダの最終層、𝒛𝒛はデコーダの最終層)
    A: 𝒉𝒉11 𝒛𝒛14 a
    ( ),
    , ( )
    , 𝒉𝒉31 𝒛𝒛31 a
    ( )
    , ( )
    ,
    B: 𝒉𝒉12 𝒛𝒛11 b
    ( ),
    , ( )
    , 𝒉𝒉21 𝒛𝒛23 e
    ( ),
    , ( )
    , 𝒉𝒉32 𝒛𝒛32 b
    ( ),
    , ( )
    , 𝒉𝒉41 𝒛𝒛41 b
    ( )
    , ( )
    ,
    C: 𝒉𝒉1𝟑𝟑 𝒛𝒛1𝟐𝟐 c
    ( ),
    , ( )
    , 𝒉𝒉22 𝒛𝒛21 c
    ( )
    , ( )
    ,
    D: 𝒉𝒉14 𝒛𝒛13 d
    ( ),
    , ( )
    , 𝒉𝒉23 𝒛𝒛22 d
    ( ),
    , ( )
    , 𝒉𝒉33 𝒛𝒛33 c
    ( ),
    , ( )
    , 𝒉𝒉42 𝒛𝒛42 d
    ( )
    , ( )
    ,
    E: 𝒉𝒉34 𝒛𝒛34 d
    ( ),
    , ( ) 𝒉𝒉43 𝒛𝒛43 e
    ( )
    , ( ) 𝒦𝒦, 𝒱𝒱 = {(𝒉𝒉𝑖𝑖
    , (𝒛𝒛𝑗𝑗
    , 𝑦𝑦𝑗𝑗
    )}
    原言語の単語毎にデータストアを構築 (キーは原言語側の表現ベクトル)
    推論時に対象言語のデータストアを構築 (原言語の入力が”B C E”のとき)
    B( )の近傍2件
    𝒛𝒛23 e
    ( )
    ,
    𝒛𝒛11 b
    ( )
    , 𝒛𝒛1𝟐𝟐 c
    ( )
    , 𝒛𝒛21 c
    ( )
    , 𝒛𝒛34 d
    ( ) 𝒛𝒛43 e
    ( )
    C( )の近傍2件 E( )の近傍2件
    𝒉𝒉1
    𝒉𝒉𝟐𝟐
    𝒉𝒉𝟑𝟑

    View Slide

  26. 𝑘𝑘NN-KD(𝑘𝑘NN-MTを用いたMTの知識蒸留)
    25
    Yang+ (2022)
    Zhixian Yang, Renliang Sun, Xiaojun Wan. 2022. Nearest Neighbor Knowledge Distillation for Neural Machine Translation. NAACL.
    Yang+ (2022)
    提案: 訓練データ上で𝑃𝑃kNN
    を求め、MTモデルの追加の学習データのように用いる
     𝑃𝑃kNN
    を教師モデル、𝑃𝑃MT
    を生徒モデルとして知識蒸留を行う
    ℒ = 1 − 𝛼𝛼 ℒMT
    + 𝛼𝛼ℒkNN−KD
    ℒkNN−KD
    = − �
    𝑦𝑦𝑡𝑡+1∈𝑉𝑉
    𝑃𝑃kNN
    𝑦𝑦𝑡𝑡+1
    𝑥𝑥, 𝑦𝑦1:𝑡𝑡
    log 𝑃𝑃LM
    𝑦𝑦𝑡𝑡+1
    𝑥𝑥, 𝑦𝑦1:𝑡𝑡
     推論時の近傍探索が不要になり、通常のNMTモデルとしてデコードできる
     𝑃𝑃kNN
    から追加の「正解」が得られることにより、exposureバイアスを軽減できる
    問題意識: デコーダの時刻毎に近傍事例を保存・検索するので、推論・探索が重い

    View Slide

  27. SPALM
    26
    The Beatles - live in Japan
    局所記憶Transformer 長期記憶(データストア)
    (𝒦𝒦, 𝒱𝒱) = (𝒛𝒛𝑡𝑡
    𝐿𝐿, 𝑦𝑦𝑡𝑡+1
    ) 𝑡𝑡=1
    𝑇𝑇
    デコーダの文脈の空間
    単語の確率分布
    𝑃𝑃 𝑦𝑦𝑡𝑡+1
    𝑦𝑦1:𝑡𝑡
    𝒛𝒛𝑡𝑡
    𝐿𝐿
    𝒌𝒌𝑖𝑖
    𝒩𝒩𝑘𝑘
    (𝒛𝒛𝑡𝑡
    𝐿𝐿): 近傍事例集合
    近傍の𝑘𝑘事例を
    検索※
    Yogatama+ (2021)
    𝒛𝒛t−5
    0 𝒛𝒛t−4
    0 𝒛𝒛t−3
    0 𝒛𝒛t−2
    0 𝒛𝒛𝑡𝑡−1
    0 𝒛𝒛t
    0
    𝒛𝒛t−5
    𝐿𝐿 𝒛𝒛t−4
    𝐿𝐿 𝒛𝒛t−3
    𝐿𝐿 𝒛𝒛t−2
    𝐿𝐿 𝒛𝒛𝑡𝑡−1
    𝐿𝐿 𝒛𝒛t
    𝐿𝐿
    Dani Yogatama, Cyprien de Masson d’Autume, Lingpeng Kong. 2021. Adaptive Semiparametric Language Models. TACL.
    ※ 近傍検索にScaNN (https://github.com/google-research/google-research/tree/master/scann) を用いる。
    短期記憶Transformer-XL
    注意機構
    のみ接続
    (Transformer-XL)
    𝒎𝒎𝑡𝑡
    𝒎𝒎𝑡𝑡
    = ∑𝑘𝑘=1
    𝐾𝐾 exp 𝒚𝒚𝑘𝑘
    ⊤𝒛𝒛t
    𝐿𝐿

    𝑗𝑗=1
    𝐾𝐾 exp 𝒚𝒚𝑗𝑗
    ⊤𝒛𝒛t
    𝐿𝐿
    𝒚𝒚𝑘𝑘
    𝒈𝒈𝑡𝑡
    = 𝜎𝜎 𝑽𝑽𝒛𝒛t
    𝐿𝐿

    𝒛𝒛𝑡𝑡
    = 1 − 𝒈𝒈𝑡𝑡
    ⊙ 𝒎𝒎𝑡𝑡
    + 𝒈𝒈𝑡𝑡
    ⊙ 𝒉𝒉t
    𝐿𝐿
    𝑃𝑃 𝑦𝑦𝑡𝑡+1
    𝑦𝑦1:𝑡𝑡
    = softmax 𝑾𝑾𝑜𝑜

    𝒛𝒛𝑡𝑡 𝑦𝑦𝑡𝑡+1 𝒈𝒈𝑡𝑡

    𝒛𝒛𝑡𝑡
    𝒚𝒚𝑘𝑘
     局所記憶(Transformer)、短期記憶(Transformer-XL)、長期記憶(データスト
    ア)の3つを組み合わせて構築した言語モデル
     ゲート機構で長期記憶ベクトル𝒎𝒎𝑡𝑡
    と局所記憶ベクトル𝒛𝒛t
    𝐿𝐿を配合してから単語を予測
    重み付き和
    ゲート

    View Slide

  28. デコーダの各時刻の表現ベクトルで検索
     似た「状況」で予測されるべき単語を参考に単語予測確率を補間
     訓練データでデコーダを動かし、データストアを構築
     データストアから𝑘𝑘近傍事例を効率よく検索する手法を活用
     状況が似ているほど、その時に生成すべき単語に高い確率を与える
    27
    (主な手法の)利点
     生成の品質が向上する
     理由は解明されていないが、おそら
    くexposureバイアスの解消による
    汎化性能の向上
     モデルを再学習をしなくてもよい
     データストアの変更でドメイン適応可
    (主な手法の)欠点
     デコーディングが重い
     各時刻で近傍検索が要るため
     データストアが膨大になるため

    View Slide

  29. 入力文をクエリとした検索
    28

    View Slide

  30. SEG-NMT: Search Engine Guided Neural Machine Translation
    29
    Jiatao Gu, Yong Wang, Kyunghyun Cho, Victor O.K. Li. 2018. Search Engine Guided Neural Machine Translation. AAAI.
    ※ ゲート𝛼𝛼𝑡𝑡
    の計算方法は論文中では明確にされていないように思われる。
    マル
    Heading
    @キュー に 向かう
    for
    ?
    Shibuya
    Shopping
    at
    109
    the
    Heading
    for
    zoo
    マル @キュー で 買い物
    動物 @園 に 向かう
    𝑃𝑃 𝑦𝑦𝑡𝑡+1
    𝑥𝑥, 𝑦𝑦1:𝑡𝑡
    = softmax 𝑾𝑾𝑜𝑜
    𝒛𝒛𝑡𝑡

    𝑦𝑦𝑡𝑡+1
    (単語の予測)
    𝒛𝒛𝑡𝑡
    ∗ = 𝛼𝛼𝑡𝑡

    𝒛𝒛𝑡𝑡
    + (1 − 𝛼𝛼𝑡𝑡
    )�
    𝒛𝒛𝑡𝑡
    (近傍事例との統合)

    𝒛𝒛𝑡𝑡
    = ∑𝜏𝜏
    𝑞𝑞𝑡𝑡,𝜏𝜏
    𝒛𝒛𝜏𝜏
    ′ (近傍事例の注意による重みづけ)
    𝑞𝑞𝑡𝑡,𝑟𝑟
    = exp 𝒄𝒄𝑡𝑡𝑴𝑴𝒄𝒄𝑟𝑟

    ∑𝜏𝜏 exp 𝒄𝒄𝑡𝑡𝑴𝑴𝒄𝒄𝜏𝜏

    (近傍事例における注意機構)

    𝒛𝒛𝑡𝑡
    = tanh 𝑾𝑾𝑧𝑧
    ([𝒄𝒄𝑡𝑡
    ;𝒛𝒛𝑡𝑡
    ]) (クロスアテンション)
    𝒄𝒄𝑡𝑡
    = ∑𝑖𝑖=1
    𝐼𝐼 𝑎𝑎𝑡𝑡,𝑖𝑖
    𝒉𝒉𝑖𝑖
    (注意による重みづけ)
    𝒛𝒛𝑡𝑡
    = GRU(𝒚𝒚𝑡𝑡
    ,𝒛𝒛𝑡𝑡−1
    ) (デコーダの隠れ状態の合成)
    類似事例検索
    𝒄𝒄𝑡𝑡
    統合と単語予測

    𝒛𝒛𝑡𝑡

    𝒛𝒛𝑡𝑡
    𝑞𝑞𝑡𝑡,𝜏𝜏
    𝒄𝒄𝜏𝜏
    ′ 検索された事例で注意を計算
     対訳コーパスから入力文𝑋𝑋と似ている事例を検索(Apache Luceneと編集距離)
     入力文のデコーダの表現�
    𝒛𝒛𝑡𝑡
    と類似事例のデコーダの表現�
    𝒛𝒛𝑡𝑡
    をゲート𝛼𝛼𝑡𝑡
    で線形結合※
     �
    𝒛𝒛𝑡𝑡
    からの予測単語と類似事例からの予測単語をゲート𝛼𝛼𝑡𝑡
    で組み合わせる変種あり
     類似事例のデコーダの同じ時刻を参照しすぎないように𝑞𝑞𝑡𝑡,𝜏𝜏
    に関するカバレッジを導入
    𝒛𝒛𝜏𝜏

    Gu+ (2018)

    View Slide

  31. 近傍事例の目的言語側の𝑛𝑛-gramの生成確率を増やす
    30
    Jingyi Zhang, Masao Utiyama, Eiichro Sumita, Graham Neubig, Satoshi Nakamura. 2018. Guiding Neural Machine Translation with
    Retrieved Translation Pieces. NAACL.
     対訳コーパスから入力文𝑋𝑋と似ている事例を検索(Apache Luceneと𝑛𝑛-gram類似度)
     近傍事例(𝑋𝑋 𝑘𝑘 , 𝑌𝑌 𝑘𝑘 )の目的言語側𝑌𝑌 𝑘𝑘 の𝑛𝑛-gramのうち、入力文に含まれた単語と対応が
    取れているものを𝐺𝐺
    (𝑋𝑋 𝑘𝑘 ,𝑌𝑌 𝑘𝑘 )
    とし、 𝐺𝐺
    (𝑋𝑋 𝑘𝑘 ,𝑌𝑌 𝑘𝑘 )
    に含まれる𝑛𝑛-gramを生成するとボーナス
    𝐺𝐺
    (𝑋𝑋 𝑘𝑘 ,𝑌𝑌 𝑘𝑘 )
    𝑋𝑋 𝑘𝑘
    𝑋𝑋
    𝑌𝑌 𝑘𝑘
    𝑛𝑛-gram 𝐺𝐺
    (𝑋𝑋 𝑘𝑘 ,𝑌𝑌 𝑘𝑘 )
    Vorschriften für die Eignung Yes
    die Eignung von Yes
    von Um@@ schlags@@ anlagen No
    Um@@ schlags@@ anlagen No
    für Eignung No
    Zhang+ (2018)
    Zhang+ (2018)

    View Slide

  32. Neural Fuzzy Repair
    31
    Bram Bulte, Arda Tezcan. 2019. Neural Fuzzy Repair: Integrating Fuzzy Matches into Neural Machine Translation. ACL.
     対訳コーパスから入力文𝑋𝑋と似ている事例を検索(類似文字列検索)
     近傍事例(𝑋𝑋 𝑘𝑘 , 𝑌𝑌 𝑘𝑘 )の目的言語側𝑌𝑌 𝑘𝑘 を入力文𝑋𝑋に連結し、訓練データを拡張
    したうえでNMTモデルを学習
    𝑋𝑋: マルキューに向かう
    𝑌𝑌: Heading for Shibuya 109
    𝑋𝑋(1): マルキューで買い物
    𝑌𝑌(1): Shopping at Shibuya 109
    𝑋𝑋(2): 動物園に向かう
    𝑌𝑌(2): Heading for the zoo
    𝑋𝑋(3): 109に集合
    𝑌𝑌(3): Meet at Shibuya 109
    マルキューに向かう || Shopping at Shibuya 109
    マルキューに向かう || Shopping at Shibuya 109 ||
    Heading for the zoo
    マルキューに向かう || Shopping at Shibuya 109 ||
    Heading for the zoo || Meet at Shibuya 109
    マルキューに向かう || Shopping at Shibuya 109
    マルキューに向かう || Heading for the zoo
    マルキューに向かう || Meet at Shibuya 109
    𝑘𝑘類似事例の翻訳文毎に原言語側の入力に連結
    𝑘𝑘類似事例の複数の翻訳文を原言語側の入力に連結
    Bulte+ (2019)
    近傍 検索

    View Slide

  33. 事例の類似尺度および統合方法の改良
    32
    Jitao Xu, Josep Crego, Jean Senellart. 2020. Boosting Neural Machine Translation with Similar Translations. ACL.
    2つの文𝑝𝑝, 𝑞𝑞間の類似尺度
     編集距離: FM 𝑝𝑝, 𝑞𝑞 = 1 − ED 𝑝𝑝,𝑞𝑞
    max 𝑝𝑝 , 𝑞𝑞
     𝑛𝑛-gram: NM 𝑝𝑝, 𝑞𝑞 = max{𝐺𝐺(𝑝𝑝) ∩ 𝐺𝐺(𝑞𝑞)}
     密ベクトル: EM 𝑝𝑝, 𝑞𝑞 = 𝒑𝒑⊤𝒒𝒒
    𝒑𝒑 𝒒𝒒
    類似事例の統合方法(原言語側へ連結)
     FM#: How long does a cold last ? || Combien de temps dure le vol ?
     FM*: How long does a cold last ? || Combien de temps dure || ?
     FM+: How long does a cold last ? || Combien de temps dure le vol ?
    S S S S S S S R T T T T R R T
     類似尺度を編集距離(FM)から𝑛𝑛-gram(NM)や密ベクトル(EM)に変更した設定で
    も実験
    FastAlignで
    求める
    最長共通部分列
    (LCS)で求める
    𝑋𝑋 𝑋𝑋′
    𝑌𝑌′
    アライメントが
    取れた箇所だけ
    アライメントを
    別系列で入れる
    Xu+ (2020)

    View Slide

  34. 言語横断検索モデルによる単言語コーパスの活用
    33
    Deng Cai, Yan Wang, Huayang Li, Wai Lam, Lemao Liu. 2021. Neural Machine Translation with Monolingual Translation Memory. ACL.
    近傍事例に基づく既存研究に対する問題意識
     翻訳メモリとして対訳コーパスが必要であり、単言語コーパスを活用できていない
     事例を検索するモデルを含めたend-to-endの学習ができていない
    言語横断検索モデル
    𝑓𝑓 𝑥𝑥, 𝑧𝑧 = norm 𝑾𝑾src
    𝒙𝒙 ⋅ norm 𝑾𝑾tgt
    𝒛𝒛
    ※ 言語間アライメントタスクで事前学習
    𝒙𝒙
    𝒛𝒛
    翻訳モデル
     いわゆるFusion-in-Decoderモデル
     スコア𝑓𝑓 𝑥𝑥, 𝑧𝑧 をデコーダの注意のバイ
    アスとし、検索モデルも同時に学習
    Cai+ (2021)
    Cai+ (2021)

    View Slide

  35. 近傍事例やアライメントなどを埋め込んだ手法
    34
    Qiuxiang He, Guoping Huang, Qu Cui, Li Li, Lemao Liu. 2021. Fast and Accurate Neural Machine Translation with Translation Memory.
    ACL.
    He+ (2021)
    単語埋め込みと位置符号
    TF-Sを類似度で重みづけ
    TF-SSにアライメントで
    マスク
    近傍事例の埋め込み表現
    K V
    Q
    K Q
    V
     近傍事例をTransformerデコーダの追加の入力とする
     類似度が低い近傍事例に対応するため、通常の翻訳モデルと同時学習を行う
    He+ (2021)

    View Slide

  36. オープンドメイン質問応答(DrQA)
    35
    Danqi Chen, Adam Fisch, Jason Weston, Antoine Bordes. 2017. Reading Wikipedia to Answer Open-Domain Questions. ACL.
    Chen+ (2017)
    Chen+ (2017)

    View Slide

  37. 事前学習モデルによる質問応答
    36
    Alec Radford, Jeff Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever. 2019. Language Models are Few-Shot Learners.
    Technical report.
    GPT-2 (Radford+, 2019) によるNatural Questionsへの解答
    大規模言語モデルのパラメータの中に世界知識が暗黙的に埋め込まれている
    Radford+ (2019)

    View Slide

  38. Retrieval-Augmented Language Model (REALM)
    37
    Guu+ (2020)
    Kelvin Guu, Kenton Lee, Zora Tung, Panupong Pasupat, Ming-Wei Chang. 2020. REALM: Retrieval-Augmented Language Model Pre-
    Training. ICML.
    背景: BERTやT5などの事前学習済みモデルは世界知識をテキストから獲得している
    “The is the currency of the United Kingdom” → 答え: “pound”
    問題点
     世界知識がモデルのパラメータとして
    暗黙的に格納される(何処でどのよう
    に格納されているのか分からない)
     世界知識の格納容量はモデルのサイズ
    によって決まってしまうが、より大規
    模なモデルを学習するのは大変
    提案: 世界知識を検索しながらテキスト
    を予測する言語モデルの事前学習
    𝑃𝑃 𝑦𝑦 𝑥𝑥 = �
    𝑧𝑧∈𝒵𝒵
    𝑃𝑃𝜙𝜙
    𝑦𝑦 𝑧𝑧, 𝑥𝑥 𝑃𝑃𝜃𝜃
    (𝑧𝑧|𝑥𝑥)
    Guu+ (2020)

    View Slide

  39. REALMの事前学習とファインチューニング
    38
    Guu+ (2020)
    Kelvin Guu, Kenton Lee, Zora Tung, Panupong Pasupat, Ming-Wei Chang. 2020. REALM: Retrieval-Augmented Language Model Pre-
    Training. ICML.
    Guu+ (2020)
    事前学習とファインチューニング
     事前学習: コーパス𝒳𝒳中のある文の一部の単語をマスクして入力𝑥𝑥を構成し、そのマス
    クされた単語𝑦𝑦を予測する(マスク付き言語モデル)
     ファインチューニング: 質問𝑥𝑥の答え𝑦𝑦を予測する(オープンドメイン質問応答)
    2段階構成
    1. 検索𝑃𝑃𝜃𝜃
    (𝑧𝑧|𝑥𝑥): 入力𝑥𝑥に対して有用と思われる文書𝑧𝑧をコーパス𝒵𝒵から検索する
    2. 予測𝑃𝑃𝜙𝜙
    𝑦𝑦 𝑧𝑧, 𝑥𝑥 :入力𝑥𝑥と検索された文書𝑧𝑧から出力𝑦𝑦を予測する

    View Slide

  40. REALMの定式化
    39
    Guu+ (2020)
    定式化: 入力𝑥𝑥に対して関連文書𝑧𝑧 ∈ 𝒵𝒵を検索し、出力𝑦𝑦を予測する
    𝑃𝑃 𝑦𝑦 𝑥𝑥 = �
    𝑧𝑧∈𝒵𝒵
    𝑃𝑃𝜙𝜙
    𝑦𝑦 𝑧𝑧, 𝑥𝑥 𝑃𝑃𝜃𝜃
    (𝑧𝑧|𝑥𝑥)
    BERT
    CLS 𝑥𝑥 [SEP]
    CLS 𝑧𝑧title
    SEP 𝑧𝑧body
    [SEP]
    BERT
    𝑾𝑾doc
    𝑾𝑾in
    CLS CLS
    𝒙𝒙
    𝒛𝒛
    BERT
    CLS … … MASK … … SEP 𝑧𝑧body
    [SEP]
    MASK
    検索モデル
    𝑃𝑃𝜃𝜃
    𝑧𝑧 𝑥𝑥 =
    exp 𝒙𝒙⊤𝒛𝒛

    𝑧𝑧′∈𝒵𝒵
    exp 𝒙𝒙⊤𝒛𝒛′

    言語モデル
    𝑃𝑃𝜙𝜙
    𝑦𝑦 𝑧𝑧, 𝑥𝑥 ∝ exp 𝑤𝑤𝒚𝒚
    ⊤𝒉𝒉 MASK
    𝑃𝑃𝜙𝜙
    𝑦𝑦 𝑧𝑧, 𝑥𝑥 ∝ �
    𝑠𝑠∈𝑀𝑀(𝑧𝑧,𝑦𝑦)
    exp FFN( 𝒉𝒉𝑆𝑆(𝑠𝑠)
    ; 𝒉𝒉𝐸𝐸(𝑒𝑒)
    )
    START END
    𝒉𝒉𝑆𝑆(𝑠𝑠)
    ; 𝒉𝒉𝐸𝐸(𝑒𝑒)
    𝒉𝒉[MASK]
    事前学習時
    ファイン
    チューニング時
    𝑧𝑧の中で𝑦𝑦にマッチするスパン
    内積による関連性スコア

    View Slide

  41. REALMの学習
    40
    Guu+ (2020)
    Kelvin Guu, Kenton Lee, Zora Tung, Panupong Pasupat, Ming-Wei Chang. 2020. REALM: Retrieval-Augmented Language Model Pre-
    Training. ICML.
    問題点: ∀𝑧𝑧 ∈ 𝒵𝒵に関する和が重たい(𝒵𝒵は検索対象の全文書の集合)
    𝑃𝑃 𝑦𝑦 𝑥𝑥 = �
    𝑧𝑧∈𝒵𝒵
    𝑃𝑃𝜙𝜙
    𝑦𝑦 𝑧𝑧, 𝑥𝑥 𝑃𝑃𝜃𝜃
    (𝑧𝑧|𝑥𝑥)
    解決法: 𝒵𝒵の代わりに、入力𝑥𝑥に関する𝑘𝑘近傍文書集合を用いる
    𝑃𝑃 𝑦𝑦 𝑥𝑥 = �
    𝑧𝑧∈𝒩𝒩𝑘𝑘(𝑥𝑥)
    𝑃𝑃𝜙𝜙
    𝑦𝑦 𝑧𝑧, 𝑥𝑥 𝑃𝑃𝜃𝜃
    (𝑧𝑧|𝑥𝑥)
    ※ 𝑘𝑘近傍文書𝒩𝒩𝑘𝑘
    (𝑥𝑥)は最大内積探索(MIPS)で効率よく求める
    さらなる問題点
    検索モデルのパラメータ𝜃𝜃が学習時に変化
    するため、学習しながらMIPSのインデッ
    クスを再構築する必要がある
    解決法
    検索モデルのパラメータ𝜃𝜃とMIPSのイン
    デックスを非同期で更新する Guu+ (2020)

    View Slide

  42. REALMの学習の工夫
    41
    Guu+ (2020)
    ※ 文書𝑧𝑧から文𝑥𝑥を取り出した時、元の文書𝑧𝑧が𝑥𝑥から検索されるように学習するタスク
     固有表現のマスキング
     マスク付き言語モデルの学習時に固有表現の一部をマスクし、言語モデ
    ルだけで解けてしまう状況を減らす
     空の検索文書
     検索をしなくても答えられるような質問にも対応するため、検索結果の
    中に空の文書を入れておく
     簡単すぎる関連文書の除去
     検索モデルと言語モデルの学習に用いるコーパスが同じとき、𝑥𝑥のマスク
    前の文書が検索されてしまうと、単語予測が簡単すぎるため
     エンコーダの初期化
     Inverse Cloze Task (ICT) ※を用いて𝑾𝑾doc
    と𝑾𝑾in
    を事前に学習しておく

    View Slide

  43. オープンドメイン質問応答での評価(近傍事例数𝑘𝑘 = 5)
    42
    Guu+ (2020)
    Kenton Lee, Ming-Wei Chang, Kristina Toutanova. 2019. Latent Retrieval for Weakly Supervised Open Domain Question Answering.
    ACL.
    Kelvin Guu, Kenton Lee, Zora Tung, Panupong Pasupat, Ming-Wei Chang. 2020. REALM: Retrieval-Augmented Language Model Pre-
    Training. ICML.
     NaturalQuestion (NQ), WebQuestions (WQ), CuratedTree (CT) で最高性能
     T5はパラメータ数が多いと性能が高くなるが、REALM(Ours)の方が少ないパラメー
    タでより高い正解率を達成した
     先行研究であるORQA (Lee+ 2019) よりもREALMの方が高い正解率を示した
     ORQAとの差は言語モデルの事前学習方法と検索モデルのパラメータ更新の有無
    Guu+ (2020)

    View Slide

  44. Fusion-in-Decoder (FiD)
    43
    Gautier Izacard, Edouard Grave. 2021. Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering.
    EACL.
    Izacard+ (2021)
    Izacard+ (2021)
    検索された文書ごとに自己注意を計算
    全体でマスク付き自己注意を計算
    背景: 生成型の言語モデルによるオープンドメイン質問応答の成功
     T5などの事前学習済み言語モデルが世界知識を蓄えていることが示唆されている
     ただし、モデルのパラメータが膨大になり、学習や推論にかかるコストが高い
    提案: 検索された文書を生成型のシンプルな言語モデルに統合
     検索は疎ベクトル(BM25)か密ベクトル(BERT)で行う(検索モデルは固定する)
     質問と検索された文書を連結し、それぞれT5のエンコーダでベクトル系列に変換・連
    結し、最後にT5のデコーダで答えを生成するように学習
     各入力は”Question: … Title: … Context: …”の形式とする
     全体を一つの単語列としてエンコードする場合と比較して、計算量を抑えられる

    View Slide

  45. オープンドメイン質問応答での正解率※
    44
    Izacard+ (2021)
    Izacard+ (2021)
    Gautier Izacard, Edouard Grave. 2021. Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering.
    EACL.
    ※ 提案手法(Fusion-in-Decoder)のベースモデルはT5。検索文書数は100。NQとTriviaQAは密ベクトルによる検索、SQuADは疎ベクトル
    (BM25)による検索。

    View Slide

  46. Retrieval Transformer (RETRO)
    45
    Sebastian Borgeaud, Arthur Mensch, Jordan Hoffmann, et al. 2022. Improving Language Models by Retrieving from Trillions of
    Tokens. ICML.
    https://www.deepmind.com/publications/improving-language-models-by-retrieving-from-trillions-of-tokens
    Borgeaud+ (2022)
    提案: 数兆のエントリが収録された検索データベースを使って言語モデルを向上させる
     入力を短いチャンクに区切って検索し、検索されたテキストとクロス注意を計算
     検索時の密ベクトルを計算するBERTのパラメータの更新は行わない
     言語モデルの推論時に検索されるテキストの数を増やし、性能向上を実現できる
     Wikitext103やPileなどのデータセットで最高性能を達成

    View Slide

  47. RETROのアーキテクチャ
    46
    Borgeaud+ (2022)
    RETROの構成(𝑟𝑟 = 5, 𝑚𝑚 = 4, 𝑘𝑘 = 2)(Borgeaud+ 2022)
     検索対象のコーパスは長さ𝑟𝑟のチャンクに区切り、BERTでエンコードした平均ベクトル
    をキー、チャンクの単語列をキーとしてMIPS(SCaNN)のデータベースを構築
     入力テキストを長さ𝑚𝑚のチャンクに区切り、チャンクごとに𝑘𝑘個の近傍事例を検索
     検索された近傍事例をTransformerのエンコーダでベクトル化し、入力テキストのチャ
    ンクをクエリ、検索された近傍事例をキーとバリューとするクロス注意を計算する
    Sebastian Borgeaud, Arthur Mensch, Jordan Hoffmann, et al. 2022. Improving Language Models by Retrieving from Trillions of
    Tokens. ICML.

    View Slide

  48. RETROの評価実験
    47
    Wikitext103でのパープレキシティ (Borgeaud+ 2022)
    NaturalQuestionsの正解率
    (Borgeaud+ 2022)
     再実装した𝑘𝑘NN-LMよりもRETROの方が
    高い性能を示した
     DBを大きくすると性能が向上するが、評
    価データのリークが起こっている可能性
     質問応答ではFusion-in-Decoderを上回
    ることはできなかった
     𝑘𝑘を増やしても性能が上がらないので、検
    索事例をうまく使えていない可能性あり
    Sebastian Borgeaud, Arthur Mensch, Jordan Hoffmann, et al. 2022. Improving Language Models by Retrieving from Trillions of
    Tokens. ICML.

    View Slide

  49. 入力文をクエリとする手法のまとめ
     入力文(質問)と関連するテキストを検索し、入力と関連文書の両方
    を参照しながら出力を生成する手法を紹介した
     密ベクトル検索と言語処理タスクの距離が縮まった
     関連文書の数を増やすことにより、性能の向上が期待できる
     生成型のアプローチの発展により、言語モデリング、機械翻訳、質問
    応答などのタスクで共通のアーキテクチャが用いられるようになった
     Fusion-in-Decoderあたりがベースライン手法になる?
     紹介できなかったその他の手法
     FiD-KD (Izacard+ 2021), EMDR2 (Sachan+ 2021), Atlas
    (Izacard+ 2022) など
    48

    View Slide

  50. 研究室での取り組み
    49

    View Slide

  51. 近傍事例を用いた非自己回帰生成
    50
    Ayana Niwa, Sho Takase, Naoaki Okazaki. 2022. Nearest Neighbor Non-autoregressive Text Generation. arXiv:2208.12496.
    Niwa+ (2022)
    アイデア: より正解に近い系列から非自己回帰のデコーディングを始める
    高品質な
    生成文
    高速なデコー
    ディング
    高品質な
    生成文
    高速なデコー
    ディング
    初期系列の品質を上げることで…
    &
    近傍事例
    問題意識
    1. 自己回帰的な単語予測は生成文の品質が高く、主流ではあるが速さが損なわれる
    2. 非自己回帰生成は全トークンを一度に無から予測するので生成文の品質が劣る
    背景: 自然言語生成の速度向上に非自己回帰 (NAR) モデルが有望

    View Slide

  52. 近傍事例×非自己回帰デコーディング
    51
    提案: 近傍事例をデコーダの初期値とし、その中の単語を編集(削除・
    挿入)することで文を生成する非自己回帰生成モデル
    NARモデルによる生成文の品質をより少ないデコーディング回数で向上させる
    Niwa+ (2022)

    View Slide

  53. 非自己回帰生成における近傍事例の有用性
    52
     提案手法は既存のIterative(反復デコーディングありの)NARモデルよりも少ないデ
    コーディング回数で高い性能を達成
     JRC-AcquisやWikiBioのように、ソース文と近傍事例との距離が近い事例が多い場合に
    提案手法がより有効であることを確認
     特にJRC-Acquisデータセットでは自己回帰モデル以上の性能を少ないデコーディ
    ング回数で達成
    翻訳データセット JRC-Acquis 英独 での結果
    Niwa+ (2022)
    提案手法

    View Slide

  54. 文法誤り訂正における説明可能性
    53
    言語学習者 GECの出力
    入力: They have
    tremendous problem.
    出力: They have a
    tremendous problem.
    理由:
    修正前: This has tremendous problem.
    修正後: This has a tremendous problem.
    文法誤り訂正を教育へ応用する際に、訂正に関する説明は重要
     言語学習者にとって説明が有用であるという報告がある (Arai+ 2019)
    Mio Arai, Masahiro Kaneko, Mamoru Komachi. 2019. Grammatical-error-aware incorrect example retrieval system for learners of
    Japanese as a second language. BEA.
    Masahiro Kaneko, Sho Takase, Ayana Niwa, and Naoaki Okazaki. 2022. Interpretability for Language Learners Using Example-Based
    Grammatical Error Correction. ACL.
    通常、文法誤り訂正は系列変換モデルによるブラックボックス
    Kaneko+ (2022)

    View Slide

  55. 系列変換における近傍事例は説明になるか?
    54
    They have tremendous
    They have
    problem . BOS They have
    a
    kNNによる
    分布
    変換モデル
    による分布
    予測単語の
    確率分布
    デコーダの表現空間
    訂正前: This has tremendous problem.
    訂正後: This has a tremendous problem.
    近傍事例:
    出力: a
    Transformer (big)
    Kaneko+ (2022)

    View Slide

  56. 近傍事例による「説明」の有用性
    55
    提案手法は英語学習者にとって有用な事例を提示した
     W&I-test, CoNLL2014, FCE-test, JFLEG-testデータセットにおいて各手法
    が選択した990件の事例を評価対象とした
     評価者が「有用」と判定した説明の割合で評価した
     提案手法は他のベースラインよりも有意に優れた事例を提示 (McNemar検定、
    p < 0.05)
    提案手法により訂正の正解率も向上した
    Kaneko+ (2022)

    View Slide

  57. 謝辞
     本発表にあたり、丹羽彩奈さん(@ayaniwa1213)からスライドの
    提供およびコメントを頂きました
    56

    View Slide