okazaki_NAIST-DSC2022.pdf

近傍の事例を活用したニューラル言語生成岡崎直観東京工業大学情報理工学院 okazaki at c.titech.ac.jp https://www.nlp.c.titech.ac.jp/
NAIST DSC NLP Seminar 2022 Summer 「デザイン・レイアウトで伝わる！プレゼン資料」のデザイン・テンプレート（https://ppt.design4u.jp/template/）を使用して作成しています

ニューラル言語生成モデルの発展 1 35 29.3 33.3 28.4 25.16 24.61 23 21.6
20.7 0 5 10 15 20 25 30 35 40 Transformer Big + Back translation (Edunov+ 18) Transformer Big (Ott+ 18) DeepL (press release, 17) Transformer (Vaswani+ 17) ConvS2S (Gehring+ 17) Google's NMT (Wu+ 16) Attention mechanism (Luong+ 15) RNNsearch (Jean+ 15) Statistical Machine Translation (Durrani+ 14) 20年間の統計的機械翻訳の研究 WMT 2014 英独翻訳のBLEUスコアニューラル機械翻訳の精度が飛躍的に向上言語モデルの性能と計算能力、訓練データ量、パラメータ数の間にべき乗則 (Kaplan+ 2020) Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, Dario Amodei. 2020. Scaling Laws for Neural Language Models. arXiv:2001.08361.

自然言語生成の応用の広がり (1): GPT-3の論文より 2 Tom B. Brown, Benjamin Mann, Nick
Ryder, Melanie Subbiah, et al. 2020. Language Models are Few-Shot Learners. NeurIPS. 含意関係認識 The bet, which won him dinner for four, was regarding the existence and mass of the top quark, an elementary particle discovered in 1995. The Top Quark is the last of six flavors of quarks predicted by the standard model theory of particle physics. 質問応答（WebQA） What school did Burne Hogarth establish? 常識推論（CoPA）右よりも左の文の尤度の方が高い School of Visual Arts False Q: A: question: True or False? answer: because My body cast a shadow over the grass the grass was cut. the sun was rising. My body cast a shadow over the grass because

自然言語生成の応用の広がり (2): 解析タスク 3 固有表現抽出 (Yan+ 2021) Hang Yan, Tao
Gui, Junqi Dai, Qipeng Guo, Zheng Zhang, Xipeng Qiu. 2021. A Unified Generative Framework for Various NER Subtasks. ACL. Wenxuan Zhang, Yang Deng, Xin Li, Yifei Yuan, Lidong Bing, Wai Lam. 2021. Aspect Sentiment Quad Prediction as Paraphrase Generation. EMNLP. 評判分析 (Zhang+ 2021)

自然言語生成の応用の広がり (3): エンティティリンキング 4 Nicola De Cao, Gautier Izacard, Sebastian
Riedel, Fabio Petroni. 2021. Autoregressive Entity Retrieval. ICLR. ※ https://github.com/facebookresearch/GENRE GENRE※ (De Cao+ 2021)

近傍事例を活用した（retrieval augmented）自然言語生成 5 英語の文記事質問利用者の発話日本語の文見出し答え
自動応答入力出力入力と関連のあるテキスト（外部知識）通常の系列変換モデルすべての世界知識を記憶するのは大変

概要 6 Deng Cai, Yan Wang, Lemao Liu, Shuming Shi.
2022. Recent Advances in Retrieval-Augmented Text Generation. SIGIR-2022 Tutorial. Huayang Li, Yixuan Su, Deng Cai, Yan Wang, Lemao Liu. 2022. A Survey on Retrieval-Augmented Text Generation. arXiv:2202.01110.  機械翻訳を中心に、近傍事例を活用した言語生成手法を概観  デコーダの各時刻の表現ベクトルをクエリとする手法  入力文をクエリとする手法  研究室での事例を紹介  注目すべき方向性のひとつ  SIGIR 2022のチュートリアル  サーベイ論文 (Li+ 2022)  言語生成モデルを外部知識で拡張し、”how to say”と”what to say”を分離し、より便利で賢い生成を実現したい

デコーダの各時刻の表現ベクトルで近傍検索 7

Continuous Cache (Grave+ 2017) 8 問題意識: 言語モデルにおける長距離依存の取り扱い  ある単語が文書で出現すると、その文書ではその単語が再度出現する確率が高まる 
Wikipedia 全体での ”tiger” の出現確率は 0.0037% であるが、トラに関する Wikipedia記事中では“tiger”の出現確率が2.8%に上昇  長距離依存や記憶を扱うために、言語モデルの構築にLSTMやGRUが活用されていた頃提案: キャッシュモデル (Kuhn 1988) をニューラル言語モデルに導入  学習済みの言語モデルにキャッシュモデルを追加する（追加学習は不要）  推論時に言語モデルの表現ベクトルと予測された単語を記録しておく（キャッシュ）  デコーダの表現ベクトルと記録してあった近傍事例ベクトルとの類似度（内積）を計算し、その類似度から単語予測分布を計算し、言語モデルの単語予測分布と線形補間する結果: 言語モデルのパープレキシティを改善  Penn Treebank, WikiText2, WikiText103, text8, LAMBADAコーパスで実験 Edouard Grave, Armand Joulin, Nicolas Usunier. 2017. Improving Neural Language Models with a Continuous Cache. ICLR. Roland Kuhn. 1988. Speech Recognition and the Frequency of Recently Used Words: A Modified Markov Model for Natural Language. COLING. Grave+ (2017)

自己回帰型言語モデルの学習 9 ※ 隠れ状態ベクトルのサイズは1024、ドロップアウトあり（p=0.65）、層数は不明（論文中で言及なし）。 The tiger ( Panthera tigris )
埋め込みベクトル隠れ状態ベクトル LSTM言語モデル入力単語列𝑦𝑦𝑡𝑡 𝒚𝒚1 𝒚𝒚2 𝒚𝒚3 𝒚𝒚4 𝒚𝒚5 𝒚𝒚6 𝒛𝒛1 𝒛𝒛2 𝒛𝒛3 𝒛𝒛4 𝒛𝒛5 𝒛𝒛6 tiger ( Panthera tigris ) is 単語の予測 𝑃𝑃LM 𝑦𝑦𝑡𝑡+1 𝑦𝑦1:𝑡𝑡 正解の単語𝑦𝑦𝑡𝑡+1 (one-hot) 訓練コーパスを用いてLSTM言語モデルを交差エントロピー損失で学習※ 自己回帰型言語モデル: 文脈𝑦𝑦1:𝑡𝑡 = 𝑦𝑦1 , 𝑦𝑦2 , … , 𝑦𝑦𝑡𝑡 に対して、単語𝑦𝑦𝑡𝑡+1 の予測確率𝑃𝑃LM 𝑦𝑦𝑡𝑡+1 𝑦𝑦1:𝑡𝑡 を計算 𝑃𝑃LM 𝑦𝑦𝑡𝑡+1 𝑦𝑦1:𝑡𝑡 = softmax 𝑾𝑾𝑜𝑜 𝒛𝒛𝑡𝑡 𝑦𝑦𝑡𝑡+1 𝒛𝒛𝑡𝑡 = LSTM(𝒚𝒚𝑡𝑡 , 𝒛𝒛𝑡𝑡−1 ) Grave+ (2017)

キャッシュによる言語モデルの補間 10 tripling the number of wild Bengal 埋め込みベクトル
隠れ状態ベクトル LSTM言語モデル入力単語列𝑦𝑦𝑡𝑡 𝒚𝒚101 𝒚𝒚102 𝒚𝒚103 𝒚𝒚104 𝒚𝒚105 𝒚𝒚106 𝒛𝒛101 𝒛𝒛102 𝒛𝒛103 𝒛𝒛104 𝒛𝒛105 𝒛𝒛106 言語モデルに基づく確率分布 𝑃𝑃LM (𝑦𝑦𝑡𝑡+1 |𝑦𝑦1:𝑡𝑡 ) キャッシュに基づく確率分布𝑃𝑃CACHE (𝑦𝑦𝑡𝑡+1 |𝑦𝑦1:𝑡𝑡 ) 補間後の確率分布 𝑃𝑃(𝑦𝑦𝑡𝑡+1 |𝑦𝑦1:𝑡𝑡 ) 𝜆𝜆 1 − 𝜆𝜆 𝑃𝑃 𝑦𝑦𝑡𝑡+1 𝑦𝑦1:𝑡𝑡 = 𝜆𝜆𝑃𝑃CACHE 𝑦𝑦𝑡𝑡+1 𝑦𝑦1:𝑡𝑡 + (1 − 𝜆𝜆)𝑃𝑃LM 𝑦𝑦𝑡𝑡+1 𝑦𝑦1:𝑡𝑡 𝑃𝑃CACHE 𝑦𝑦𝑡𝑡+1 𝑦𝑦1:𝑡𝑡 ∝ � 𝑖𝑖=1 𝑡𝑡−1 1𝑦𝑦𝑡𝑡+1= � 𝑦𝑦𝑖𝑖+1 exp(𝜃𝜃𝒛𝒛𝑡𝑡 ⊤𝒛𝒛𝑖𝑖 ) キャッシュモデル※ 𝒛𝒛75 𝒛𝒛76 tiger skin 𝒛𝒛73 𝒛𝒛74 number of 0.02 0.01 0.60 0.40 ⋮ ⋮ ⋮ ⋮ 内積値 tiger cat 似ている過去の隠れ状態からの予測結果を参考にする 𝜆𝜆で𝑃𝑃CACHE と𝑃𝑃LM を配合ハイパーパラメータ𝜃𝜃と expで確率分布を計算 Grave+ (2017) ※ キャッシュモデルが遡る時刻の数（ハイパーパラメータ）は50から10,000までを試し、開発データにおける性能で決定する。 tiger

𝑘𝑘NN-LM (Khandelwal+ 2020) 11 仮説: 単語の予測よりも埋め込みの学習の方が簡単なのでは？  “Dickens is the
author of”と”Dickens wrote”に続く単語の分布が同じであることは分かりやすいが、後に続く単語を予測するのは難しい提案: 𝑘𝑘近傍事例を用いて学習済みの言語モデルを補強する  学習済みの言語モデルの埋め込み表現を用い、訓練コーパスから𝑘𝑘近傍事例を検索する  検索された事例との距離に基づき、単語予測分布を計算し、言語モデルの単語予測分布と線形補間を行う（言語モデルの追加学習は不要）  稀な単語の出現を言語モデルのパラメータで記憶せず、近傍事例を記憶として活用する  Continuous Cacheの記憶範囲を訓練コーパス全体に広げ、Faissで𝑘𝑘近傍検索を効率化結果: Wikitext-103におけるパープレキシティで最高性能を達成  近傍事例の保管内容（データストア）を変更するだけで、言語モデルの追加学習をしなくてもコーパスの大規模化やドメイン適応が可能  近傍事例はファクトなどのロングテールな単語の予測に有用 Urvashi Khandelwal, Omer Levy, Dan Jurafsky, Luke Zettlemoyer, Mike Lewis. 2020. Generalization through Memorization: Nearest Neighbor Language Models. ICLR. Khandelwal+ (2020)

自己回帰型言語モデルの学習 12 ※ 実験では16層（𝐿𝐿 = 16）、16個のマルチヘッド注意機構、1024次元ベクトルのモデルをWikitext-103で学習している。 The Beatles - live
in Japan 入力層の単語埋め込み出力層の単語埋め込み Transformerのデコーダ部分（𝐿𝐿層）入力 𝑦𝑦𝑡𝑡 𝒛𝒛1 0 𝒛𝒛2 0 𝒛𝒛3 0 𝒛𝒛4 0 𝒛𝒛5 0 𝒛𝒛6 0 𝒛𝒛1 𝐿𝐿 𝒛𝒛2 𝐿𝐿 𝒛𝒛3 𝐿𝐿 𝒛𝒛4 𝐿𝐿 𝒛𝒛5 𝐿𝐿 𝒛𝒛6 𝐿𝐿 Beatles - live in Japan 1966 単語の予測 𝑃𝑃LM (𝑦𝑦𝑡𝑡+1 |𝑦𝑦1:𝑡𝑡 ) 正解の単語 (one-hot) 訓練コーパスを用いてTransformerデコーダを通常通り（交差エントロピー損失で）学習※ 自己回帰型言語モデル: 文脈𝑦𝑦1:𝑡𝑡 = 𝑦𝑦1 , 𝑦𝑦2 , … , 𝑦𝑦𝑡𝑡 に対して、単語𝑦𝑦𝑡𝑡+1 の予測確率𝑃𝑃LM (𝑦𝑦𝑡𝑡+1 |𝑦𝑦1:𝑡𝑡 )を計算 Khandelwal+ (2020)

データストアの構築 13 ※ 実験では、層正規化の後、フィードフォワード層に入力する直前のベクトルを用いたとき、性能が最も高かったと報告している。 The Beatles - live in Japan
入力層の単語埋め込み出力層の単語埋め込み Transformerのデコーダ部分（𝐿𝐿層）入力 𝑦𝑦𝑡𝑡 データストア（Datastore） (𝒦𝒦, 𝒱𝒱) = (𝒛𝒛𝑡𝑡 𝐿𝐿, 𝑦𝑦𝑡𝑡+1 ) 𝑡𝑡=1 𝑇𝑇 𝒛𝒛1 𝐿𝐿 𝒛𝒛2 𝐿𝐿 𝒛𝒛3 𝐿𝐿 𝒛𝒛4 𝐿𝐿 𝒛𝒛5 𝐿𝐿 𝒛𝒛6 𝐿𝐿 Beatles - live in Japan 1966 ( ( ( ( ( ( ) ) ) ) ) ) , , , , , , 学習済みの言語モデルに訓練コーパスを再度入力し、全時刻𝑡𝑡のデコーダの隠れ状態ベクトル𝒛𝒛𝑡𝑡 𝐿𝐿をキー、時刻𝑡𝑡 + 1の正解単語𝑦𝑦𝑡𝑡+1 をバリューとしてデータストアに格納※ 順伝播のみを行う（モデルのパラメータは更新しない） Khandelwal+ (2020) 𝒛𝒛1 0 𝒛𝒛2 0 𝒛𝒛3 0 𝒛𝒛4 0 𝒛𝒛5 0 𝒛𝒛6 0 𝒛𝒛1 𝐿𝐿 𝒛𝒛2 𝐿𝐿 𝒛𝒛3 𝐿𝐿 𝒛𝒛4 𝐿𝐿 𝒛𝒛5 𝐿𝐿 𝒛𝒛6 𝐿𝐿

𝑘𝑘近傍事例による言語モデルの補間 14 The Beatles - live in Japan 入力層の単語埋め込み
出力層の単語埋め込み Transformerのデコーダ部分（𝐿𝐿層）入力 𝑦𝑦𝑡𝑡 言語モデルに基づく確率分布 𝑃𝑃LM 𝑦𝑦𝑡𝑡+1 𝑦𝑦1:𝑡𝑡 データストア（Datastore） (𝒦𝒦, 𝒱𝒱) = (𝒛𝒛𝑡𝑡 𝐿𝐿, 𝑦𝑦𝑡𝑡+1 ) 𝑡𝑡=1 𝑇𝑇 𝑃𝑃 𝑦𝑦𝑡𝑡+1 𝑦𝑦1:𝑡𝑡 = 𝜆𝜆𝑃𝑃kNN 𝑦𝑦𝑡𝑡+1 𝑦𝑦1:𝑡𝑡 + (1 − 𝜆𝜆)𝑃𝑃LM 𝑦𝑦𝑡𝑡+1 𝑦𝑦1:𝑡𝑡 𝑃𝑃kNN 𝑦𝑦𝑡𝑡+1 𝑦𝑦1:𝑡𝑡 ∝ � 𝒌𝒌𝑖𝑖,𝑣𝑣𝑖𝑖 ∈𝒩𝒩𝑘𝑘(𝒛𝒛𝑡𝑡 𝐿𝐿) 1𝑦𝑦𝑡𝑡+1=𝑣𝑣𝑖𝑖 exp(−𝑑𝑑(𝒌𝒌𝑖𝑖 , 𝒛𝒛𝑡𝑡 𝐿𝐿)) デコーダの文脈の空間 kNNに基づく確率分布 𝑃𝑃kNN 𝑦𝑦𝑡𝑡+1 𝑦𝑦1:𝑡𝑡 補間後の確率分布 𝑃𝑃 𝑦𝑦𝑡𝑡+1 𝑦𝑦1:𝑡𝑡 𝒛𝒛𝑡𝑡 𝐿𝐿 𝒌𝒌𝑖𝑖 𝑑𝑑(𝒌𝒌𝑖𝑖 , 𝒛𝒛𝑡𝑡 𝐿𝐿) 𝒩𝒩𝑘𝑘 (𝒛𝒛𝑡𝑡 𝐿𝐿): 近傍事例集合近傍の𝑘𝑘事例を検索※ 𝜆𝜆 1 − 𝜆𝜆 ※ データストアから近傍事例を高速に検索するため、Faiss (https://github.com/facebookresearch/faiss) を用いる。 Khandelwal+ (2020) 𝒛𝒛1 0 𝒛𝒛2 0 𝒛𝒛3 0 𝒛𝒛4 0 𝒛𝒛5 0 𝒛𝒛6 0 𝒛𝒛1 𝐿𝐿 𝒛𝒛2 𝐿𝐿 𝒛𝒛3 𝐿𝐿 𝒛𝒛4 𝐿𝐿 𝒛𝒛5 𝐿𝐿 𝒛𝒛6 𝐿𝐿 𝜆𝜆で𝑃𝑃kNN と𝑃𝑃LM を配合近傍事例と現時刻の二乗 L2距離𝑑𝑑(⋅,⋅)に基づき単語の確率分布を計算

𝑘𝑘近傍事例による言語モデルの補間 15 Urvashi Khandelwal, Omer Levy, Dan Jurafsky, Luke Zettlemoyer,
Mike Lewis. 2020. Generalization through Memorization: Nearest Neighbor Language Models. ICLR. Khandelwal+ (2020) 現在時刻𝑡𝑡のデコーダの表現に近い文脈事例を検索し、そのバリュー（予測されるべき単語）を並べ、距離が近いほど確率が大きくなるように確率分布𝑃𝑃kNN 𝑥𝑥𝑡𝑡+1 𝑥𝑥1:𝑡𝑡 を作成する Khandelwal+ (2020)

実験設定 16 データ  Wikitext-103: 103Mトークン（訓練）、250Kトークン（開発・評価）  Toronto Book Corpus:
0.7Bトークン（開発と評価のみに用いる）  Wiki-3B: 2.87Bトークン（開発と評価のみに用いる）  Wiki-100M: Wiki-3Bからランダムに記事を選び、100Mトークンのサブセットを構築 ※ Wikitext-103は単語によるトークン化（語彙サイズは250K）、それ以外のコーパスは BPEによるトークン化（語彙サイズは29K）モデル  デコーダのみのTransformer（16層、16個のマルチヘッド自己注意機構、隠れ状態ベクトルのサイズは1024で、 247M個のパラメータからなるモデル）  系列長（文脈トークンの長さ）は3072（Wikitext-103）および1024（その他）  Wiktext-103では適応softmax (Grave+ 2017) を用いる Edouard Grave, Armand Joulin, Moustapha Cissé, David Grangier, Hervé Jégou. 2017. Efficient softmax approximation for GPUs. ICML. Grave+ (2017) 最も高頻度なトークン語彙グループ 𝒱𝒱1 , 𝒱𝒱2 , 𝒱𝒱3 を選択 𝒱𝒱ℎ で対応するグループが選択されたときに実行 Khandelwal+ (2020)

Wikitext-103でのパープレキシティ（𝑘𝑘 = 1024） 17 Khandelwal+ (2020) Urvashi Khandelwal, Omer Levy,
Dan Jurafsky, Luke Zettlemoyer, Mike Lewis. 2020. Generalization through Memorization: Nearest Neighbor Language Models. ICLR. Khandelwal+ (2020)  kNN-LMは当時の最高性能を達成した  Continuous CacheよりもkNNの方が高い効果を示し、両者を組み合わせることも可能

𝑘𝑘NN-MT (Khandelwal+ 2021) 18 Khandelwal+ (2021) Urvashi Khandelwal, Angela Fan,
Dan Jurafsky, Luke Zettlemoyer, Mike Lewis. 2021. Nearest Neighbor Machine Translation. ICLR. Khandelwal+ (2021) 𝑃𝑃 𝑦𝑦𝑡𝑡+1 𝑥𝑥, 𝑦𝑦1:𝑡𝑡 = 𝜆𝜆𝑃𝑃kNN 𝑦𝑦𝑡𝑡+1 𝑥𝑥, 𝑦𝑦1:𝑡𝑡 + (1 − 𝜆𝜆)𝑃𝑃MT 𝑦𝑦𝑡𝑡+1 𝑥𝑥, 𝑦𝑦1:𝑡𝑡 𝑃𝑃kNN 𝑦𝑦𝑡𝑡+1 𝑥𝑥, 𝑦𝑦1:𝑡𝑡 ∝ � 𝒌𝒌𝑖𝑖,𝑣𝑣𝑖𝑖 ∈𝒩𝒩𝑘𝑘(𝒛𝒛𝑡𝑡 𝐿𝐿) 1𝑦𝑦𝑡𝑡+1=𝑣𝑣𝑖𝑖 exp −𝑑𝑑(𝒌𝒌𝑖𝑖 , 𝒛𝒛𝑡𝑡 𝐿𝐿) 𝜏𝜏  kNN-LMを入力𝑥𝑥に条件付ける（モデルをデコーダからエンコーダ・デコーダに変更）  ソフトマックスに温度のハイパーパラメータ𝜏𝜏を導入し、近傍事例への過適合を調整する（𝜏𝜏を大きくすると確率分布が平坦になる）

𝑘𝑘NN-MTによる単一言語対翻訳 19 Khandelwal+ (2021) 実験設定  WMT 2019 Ge-Enで最高性能を達成したモデル (Ng+
2019)  6層のTransformer, 隠れ状態のサイズは1024, アテンションヘッドは8個  100億トークンの逆翻訳データとWMT 2019のデータでモデルを訓練  FAIRSEQのモデル※として公開されているものを用いた  𝑘𝑘NN-MTではWMT 2019の訓練データ（770Mトークン）でデータストアを構築  WMT 2019のGe-Enの評価データ上でSacreBLEUを測定 Nathan Ng, Kyra Yee, Alexei Baevski, Myle Ott, Michael Auli, and Sergey Edunov. 2019. Facebook Fair’s WMT19 News Translation Task Submission. WMT. ※ https://github.com/facebookresearch/fairseq/tree/main/examples/translation モデル BLEU NMT (Ng+ 2019) 37.59 𝑘𝑘NN-MT 39.08 追加学習をせずに、訓練データをデータストアとした𝑘𝑘近傍をデコーダに組み込むだけで翻訳性能が1.5 BLEUスコア改善した

𝑘𝑘NN-MTによる複数言語対翻訳 20 Khandelwal+ (2021) Urvashi Khandelwal, Angela Fan, Dan Jurafsky,
Luke Zettlemoyer, Mike Lewis. 2021. Nearest Neighbor Machine Translation. ICLR. ※ CCMMatrixの対訳データ（79言語、1546言語対）を用いて12層のトランスフォーマ（パラメータ数は418M）を学習したもの Khandelwal+ (2021) ターゲットとしている言語対のデータセットからデータストアを構築し、複数言語対翻訳モデル※に𝑘𝑘NN-MTとして組み込むだけで、BLEUスコアの改善が見られた

𝑘𝑘NN-MTによるドメイン適応※ 21 Khandelwal+ (2021) Urvashi Khandelwal, Angela Fan, Dan Jurafsky,
Luke Zettlemoyer, Mike Lewis. 2021. Nearest Neighbor Machine Translation. ICLR. ※ 単一言語対翻訳で用いたDe-Enの翻訳モデルを用いた。Aharoni & Goldberg (2020) はドメインを考慮したNMTモデルを訓練する。 Khandelwal+ (2021) 追加学習を行わなくとも、対象ドメインでデータストアを構築し、𝑘𝑘NN-MTを行うだけで、対象ドメインにおけるBLEUスコアを改善できた

Adaptive 𝑘𝑘NN-MT 22 Zheng+ (2021) Xin Zheng, Zhirui Zhang, Junliang
Guo, Shujian Huang, Boxing Chen, Weihua Luo, Jiajun Chen. 2021. Adaptive Nearest Neighbor Machine Translation. ACL. Zheng+ (2021) 問題意識: 近傍に適切な事例が存在しないとき、𝑃𝑃kNN の確率分布がノイジーになる提案: 𝑘𝑘をデコーダの時刻毎に動的に調整する 1. いったん𝐾𝐾（近傍事例の最大数）で検索しておく 2. 近傍事例数𝑘𝑘 = 0, 1, 2, 4, …を候補として、それぞれ𝑃𝑃kNN の確率分布を作成しておく 3. 検索された事例の距離や異なり数を特徴量、採用すべき𝑘𝑘を出力とする分類器（Meta-𝑘𝑘 Network）を学習し、2で求めた𝑃𝑃kNN の確率分布を重みづけする

𝑘𝑘近傍探索の効率化 23 He+ (2021) Junxian He, Graham Neubig, Taylor Berg-Kirkpatrick.
2021. Efficient Nearest Neighbor Language Models. EMNLP. 問題意識: デコーダの時刻毎に近傍事例を保存・検索するので、推論が重い He+ (2021) 適応的な検索文脈からを𝜆𝜆を推定するモデルを構築し、𝜆𝜆が小さい時刻では近傍検索を省略次元圧縮主成分分析を行い、データストアとクエリの次元を下げるデータストアの枝刈りデータストア中で似ている（≒冗長な）要素をクラスタリングで統合全時刻で近傍事例を検索する必要があるのか？データストアから冗長な要素を削除できるか？表現ベクトルを次元削減しても大丈夫か？

Fast 𝑘𝑘NN-MT（入力を活用して推論時にコンパクトなデータストアを構築） 24 Meng+ (2022) Yuxian Meng, Xiaoya Li, Xiayu
Zheng, Fei Wu, Xiaofei Sun, Tianwei Zhang, Jiwei Li. 2022. Fast Nearest Neighbor Machine Translation. Findings of ACL. ※ 訓練コーパス（パラレルコーパス）の単語対応（アライメント）はFastAlign (Dyer+ 2013) で自動的に求める 𝒉𝒉11 𝒉𝒉12 𝒉𝒉13 𝒉𝒉14 𝒛𝒛11 𝒛𝒛12 𝒛𝒛13 𝒛𝒛14 b c d a A B C D 𝒉𝒉21 𝒉𝒉22 𝒉𝒉23 𝒛𝒛21 𝒛𝒛22 𝒛𝒛23 𝒛𝒛24 c d e b B C D 𝒉𝒉31 𝒉𝒉32 𝒉𝒉33 𝒉𝒉34 𝒛𝒛31 𝒛𝒛32 𝒛𝒛33 𝒛𝒛34 a b c d A B D E 𝒛𝒛35 e 𝒉𝒉41 𝒉𝒉42 𝒉𝒉43 𝒛𝒛41 𝒛𝒛42 𝒛𝒛43 b d e B D E 訓練コーパス※（下側は原言語、上側は対象言語、𝒉𝒉はエンコーダの最終層、𝒛𝒛はデコーダの最終層） A: 𝒉𝒉11 𝒛𝒛14 a ( ), , ( ) , 𝒉𝒉31 𝒛𝒛31 a ( ) , ( ) , B: 𝒉𝒉12 𝒛𝒛11 b ( ), , ( ) , 𝒉𝒉21 𝒛𝒛23 e ( ), , ( ) , 𝒉𝒉32 𝒛𝒛32 b ( ), , ( ) , 𝒉𝒉41 𝒛𝒛41 b ( ) , ( ) , C: 𝒉𝒉1𝟑𝟑 𝒛𝒛1𝟐𝟐 c ( ), , ( ) , 𝒉𝒉22 𝒛𝒛21 c ( ) , ( ) , D: 𝒉𝒉14 𝒛𝒛13 d ( ), , ( ) , 𝒉𝒉23 𝒛𝒛22 d ( ), , ( ) , 𝒉𝒉33 𝒛𝒛33 c ( ), , ( ) , 𝒉𝒉42 𝒛𝒛42 d ( ) , ( ) , E: 𝒉𝒉34 𝒛𝒛34 d ( ), , ( ) 𝒉𝒉43 𝒛𝒛43 e ( ) , ( ) 𝒦𝒦, 𝒱𝒱 = {(𝒉𝒉𝑖𝑖 , (𝒛𝒛𝑗𝑗 , 𝑦𝑦𝑗𝑗 )} 原言語の単語毎にデータストアを構築（キーは原言語側の表現ベクトル）推論時に対象言語のデータストアを構築（原言語の入力が”B C E”のとき） B（）の近傍2件 𝒛𝒛23 e ( ) , 𝒛𝒛11 b ( ) , 𝒛𝒛1𝟐𝟐 c ( ) , 𝒛𝒛21 c ( ) , 𝒛𝒛34 d ( ) 𝒛𝒛43 e ( ) C（）の近傍2件 E（）の近傍2件 𝒉𝒉1 𝒉𝒉𝟐𝟐 𝒉𝒉𝟑𝟑

𝑘𝑘NN-KD（𝑘𝑘NN-MTを用いたMTの知識蒸留） 25 Yang+ (2022) Zhixian Yang, Renliang Sun, Xiaojun Wan.
2022. Nearest Neighbor Knowledge Distillation for Neural Machine Translation. NAACL. Yang+ (2022) 提案: 訓練データ上で𝑃𝑃kNN を求め、MTモデルの追加の学習データのように用いる  𝑃𝑃kNN を教師モデル、𝑃𝑃MT を生徒モデルとして知識蒸留を行う ℒ = 1 − 𝛼𝛼 ℒMT + 𝛼𝛼ℒkNN−KD ℒkNN−KD = − � 𝑦𝑦𝑡𝑡+1∈𝑉𝑉 𝑃𝑃kNN 𝑦𝑦𝑡𝑡+1 𝑥𝑥, 𝑦𝑦1:𝑡𝑡 log 𝑃𝑃LM 𝑦𝑦𝑡𝑡+1 𝑥𝑥, 𝑦𝑦1:𝑡𝑡  推論時の近傍探索が不要になり、通常のNMTモデルとしてデコードできる  𝑃𝑃kNN から追加の「正解」が得られることにより、exposureバイアスを軽減できる問題意識: デコーダの時刻毎に近傍事例を保存・検索するので、推論・探索が重い

SPALM 26 The Beatles - live in Japan 局所記憶Transformer 長期記憶（データストア）
(𝒦𝒦, 𝒱𝒱) = (𝒛𝒛𝑡𝑡 𝐿𝐿, 𝑦𝑦𝑡𝑡+1 ) 𝑡𝑡=1 𝑇𝑇 デコーダの文脈の空間単語の確率分布 𝑃𝑃 𝑦𝑦𝑡𝑡+1 𝑦𝑦1:𝑡𝑡 𝒛𝒛𝑡𝑡 𝐿𝐿 𝒌𝒌𝑖𝑖 𝒩𝒩𝑘𝑘 (𝒛𝒛𝑡𝑡 𝐿𝐿): 近傍事例集合近傍の𝑘𝑘事例を検索※ Yogatama+ (2021) 𝒛𝒛t−5 0 𝒛𝒛t−4 0 𝒛𝒛t−3 0 𝒛𝒛t−2 0 𝒛𝒛𝑡𝑡−1 0 𝒛𝒛t 0 𝒛𝒛t−5 𝐿𝐿 𝒛𝒛t−4 𝐿𝐿 𝒛𝒛t−3 𝐿𝐿 𝒛𝒛t−2 𝐿𝐿 𝒛𝒛𝑡𝑡−1 𝐿𝐿 𝒛𝒛t 𝐿𝐿 Dani Yogatama, Cyprien de Masson d’Autume, Lingpeng Kong. 2021. Adaptive Semiparametric Language Models. TACL. ※ 近傍検索にScaNN (https://github.com/google-research/google-research/tree/master/scann) を用いる。短期記憶Transformer-XL 注意機構のみ接続 (Transformer-XL) 𝒎𝒎𝑡𝑡 𝒎𝒎𝑡𝑡 = ∑𝑘𝑘=1 𝐾𝐾 exp 𝒚𝒚𝑘𝑘 ⊤𝒛𝒛t 𝐿𝐿 ∑ 𝑗𝑗=1 𝐾𝐾 exp 𝒚𝒚𝑗𝑗 ⊤𝒛𝒛t 𝐿𝐿 𝒚𝒚𝑘𝑘 𝒈𝒈𝑡𝑡 = 𝜎𝜎 𝑽𝑽𝒛𝒛t 𝐿𝐿 � 𝒛𝒛𝑡𝑡 = 1 − 𝒈𝒈𝑡𝑡 ⊙ 𝒎𝒎𝑡𝑡 + 𝒈𝒈𝑡𝑡 ⊙ 𝒉𝒉t 𝐿𝐿 𝑃𝑃 𝑦𝑦𝑡𝑡+1 𝑦𝑦1:𝑡𝑡 = softmax 𝑾𝑾𝑜𝑜 � 𝒛𝒛𝑡𝑡 𝑦𝑦𝑡𝑡+1 𝒈𝒈𝑡𝑡 � 𝒛𝒛𝑡𝑡 𝒚𝒚𝑘𝑘  局所記憶（Transformer）、短期記憶（Transformer-XL）、長期記憶（データストア）の3つを組み合わせて構築した言語モデル  ゲート機構で長期記憶ベクトル𝒎𝒎𝑡𝑡 と局所記憶ベクトル𝒛𝒛t 𝐿𝐿を配合してから単語を予測重み付き和ゲート

デコーダの各時刻の表現ベクトルで検索  似た「状況」で予測されるべき単語を参考に単語予測確率を補間  訓練データでデコーダを動かし、データストアを構築  データストアから𝑘𝑘近傍事例を効率よく検索する手法を活用  状況が似ているほど、その時に生成すべき単語に高い確率を与える 27
（主な手法の）利点  生成の品質が向上する  理由は解明されていないが、おそらくexposureバイアスの解消による汎化性能の向上  モデルを再学習をしなくてもよい  データストアの変更でドメイン適応可（主な手法の）欠点  デコーディングが重い  各時刻で近傍検索が要るため  データストアが膨大になるため

入力文をクエリとした検索 28

SEG-NMT: Search Engine Guided Neural Machine Translation 29 Jiatao Gu,
Yong Wang, Kyunghyun Cho, Victor O.K. Li. 2018. Search Engine Guided Neural Machine Translation. AAAI. ※ ゲート𝛼𝛼𝑡𝑡 の計算方法は論文中では明確にされていないように思われる。マル Heading @キューに向かう for ? Shibuya Shopping at 109 the Heading for zoo マル @キューで買い物動物 @園に向かう 𝑃𝑃 𝑦𝑦𝑡𝑡+1 𝑥𝑥, 𝑦𝑦1:𝑡𝑡 = softmax 𝑾𝑾𝑜𝑜 𝒛𝒛𝑡𝑡 ∗ 𝑦𝑦𝑡𝑡+1 （単語の予測） 𝒛𝒛𝑡𝑡 ∗ = 𝛼𝛼𝑡𝑡 � 𝒛𝒛𝑡𝑡 + (1 − 𝛼𝛼𝑡𝑡 )� 𝒛𝒛𝑡𝑡 （近傍事例との統合） � 𝒛𝒛𝑡𝑡 = ∑𝜏𝜏 𝑞𝑞𝑡𝑡,𝜏𝜏 𝒛𝒛𝜏𝜏 ′ （近傍事例の注意による重みづけ） 𝑞𝑞𝑡𝑡,𝑟𝑟 = exp 𝒄𝒄𝑡𝑡𝑴𝑴𝒄𝒄𝑟𝑟 ′ ∑𝜏𝜏 exp 𝒄𝒄𝑡𝑡𝑴𝑴𝒄𝒄𝜏𝜏 ′ （近傍事例における注意機構） � 𝒛𝒛𝑡𝑡 = tanh 𝑾𝑾𝑧𝑧 ([𝒄𝒄𝑡𝑡 ;𝒛𝒛𝑡𝑡 ]) （クロスアテンション） 𝒄𝒄𝑡𝑡 = ∑𝑖𝑖=1 𝐼𝐼 𝑎𝑎𝑡𝑡,𝑖𝑖 𝒉𝒉𝑖𝑖 （注意による重みづけ） 𝒛𝒛𝑡𝑡 = GRU(𝒚𝒚𝑡𝑡 ,𝒛𝒛𝑡𝑡−1 ) （デコーダの隠れ状態の合成）類似事例検索 𝒄𝒄𝑡𝑡 統合と単語予測 � 𝒛𝒛𝑡𝑡 � 𝒛𝒛𝑡𝑡 𝑞𝑞𝑡𝑡,𝜏𝜏 𝒄𝒄𝜏𝜏 ′ 検索された事例で注意を計算  対訳コーパスから入力文𝑋𝑋と似ている事例を検索（Apache Luceneと編集距離）  入力文のデコーダの表現� 𝒛𝒛𝑡𝑡 と類似事例のデコーダの表現� 𝒛𝒛𝑡𝑡 をゲート𝛼𝛼𝑡𝑡 で線形結合※  � 𝒛𝒛𝑡𝑡 からの予測単語と類似事例からの予測単語をゲート𝛼𝛼𝑡𝑡 で組み合わせる変種あり  類似事例のデコーダの同じ時刻を参照しすぎないように𝑞𝑞𝑡𝑡,𝜏𝜏 に関するカバレッジを導入 𝒛𝒛𝜏𝜏 ′ Gu+ (2018)

近傍事例の目的言語側の𝑛𝑛-gramの生成確率を増やす 30 Jingyi Zhang, Masao Utiyama, Eiichro Sumita, Graham Neubig,
Satoshi Nakamura. 2018. Guiding Neural Machine Translation with Retrieved Translation Pieces. NAACL.  対訳コーパスから入力文𝑋𝑋と似ている事例を検索（Apache Luceneと𝑛𝑛-gram類似度）  近傍事例(𝑋𝑋 𝑘𝑘 , 𝑌𝑌 𝑘𝑘 )の目的言語側𝑌𝑌 𝑘𝑘 の𝑛𝑛-gramのうち、入力文に含まれた単語と対応が取れているものを𝐺𝐺 (𝑋𝑋 𝑘𝑘 ,𝑌𝑌 𝑘𝑘 ) とし、 𝐺𝐺 (𝑋𝑋 𝑘𝑘 ,𝑌𝑌 𝑘𝑘 ) に含まれる𝑛𝑛-gramを生成するとボーナス 𝐺𝐺 (𝑋𝑋 𝑘𝑘 ,𝑌𝑌 𝑘𝑘 ) 𝑋𝑋 𝑘𝑘 𝑋𝑋 𝑌𝑌 𝑘𝑘 𝑛𝑛-gram 𝐺𝐺 (𝑋𝑋 𝑘𝑘 ,𝑌𝑌 𝑘𝑘 ) Vorschriften für die Eignung Yes die Eignung von Yes von Um@@ schlags@@ anlagen No Um@@ schlags@@ anlagen No für Eignung No Zhang+ (2018) Zhang+ (2018)

Neural Fuzzy Repair 31 Bram Bulte, Arda Tezcan. 2019. Neural
Fuzzy Repair: Integrating Fuzzy Matches into Neural Machine Translation. ACL.  対訳コーパスから入力文𝑋𝑋と似ている事例を検索（類似文字列検索）  近傍事例(𝑋𝑋 𝑘𝑘 , 𝑌𝑌 𝑘𝑘 )の目的言語側𝑌𝑌 𝑘𝑘 を入力文𝑋𝑋に連結し、訓練データを拡張したうえでNMTモデルを学習 𝑋𝑋: マルキューに向かう 𝑌𝑌: Heading for Shibuya 109 𝑋𝑋(1): マルキューで買い物 𝑌𝑌(1): Shopping at Shibuya 109 𝑋𝑋(2): 動物園に向かう 𝑌𝑌(2): Heading for the zoo 𝑋𝑋(3): 109に集合 𝑌𝑌(3): Meet at Shibuya 109 マルキューに向かう || Shopping at Shibuya 109 マルキューに向かう || Shopping at Shibuya 109 || Heading for the zoo マルキューに向かう || Shopping at Shibuya 109 || Heading for the zoo || Meet at Shibuya 109 マルキューに向かう || Shopping at Shibuya 109 マルキューに向かう || Heading for the zoo マルキューに向かう || Meet at Shibuya 109 𝑘𝑘類似事例の翻訳文毎に原言語側の入力に連結 𝑘𝑘類似事例の複数の翻訳文を原言語側の入力に連結 Bulte+ (2019) 近傍検索

事例の類似尺度および統合方法の改良 32 Jitao Xu, Josep Crego, Jean Senellart. 2020. Boosting
Neural Machine Translation with Similar Translations. ACL. 2つの文𝑝𝑝, 𝑞𝑞間の類似尺度  編集距離: FM 𝑝𝑝, 𝑞𝑞 = 1 − ED 𝑝𝑝,𝑞𝑞 max 𝑝𝑝 , 𝑞𝑞  𝑛𝑛-gram: NM 𝑝𝑝, 𝑞𝑞 = max{𝐺𝐺(𝑝𝑝) ∩ 𝐺𝐺(𝑞𝑞)}  密ベクトル: EM 𝑝𝑝, 𝑞𝑞 = 𝒑𝒑⊤𝒒𝒒 𝒑𝒑 𝒒𝒒 類似事例の統合方法（原言語側へ連結）  FM#: How long does a cold last ? || Combien de temps dure le vol ?  FM*: How long does a cold last ? || Combien de temps dure || ?  FM+: How long does a cold last ? || Combien de temps dure le vol ? S S S S S S S R T T T T R R T  類似尺度を編集距離（FM）から𝑛𝑛-gram（NM）や密ベクトル（EM）に変更した設定でも実験 FastAlignで求める最長共通部分列（LCS）で求める 𝑋𝑋 𝑋𝑋′ 𝑌𝑌′ アライメントが取れた箇所だけアライメントを別系列で入れる Xu+ (2020)

言語横断検索モデルによる単言語コーパスの活用 33 Deng Cai, Yan Wang, Huayang Li, Wai Lam,
Lemao Liu. 2021. Neural Machine Translation with Monolingual Translation Memory. ACL. 近傍事例に基づく既存研究に対する問題意識  翻訳メモリとして対訳コーパスが必要であり、単言語コーパスを活用できていない  事例を検索するモデルを含めたend-to-endの学習ができていない言語横断検索モデル 𝑓𝑓 𝑥𝑥, 𝑧𝑧 = norm 𝑾𝑾src 𝒙𝒙 ⋅ norm 𝑾𝑾tgt 𝒛𝒛 ※ 言語間アライメントタスクで事前学習 𝒙𝒙 𝒛𝒛 翻訳モデル  いわゆるFusion-in-Decoderモデル  スコア𝑓𝑓 𝑥𝑥, 𝑧𝑧 をデコーダの注意のバイアスとし、検索モデルも同時に学習 Cai+ (2021) Cai+ (2021)

近傍事例やアライメントなどを埋め込んだ手法 34 Qiuxiang He, Guoping Huang, Qu Cui, Li Li,
Lemao Liu. 2021. Fast and Accurate Neural Machine Translation with Translation Memory. ACL. He+ (2021) 単語埋め込みと位置符号 TF-Sを類似度で重みづけ TF-SSにアライメントでマスク近傍事例の埋め込み表現 K V Q K Q V  近傍事例をTransformerデコーダの追加の入力とする  類似度が低い近傍事例に対応するため、通常の翻訳モデルと同時学習を行う He+ (2021)

オープンドメイン質問応答（DrQA） 35 Danqi Chen, Adam Fisch, Jason Weston, Antoine Bordes.
2017. Reading Wikipedia to Answer Open-Domain Questions. ACL. Chen+ (2017) Chen+ (2017)

事前学習モデルによる質問応答 36 Alec Radford, Jeff Wu, Rewon Child, David Luan,
Dario Amodei, Ilya Sutskever. 2019. Language Models are Few-Shot Learners. Technical report. GPT-2 (Radford+, 2019) によるNatural Questionsへの解答大規模言語モデルのパラメータの中に世界知識が暗黙的に埋め込まれている Radford+ (2019)

Retrieval-Augmented Language Model (REALM) 37 Guu+ (2020) Kelvin Guu, Kenton
Lee, Zora Tung, Panupong Pasupat, Ming-Wei Chang. 2020. REALM: Retrieval-Augmented Language Model Pre- Training. ICML. 背景: BERTやT5などの事前学習済みモデルは世界知識をテキストから獲得している “The is the currency of the United Kingdom” → 答え: “pound” 問題点  世界知識がモデルのパラメータとして暗黙的に格納される（何処でどのように格納されているのか分からない）  世界知識の格納容量はモデルのサイズによって決まってしまうが、より大規模なモデルを学習するのは大変提案: 世界知識を検索しながらテキストを予測する言語モデルの事前学習 𝑃𝑃 𝑦𝑦 𝑥𝑥 = � 𝑧𝑧∈𝒵𝒵 𝑃𝑃𝜙𝜙 𝑦𝑦 𝑧𝑧, 𝑥𝑥 𝑃𝑃𝜃𝜃 (𝑧𝑧|𝑥𝑥) Guu+ (2020)

REALMの事前学習とファインチューニング 38 Guu+ (2020) Kelvin Guu, Kenton Lee, Zora Tung,
Panupong Pasupat, Ming-Wei Chang. 2020. REALM: Retrieval-Augmented Language Model Pre- Training. ICML. Guu+ (2020) 事前学習とファインチューニング  事前学習: コーパス𝒳𝒳中のある文の一部の単語をマスクして入力𝑥𝑥を構成し、そのマスクされた単語𝑦𝑦を予測する（マスク付き言語モデル）  ファインチューニング: 質問𝑥𝑥の答え𝑦𝑦を予測する（オープンドメイン質問応答） 2段階構成 1. 検索𝑃𝑃𝜃𝜃 (𝑧𝑧|𝑥𝑥): 入力𝑥𝑥に対して有用と思われる文書𝑧𝑧をコーパス𝒵𝒵から検索する 2. 予測𝑃𝑃𝜙𝜙 𝑦𝑦 𝑧𝑧, 𝑥𝑥 :入力𝑥𝑥と検索された文書𝑧𝑧から出力𝑦𝑦を予測する

REALMの定式化 39 Guu+ (2020) 定式化: 入力𝑥𝑥に対して関連文書𝑧𝑧 ∈ 𝒵𝒵を検索し、出力𝑦𝑦を予測する 𝑃𝑃 𝑦𝑦
𝑥𝑥 = � 𝑧𝑧∈𝒵𝒵 𝑃𝑃𝜙𝜙 𝑦𝑦 𝑧𝑧, 𝑥𝑥 𝑃𝑃𝜃𝜃 (𝑧𝑧|𝑥𝑥) BERT CLS 𝑥𝑥 [SEP] CLS 𝑧𝑧title SEP 𝑧𝑧body [SEP] BERT 𝑾𝑾doc 𝑾𝑾in CLS CLS 𝒙𝒙 𝒛𝒛 BERT CLS … … MASK … … SEP 𝑧𝑧body [SEP] MASK 検索モデル 𝑃𝑃𝜃𝜃 𝑧𝑧 𝑥𝑥 = exp 𝒙𝒙⊤𝒛𝒛 ∑ 𝑧𝑧′∈𝒵𝒵 exp 𝒙𝒙⊤𝒛𝒛′ ・言語モデル 𝑃𝑃𝜙𝜙 𝑦𝑦 𝑧𝑧, 𝑥𝑥 ∝ exp 𝑤𝑤𝒚𝒚 ⊤𝒉𝒉 MASK 𝑃𝑃𝜙𝜙 𝑦𝑦 𝑧𝑧, 𝑥𝑥 ∝ � 𝑠𝑠∈𝑀𝑀(𝑧𝑧,𝑦𝑦) exp FFN( 𝒉𝒉𝑆𝑆(𝑠𝑠) ; 𝒉𝒉𝐸𝐸(𝑒𝑒) ) START END 𝒉𝒉𝑆𝑆(𝑠𝑠) ; 𝒉𝒉𝐸𝐸(𝑒𝑒) 𝒉𝒉[MASK] 事前学習時ファインチューニング時 𝑧𝑧の中で𝑦𝑦にマッチするスパン内積による関連性スコア

REALMの学習 40 Guu+ (2020) Kelvin Guu, Kenton Lee, Zora Tung,
Panupong Pasupat, Ming-Wei Chang. 2020. REALM: Retrieval-Augmented Language Model Pre- Training. ICML. 問題点: ∀𝑧𝑧 ∈ 𝒵𝒵に関する和が重たい（𝒵𝒵は検索対象の全文書の集合） 𝑃𝑃 𝑦𝑦 𝑥𝑥 = � 𝑧𝑧∈𝒵𝒵 𝑃𝑃𝜙𝜙 𝑦𝑦 𝑧𝑧, 𝑥𝑥 𝑃𝑃𝜃𝜃 (𝑧𝑧|𝑥𝑥) 解決法: 𝒵𝒵の代わりに、入力𝑥𝑥に関する𝑘𝑘近傍文書集合を用いる 𝑃𝑃 𝑦𝑦 𝑥𝑥 = � 𝑧𝑧∈𝒩𝒩𝑘𝑘(𝑥𝑥) 𝑃𝑃𝜙𝜙 𝑦𝑦 𝑧𝑧, 𝑥𝑥 𝑃𝑃𝜃𝜃 (𝑧𝑧|𝑥𝑥) ※ 𝑘𝑘近傍文書𝒩𝒩𝑘𝑘 (𝑥𝑥)は最大内積探索（MIPS）で効率よく求めるさらなる問題点検索モデルのパラメータ𝜃𝜃が学習時に変化するため、学習しながらMIPSのインデックスを再構築する必要がある解決法検索モデルのパラメータ𝜃𝜃とMIPSのインデックスを非同期で更新する Guu+ (2020)

REALMの学習の工夫 41 Guu+ (2020) ※ 文書𝑧𝑧から文𝑥𝑥を取り出した時、元の文書𝑧𝑧が𝑥𝑥から検索されるように学習するタスク  固有表現のマスキング  マスク付き言語モデルの学習時に固有表現の一部をマスクし、言語モデ
ルだけで解けてしまう状況を減らす  空の検索文書  検索をしなくても答えられるような質問にも対応するため、検索結果の中に空の文書を入れておく  簡単すぎる関連文書の除去  検索モデルと言語モデルの学習に用いるコーパスが同じとき、𝑥𝑥のマスク前の文書が検索されてしまうと、単語予測が簡単すぎるため  エンコーダの初期化  Inverse Cloze Task (ICT) ※を用いて𝑾𝑾doc と𝑾𝑾in を事前に学習しておく

オープンドメイン質問応答での評価（近傍事例数𝑘𝑘 = 5） 42 Guu+ (2020) Kenton Lee, Ming-Wei Chang,
Kristina Toutanova. 2019. Latent Retrieval for Weakly Supervised Open Domain Question Answering. ACL. Kelvin Guu, Kenton Lee, Zora Tung, Panupong Pasupat, Ming-Wei Chang. 2020. REALM: Retrieval-Augmented Language Model Pre- Training. ICML.  NaturalQuestion (NQ), WebQuestions (WQ), CuratedTree (CT) で最高性能  T5はパラメータ数が多いと性能が高くなるが、REALM（Ours）の方が少ないパラメータでより高い正解率を達成した  先行研究であるORQA (Lee+ 2019) よりもREALMの方が高い正解率を示した  ORQAとの差は言語モデルの事前学習方法と検索モデルのパラメータ更新の有無 Guu+ (2020)

Fusion-in-Decoder (FiD) 43 Gautier Izacard, Edouard Grave. 2021. Leveraging Passage
Retrieval with Generative Models for Open Domain Question Answering. EACL. Izacard+ (2021) Izacard+ (2021) 検索された文書ごとに自己注意を計算全体でマスク付き自己注意を計算背景: 生成型の言語モデルによるオープンドメイン質問応答の成功  T5などの事前学習済み言語モデルが世界知識を蓄えていることが示唆されている  ただし、モデルのパラメータが膨大になり、学習や推論にかかるコストが高い提案: 検索された文書を生成型のシンプルな言語モデルに統合  検索は疎ベクトル（BM25）か密ベクトル（BERT）で行う（検索モデルは固定する）  質問と検索された文書を連結し、それぞれT5のエンコーダでベクトル系列に変換・連結し、最後にT5のデコーダで答えを生成するように学習  各入力は”Question: … Title: … Context: …”の形式とする  全体を一つの単語列としてエンコードする場合と比較して、計算量を抑えられる

オープンドメイン質問応答での正解率※ 44 Izacard+ (2021) Izacard+ (2021) Gautier Izacard, Edouard Grave.
2021. Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering. EACL. ※ 提案手法（Fusion-in-Decoder）のベースモデルはT5。検索文書数は100。NQとTriviaQAは密ベクトルによる検索、SQuADは疎ベクトル（BM25）による検索。

Retrieval Transformer (RETRO) 45 Sebastian Borgeaud, Arthur Mensch, Jordan Hoffmann,
et al. 2022. Improving Language Models by Retrieving from Trillions of Tokens. ICML. https://www.deepmind.com/publications/improving-language-models-by-retrieving-from-trillions-of-tokens Borgeaud+ (2022) 提案: 数兆のエントリが収録された検索データベースを使って言語モデルを向上させる  入力を短いチャンクに区切って検索し、検索されたテキストとクロス注意を計算  検索時の密ベクトルを計算するBERTのパラメータの更新は行わない  言語モデルの推論時に検索されるテキストの数を増やし、性能向上を実現できる  Wikitext103やPileなどのデータセットで最高性能を達成

RETROのアーキテクチャ 46 Borgeaud+ (2022) RETROの構成（𝑟𝑟 = 5, 𝑚𝑚 = 4,
𝑘𝑘 = 2）(Borgeaud+ 2022)  検索対象のコーパスは長さ𝑟𝑟のチャンクに区切り、BERTでエンコードした平均ベクトルをキー、チャンクの単語列をキーとしてMIPS（SCaNN）のデータベースを構築  入力テキストを長さ𝑚𝑚のチャンクに区切り、チャンクごとに𝑘𝑘個の近傍事例を検索  検索された近傍事例をTransformerのエンコーダでベクトル化し、入力テキストのチャンクをクエリ、検索された近傍事例をキーとバリューとするクロス注意を計算する Sebastian Borgeaud, Arthur Mensch, Jordan Hoffmann, et al. 2022. Improving Language Models by Retrieving from Trillions of Tokens. ICML.

RETROの評価実験 47 Wikitext103でのパープレキシティ (Borgeaud+ 2022) NaturalQuestionsの正解率 (Borgeaud+ 2022)  再実装した𝑘𝑘NN-LMよりもRETROの方が
高い性能を示した  DBを大きくすると性能が向上するが、評価データのリークが起こっている可能性  質問応答ではFusion-in-Decoderを上回ることはできなかった  𝑘𝑘を増やしても性能が上がらないので、検索事例をうまく使えていない可能性あり Sebastian Borgeaud, Arthur Mensch, Jordan Hoffmann, et al. 2022. Improving Language Models by Retrieving from Trillions of Tokens. ICML.

入力文をクエリとする手法のまとめ  入力文（質問）と関連するテキストを検索し、入力と関連文書の両方を参照しながら出力を生成する手法を紹介した  密ベクトル検索と言語処理タスクの距離が縮まった  関連文書の数を増やすことにより、性能の向上が期待できる  生成型のアプローチの発展により、言語モデリング、機械翻訳、質問
応答などのタスクで共通のアーキテクチャが用いられるようになった  Fusion-in-Decoderあたりがベースライン手法になる？  紹介できなかったその他の手法  FiD-KD (Izacard+ 2021), EMDR2 (Sachan+ 2021), Atlas (Izacard+ 2022) など 48

研究室での取り組み 49

近傍事例を用いた非自己回帰生成 50 Ayana Niwa, Sho Takase, Naoaki Okazaki. 2022. Nearest
Neighbor Non-autoregressive Text Generation. arXiv:2208.12496. Niwa+ (2022) アイデア: より正解に近い系列から非自己回帰のデコーディングを始める高品質な生成文高速なデコーディング高品質な生成文高速なデコーディング初期系列の品質を上げることで… & 近傍事例問題意識 1. 自己回帰的な単語予測は生成文の品質が高く、主流ではあるが速さが損なわれる 2. 非自己回帰生成は全トークンを一度に無から予測するので生成文の品質が劣る背景: 自然言語生成の速度向上に非自己回帰 (NAR) モデルが有望

近傍事例×非自己回帰デコーディング 51 提案: 近傍事例をデコーダの初期値とし、その中の単語を編集（削除・挿入）することで文を生成する非自己回帰生成モデル NARモデルによる生成文の品質をより少ないデコーディング回数で向上させる Niwa+ (2022)

非自己回帰生成における近傍事例の有用性 52  提案手法は既存のIterative（反復デコーディングありの）NARモデルよりも少ないデコーディング回数で高い性能を達成  JRC-AcquisやWikiBioのように、ソース文と近傍事例との距離が近い事例が多い場合に提案手法がより有効であることを確認  特にJRC-Acquisデータセットでは自己回帰モデル以上の性能を少ないデコーディ
ング回数で達成翻訳データセット JRC-Acquis 英独での結果 Niwa+ (2022) 提案手法

文法誤り訂正における説明可能性 53 言語学習者 GECの出力入力: They have tremendous problem. 出力:
They have a tremendous problem. 理由: 修正前: This has tremendous problem. 修正後: This has a tremendous problem. 文法誤り訂正を教育へ応用する際に、訂正に関する説明は重要  言語学習者にとって説明が有用であるという報告がある (Arai+ 2019) Mio Arai, Masahiro Kaneko, Mamoru Komachi. 2019. Grammatical-error-aware incorrect example retrieval system for learners of Japanese as a second language. BEA. Masahiro Kaneko, Sho Takase, Ayana Niwa, and Naoaki Okazaki. 2022. Interpretability for Language Learners Using Example-Based Grammatical Error Correction. ACL. 通常、文法誤り訂正は系列変換モデルによるブラックボックス Kaneko+ (2022)

系列変換における近傍事例は説明になるか？ 54 They have tremendous They have problem . BOS
They have a kNNによる分布変換モデルによる分布予測単語の確率分布デコーダの表現空間訂正前: This has tremendous problem. 訂正後: This has a tremendous problem. 近傍事例: 出力: a Transformer (big) Kaneko+ (2022)

近傍事例による「説明」の有用性 55 提案手法は英語学習者にとって有用な事例を提示した  W&I-test, CoNLL2014, FCE-test, JFLEG-testデータセットにおいて各手法が選択した990件の事例を評価対象とした 
評価者が「有用」と判定した説明の割合で評価した  提案手法は他のベースラインよりも有意に優れた事例を提示 (McNemar検定、 p < 0.05) 提案手法により訂正の正解率も向上した Kaneko+ (2022)

謝辞  本発表にあたり、丹羽彩奈さん（@ayaniwa1213）からスライドの提供およびコメントを頂きました 56

okazaki_NAIST-DSC2022.pdf

okazaki_NAIST-DSC2022.pdf

More Decks by Naoaki Okazaki

Other Decks in Research

Featured

Transcript