言語と数理の交差点：テキストの埋め込みと構造のモデル化 (IBIS 2024 チュートリアル)

Slide 1

Slide 1 text

言語と数理の交差点テキストの埋め込みと構造のモデル化荒瀬由紀情報理工学院・教授 IBIS 2024 チュートリアル

Slide 2

Slide 2 text

自然言語処理と機械学習 • 自然言語処理になくてはならない技術 • 近年の自然言語処理を変えた３大発明 • word2vec (単語埋め込み)：(Mikolov et al. ICLR Workshop 2013) • Attention機構：(Bahdanau et al. ICLR 2015), (Luong et al. EMNLP 2015) • Transformer：(Vaswani et al. NeurIPS 2017)

Slide 3

Slide 3 text

自然言語処理と機械学習 6 • とはいえ近くて遠い隣人 • NLP→ML • MLアルゴリズムや数理モデルの想定や定義を言語現象にグラウンディングするのがむずかしい • ML→NLP • 言語処理が（時に暗黙的に）想定する構造や制約が見えづらい

Slide 4

Slide 4 text

本チュートリアルの目標とアジェンダ 7 言語処理（の|に）ML/数理（への|を）グラウンディングアジェンダ • 文・単語の埋め込み：ML based NLPの基盤 • 言語的構造・タスクに内在する構造のモデル化 • 単語系列としてのテキスト：最適輸送による意味類似度推定，マッピング • テキストに内在する構造：句構造木による文ベクトル合成 • 木構造としてのテキスト：木編集距離による句アラインメント

Slide 5

Slide 5 text

文・単語の埋め込み：ML based NLPの基盤 8 言語データを扱おうと思ったらこれがないとはじまらない

Slide 6

Slide 6 text

文・単語の埋め込み 9 • 記号である単語，単語の系列である句・文をベクトル空間に写像 • 分布仮説： You shall know a word by the company it keeps. (Firth 1957) • 伝統的には単語の共起に基づく統計量（e.g., PMI）を用いて単語ベクトルを構成していた ※単語（埋め込み|分散表現|ベクトル）はおおよそ同じ意味 • Yellowtail with the flavor of grease is exceptional and can be enjoyed even with simple seasoning. • At its best in winter, young yellowtail appears as sashimi while mature yellowtail is or simmered. • If a restaurant is offering yellowtail, it’s either been shipped from Pacific sources, or it is another species. • The maximum observed size for yellowtail in the northeast Pacific Ocean is 92 pounds and estimated to be over 5 feet (155 centimeters).

Slide 7

Slide 7 text

文・単語の埋め込み 11 • 機械学習で分布仮説を自然にモデル化，学習 • word2vec • masked-language modeling (MLM) • 単語・句・文をベクトルで表現できれば • 距離（類似度）を計算できる：内積，コサイン距離 • 機械学習モデルに入力できる “swing” 𝑓𝑓(𝑥𝑥)

Slide 8

Slide 8 text

静的埋め込み：word2vec (skip-gram) 12 • 𝑇𝑇単語からなる単語列を訓練データとして以下の目的関数を最大化 1 𝑇𝑇 � 𝑡𝑡=1 𝑇𝑇 � −𝑐𝑐<𝑗𝑗<𝑐𝑐 log 𝑝𝑝 𝑤𝑤𝑡𝑡+𝑗𝑗 𝑤𝑤𝑡𝑡 𝑝𝑝 𝑤𝑤𝑡𝑡+𝑗𝑗 𝑤𝑤𝑡𝑡 = exp(𝒗𝒗𝒗𝑡𝑡+𝑗𝑗 ⊤𝒗𝒗𝑡𝑡 ) ∑𝑖𝑖∈𝑉𝑉 exp(𝒗𝒗′𝑖𝑖 ⊤𝒗𝒗𝑡𝑡 ) T. Mikolov et al. Efficient estimation of word representations in vector space. ICLR Workshop 2013. T. Mikolov et al. Distributed representations of words and phrases and their compositionality. NeurIPS 2013. apricot caramel butter toast had 𝑤𝑤𝑡𝑡 𝑤𝑤𝑡𝑡−1 𝑤𝑤𝑡𝑡+1 𝒗𝒗𝑡𝑡 𝒗𝒗𝒗𝑡𝑡+1 単語ベクトルある単語から周辺単語を予測 →類似度（内積）が大きくなるよう訓練

Slide 9

Slide 9 text

静的埋め込み：word2vec (CBOW) 13 • Skip-gramとほぼ同じ • 周辺単語から目的単語を予測 apricot caramel butter toast had 𝑤𝑤𝑡𝑡 𝑤𝑤𝑡𝑡−1 𝑤𝑤𝑡𝑡+1 𝒗𝒗𝑡𝑡−1 𝒗𝒗𝒗𝑡𝑡

Slide 10

Slide 10 text

静的埋め込み：“swing”の表現はひとつ 14 • 基本的に一単語一ベクトル • 様々な文脈の情報が唯一のベクトルに集約される Embedding Projector: https://projector.tensorflow.org/

Slide 11

Slide 11 text

文脈化埋め込み：MLM (BERT) 15 • 自己注意機構により文脈を参照しながらマスク単語を予測 • Transformer encoder によるCBOW/skip-gram apricot [MASK] butter toast had Transformer 𝑤𝑤𝑡𝑡 𝑤𝑤𝑡𝑡−1 𝑤𝑤𝑡𝑡+1 Devlin et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL 2019. Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer LM Head LM Head LM Head LM Head LM Head … … … … … caramel 𝑑𝑑 × |𝑉𝑉| softmax 𝒉𝒉𝑡𝑡 𝒉𝒉𝑡𝑡 ※どの層の出力を単語埋め込みとして使うのがよいかはタスク依存

Slide 12

Slide 12 text

BERT：“swing”の表現って200個あんねん 16 full swing swing (politics) swing (music) swing bridge swing (揺らす)

Slide 13

Slide 13 text

NLP研究者は静的・文脈化埋め込みをどう見ているのか 17 • 静的埋め込み • 様々な文脈における単語出現分布を加味した「代表的な」意味の近似 • 当然多義性には弱い • 文脈化埋め込み • 所与の文脈中の単語の意味を表現でき様々なタスクで高い性能 • 句や文等，粒度の大きなテキストの表現生成に直結 • 文脈なしには使いづらい．また「文脈」の影響が大きすぎる場合も． • 文のトピック，周辺単語，構文，文長…

Slide 14

Slide 14 text

句・文ベクトルの合成 • 言語モデルによる合成 • BERT の [CLS] トークンの埋め込み • Fine-tuning しない場合は性能が低い • GPT-2 の文末トークン（"<|endoftext|>"）の埋め込み • 単語埋め込みからの合成 • 単語ベクトルのmean-pooling (Reimers and Gurevych EMNLP 2019) • Fine-tuning しない（教師なし）の場合はこっち Reimers and Gurevych. Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks. EMNLP 2019

Slide 15

Slide 15 text

句・文ベクトルの合成 19 • BERTは特殊トークン “[CLS]” を文頭に付加して訓練 • [CLS] トークンの埋め込みを文ベクトルとする apricot caramel butter toast [CLS] Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer … … … … … 𝒉𝒉2 𝒉𝒉0 𝒉𝒉1 𝒉𝒉3 𝒉𝒉4

Slide 16

Slide 16 text

句・文ベクトルの合成 20 • 各単語の隠れベクトルをmean-pooling apricot caramel butter toast [CLS] Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer … … … … … 𝒉𝒉2 𝒉𝒉0 𝒉𝒉1 𝒉𝒉3 𝒉𝒉4

Slide 17

Slide 17 text

多言語埋め込み 21 一つのモデルを言語ごとに独立な多言語コーパスでMLM訓練 e.g., Multilingual BERT, XLM-R MLM En De Ja Zh

Slide 18

Slide 18 text

ナイーブな多言語MLMは対訳関係を表現しない 22 言語ごとに独立な多言語コーパスで訓練するため多言語間の対応を獲得できない

Slide 19

Slide 19 text

対訳データを活用した多言語モデル学習： LaBSE 23 • 対訳文同士の埋め込みが類似するよう BERTを継続訓練 (Feng et al. 2022) • おおざっぱには対訳文対による skip-gram 1 𝑇𝑇 � 𝑡𝑡=1 𝑇𝑇 log exp(𝒔𝒔𝑖𝑖 ⊤𝒕𝒕𝑖𝑖 − 𝑚𝑚) exp(𝒔𝒔𝑖𝑖 ⊤𝒕𝒕𝑖𝑖 − 𝑚𝑚) + ∑𝑡𝑡=1 𝑇𝑇 exp(𝒔𝒔𝑖𝑖 ⊤𝒕𝒕𝑡𝑡 ) Feng et al. Language-agnostic BERT Sentence Embedding. ACL 2022.

Slide 20

Slide 20 text

多言語埋め込みから意味表現を分離 24 N. Tiyajamorn, T. Kajiwara, Y. Arase, and M. Onizuka. Language-agnostic Representation from Multilingual Sentence Encoders for Cross- lingual Similarity Estimation. EMNLP2021. Sentence embedding Sentence embedding MLPL Language embedding Meaning embedding MLPM (b) 目的言語文 (d) ランダムな目的言語文 (a) 原言語文 (c) ランダムな原言語文対訳 Random sample • 同じ意味 • 異なる言語 • 違う意味 • 同じ言語 Random sample • 違う意味 • 同じ言語対訳文対を用いたマルチタスク学習で意味と言語ベクトルを分離 (Tiyajamorn+ 2021)

Slide 21

Slide 21 text

意味ベクトルの分離 Meaning embedding loss (近づく) Meaning embedding loss (離れる) Target embedding (b) Target embedding MLPL Language embedding Meaning embedding MLPM (d) Random target embedding MLPL Language embedding Meaning embedding MLPM Source embedding (a) Source embedding MLPL Language embedding Meaning embedding MLPM (c) Random source embedding MLPL Language embedding Meaning embedding MLPM Meaning embedding loss (離れる)

Slide 22

Slide 22 text

言語ベクトルの分離 Language embedding loss Language identification MLPI Target embedding (b) Target embedding MLPL Language embedding Meaning embedding MLPM (d) Random target embedding MLPL Language embedding Meaning embedding MLPM Language identification MLPI Source embedding (a) Source embedding MLPL Language embedding Meaning embedding MLPM (c) Random source embedding MLPL Language embedding Meaning embedding MLPM Language embedding loss

Slide 23

Slide 23 text

「意味」と「言語らしさ」成分の分離 27

Slide 24

Slide 24 text

文間類似度推定の性能 28 • 言語間だけでなく言語内でも文間類似度推定の性能が向上人手評価による類似度とのピアソン相関係数

Slide 25

Slide 25 text

言語的構造・タスクに内在する構造のモデル化 29

Slide 26

Slide 26 text

言語処理と構造 • 言語処理研究者の思考 1. データを観察し人間の処理と照らし合わせ，言語そのものやタスクに内在する構造を見出しモデルを設計する 2. 構造を考慮するのに適した（機械学習）モデルを検討 3. モデルのタスクへの適応，拡張 • 個々の事例の観察結果からそこで起こっている言語現象を抽象化 • 言語的直感と経験がものを言う • 構造が分かれば（解けるかは別として）仕事の半分は終わり

Slide 27

Slide 27 text

テキスト間の距離（類似度）推定 • 言語処理におけるもっとも重要な基礎技術のひとつ • 距離が測れると • テキスト分類，クラスタリング • QA：似た過去質問の発掘 • 情報検索，Retrieval-augmented generation: クエリと似た文書を探したい • 言語生成モデルの損失関数 • 言語生成モデルの評価：出力文と参照文の比較

Slide 28

Slide 28 text

テキスト間のマッピング • 距離だけでなくテキスト間の対応関係も知りたい • 二つのテキスト (句|文|段落|文書) 間で意味が類似したものを対応付け（アラインメント） • 距離推定の根拠 • 解釈可能性 • 言い換え（同一言語内），対訳（多言語間）知識の推定

Slide 29

Slide 29 text

距離推定，マッピングの方向 33 • 2つのテキスト対のうち一方をソース，他方をターゲットと呼ぶ • 距離推定・マッピングの方向を仮定する場合としない場合と両方ある（タスク依存）ソース：I had apricot caramel butter toast with black tea this morning. ターゲット：I had sweet toast with tea.

Slide 30

Slide 30 text

二部グラフのマッピング 34

Slide 31

Slide 31 text

テキストを単語ベクトルの系列とみると 35 • テキストの意味が似ている~出現する単語の意味が似ている • 単語ベクトルで単語の意味の距離（類似度）を測れる • 単語にはテキスト内での重要度があるはず • e.g., 冠詞よりも名詞の方が大事そう • 似た意味の単語を推定出来たら，すなわち二部グラフをつくれたら，うまくテキストの距離を測れそう The agency described in a statement that the information was a pack of lies It said in a bulletin that reports about the incident are cheap lies and news rumors

Slide 32

Slide 32 text

最適輸送（OT） 36 重さをもつ二つの点群間の最小輸送コストとマッピングを推定輸送にかかるコスト 1.0 0.0 重さ

Slide 33

Slide 33 text

最適輸送（OT） 37 重さをもつ二つの点群間の最小輸送コストとマッピングを推定輸送にかかるコスト 1.0 0.0 最適でない輸送コスト：100

Slide 34

Slide 34 text

最適輸送（OT） 38 重さをもつ二つの点群間の最小輸送コストとマッピングを推定輸送にかかるコスト 1.0 0.0 最適な輸送コスト：10

Slide 35

Slide 35 text

最適輸送（OT） 39 重さをもつ二つの点群間の最小輸送コストとマッピングを推定マッピング最適な輸送コスト：10

Slide 36

Slide 36 text

最適輸送（OT） 40 重さをもつ二つの点群間の最小輸送コストとマッピングを推定 𝐿𝐿𝐶𝐶 𝒂𝒂, 𝒃𝒃 = min 𝑃𝑃∈𝑈𝑈(𝒂𝒂,𝒃𝒃) � 𝑖𝑖,𝑗𝑗 𝐶𝐶𝑖𝑖,𝑗𝑗 𝑃𝑃𝑖𝑖,𝑗𝑗 𝑈𝑈 𝒂𝒂, 𝒃𝒃 = {𝑃𝑃 ∈ ℝ+ 𝑛𝑛×𝑚𝑚, 𝑃𝑃𝟏𝟏𝑚𝑚 = 𝒂𝒂, 𝑃𝑃⊤𝟏𝟏𝑛𝑛 = 𝒃𝒃} マッピング 𝑃𝑃 輸送にかかるコスト𝐶𝐶 1.0 0.0 𝒂𝒂 𝒃𝒃

Slide 37

Slide 37 text

最適輸送（OT） 41 詳しく知りたい方は佐藤竜馬さんチュートリアル＠IBIS2021 https://speakerdeck.com/joisino/zui-shi-shu-song-ru-men 横井祥さんチュートリアル＠NLP2022 https://speakerdeck.com/eumesy/optimal-transport-for-natural- language-processing

Slide 38

Slide 38 text

OTの輸送コストで類似度推定 42 • Word2vec の登場 • 低次元密ベクトルな単語埋め込みが利用可能に • さらに word2vec の単語ベクトルで意味的類似度が測れることが経験的に示唆される • テキストの意味が似ている →出現する単語の意味が似ている →ソース・ターゲット間の単語埋め込みが似ている • 単語間の距離を積み上げることでテキスト間の距離を測れるのでは？

Slide 39

Slide 39 text

Word Mover’s Distance (Kusner et al. 2015) 43 • 単語ベクトルとOTによる最小輸送コスト＝テキスト間の類似度 • すべての単語は同じ重み • 輸送コストはユークリッド距離 Kusner et al. From word embeddings to document distances. ICML 2015. 𝒂𝒂 = 1 𝑛𝑛 , … , 1 𝑛𝑛 𝒃𝒃 = 1 𝑚𝑚 , … , 1 𝑚𝑚

Slide 40

Slide 40 text

Word Rotator’s Distance (Yokoi et al. 2020) 44 • 単語埋め込みの特性を考慮してWMDを改善 • ノルム：テキスト中の単語の重要度を表現することが経験的に知られている（e.g., (Khodak et al. 2018)） • 輸送コスト：コサイン距離 Yokoi et al. Word Rotator’s Distance. EMNLP 2020. Khodak et al. A La Carte Embedding: Cheap but Effective Induction of Semantic Feature Vectors. ACL 2018. 𝒂𝒂 ∝ 𝒔𝒔1 2 , … , 𝒔𝒔𝑛𝑛 2 𝒃𝒃 ∝ 𝒕𝒕1 2 , … , 𝒕𝒕𝑚𝑚 2

Slide 41

Slide 41 text

文間類似度推定の評価 45 Word Rotator’s Distance > Word Mover’s Distance > Mean-pooling Yokoi et al. 2020 のTable 5より抜粋

Slide 42

Slide 42 text

文間類似度推定の評価 46 • 局所最適なアラインメントをする BERTScoreより高い性能 →OTによる全体最適化の効果 BERTScore：各ソース単語についてコサイン類似度最大のターゲット単語を対応付ける 1 𝑛𝑛 � 𝑖𝑖=1 𝑛𝑛 max 𝑗𝑗∈𝑚𝑚 cos(𝒔𝒔𝑖𝑖 , 𝒕𝒕𝑗𝑗 ) Yokoi et al. 2020 のTable 5より抜粋

Slide 43

Slide 43 text

OTのマッピングで単語アラインメント 47 • 二つの文の間の単語対応を推定したい • 言い換え・対訳知識抽出 • 文間類似度推定の根拠 • 最適輸送コストを与えるマッピングを単語アラインメントとする (Arase et al. 2023) The agency described in a statement that the information was a pack of lies It said in a bulletin that reports about the incident are cheap lies and news rumors Arase et al. Unbalanced Optimal Transport for Unbalanced Word Alignment (ACL 2023)

Slide 44

Slide 44 text

OTのマッピングで単語アラインメント 48 • アラインメントの種類 • 一対一 • 多対多 (一対多・多対一) • 対応なし（Nullアラインメント）：「一致しない」という情報を与える重要な存在．Nullアラインメント割合は64%にのぼることも． The agency described in a statement that the information was a pack of lies It said in a bulletin that reports about the incident are cheap lies and news rumors

Slide 45

Slide 45 text

Balanced OT 49 • すべての単語間にアラインメントが存在することを仮定 𝐿𝐿𝐶𝐶 𝒂𝒂, 𝒃𝒃 = min 𝑃𝑃∈𝑈𝑈(𝒂𝒂,𝒃𝒃) � 𝑖𝑖,𝑗𝑗 𝐶𝐶𝑖𝑖,𝑗𝑗 𝑃𝑃𝑖𝑖,𝑗𝑗 𝑈𝑈 𝒂𝒂, 𝒃𝒃 = {𝑃𝑃 ∈ ℝ+ 𝑛𝑛×𝑚𝑚, 𝑃𝑃𝟏𝟏𝑚𝑚 = 𝒂𝒂, 𝑃𝑃⊤𝟏𝟏𝑛𝑛 = 𝒃𝒃} マッピング 𝑃𝑃 輸送にかかるコスト𝐶𝐶 1.0 0.0 𝒂𝒂 𝒃𝒃

Slide 46

Slide 46 text

Unbalanced/Partial OT 50 • (Balanced) OT は全ての単語が輸送されることが前提 • Unbalanced/Partial OT は「輸送しない」ことを許容する Null アラインメント Unbalanced OT 𝐿𝐿𝐶𝐶 𝒂𝒂, 𝒃𝒃 = min 𝑃𝑃∈ℝ+ 𝑛𝑛×𝑚𝑚 � 𝑖𝑖,𝑗𝑗 𝐶𝐶𝑖𝑖,𝑗𝑗 𝑃𝑃𝑖𝑖,𝑗𝑗 +𝜏𝜏1 𝐷𝐷𝜑𝜑 𝑃𝑃𝟏𝟏𝑚𝑚 𝒂𝒂 + 𝜏𝜏2 𝐷𝐷𝜑𝜑 (𝑃𝑃⊤𝟏𝟏𝑛𝑛 |𝒃𝒃)

Slide 47

Slide 47 text

教師なし単語アラインメントの性能 51 • 単一言語内（英語）の単語アラインメントで実験 • 単語埋め込み：BERT • Unbalanced/Partial OT は（Nullアラインメント割合が異なる）データセットに関わらず一貫して高い性能 Corpus (sparse ↔ dense) MSR-RTE Newsela EDB++ MTRef Arxiv Wiki Alignment links S S + P S S + P S S + P S S + P S S + P S Null rate (%) 63.8 59.0 33.3 23.5 27.4 19.0 18.7 11.2 12.8 12.2 8.3 fast-align 42.3 41.6 58.4 56.5 59.6 60.8 58.1 58.0 80.5 80.5 87.2 SimAlign 85.4 81.5 76.7 77.3 74.7 78.9 74.8 75.8 91.7 91.9 94.8 Type Reg. cost mass POT Sk cosine uniform 92.2 86.4 84.6 79.8 83.8 82.3 77.0 76.6 91.5 90.3 93.9 UOT Sk cosine uniform 90.2 84.5 83.1 79.1 84.7 82.5 77.2 77.1 90.0 89.6 93.8

Slide 48

Slide 48 text

教師なし単語アラインメントの性能 52 • Null アラインメント率が高い文間で高い性能 0% 20% 40% 60% 80% 100% 0 20 40 60 80 100 Alignment F1 (%) Null ratio (%) fast-align SimAlign Regularised POT: cos, uniform UOT: cos, uniform

Slide 49

Slide 49 text

教師あり学習も可能 54 • エントロピー正則化OT (Cuturi 2013) は微分可能→NNに組み込める • 単語アラインメントの損失関数として以下を設計 ℒ 𝑃𝑃𝑖𝑖,𝑗𝑗 , 𝑌𝑌𝑖𝑖,𝑗𝑗 = −𝑌𝑌𝑖𝑖,𝑗𝑗 log 𝑃𝑃𝑖𝑖,𝑗𝑗 − 1 − 𝑌𝑌𝑖𝑖,𝑗𝑗 log(1 − 𝑃𝑃𝑖𝑖,𝑗𝑗 ) Cuturi. Sinkhorn Distances: Lightspeed Computation of Optimal Transport. NeurIPS 2013. マッピング正解のアラインメント

Slide 50

Slide 50 text

教師あり単語アラインメントの性能 55 • 単一言語内（英語）の単語アラインメント • OT というシンプルな枠組みでより複雑な既存手法に匹敵する性能 Corpus (sparse ↔ dense) MSR-RTE Newsela EDB++ MTRef Arxiv Wiki Alignment links S S + P S S + P S S + P S S + P S S + P S Null rate (%) 63.8 59.0 33.3 23.5 27.4 19.0 18.7 11.2 12.8 12.2 8.3 (Lan et al. 2021) 95.1 89.2 86.7 85.3 88.3 87.8 83.4 86.1 95.2 95.0 96.6 (Nagata et al. 2020) 95.0 89.2 79.4 82.4 86.9 87.2 82.9 88.0 89.1 89.5 96.5 Type cost mass POT cosine norm 94.6 88.4 84.0 81.4 85.5 83.7 82.0 85.2 93.0 92.2 95.5 UOT cosine norm 94.8 89.0 86.8 84.7 86.7 86.6 82.9 87.4 92.5 92.8 96.7

Slide 51

Slide 51 text

対訳辞書抽出 56 • 二つの言語間の対訳辞書を自動構築したい • （機械）翻訳，評価，言語学習ネットワークコンピュータ情報苺りんご杏子人参ジャガイモほうれん草 strawberry apple apricot carrot potato spinach network computer information

Slide 52

Slide 52 text

対訳辞書抽出 57 • 文脈依存ではなく単語単体の対応付け →静的な単語埋め込み間のアラインメント問題 • 多言語モデル＆OTで解けそう？ネットワークコンピュータ情報苺りんご杏子人参ジャガイモほうれん草 strawberry apple apricot carrot potato spinach network computer information

Slide 53

Slide 53 text

[Recap] ナイーブな多言語MLMは対訳関係を表現しない 58 言語ごとに独立な多言語コーパスで訓練するため多言語間の対応を獲得できない

Slide 54

Slide 54 text

対訳辞書抽出 59 • 同一言語内の単語埋め込み間の関係に着目すると… • 対訳関係にある単語同士でクラスタを構成する傾向 • 単語ベクトル間の距離は言語間で（多くの場合）保存されるネットワークコンピュータ情報苺りんご杏子人参ジャガイモほうれん草 strawberry apple apricot carrot potato spinach network computer information

Slide 55

Slide 55 text

Gromov-Wasserstein距離による対訳辞書抽出（Alvarez-Melis et al. 2018） 60 • ソース，ターゲットそれぞれの空間での「距離」の最適輸送 • 教師なしでの対訳辞書抽出が可能 Alvarez-Melis et al. Gromov-Wasserstein Alignment of Word Embedding Spaces. EMNLP 2018. 人参ジャガイモほうれん草 carrot potato spinach min 𝑃𝑃∈𝑈𝑈(𝒂𝒂,𝒃𝒃) � 𝑖𝑖,𝑗𝑗, ̂ 𝚤𝚤, ̂ 𝚥𝚥 |𝐶𝐶𝑖𝑖, ̂ 𝚤𝚤 − ̂ 𝐶𝐶𝑗𝑗, ̂ 𝚥𝚥 |𝑃𝑃𝑖𝑖,𝑗𝑗 𝑃𝑃 ̂ 𝚤𝚤, ̂ 𝚥𝚥 𝐶𝐶 ∈ ℝ+ 𝑛𝑛×𝑛𝑛, ̂ 𝐶𝐶 ∈ ℝ+ 𝑚𝑚×𝑚𝑚

Slide 56

Slide 56 text

対訳辞書抽出性能 61 • GWマッピングはより複雑な既存手法に匹敵する性能

Slide 57

Slide 57 text

言語における木構造 62

Slide 58

Slide 58 text

言語的構造 • ここまではテキストを単語の系列と見てきた • 単語埋め込みとOTで距離・マッピング（アラインメント）推定 • 言語には文法・意味による構造が存在する

Slide 59

Slide 59 text

言語的構造 • 構文的構造（文法的側面に主に注目） • 句構造 • 語が組み合わさって大きな単位（句，文）の意味を構成する構造を表現 • 依存構造 • 語と語の間の係り受け関係を表現 • 意味的な構造（語と語の関係に注目） • Abstract Meaning Representation (AMR)

Slide 60

Slide 60 text

句構造 65 • 句構造木：語が組み合わさって大きな単位（句，文）の意味を構成する構造を表現 sweet sweet chocolate have I a tooth and love NP NP NP VP VP VP S 「甘いチョコレート」

Slide 61

Slide 61 text

句構造 66 • 句構造木：語が組み合わさって大きな単位（句，文）の意味を構成する構造を表現 sweet sweet chocolate have I a tooth and love NP NP NP VP VP VP S 「甘いチョコレートが好き」

Slide 62

Slide 62 text

句・文ベクトルの合成 • 単語ベクトルのmean-pooling • 言語モデルによる合成 e.g., BERT の [CLS] トークンの埋め込み • いずれの方法も句・文ベクトル合成に言語的構造は (陽に) 用いない apricot caramel butter toast [CLS] Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer Transformer … … … … … 𝒉𝒉2 𝒉𝒉0 𝒉𝒉1 𝒉𝒉3 𝒉𝒉4

Slide 63

Slide 63 text

句構造に基づく句・文ベクトル合成 68 • 句構造木：語が組み合わさって大きな単位（句，文）の意味を構成する構造を表現 • 仮説：「組み合わせの構造」を使えばよい句・文ベクトルを合成できるはず sweet sweet chocolate have I a tooth and love NP NP NP VP VP VP S 「甘いチョコレートが好き」

Slide 64

Slide 64 text

Recursive Neural Network 69 • 木（句）構造に従って隠れベクトルを合成 (Socher et al. 2011) 𝒑𝒑1 = 𝑔𝑔 𝑊𝑊 𝒃𝒃 𝒄𝒄 , 𝒑𝒑2 = 𝑔𝑔 𝑊𝑊 𝒂𝒂 𝒑𝒑1 𝒂𝒂, 𝒃𝒃, 𝒄𝒄 ∈ ℝ𝑑𝑑, 𝑊𝑊 ∈ ℝ2𝑑𝑑 • 葉から根に向かって再帰的にエンコード • 各ノードでラベル予測の学習 � 𝒚𝒚𝑖𝑖 = softmax(𝒑𝒑𝑖𝑖 ) Socher et al. Parsing Natural Scenes and Natural Language with Recursive Neural Networks. ICML 2011.

Slide 65

Slide 65 text

Recursive Neural Tensor Network 70 仮説：NPとNP, ADPとNPのように言語的「組み合わせ」は様々．ぞれぞれに適した合成をしたい (Socher et al. 2013)． 𝒑𝒑1 = 𝑔𝑔 𝒃𝒃 𝒄𝒄 ⊤ 𝑉𝑉[1:𝑑𝑑] 𝒃𝒃 𝒄𝒄 + 𝑊𝑊 𝒃𝒃 𝒄𝒄 𝒑𝒑2 = 𝑔𝑔 𝒂𝒂 𝒑𝒑1 ⊤ 𝑉𝑉[1:𝑑𝑑] 𝒂𝒂 𝒑𝒑1 + 𝑊𝑊 𝒂𝒂 𝒑𝒑1 𝑉𝑉 ∈ ℝ2𝑑𝑑×2𝑑𝑑×𝑑𝑑 Intuitively, we can interpret each slice of the tensor as capturing a specific type of composition. → Multi-head attention に通ずる思想 Socher et al. Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank. EMNLP2013.

Slide 66

Slide 66 text

ベースとなるNNと共に進化 71 • Tree-LSTM (Tai et al. 2015) • LSTMセルを採用 • Tree-Transformer (Wang et al. 2019) • (教師無し学習で推定される) 句構造に基づくself-attention Tai et al. Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks. ACL 2015. Wang et al. Tree Transformer: Integrating Tree Structures into Self-Attention. EMNLP 2019.

Slide 67

Slide 67 text

Stanford Sentiment Treebank での評価 72 • 句構造木の各ノードのpositive/negativeさを5段階でアノテーション • 各ノードのpositive/negative 度合が混じりながら葉から根へ伝搬

Slide 68

Slide 68 text

Stanford Sentiment Treebank での評価 73 • Recursive NNにより構造を考慮したエンコードを行うことで単語埋め込みのmean-poolingより高性能 • Tree-LSTM > RNTN > RNN と順調な性能向上 Table 2 from Tai et al. 2015

Slide 69

Slide 69 text

木構造間の距離・マッピング 74

Slide 70

Slide 70 text

言語処理における木構造の位置づけ 75 • 言語の木構造はテキストの意味に基づく理解を可能に • テキストの木構造同士を対応付けることで意味類似性判定が可能になるという期待 →出現単語の一致という表層的な類似性判定から脱却 A humming bird got away when a dancing girl approached. A humming girl got away when a dancing bird approached. https://aaknaturewatch.com/blog/birdwaching/riflebird-display/

Slide 71

Slide 71 text

木編集距離・マッピング 76 • 編集操作を繰り返し適用して木𝑇𝑇1 を木𝑇𝑇2 に変換 • 木の編集操作：置換，削除，挿入 • 編集コスト： � 𝑢𝑢,𝑣𝑣 ∈{𝑢𝑢→𝑣𝑣|𝑢𝑢∈𝑇𝑇1,𝑣𝑣∈𝑇𝑇2} 𝛾𝛾(𝑢𝑢 → 𝑣𝑣) + � 𝑢𝑢∈∅𝑇𝑇1 𝛾𝛾(𝑢𝑢 → ∅) + � 𝑣𝑣∈∅𝑇𝑇2 𝛾𝛾(∅ → 𝑣𝑣) 置換 ℓ1 ⟶ ℓ2 ℓ2 ⟶ ∅ 削除 ℓ1 ℓ2 ℓ2 ℓ1 ℓ1 挿入 ∅ ⟶ ℓ2

Slide 72

Slide 72 text

木編集距離・マッピング 77 • 木編集距離：木𝑇𝑇1 を木𝑇𝑇2 に最小コストで変換するときのコスト • 各編集操作のコストは任意の距離メトリック • マッピング：その際のノード間の対応関係 f d e a c b a c d a b d f d e a c b a c d a b d f d e a b … ソースターゲット

Slide 73

Slide 73 text

木編集距離のNLPでの利用 78 • 木編集距離はテキスト間距離を測るメトリックとして（ニューラル以前から）NLPで使われてきた • QAシステム (Kouylekov et al. 2004) • 質問と回答候補の距離を木編集距離で評価 • 含意関係認識（Punyakanok et al. 2005） • 含意関係認識：テキストTの内容が真のとき，仮説Hが成立するかを判定するタスク T: 551を食べた H: 中華まんを食べた • TとHの距離を木編集距離で評価 Punyakanok et al. Mapping Dependencies Trees: An Application to Question Answering. PASCAL Recognising Textual Entailment Challenge 2005. Kouylekov et al. Recognizing Textual Entailment with Tree Edit Distance Algorithms. AI&Math-2004.

Slide 74

Slide 74 text

似た意味を持つ句の推定 79 • 2つの句構造木においてノード間の対応（アラインメント）を推定 (Arase and Tsujii. 2020) • 文間類似度推定，パラフレーズ抽出に有益 Relying on team spirit , the research group antivirus developed vaccines The scientific team created vaccines against the virus through teamwork Arase and Tsujii. Compositional Phrase Alignment and Beyond. EMNLP2020.

Slide 75

Slide 75 text

似た意味を持つ句の推定 80 • 句構造木：語が組み合わさって大きな単位（句，文）の意味を構成する構造を表現 • 仮説：句の構造によってアラインメントが決まる Relying on team spirit , the research group antivirus developed vaccines The scientific team created vaccines against the virus through teamwork Arase and Tsujii. Compositional Phrase Alignment and Beyond. EMNLP2020.

Slide 76

Slide 76 text

句アライメントの性質 81 • 各ノードについてアラインメントは高々一つ Relying on team spirit , the research group antivirus developed vaccines The scientific team created vaccines against the virus through teamwork

Slide 77

Slide 77 text

句アライメントの性質 82 • 同じ木構造内でアラインメントの先祖・子孫関係は維持される Relying on team spirit , the research group antivirus developed vaccines The scientific team created vaccines against the virus through teamwork

Slide 78

Slide 78 text

句アライメントの性質 83 • 同じ木構造内でアラインメントの先祖・子孫関係は維持される Relying on team spirit , the research group antivirus developed vaccines The scientific team created vaccines against the virus through teamwork

Slide 79

Slide 79 text

句アライメントの性質 84 • 同じ木構造内でアラインメントの先祖・子孫関係は維持される Relying on team spirit , the research group antivirus developed vaccines The scientific team created vaccines against the virus through teamwork

Slide 80

Slide 80 text

句アライメントの性質 85 • 同じ木構造内でアラインメントの先祖・子孫関係は維持される • ただし左右の子（兄弟）の順序はひっくり返る場合がある Relying on team spirit , the research group antivirus developed vaccines The scientific team created vaccines against the virus through teamwork

Slide 81

Slide 81 text

句アライメントの性質 86 • 句アラインメントは部分木を構成する →子孫ノードのアラインメントが他の部分木に飛び出さない Relying on team spirit , the research group antivirus developed vaccines The scientific team created vaccines against the virus through teamwork

Slide 82

Slide 82 text

句アライメントの性質 87 • Nullアラインメントも存在 Relying on team spirit , the research group antivirus developed vaccines The scientific team created vaccines against the virus through teamwork

Slide 83

Slide 83 text

句アライメント＝無順序木のマッピング 88 • 木のマッピングの一種，制限マッピング (Zhang 1996) に一致 • 教師なし，多項式時間可解 • 編集操作とアラインメント • 置換：ノード間にアラインメントが存在 • 削除：ソース側のノードがNullアラインメント • 挿入：ターゲット側のノードがNullアラインメント Zhang. 1996. A constrained edit distance between unordered labeled trees. Algorithmica, 15(3):205–222

Slide 84

Slide 84 text

句アライメント＝無順序木のマッピング 89 • 句ベクトルのコサイン距離で編集コストを定義 • BERTによる単語埋め込みを用いることでテキストの強力な意味表現を制限マッピングで活用 • Nullアラインメントコストは定数 𝜆𝜆∅ � 𝑢𝑢,𝑣𝑣 ∈{𝑢𝑢→𝑣𝑣|𝑢𝑢∈𝑇𝑇1,𝑣𝑣∈𝑇𝑇2} cosine_dist(𝒖𝒖 , 𝒗𝒗) + � 𝑢𝑢∈∅𝑇𝑇1 𝜆𝜆∅ + � 𝑣𝑣∈∅𝑇𝑇2 𝜆𝜆∅

Slide 85

Slide 85 text

句アライメントでの評価実験 90 74 76 78 80 82 84 86 88 (Arase and Tsujii 2017) BERT + Thresholding BERT + CTED アラインメントのF1値構造制約なし，局所最適句構造木＋制限距離マッピングによる全体最適

Slide 86

Slide 86 text

まとめ 91 • ML based NLPの基盤：文・単語の埋め込み • 言語的構造・タスクに内在する構造のモデル化 • 単語系列としてのテキスト：最適輸送による意味類似度推定，マッピング • テキストに内在する構造：句構造木による文ベクトル合成 • 木構造としてのテキスト：木編集距離による句アラインメント • 言語やタスクに内在する構造を数理的にモデル化することで一見複雑な言語現象を統一的に扱える

Slide 87

Slide 87 text

言語は多様 92 • 文の構成は自由度が非常に高く，多様性に満ちている • 人間の創造性 • 文法的に誤った文 • 大多数の事例が数理モデルの制約を満たしても，そこから逸脱する現象もまま起こる • 例外的なケースをどう扱うかは設計思想において重要例：順序木マッピングの制約は言語に対し厳しすぎる • 順序木マッピングにおける編集操作を拡張 (Heilman and Smith 2010) • 制約の緩い無順序木マッピングを利用 (Arase and Tsujii 2020) Heilman and Smith. Tree Edit Models for Recognizing Textual Entailments, Paraphrases, and Answers to Questions. NAACL 2010.

Slide 88

Slide 88 text

言語は多様 93 • 句アライメントの性質は多くの場合成立するがたまに満たさないケースもある • この場合は後から空いている部分木を埋める後処理で対処 Relying on team spirit , the research group antivirus developed vaccines The scientific team created vaccines against the virus through teamwork 同じ部分木にいない ※後処理で追加

Slide 89

Slide 89 text

句構造に基づく句・文ベクトル合成 94 • 語の意味を組み合わせても句の意味にならない場合がある • こういった言語の多様かつ不思議な特性を考えるのが醍醐味 sweet sweet chocolate have I a tooth and love NP NP NP VP VP VP S 「甘い歯」ではなく「甘党」「甘いチョコレート」