【論文紹介】Modeling Mathematical Notation Semantics in Academic Papers

Slide 1

Slide 1 text

Modeling Mathematical Notation Semantics in Academic Papers Jo et al., EMNLP 2021 Findings Kaito Sugimoto Aizawa Lab. M2 2022/04/19 1 / 20

Slide 2

Slide 2 text

紹介する論文 EMNLP 2021 Findings 2 / 20

Slide 3

Slide 3 text

概要 • 学術的な文献に出てくる数学記号の意味を, 今の NLP モデルがどの程度うまく学習できるかを調べる研究 • 特に「記号の周囲のテキストから記号を予測する」タスクにフォーカスし, モデルのパフォーマンスを調べる • さらに, 数学記号の予測問題に特化したモデル（具体的には, 記号穴埋めで ﬁne-tuning したモデル）を提案 • 提案モデルは既存モデルに比べて, 数学記号の予測で良い性能を発揮したが, 未知のトークンの予測が難しい, 数学記号の構造を把握できていない, という問題点も明らかになった 3 / 20

Slide 4

Slide 4 text

背景 • 数学記号とその意味（を表すテキスト）は密接な関係にある • Wolska and Grigore (2010) 1 によれば, 7 割の記号が, その記号が導入された段落と同じ段落で定義されているそうである • うまく訓練された言語モデルであれば, コンテキストから適切な記号を選べるはず • 数学記号にまつわる問題を NLP 的アプローチで扱う研究も既に多数ある • logic reasoning を解かせる 2, 数学の分野ごとに特有の等式を出力させる 3, 入力の数式に対してその定義を検知する 4 など 1Wolska and Grigore, Symbol Declarations in Mathematical Writing 2Rabe et al., Mathematical reasoning via self-supervised skip-tree training (ICLR 2020) 3Yasunaga and Lafferty, A joint topic and mathematical equation model for scientific texts (AAAI 2019) 4Kang et al., Document-level definition detection in scholarly documents: Existing models, error analyses, and future directions. (SDP 2020) 4 / 20

Slide 5

Slide 5 text

背景著者らはなぜ「記号の周囲のテキストから記号を予測する」タスクに注目したか → アプリケーション上重要だから 1 Notation auto-suggestions: たとえばディープラーニングでは学習率を 𝛼 と表すことが多いように, 慣習的に同じ記号を用いるケースが多くある. 記号提案システムは, そのような慣習をうまく学習し, 適切な記号を自動でサジェストしてくれるシステム 2 Notation consistency checks: 1 つのドキュメントで, ある箇所では D が差（デルタ）を, 別の箇所ではドキュメントを表していたりすると問題である. 記号一貫性チェックシステムは, そのような異なる用法での記号の使用を警告してくれるシステム 5 / 20

Slide 6

Slide 6 text

タスク • 今回のタスクでは, TeX ファイル中の $ で囲まれた部分のトークンを予測することにする • これにより, 数学記号における x なのか, xi なのか, x なのか, といった違いも情報として扱うことができる 6 / 20

Slide 7

Slide 7 text

タスク以下のように設定を単純化する • Notation auto-suggestions 予測すべきトークンの左側にある文章のみからトークンをどの程度予測できるか？（執筆しながら適切な記号を選ぶイメージ） • Notation consistency checks 予測すべきトークンの左側にある文章と右側にある文章の双方からトークンをどの程度予測できるか？（既に書いた内容をチェックするイメージ） 7 / 20

Slide 8

Slide 8 text

タスク auto-suggestions task の例 8 / 20

Slide 9

Slide 9 text

提案モデル MATHPREDICTOR: BERT を数式穴埋めで ﬁne-tune したモデル 9 / 20

Slide 10

Slide 10 text

提案モデル • 語彙の追加: 既存の BERT の tokenizer では \overline が \と over と ##line に分割されてしまうので, LaTeX のマクロを 2,700 トークン程度追加 10 / 20

Slide 11

Slide 11 text

提案モデル • Permutation over notation tokens: 例えば \overline, h という連続するトークンが正解データの際に, いきなりモデルに全て予測させるのではなく, \overline だけマスクしたものや h だけマスクしたものを確率的に入れる. これにより, \overline の後には必ずアルファベット等が来る, といったトークン間の関係性の学習が期待できる • Notation length constraint: 予測すべきトークン列があまりにも長いと予測が難しいため, マスクする最大の長さを 10 以下に制限する 11 / 20

Slide 12

Slide 12 text

提案モデル • Larger context modeling: BERT のトークン長制限は 512 なので, 論文全体を入力に入れることはできない. LongFormer のような改良モデルが提案されているが, 推論時間が遅くなってしまうため, リアルタイムの執筆支援に適さないと判断. そこで, 基本的には, 予測すべきトークンの周囲数文しか入力として使わない. それよりも遠い位置にある文の情報を使うモデルとして, まとめて（CLS から得られる）文ベクトルの平均として入力させるモデルを別に作成（ FullContext モデル）. ただしこのモデルは後で評価で示すように, うまくいかなかった. 12 / 20

Slide 13

Slide 13 text

評価結果: 全体 (FT): ﬁne-tuning 13 / 20

Slide 14

Slide 14 text

評価結果: Context の長さによる差 14 / 20

Slide 15

Slide 15 text

評価結果: データセットの難易度による差周囲のテキストに含まれていない未知の数学記号を予測する Challenge set では全然正解できていない → 「ディープラーニングでは学習率を 𝛼 と表すことが多い」というような慣習をうまく学習するには課題がありそう 15 / 20

Slide 16

Slide 16 text

評価結果: 数学記号の種類による差 16 / 20

Slide 17

Slide 17 text

評価結果: 数学記号の種類による差 17 / 20

Slide 18

Slide 18 text

評価結果: 評価方法の差 • 今までの評価方法はトークンレベルの予測結果の評価だったが, 数式単位, 文単位で評価するとどうなるかを調べた. • 結果として, original BERT を除く全てのモデルでスコアが下がった. • original BERT はより構造的な一貫性を把握する能力があり, それが追加学習によって損なわれたのかもしれない → 数式の木構造を取り入れた追加学習を行う方がよさそう 18 / 20

Slide 19

Slide 19 text

予測例 19 / 20

Slide 20

Slide 20 text

感想・まとめ • 数字だけでなく, 演算子や TeX のマクロを含めた数式全体で考えた場合の現状の課題がわかって面白かった • 訓練データの量の問題かもしれない（論文によると, 提案モデルの追加学習にはランダムに 1,000 本の論文データしか使っていない）ので, 大量の TeX ファイルでスクラッチ学習すると多少は改善しそう • どの記号がどのような意味で使われることが多いか？みたいな慣習をテキストから上手くまとめられるとよさそう 20 / 20