Slide 1

Slide 1 text

Modeling Mathematical Notation Semantics in Academic Papers Jo et al., EMNLP 2021 Findings Kaito Sugimoto Aizawa Lab. M2 2022/04/19 1 / 20

Slide 2

Slide 2 text

紹介する論文 EMNLP 2021 Findings 2 / 20

Slide 3

Slide 3 text

概要 • 学術的な文献に出てくる数学記号の意味を, 今の NLP モデルがど の程度うまく学習できるかを調べる研究 • 特に「記号の周囲のテキストから記号を予測する」タスクに フォーカスし, モデルのパフォーマンスを調べる • さらに, 数学記号の予測問題に特化したモデル(具体的には, 記号 穴埋めで fine-tuning したモデル)を提案 • 提案モデルは既存モデルに比べて, 数学記号の予測で良い性能を 発揮したが, 未知のトークンの予測が難しい, 数学記号の構造を 把握できていない, という問題点も明らかになった 3 / 20

Slide 4

Slide 4 text

背景 • 数学記号とその意味(を表すテキスト)は密接な関係にある • Wolska and Grigore (2010) 1 によれば, 7 割の記号が, その記号が導入され た段落と同じ段落で定義されているそうである • うまく訓練された言語モデルであれば, コンテキストから適切な記号を 選べるはず • 数学記号にまつわる問題を NLP 的アプローチで扱う研究も既に 多数ある • logic reasoning を解かせる 2, 数学の分野ごとに特有の等式を出力させる 3, 入力の数式に対してその定義を検知する 4 など 1Wolska and Grigore, Symbol Declarations in Mathematical Writing 2Rabe et al., Mathematical reasoning via self-supervised skip-tree training (ICLR 2020) 3Yasunaga and Lafferty, A joint topic and mathematical equation model for scientific texts (AAAI 2019) 4Kang et al., Document-level definition detection in scholarly documents: Existing models, error analyses, and future directions. (SDP 2020) 4 / 20

Slide 5

Slide 5 text

背景 著者らはなぜ「記号の周囲のテキストから記号を予測する」タスクに 注目したか → アプリケーション上重要だから 1 Notation auto-suggestions: たとえばディープラーニングでは学 習率を 𝛼 と表すことが多いように, 慣習的に同じ記号を用いる ケースが多くある. 記号提案システムは, そのような慣習をうま く学習し, 適切な記号を自動でサジェストしてくれるシステム 2 Notation consistency checks: 1 つのドキュメントで, ある箇所で は D が差(デルタ)を, 別の箇所ではドキュメントを表していた りすると問題である. 記号一貫性チェックシステムは, そのよう な異なる用法での記号の使用を警告してくれるシステム 5 / 20

Slide 6

Slide 6 text

タスク • 今回のタスクでは, TeX ファイル中の $ で囲まれた部分のトーク ンを予測することにする • これにより, 数学記号における x なのか, xi なのか, x なのか, と いった違いも情報として扱うことができる 6 / 20

Slide 7

Slide 7 text

タスク 以下のように設定を単純化する • Notation auto-suggestions 予測すべきトークンの左側にある文 章のみからトークンをどの程度予測できるか?(執筆しながら適 切な記号を選ぶイメージ) • Notation consistency checks 予測すべきトークンの左側にある 文章と右側にある文章の双方からトークンをどの程度予測でき るか?(既に書いた内容をチェックするイメージ) 7 / 20

Slide 8

Slide 8 text

タスク auto-suggestions task の例 8 / 20

Slide 9

Slide 9 text

提案モデル MATHPREDICTOR: BERT を数式穴埋めで fine-tune したモデル 9 / 20

Slide 10

Slide 10 text

提案モデル • 語彙の追加: 既存の BERT の tokenizer では \overline が \と over と ##line に分割されてしまうので, LaTeX のマクロを 2,700 トーク ン程度追加 10 / 20

Slide 11

Slide 11 text

提案モデル • Permutation over notation tokens: 例えば \overline, h という連続 するトークンが正解データの際に, いきなりモデルに全て予測さ せるのではなく, \overline だけマスクしたものや h だけマスクし たものを確率的に入れる. これにより, \overline の後には必ずアルファベット等が来る, と いったトークン間の関係性の学習が期待できる • Notation length constraint: 予測すべきトークン列があまりにも 長いと予測が難しいため, マスクする最大の長さを 10 以下に制限 する 11 / 20

Slide 12

Slide 12 text

提案モデル • Larger context modeling: BERT のトークン長制限は 512 なので, 論文全体を入力に入れることはできない. LongFormer のような 改良モデルが提案されているが, 推論時間が遅くなってしまうた め, リアルタイムの執筆支援に適さないと判断. そこで, 基本的には, 予測すべきトークンの周囲数文しか入力と して使わない. それよりも遠い位置にある文の情報を使うモデルとして, まとめ て(CLS から得られる)文ベクトルの平均として入力させるモデ ルを別に作成( FullContext モデル). ただしこのモデルは後で評 価で示すように, うまくいかなかった. 12 / 20

Slide 13

Slide 13 text

評価結果: 全体 (FT): fine-tuning 13 / 20

Slide 14

Slide 14 text

評価結果: Context の長さによる差 14 / 20

Slide 15

Slide 15 text

評価結果: データセットの難易度による差 周囲のテキストに含まれていない未知の数学記号を予測する Challenge set では全然正解できていない → 「ディープラーニングでは学習率を 𝛼 と表すことが多い」という ような慣習をうまく学習するには課題がありそう 15 / 20

Slide 16

Slide 16 text

評価結果: 数学記号の種類による差 16 / 20

Slide 17

Slide 17 text

評価結果: 数学記号の種類による差 17 / 20

Slide 18

Slide 18 text

評価結果: 評価方法の差 • 今までの評価方法はトークンレベルの予測結果の評価だったが, 数式単位, 文単位で評価するとどうなるかを調べた. • 結果として, original BERT を除く全てのモデルでスコアが下 がった. • original BERT はより構造的な一貫性を把握する能力があり, それ が追加学習によって損なわれたのかもしれない → 数式の木構造 を取り入れた追加学習を行う方がよさそう 18 / 20

Slide 19

Slide 19 text

予測例 19 / 20

Slide 20

Slide 20 text

感想・まとめ • 数字だけでなく, 演算子や TeX のマクロを含めた数式全体で考え た場合の現状の課題がわかって面白かった • 訓練データの量の問題かもしれない(論文によると, 提案モデル の追加学習にはランダムに 1,000 本の論文データしか使っていな い)ので, 大量の TeX ファイルでスクラッチ学習すると多少は改 善しそう • どの記号がどのような意味で使われることが多いか? みたいな 慣習をテキストから上手くまとめられるとよさそう 20 / 20