【論文紹介】Modeling Mathematical Notation Semantics in Academic Papers

Modeling Mathematical Notation Semantics in Academic Papers Jo et al.,
EMNLP 2021 Findings Kaito Sugimoto Aizawa Lab. M2 2022/04/19 1 / 20

紹介する論文 EMNLP 2021 Findings 2 / 20

概要 • 学術的な文献に出てくる数学記号の意味を, 今の NLP モデルがどの程度うまく学習できるかを調べる研究 • 特に「記号の周囲のテキストから記号を予測する」タスクにフォーカスし,
モデルのパフォーマンスを調べる • さらに, 数学記号の予測問題に特化したモデル（具体的には, 記号穴埋めで ﬁne-tuning したモデル）を提案 • 提案モデルは既存モデルに比べて, 数学記号の予測で良い性能を発揮したが, 未知のトークンの予測が難しい, 数学記号の構造を把握できていない, という問題点も明らかになった 3 / 20

背景 • 数学記号とその意味（を表すテキスト）は密接な関係にある • Wolska and Grigore (2010) 1 によれば,
7 割の記号が, その記号が導入された段落と同じ段落で定義されているそうである • うまく訓練された言語モデルであれば, コンテキストから適切な記号を選べるはず • 数学記号にまつわる問題を NLP 的アプローチで扱う研究も既に多数ある • logic reasoning を解かせる 2, 数学の分野ごとに特有の等式を出力させる 3, 入力の数式に対してその定義を検知する 4 など 1Wolska and Grigore, Symbol Declarations in Mathematical Writing 2Rabe et al., Mathematical reasoning via self-supervised skip-tree training (ICLR 2020) 3Yasunaga and Lafferty, A joint topic and mathematical equation model for scientific texts (AAAI 2019) 4Kang et al., Document-level definition detection in scholarly documents: Existing models, error analyses, and future directions. (SDP 2020) 4 / 20

背景著者らはなぜ「記号の周囲のテキストから記号を予測する」タスクに注目したか → アプリケーション上重要だから 1 Notation auto-suggestions: たとえばディープラーニングでは学習率を
𝛼 と表すことが多いように, 慣習的に同じ記号を用いるケースが多くある. 記号提案システムは, そのような慣習をうまく学習し, 適切な記号を自動でサジェストしてくれるシステム 2 Notation consistency checks: 1 つのドキュメントで, ある箇所では D が差（デルタ）を, 別の箇所ではドキュメントを表していたりすると問題である. 記号一貫性チェックシステムは, そのような異なる用法での記号の使用を警告してくれるシステム 5 / 20

タスク • 今回のタスクでは, TeX ファイル中の $ で囲まれた部分のトークンを予測することにする • これにより,
数学記号における x なのか, xi なのか, x なのか, といった違いも情報として扱うことができる 6 / 20

タスク以下のように設定を単純化する • Notation auto-suggestions 予測すべきトークンの左側にある文章のみからトークンをどの程度予測できるか？（執筆しながら適切な記号を選ぶイメージ） • Notation
consistency checks 予測すべきトークンの左側にある文章と右側にある文章の双方からトークンをどの程度予測できるか？（既に書いた内容をチェックするイメージ） 7 / 20

タスク auto-suggestions task の例 8 / 20

提案モデル MATHPREDICTOR: BERT を数式穴埋めで ﬁne-tune したモデル 9 / 20

提案モデル • 語彙の追加: 既存の BERT の tokenizer では \overline が
\と over と ##line に分割されてしまうので, LaTeX のマクロを 2,700 トークン程度追加 10 / 20

提案モデル • Permutation over notation tokens: 例えば \overline, h という連続
するトークンが正解データの際に, いきなりモデルに全て予測させるのではなく, \overline だけマスクしたものや h だけマスクしたものを確率的に入れる. これにより, \overline の後には必ずアルファベット等が来る, といったトークン間の関係性の学習が期待できる • Notation length constraint: 予測すべきトークン列があまりにも長いと予測が難しいため, マスクする最大の長さを 10 以下に制限する 11 / 20

提案モデル • Larger context modeling: BERT のトークン長制限は 512 なので, 論文全体を入力に入れることはできない.
LongFormer のような改良モデルが提案されているが, 推論時間が遅くなってしまうため, リアルタイムの執筆支援に適さないと判断. そこで, 基本的には, 予測すべきトークンの周囲数文しか入力として使わない. それよりも遠い位置にある文の情報を使うモデルとして, まとめて（CLS から得られる）文ベクトルの平均として入力させるモデルを別に作成（ FullContext モデル）. ただしこのモデルは後で評価で示すように, うまくいかなかった. 12 / 20

評価結果: 全体 (FT): ﬁne-tuning 13 / 20

評価結果: Context の長さによる差 14 / 20

評価結果: データセットの難易度による差周囲のテキストに含まれていない未知の数学記号を予測する Challenge set では全然正解できていない → 「ディープラーニングでは学習率を 𝛼 と表すことが多い」という
ような慣習をうまく学習するには課題がありそう 15 / 20

評価結果: 数学記号の種類による差 16 / 20

評価結果: 数学記号の種類による差 17 / 20

評価結果: 評価方法の差 • 今までの評価方法はトークンレベルの予測結果の評価だったが, 数式単位, 文単位で評価するとどうなるかを調べた. • 結果として, original BERT
を除く全てのモデルでスコアが下がった. • original BERT はより構造的な一貫性を把握する能力があり, それが追加学習によって損なわれたのかもしれない → 数式の木構造を取り入れた追加学習を行う方がよさそう 18 / 20

予測例 19 / 20

感想・まとめ • 数字だけでなく, 演算子や TeX のマクロを含めた数式全体で考えた場合の現状の課題がわかって面白かった • 訓練データの量の問題かもしれない（論文によると, 提案モデル
の追加学習にはランダムに 1,000 本の論文データしか使っていない）ので, 大量の TeX ファイルでスクラッチ学習すると多少は改善しそう • どの記号がどのような意味で使われることが多いか？みたいな慣習をテキストから上手くまとめられるとよさそう 20 / 20

【論文紹介】Modeling Mathematical Notation Semantics ...

【論文紹介】Modeling Mathematical Notation Semantics in Academic Papers

Kaito Sugimoto

More Decks by Kaito Sugimoto

Other Decks in Research

Featured

Transcript

Modeling Mathematical Notation Semantics in Academic Papers Jo et al.,

紹介する論文 EMNLP 2021 Findings 2 / 20

概要 • 学術的な文献に出てくる数学記号の意味を, 今の NLP モデルがどの程度うまく学習できるかを調べる研究 • 特に「記号の周囲のテキストから記号を予測する」タスクにフォーカスし,

背景 • 数学記号とその意味（を表すテキスト）は密接な関係にある • Wolska and Grigore (2010) 1 によれば,

背景著者らはなぜ「記号の周囲のテキストから記号を予測する」タスクに注目したか → アプリケーション上重要だから 1 Notation auto-suggestions: たとえばディープラーニングでは学習率を

タスク • 今回のタスクでは, TeX ファイル中の $ で囲まれた部分のトークンを予測することにする • これにより,

タスク以下のように設定を単純化する • Notation auto-suggestions 予測すべきトークンの左側にある文章のみからトークンをどの程度予測できるか？（執筆しながら適切な記号を選ぶイメージ） • Notation

タスク auto-suggestions task の例 8 / 20

提案モデル MATHPREDICTOR: BERT を数式穴埋めで ﬁne-tune したモデル 9 / 20

提案モデル • 語彙の追加: 既存の BERT の tokenizer では \overline が

提案モデル • Permutation over notation tokens: 例えば \overline, h という連続

提案モデル • Larger context modeling: BERT のトークン長制限は 512 なので, 論文全体を入力に入れることはできない.

評価結果: 全体 (FT): ﬁne-tuning 13 / 20

評価結果: Context の長さによる差 14 / 20

評価結果: データセットの難易度による差周囲のテキストに含まれていない未知の数学記号を予測する Challenge set では全然正解できていない → 「ディープラーニングでは学習率を 𝛼 と表すことが多い」という

評価結果: 数学記号の種類による差 16 / 20

評価結果: 数学記号の種類による差 17 / 20

評価結果: 評価方法の差 • 今までの評価方法はトークンレベルの予測結果の評価だったが, 数式単位, 文単位で評価するとどうなるかを調べた. • 結果として, original BERT

予測例 19 / 20

感想・まとめ • 数字だけでなく, 演算子や TeX のマクロを含めた数式全体で考えた場合の現状の課題がわかって面白かった • 訓練データの量の問題かもしれない（論文によると, 提案モデル