研究室の日本語輪読会で発表したスライドです。 内容に問題や不備がある場合は、お手数ですが hellorusk1998 [at] gmail.com までご連絡お願いいたします。
Modeling Mathematical Notation Semantics inAcademic PapersJo et al., EMNLP 2021 FindingsKaito SugimotoAizawa Lab. M22022/04/191 / 20
View Slide
紹介する論文EMNLP 2021 Findings2 / 20
概要• 学術的な文献に出てくる数学記号の意味を, 今の NLP モデルがどの程度うまく学習できるかを調べる研究• 特に「記号の周囲のテキストから記号を予測する」タスクにフォーカスし, モデルのパフォーマンスを調べる• さらに, 数学記号の予測問題に特化したモデル(具体的には, 記号穴埋めで fine-tuning したモデル)を提案• 提案モデルは既存モデルに比べて, 数学記号の予測で良い性能を発揮したが, 未知のトークンの予測が難しい, 数学記号の構造を把握できていない, という問題点も明らかになった3 / 20
背景• 数学記号とその意味(を表すテキスト)は密接な関係にある• Wolska and Grigore (2010) 1 によれば, 7 割の記号が, その記号が導入された段落と同じ段落で定義されているそうである• うまく訓練された言語モデルであれば, コンテキストから適切な記号を選べるはず• 数学記号にまつわる問題を NLP 的アプローチで扱う研究も既に多数ある• logic reasoning を解かせる 2, 数学の分野ごとに特有の等式を出力させる3, 入力の数式に対してその定義を検知する 4 など1Wolska and Grigore, Symbol Declarations in Mathematical Writing2Rabe et al., Mathematical reasoning via self-supervised skip-tree training (ICLR 2020)3Yasunaga and Lafferty, A joint topic and mathematical equation model for scientific texts (AAAI 2019)4Kang et al., Document-level definition detection in scholarly documents: Existing models, erroranalyses, and future directions. (SDP 2020)4 / 20
背景著者らはなぜ「記号の周囲のテキストから記号を予測する」タスクに注目したか → アプリケーション上重要だから1Notation auto-suggestions: たとえばディープラーニングでは学習率を 𝛼 と表すことが多いように, 慣習的に同じ記号を用いるケースが多くある. 記号提案システムは, そのような慣習をうまく学習し, 適切な記号を自動でサジェストしてくれるシステム2Notation consistency checks: 1 つのドキュメントで, ある箇所では D が差(デルタ)を, 別の箇所ではドキュメントを表していたりすると問題である. 記号一貫性チェックシステムは, そのような異なる用法での記号の使用を警告してくれるシステム5 / 20
タスク• 今回のタスクでは, TeX ファイル中の $ で囲まれた部分のトークンを予測することにする• これにより, 数学記号における x なのか, xiなのか, x なのか, といった違いも情報として扱うことができる6 / 20
タスク以下のように設定を単純化する• Notation auto-suggestions 予測すべきトークンの左側にある文章のみからトークンをどの程度予測できるか?(執筆しながら適切な記号を選ぶイメージ)• Notation consistency checks 予測すべきトークンの左側にある文章と右側にある文章の双方からトークンをどの程度予測できるか?(既に書いた内容をチェックするイメージ)7 / 20
タスクauto-suggestions task の例8 / 20
提案モデルMATHPREDICTOR: BERT を数式穴埋めで fine-tune したモデル9 / 20
提案モデル• 語彙の追加: 既存の BERT の tokenizer では \overline が \と over と##line に分割されてしまうので, LaTeX のマクロを 2,700 トークン程度追加10 / 20
提案モデル• Permutation over notation tokens: 例えば \overline, h という連続するトークンが正解データの際に, いきなりモデルに全て予測させるのではなく, \overline だけマスクしたものや h だけマスクしたものを確率的に入れる.これにより, \overline の後には必ずアルファベット等が来る, といったトークン間の関係性の学習が期待できる• Notation length constraint: 予測すべきトークン列があまりにも長いと予測が難しいため, マスクする最大の長さを 10 以下に制限する11 / 20
提案モデル• Larger context modeling: BERT のトークン長制限は 512 なので,論文全体を入力に入れることはできない. LongFormer のような改良モデルが提案されているが, 推論時間が遅くなってしまうため, リアルタイムの執筆支援に適さないと判断.そこで, 基本的には, 予測すべきトークンの周囲数文しか入力として使わない.それよりも遠い位置にある文の情報を使うモデルとして, まとめて(CLS から得られる)文ベクトルの平均として入力させるモデルを別に作成( FullContext モデル). ただしこのモデルは後で評価で示すように, うまくいかなかった.12 / 20
評価結果: 全体(FT): fine-tuning13 / 20
評価結果: Context の長さによる差14 / 20
評価結果: データセットの難易度による差周囲のテキストに含まれていない未知の数学記号を予測するChallenge set では全然正解できていない→ 「ディープラーニングでは学習率を 𝛼 と表すことが多い」というような慣習をうまく学習するには課題がありそう15 / 20
評価結果: 数学記号の種類による差16 / 20
評価結果: 数学記号の種類による差17 / 20
評価結果: 評価方法の差• 今までの評価方法はトークンレベルの予測結果の評価だったが,数式単位, 文単位で評価するとどうなるかを調べた.• 結果として, original BERT を除く全てのモデルでスコアが下がった.• original BERT はより構造的な一貫性を把握する能力があり, それが追加学習によって損なわれたのかもしれない → 数式の木構造を取り入れた追加学習を行う方がよさそう18 / 20
予測例19 / 20
感想・まとめ• 数字だけでなく, 演算子や TeX のマクロを含めた数式全体で考えた場合の現状の課題がわかって面白かった• 訓練データの量の問題かもしれない(論文によると, 提案モデルの追加学習にはランダムに 1,000 本の論文データしか使っていない)ので, 大量の TeX ファイルでスクラッチ学習すると多少は改善しそう• どの記号がどのような意味で使われることが多いか? みたいな慣習をテキストから上手くまとめられるとよさそう20 / 20