Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
【論文紹介】Modeling Mathematical Notation Semantics ...
Search
Kaito Sugimoto
April 25, 2022
Research
0
180
【論文紹介】Modeling Mathematical Notation Semantics in Academic Papers
研究室の日本語輪読会で発表したスライドです。
内容に問題や不備がある場合は、お手数ですが hellorusk1998 [at] gmail.com までご連絡お願いいたします。
Kaito Sugimoto
April 25, 2022
Tweet
Share
More Decks by Kaito Sugimoto
See All by Kaito Sugimoto
ChatGPTを活用した病院検索体験の改善 〜病院探しをもっと楽しく〜
hellorusk
0
94
【論文紹介】Word Acquisition in Neural Language Models
hellorusk
0
200
【論文紹介】Toward Interpretable Semantic Textual Similarity via Optimal Transport-based Contrastive Sentence Learning
hellorusk
0
230
【論文紹介】Unified Interpretation of Softmax Cross-Entropy and Negative Sampling: With Case Study for Knowledge Graph Embedding
hellorusk
0
410
【論文紹介】Detecting Causal Language Use in Science Findings / Measuring Correlation-to-Causation Exaggeration in Press Releases
hellorusk
0
120
【論文紹介】Efficient Domain Adaptation of Language Models via Adaptive Tokenization
hellorusk
0
370
【論文紹介】SimCSE: Simple Contrastive Learning of Sentence Embeddings
hellorusk
0
830
【論文紹介】Automated Concatenation of Embeddings for Structured Prediction
hellorusk
0
220
【論文紹介】Assessing Phrasal Representation and Composition in Transformers
hellorusk
0
71
Other Decks in Research
See All in Research
KDD論文読み会2024: False Positive in A/B Tests
ryotoitoi
0
200
クラウドソーシングによる学習データ作成と品質管理(セキュリティキャンプ2024全国大会D2講義資料)
takumi1001
0
290
Weekly AI Agents News!
masatoto
25
24k
システムから変える 自分と世界を変えるシステムチェンジの方法論 / Systems Change Approaches
dmattsun
3
860
言語と数理の交差点:テキストの埋め込みと構造のモデル化 (IBIS 2024 チュートリアル)
yukiar
3
730
Weekly AI Agents News! 8月号 論文のアーカイブ
masatoto
1
180
メールからの名刺情報抽出におけるLLM活用 / Use of LLM in extracting business card information from e-mails
sansan_randd
2
140
Geospecific View Generation - Geometry-Context Aware High-resolution Ground View Inference from Satellite Views
satai
1
100
「並列化時代の乱数生成」
abap34
3
820
データサイエンティストをめぐる環境の違い 2024年版〈一般ビジネスパーソン調査の国際比較〉
datascientistsociety
PRO
0
580
Weekly AI Agents News! 10月号 プロダクト/ニュースのアーカイブ
masatoto
1
110
テキストマイニングことはじめー基本的な考え方からメディアディスコース研究への応用まで
langstat
1
120
Featured
See All Featured
Product Roadmaps are Hard
iamctodd
PRO
49
11k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
26
2.1k
Building Your Own Lightsaber
phodgson
103
6.1k
Building an army of robots
kneath
302
43k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
42
9.2k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
246
1.3M
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
31
2.7k
Speed Design
sergeychernyshev
25
620
The Invisible Side of Design
smashingmag
298
50k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
25
1.8k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
44
6.8k
Side Projects
sachag
452
42k
Transcript
Modeling Mathematical Notation Semantics in Academic Papers Jo et al.,
EMNLP 2021 Findings Kaito Sugimoto Aizawa Lab. M2 2022/04/19 1 / 20
紹介する論文 EMNLP 2021 Findings 2 / 20
概要 • 学術的な文献に出てくる数学記号の意味を, 今の NLP モデルがど の程度うまく学習できるかを調べる研究 • 特に「記号の周囲のテキストから記号を予測する」タスクに フォーカスし,
モデルのパフォーマンスを調べる • さらに, 数学記号の予測問題に特化したモデル(具体的には, 記号 穴埋めで fine-tuning したモデル)を提案 • 提案モデルは既存モデルに比べて, 数学記号の予測で良い性能を 発揮したが, 未知のトークンの予測が難しい, 数学記号の構造を 把握できていない, という問題点も明らかになった 3 / 20
背景 • 数学記号とその意味(を表すテキスト)は密接な関係にある • Wolska and Grigore (2010) 1 によれば,
7 割の記号が, その記号が導入され た段落と同じ段落で定義されているそうである • うまく訓練された言語モデルであれば, コンテキストから適切な記号を 選べるはず • 数学記号にまつわる問題を NLP 的アプローチで扱う研究も既に 多数ある • logic reasoning を解かせる 2, 数学の分野ごとに特有の等式を出力させる 3, 入力の数式に対してその定義を検知する 4 など 1Wolska and Grigore, Symbol Declarations in Mathematical Writing 2Rabe et al., Mathematical reasoning via self-supervised skip-tree training (ICLR 2020) 3Yasunaga and Lafferty, A joint topic and mathematical equation model for scientific texts (AAAI 2019) 4Kang et al., Document-level definition detection in scholarly documents: Existing models, error analyses, and future directions. (SDP 2020) 4 / 20
背景 著者らはなぜ「記号の周囲のテキストから記号を予測する」タスクに 注目したか → アプリケーション上重要だから 1 Notation auto-suggestions: たとえばディープラーニングでは学 習率を
𝛼 と表すことが多いように, 慣習的に同じ記号を用いる ケースが多くある. 記号提案システムは, そのような慣習をうま く学習し, 適切な記号を自動でサジェストしてくれるシステム 2 Notation consistency checks: 1 つのドキュメントで, ある箇所で は D が差(デルタ)を, 別の箇所ではドキュメントを表していた りすると問題である. 記号一貫性チェックシステムは, そのよう な異なる用法での記号の使用を警告してくれるシステム 5 / 20
タスク • 今回のタスクでは, TeX ファイル中の $ で囲まれた部分のトーク ンを予測することにする • これにより,
数学記号における x なのか, xi なのか, x なのか, と いった違いも情報として扱うことができる 6 / 20
タスク 以下のように設定を単純化する • Notation auto-suggestions 予測すべきトークンの左側にある文 章のみからトークンをどの程度予測できるか?(執筆しながら適 切な記号を選ぶイメージ) • Notation
consistency checks 予測すべきトークンの左側にある 文章と右側にある文章の双方からトークンをどの程度予測でき るか?(既に書いた内容をチェックするイメージ) 7 / 20
タスク auto-suggestions task の例 8 / 20
提案モデル MATHPREDICTOR: BERT を数式穴埋めで fine-tune したモデル 9 / 20
提案モデル • 語彙の追加: 既存の BERT の tokenizer では \overline が
\と over と ##line に分割されてしまうので, LaTeX のマクロを 2,700 トーク ン程度追加 10 / 20
提案モデル • Permutation over notation tokens: 例えば \overline, h という連続
するトークンが正解データの際に, いきなりモデルに全て予測さ せるのではなく, \overline だけマスクしたものや h だけマスクし たものを確率的に入れる. これにより, \overline の後には必ずアルファベット等が来る, と いったトークン間の関係性の学習が期待できる • Notation length constraint: 予測すべきトークン列があまりにも 長いと予測が難しいため, マスクする最大の長さを 10 以下に制限 する 11 / 20
提案モデル • Larger context modeling: BERT のトークン長制限は 512 なので, 論文全体を入力に入れることはできない.
LongFormer のような 改良モデルが提案されているが, 推論時間が遅くなってしまうた め, リアルタイムの執筆支援に適さないと判断. そこで, 基本的には, 予測すべきトークンの周囲数文しか入力と して使わない. それよりも遠い位置にある文の情報を使うモデルとして, まとめ て(CLS から得られる)文ベクトルの平均として入力させるモデ ルを別に作成( FullContext モデル). ただしこのモデルは後で評 価で示すように, うまくいかなかった. 12 / 20
評価結果: 全体 (FT): fine-tuning 13 / 20
評価結果: Context の長さによる差 14 / 20
評価結果: データセットの難易度による差 周囲のテキストに含まれていない未知の数学記号を予測する Challenge set では全然正解できていない → 「ディープラーニングでは学習率を 𝛼 と表すことが多い」という
ような慣習をうまく学習するには課題がありそう 15 / 20
評価結果: 数学記号の種類による差 16 / 20
評価結果: 数学記号の種類による差 17 / 20
評価結果: 評価方法の差 • 今までの評価方法はトークンレベルの予測結果の評価だったが, 数式単位, 文単位で評価するとどうなるかを調べた. • 結果として, original BERT
を除く全てのモデルでスコアが下 がった. • original BERT はより構造的な一貫性を把握する能力があり, それ が追加学習によって損なわれたのかもしれない → 数式の木構造 を取り入れた追加学習を行う方がよさそう 18 / 20
予測例 19 / 20
感想・まとめ • 数字だけでなく, 演算子や TeX のマクロを含めた数式全体で考え た場合の現状の課題がわかって面白かった • 訓練データの量の問題かもしれない(論文によると, 提案モデル
の追加学習にはランダムに 1,000 本の論文データしか使っていな い)ので, 大量の TeX ファイルでスクラッチ学習すると多少は改 善しそう • どの記号がどのような意味で使われることが多いか? みたいな 慣習をテキストから上手くまとめられるとよさそう 20 / 20