いくつかの考えられる問題 2 • idiomaticity, non-compositionality の問題: kick the bucket (死ぬ), carry on (~ し続ける) などを各単語の和で表現するのは難しい • non-substitutability の問題: panda car(パトカー (英)) は定型表現であり, bear automobile と言うことはできない • ambiguity の問題: bad apple は「腐ったリンゴ」でも「悪い人」でもあり 得る 1Sag et al., Multiword Expressions: A Pain in the Neck for NLP (2002) 2Garcia et al., Probing for idiomaticity in vector space models (EACL 2021) 3 / 21
• この流儀で Word2Vec を学習すると実際に効果的であることがわ かっている 3 一方で, 問題もある • "look up" のような verb-particle の組み合わせは "look ... up" のような非連 続なパターンでも登場するので, 取り扱えない • "take a walk, take a hike, take a trip, take a flight..." のようなファミリーをい ちいちパターンとして事前に列挙するのは一般性がなく, 扱いづらい 3Nandakumar et al., HowWell Do Embedding Models Capture Non-compositionality? A View from Multiword Expressions (RepEval 2019) 4 / 21
あるフレーズに対し て, それを含むさまざまな例文の情報を使えればもっと良い埋め 込みになりそう • タスクで fine-tuning するとどうなるか? →続編が出ていた: On the Interplay Between Fine-tuning and Composition in Transformers (https://arxiv.org/abs/2105.14668, ACL 2021 Findings) 21 / 21