◦ Anchor context model: ハイパーリンク先のエンティティと周辺単語のペアから学習 ◦ Link graph model: ハイパーリンクでつながったエンティティのペアから学習 17 Yamada et al., Joint Learning of the Embedding of Words and Entities for Named Entity Disambiguation. CoNLL 2016. Yamada et al., Wikipedia2Vec: An Efficient Toolkit for Learning and Visualizing the Embeddings of Words and Entities from Wikipedia. EMNLP 2020. Wikipediaのハイパーリンクで接続されたエンティティのペアを入力として使って学習する
(word-based skip-gram) 154min Gensim (skip-gram) 197min fastText (skip-gram) 243min • C++ (Cython)、BLAS、multiprocessingを用いて高速化 • 単語のみのskip-gramの実装としては、GensimやfastTextより高速 • 全てのモデルを用いて訓練した場合でもCPUで高速に訓練を行うことが出来る 英語Wikipediaを入力として5エポックの訓練にかかった時間 Yamada et al., Wikipedia2Vec: An Efficient Toolkit for Learning and Visualizing the Embeddings of Words and Entities from Wikipedia. EMNLP 2020.
Hollywood Studios • エンティティリンキング: テキスト中のエンティティ名(メンション)を 知識ベースのエンティティにリンクするタスク • メンションは曖昧な場合があり(例: Frozen)、テキストのコンテキストと エンティティの情報の双方を使って解く必要がある Frozen (2013 film) The Walt Disney Company Disney’s Hollywood Studios
##na ##ga”において [MASK] == ##daであることは文脈とは無関係に分かる 2. 入力エンベディングの問題: エンティティに関する情報はサブワードのエンベディングに保持されることに なるが、サブワードの情報は十分に保持できるのか ◦ エンティティ名は曖昧性の高い複数のサブワードに分割されてしまうことが多い (例: o ##da no ##bu ##na ##ga) 3. 出力エンベディングの問題: エンティティのエンベディングをサブワードの出力エンベディングから 計算するのは適切か ◦ 特別トークンを入力に挿入する場合、特別トークンは事前訓練時には使用されていない 32 Akechi Mitsuhide killed Oda Nobunaga at the Honnō-ji temple ak ##ech ##i mit ##su ##hide killed o ##da no ##bu ##na ##ga at the hon ##no - ji temple ak [MASK] ##i mit ##su ##hide killed o [MASK] no ##bu ##na ##ga at [MASK] hon ##no - ji temple BERTで サブワードに分割 ランダムな サブワードを隠して 事前学習 BERTやその類似のモデルでは、入力テキストはサブワードに分割されて入力される
Input text w/ Wikipedia entity annotations: Beyoncé lives in Los Angeles エンティティに関連するタスクに特化して設計された事前訓練済み言語モデル Yamada et al., LUKE: Deep Contextualized Entity Representations with Entity-aware Self-attention. EMNLP 2020.
単語とエンティティをランダムにマスクして予測する事前訓練を実施 15%のランダムな単語および エンティティを[MASK]単語および [MASK]エンティティに置き換える Born and raised in Houston, Texas, Beyoncé performed in various singing and dancing competitions as a child. She rose to fame in the late 1990s as the lead singer of Destiny's Child Born and [MASK] in Houston, Texas, [MASK] performed in various [MASK] and dancing competitions as a [MASK]. She rose to fame in the [MASK] 1990s as the lead singer of Destiny's Child
k が与えられた際、i番目のトークンに対応する出力 ベクトル y i は全ての線形変換された入力ベクトルの重み付き和で計算される 従来の方法: BERT (Transformer) のself-attention mechanism 49 ◦ Qx i : クエリ行列Qと処理しているトークンのベクトル x i の積 ◦ Kx j : キー行列Kとアテンションの対象となるトークンのベクトル x j の積