Upgrade to Pro — share decks privately, control downloads, hide ads and more …

nlp2025 地理的言及に対するエンティティ・リンキングにおける住所階層の利用

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

nlp2025 地理的言及に対するエンティティ・リンキングにおける住所階層の利用

言語処理学会第31回年次大会(NLP2025)

Avatar for Takashi INUI

Takashi INUI

March 18, 2025
Tweet

More Decks by Takashi INUI

Other Decks in Research

Transcript

  1. 研究背景と目的 ⚫ 文書ジオロケーション ⚫ SNS 投稿の投稿位置を推定 ⚫ 投稿の言及に EL ⚫

    エンティティ情報を利用 ⚫ 地理的言及への EL は不足 ⚫ 地理的言及: 地理的位置属性を持つ言及 ⚫ 地理的言及に特化したエンティティ曖昧性解消を提案 3
  2. 先行研究 ⚫ [Leidner 2004] ⚫ Toponym Resolution (文書中の地名→実世界上の位置) ⚫ 地理的な距離を利用した曖昧性解消

    ⚫ [Yamada+ 2022] ⚫ 深層学習ベースのエンティティ曖昧性解消モデル ⚫ 汎用的なタスクに対応したモデル 4 [Leidner 2004] Leidner, Jochen L. "Toponym resolution in text:“Which Sheffield is it?”." Proceedings of the the 27th annual international ACM SIGIR conference (SIGIR 2004). 2004. [Yamada 2022] Ikuya Yamada, Koki Washio, Hiroyuki Shindo, Yuji Matsumoto. Global Entity Disambiguation with BERT. Association for Computational Language. 2022
  3. 曖昧性解消モデル ⚫ LUKE モデル ⚫ 地理的言及 → 埋め込み表現を獲得 ⚫ 埋め込み表現

    (文脈を考慮した語のベクトル表現) ⚫ エンティティ予測ヘッド ⚫ 埋め込み表現をもとに候補からエンティティを予測 ⚫ 候補に対する分類問題 7
  4. 言語モデル LUKE ⚫単語とエンティティ(言及)を扱うモデル ⚫ 入力文章 X (トークン列 {𝑡1 , 𝑡2

    … }) ⚫ 𝑒 ∈ 1, 0 トークンが単語か言及か (後述) 埋め込み表現 = 𝐿𝑈𝐾𝐸(𝑋, 𝑡𝑖 , 𝑒) 8
  5. [Yamada2022+]の評価 ⚫ データセット: 日本語 Wikification コーパス ⚫ 新聞記事をベースとしたコーパス ⚫ 各言及

    → 言及のカテゴリ、対応する Wikipedia 記事 ⚫ 対象:正解が候補に含まれている地理的言及5,525件 ⚫ 1言及あたりの平均候補数: 32.9 10 [Yamada+2022] 正解率(%) 89.8 (4961 / 5525)
  6. 誤り分析 ⚫ 同名の地名との混同 【正解: 日吉町(京都府), 出力: 日吉町(所沢市)】 事例: ~京都府日吉町の明治鍼灸大学付属鍼灸センター ⚫

    異なるカテゴリのエンティティとの混同 【正解: 登別市, 出力: 登別駅】 事例: 市内全域を網羅する飲食店ガイドは登別では初めて 11
  7. 提案手法: 階層挿入(2) ⚫文中のある言及の次の言及が下位カテゴリ ⚫「茨城県のつくば市」 ⚫ 茨城県 → Province, つくば市 →

    City ⚫下位の言及の前に上位の言及を挿入 ⚫茨城県の茨城県つくば市 ⚫これを入力文章として与える ⚫生成される候補は階層挿入前後で変わらない 14
  8. 改善例 ⚫ 言及に対して直接階層情報が与えられ改善 【正解: 宮田町(福岡県), 挿入なし: 宮田町(愛知県)】 ・福岡県宮田町の同社内の会見で・・・ ⚫ 階層挿入法適用後

    ⚫ 「福岡県福岡県宮田町~」 ⚫ 一見冗長か? ⚫ 「福岡県」は単語として挿入 ⚫ 地理的な文脈の強化 19 Province City