Upgrade to Pro — share decks privately, control downloads, hide ads and more …

CADEL@IPSJ-NL-260

shigashiyama
June 29, 2024
110

 CADEL@IPSJ-NL-260

日本語エンティティリンキングのための行政機関ウェブ文書コーパスの構築
https://ipsj.ixsq.nii.ac.jp/ej/?action=pages_view_main&active_action=repository_view_main_item_detail&item_id=235101&item_no=1&page_id=13&block_id=8

shigashiyama

June 29, 2024
Tweet

Transcript

  1. 本研究の概要 ◆行政機関ウェブ文書コーパス CADEL を構築(後日公開予定) • 160記事3,850文へ、8,082メンション(Wikidata リンク率80%)を付与 ◆コーパスの評価を実施 • アノテータ間一致率計測により、一貫性の高さを確認

    • 曖昧性解消の予備実験を実施 – 文字列一致&ヒューリスティクス法で最大精度 0.755 ⇒ 自明に特定できない事例を約25%含み、難しい評価セットを構成可能 2 https://www.wikidata.org/ 函館市観光基本計画によると、訪問 先は、「ウォーターフロント」、 「元町周辺」、「函館山」の三つが 極めて高い割合を示しており…(中略) これらは、市の玄関口として… •函館市 Hakodate (Q26418) •函館山 Mount Hakodate (Q3526214) 1億エントリ以上を含む 多言語知識ベース … 日本の府省庁・ 内部部局サイト 原文取得・アノテーション coref link 出典 https://www.mlit.go.jp/common/001270415.pdf ※2024年2月作業時点
  2. エンティティリンキング(EL)とその応用 ◆素朴なタスク定義 • 言語表現を抽出し、実世界の概念と紐づけるタスク 4 神戸駅周辺は、神戸ポートタワーや メリケンパークなど神戸を象徴する 観光スポットが充実しています。 足尾鉄道の神土駅として開業した 神戸駅は、駅舎・周辺設備が登録有

    形文化財として登録されています。 田原市中央図書館の最寄り駅は 神戸駅です。 知識ベースエントリ メンション抽出 エンティティ曖昧性解消 千と千尋は何度でも見たい。 脳情報通信融合研究センターでは、 曖昧性の(あまり)ない入力 •Kōbe Station (Q1072984) •Gōdo Station (Q5627753) •Kambe Station (Q6356311) •Spirited Away (Q155653) •Center for Information and Neural Networks [NICT (Q6973676) と part_of 関係] 曖昧性のある入力 情報検索 質問応答 関係抽出 … 機械翻訳 多言語処理 応用タスク
  3. 既存の EL データセットとシステム評価の状況 ◆英語を中心とした研究 • 英語では多数(>30)の EL データセットが構築・公開され、 複数システム&複数データセットの横断的評価がよく行われる •

    日本語の EL データセットは限られ、ベンチマーキングも ほぼ行われていない – 公開人手アノテーションデータは jawikify (Jargalsaikhan+ 2016) のみ 5 In 2010, Beaverton was named by Money magazine as one of the 100 "best places to live", among smaller cities in the country. Something to Believe In is a power ballad by American Glam metal band Poison, being the 2nd single from their 1990 album Flesh & Blood. 原文出典:VoxEL dataset https://users.dcc.uchile.cl/ ~hrosales/VoxEL.html 原文とメンションの例:欧米の地名・組織・プロダクトなどが多い 日本特有のエンティティを適切に曖昧性解消できるシステムと、 その評価が可能な日本語コーパスが必要
  4. 既存の日本語 EL データと比べた位置づけ ◆本コーパス CADEL の特徴 • 自動構築データと異なり、アノテータ間一致率により一貫性を評価 • jawikify

    (BCCWJ 新聞コーパス使用) と異なり、 – 原文公開年 2022-2023年のデータが中心で、新しい – 原文含めたデータ公開が可能 – コーパス設計における観点・基準を、より明示的に考慮 6 ※未公開 ※未公開 ※テストデータ ラベル未公開
  5. コーパス設計/タスク定義の前提となる論点 ◆エンティティ曖昧性解消のタスク概要 ◆対応関係の認定が非自明な場合にどうするか ⇒ 目的による 8 神戸駅周辺は、神戸ポートタワー やメリケンパークなど… エントリ メンション

    知識ベース •Kōbe Station (Q1072984) 対応づけ WBCで日本が優勝し、大谷翔平が MVPを受賞した。 ユニバーサルコミュニケーション 研究所では、AI研究基盤の構築… •World Baseball Classic •2023 World Baseball Classic •情報通信研究機構(NICT) •ユニバーサルコミュニケーション 研究所 [※エントリなし] ? ? Participate(大谷, WBC) のような関係抽出をする 場合、こちらが適切 「この研究所はどこにあり ますか?」の質問応答では、 「情報通信研究機構」の Wikipedia記事内容から 回答可能
  6. 既存研究でのコーパス設計観点 • Ling et al (2015) – EL の標準的なタスク定義が確立されていないことを指摘 –

    5項目の Design Choices を提唱 • Rosales-Méndez et al. (2019) – 理想的な EL システム出力を問う研究者へのアンケートを踏まえ、 あらゆる状況に適した画一的なタスク定義はないと結論 – 4つの大項目からなる分類スキーム(Categorization Scheme)を提唱 9 出典:Rosales-Méndez et al. (2019). Fine-Grained Evaluation for Entity Linking •何をメンションとするか •どのエントリと対応づけるか •何のエンティティタイプを対象にするか うち1項目
  7. • Ling et al (2015) – EL の標準的なタスク定義が確立されていないことを指摘 – 5項目の

    Design Choices を提唱 • Rosales-Méndez et al. (2019) – 理想的な EL システム出力を問う研究者へのアンケートを踏まえ、 あらゆる状況に適した画一的なタスク定義はないと結論 – 4つの大項目からなる分類スキーム(Categorization Scheme)を提唱 既存研究でのコーパス設計観点 10 出典:Rosales-Méndez et al. (2019). Fine-Grained Evaluation for Entity Linking •何をメンションとするか •どのエントリと対応づけるか エントリ候補が複数ある場合 の選択基準は考慮されていない 目的に応じて選択すればよい •何のエンティティタイプを対象にするか うち1項目
  8. 本研究でのコーパス設計方針 11 Rosales-Méndez らの分類スキーム上で選択 •何をメンション とするか •どのエントリと 対応づけるか •何のタイプ を対象にするか

    拡張固有表現 (Sekine+ 2002) の一部を選択 「一致」と「関連」による 対応付けを区別・細分化 基本的な EL データセットを 作成することを意図し、決定
  9. 本研究でのコーパス設計方針(続き) ◆エントリ認定手順 1. メンションの指示対象概念 に相当するエントリが存在 2. そのようなエントリがない が、概念的な重なりがある エントリが存在 3.

    それ以外 12 •情報通信研究機構 ユニバーサルコミュニ ケーション研究所 〈情報通信研究機構〉 メンション 実世界/言語世界上の概念 〈ユニバーサルコミュ ニケーション研究所〉 知識ベース 種別:部分-全体 指示 対応 ⇒ 当該エントリを選択(一致リンク) ⇒ その中で極力近いエントリを選択し 種別タグを付ける(関連リンク) ⇒ エントリ割当なし(“NIL” 付与) 目的に応じて関連リンクの使用有無を選択可能 (森羅プロジェクトの一致/準一致と同様の方針だが、より詳細な種別を考慮) 関連リンク 情報通信研究機構 指示 一致リンク
  10. 関連リンクの種別 13 つくば科学フェスティバル2022 ユニバーサルコミュニケーション 研究所 •つくば科学フェスティバル •情報通信研究機構 •ユニバーサルコミュニケーション研究所 •つくば科学フェスティバル2022 1-a)

    部分→全体 2-a) インスタンス→周期的シリーズ 東京電力株式会社 •東京電力株式会社 3) 前身 後身 ミュージカル魔女の宅急便 4) その他 •魔女の宅急便(児童書・角野栄子) •魔女の宅急便(ミュージカル・2024年) •魔女の宅急便(映画・宮崎駿) •東京電力ホールディングス 1-b) 全体→部分 1-c) 非包含的共有 2-b) 周期的シリーズ →インスタンス 5) 定義不明確
  11. コーパス構築方法 15 日本の府省庁・ 内部部局サイト 1. 文書選択 HTML PDF 2. 記事選択・整形

    CC BY 4.0 互換の著作権 利用許諾条件あり 日本特有のエンティティ を豊富に含むと思われる 文書を、多様性を考慮 しつつ選択 各原文書で、収録対象と するテキストの範囲を “記事” として抽出し、 文単位に整形 3. メンション アノテーション GiNZA 固有表現抽出 の自動付与結果へ 人手修正・追加 作業者:アノテータ3名 ツール:MS Access VBA による アノテーションツール メンション・エントリ の文字列一致による 自動付与結果へ 人手修正・追加 4. 共参照&リンク アノテーション ウォーターフロント、 元町周辺、函館山の 三つが… 記事 記事 記事 記事 ウォーターフロント、 元町周辺、函館山の 三つが…
  12. 本データセットの記述統計 ◆サイズ ◆主な特徴 • 公開年:2022-2023年 が 85% • 出典サイト:国交省、農水省、防衛省が 66%

    • 媒体:広報誌、白書が 79% • その他:日本特有の固有名を豊富に含む – Country プロパティ付きの Wikidata エントリ が付与された固有名メンション(延べ数 4,896) のうち、値が “Q17”(日本)である事例が 87% 16 … https://www.wikidata.org/wiki/Q3526214 …
  13. メンション・リンクの記述統計 ◆タイプ別ごとのメンション数・Wikidata リンク率 18 組織・地名・施設名が 全メンションの61.5%を占め、 リンク率も高い 関連リンク種別 • 部分(PART)

    • 前身・後身(DIAC) • その他(OTHER) が84.1%を占める 関連リンクを含めると80%。 含めた方が応用上の有用性 は高いと想定
  14. アノテータ間一致率 ◆方法 • 対象10記事について、各記事2名でアノテーション – 6記事は作業者A・Bが、4記事は作業者A・Cが担当。 2ペアのうち一致率が低かった方の値を報告。 ◆結果 • メンション・共参照付与の一致率は、固有名については高い

    – 非固有名について低いのは、自然かつ許容範囲 • リンク付与の一致率は、「一致リンク」については高い – 「関連リンク」は一意に定まりにくいため、自然な結果 19 ※論文では詳細な結果を報告
  15. 曖昧性解消の予備実験 ◆方法 • 一致リンク/関連リンクが付与された固有名メンション(5,058件/702件) に対し、Wikidata SPARQL クエリを用いて文字列一致によりエントリを 取得し、ランダムまたはヒューリスティックにランキング(後述) SPARQL クエリ作成・問合せ

    正解メンション文字列 神戸駅 入力文 神戸駅周辺 には… ※{text} = 神戸駅 を代入 21 結果取得・ランキング ※曖昧さ回避ページを除外 ※簡易な正規化 を適用 Q. 単純なベースライン法で どれだけ解けるのか?
  16. 実験結果 ◆一致リンク結果 • 文字列一致&ランダムランキングでも半分以上で正解(R@1:0.555) • ヒューリスティックなランキングで精度向上(R@1:最大0.755) – 取得エントリ数最大値が80程度のため、R@100 ではランキング法による差なし ◆関連リンク結果

    • 1割前後しか正解できず 22 ランダムにk個選択 Recall@k の期待値 別名も検索対象 にする→「✓」 Wikidata QID が小さい ものからk個選択 Wikipedia 被リンク数が 大きいものからk個選択 一致リンクと区別した評価が必要 ※理想的にはあり得る全エントリが付与されていると良い
  17. 実験結果の議論と展望 ◆予備実験結果 • 文字列一致&ヒューリスティックなランキングで、正解率0.755 – 行政機関が発行した文書のため、一般的な表記が多かったためか – 残り約25%(延べ約1,240メンション)については、 容易に解けない事例であることを示唆 ◆Future

    Work 1. 本コーパスによる、多言語 EL システムの性能評価 2. 英語 EL データセットを日本語へ翻訳(MTPE)したデータの作成 – 英語文化圏の概念を対象とした評価に利用可。現在作成中 3. より難易度の高い事例を多く含むベンチマークデータの作成 23