Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ATD-MCL@NLP2024

shigashiyama
March 27, 2024
23

 ATD-MCL@NLP2024

東山翔平,大内啓樹,寺西裕紀,大友寛之,井手佑翼,山本和太郎,進藤裕之,渡辺太郎.「日本語旅行記ジオパージングデータセット ATD-MCL」.言語処理学会第30回年次大会 (NLP2024),2024年3月12日.
https://www.anlp.jp/proceedings/annual_meeting/2024/pdf_dir/D4-5.pdf

shigashiyama

March 27, 2024
Tweet

Transcript

  1. 日本語旅行記ジオパージングデータ セット ATD-MCL 東山翔平1,2 大内啓樹2,3 寺西裕紀3 大友寛之4 井手佑翼2 山本和太郎2 進藤裕之2

    渡辺太郎2 1NICT 2NAIST 3理研 4サイバーエージェント D4-5 データセット公開 URL:https://github.com/naist-nlp/atd-mcl 山本 他「移動軌跡解析:文章中の人物の地理的な移動を読み取る」 中谷 他「メンション文脈とエントリ属性を考慮した Transformer Bi-Encoder によるジオコーディング」 本データセットを用いた研究: NLP2024
  2. 本研究の概要 ◆日本語旅行記に地理的情報を付与したデータセットを構築 1. 場所参照表現 2. 共参照関係 3. 地理データベース エントリ ◆3つのサブタスクでベースラインシステムの精度を評価

    • 場所参照表現抽出、共参照解析では良好な精度 • 曖昧性解消(エントリ予測)では改善の余地大 2 近鉄奈良駅に到着。そこから 奈良公園まで歩いてすぐです。 お寺が好きなので最初に興福寺 に行きました。境内で鹿と遭遇し、 奈良に来たことを実感しました。 OpenStreetMap (OSM) link coref 国際会議版@EACL 2024 Findings: Arukikata Travelogue Dataset with Geographic Entity Mention, Coreference, and Link Annotation 1 (+2) +3 の情報を予測する問題: ジオパージング generic 地理データベース coref link Map data from OpenStreetMap © OpenStreetMap contributors
  3. 本研究の位置づけ ◆ジオパージング • 言語表現と実世界の場所を紐づける技術で、 地理的な観点に基づくテキスト解析の基盤 ◆本データセットの主な特徴 • 地名や固有名だけでなく、 施設名や一般名詞句等の表現も対象 •

    旅行記1文書中に、地理的関連性を持つ 場所参照表現が豊富に含まれる 3 近鉄奈良駅に到着。そこから 奈良公園まで歩いてすぐです。 お寺が好きなので最初に興福寺 に行きました。境内で鹿と遭遇し、 奈良に来たことを実感しました。 場所参照表現を含む旅行記のイメージ
  4. 本データセットの記述統計と特徴 ◆記述統計 ◆主な特徴 • 47 都道府県に関する場所参照表現を含む • 全場所参照表現中、施設名が 50.3%、一般名詞句・指示表現が 48.4%

    • 全共参照クラスタ(=エンティティ)中、サイズ≧2 が 35.6% • 全エンティティ中、OSM エントリが付与された事例は 54.1% – 固有名の場所参照表現を含むエンティティに限ると 75.7% で、 OSM のカバレッジの高さを示している 5 Set-B のみ エントリ付与 各都道府県内のOSMエントリに リンクされたエンティティ数
  5. 実験:各タスクでのシステム性能評価 ◆タスク 1. 場所参照表現の抽出 2. 同じ場所を指す場所参照表現のクラスタリング:共参照解析 3. エンティティ(=共参照クラスタ)のエントリ予測:曖昧性解消 ◆データ分割記事数 •

    タスク 1&2 train:dev:test=110:10:80 • タスク 3 train:dev:test=10:10:80 6 近鉄奈良駅に到着。 そこから奈良公園 まで歩いてすぐです。 最初に興福寺に 行きました。 DB name=近鉄奈良|pref=奈良県|… name=近鉄奈良駅バス停|pref=… name=奈良公園|pref=奈良県|… name=興福寺|pref=東京都|… name=興福寺|pref=奈良県|… name=興福寺|pref=長崎県|… … 共参照クラスタ (エンティティ) 近鉄奈良駅 そこ DB エントリ 奈良公園 興福寺 場所参照表現 近鉄奈良駅 そこ 奈良公園 興福寺 生文書 name=近鉄奈良|pref=奈良県|… name=奈良公園|pref=奈良県|… name=興福寺|pref=奈良県|… 1 2 3 ※dev, test は全タスク共通 ※前段タスクの正解を所与とした設定で実験
  6. 実験結果:場所参照表現抽出 (Task 1) ◆結果 • Fine-tuning 済みモデル(特に mLUKE-MR)で高精度 • 予測が難しいラベルは、

    指示表現(DEICTIC:F1 最大 0.681)と 組織を指すメトニミー(*_ORG:最大 0.556) – LOC_ORG の例:「市 の有形文化財だそうです。」 7 ラベルセット Fine-tuning なし: 学習済み公開モデル (ラベル変換ルール適用) Fine-tuning あり: ja_ginza_electra ベースの 遷移型モデル Fine-tuning あり: mluke-large-lite ベースの スパン抽出型モデル LOC-NAME LOC-NOM FAC-NAME FAC-NOM LINE-NAME LINE-NOM TRANS-NAME TRANS-NOM LOC_OR_FAC DEICTIC LOC_ORG FAC_ORG 地域・地形 施設 路線 乗り物 指示表現 地名/施設 組織
  7. 実験結果:共参照解析 (Task 2) ◆結果 • サイズ1 のクラスタ(シングルトン)の特定では、 単純な方法でも本データで高いスコアが出る傾向 • KWJA,

    mLUKE-CR は、サイズ≧2 のクラスタにおいて 表層が異なる表現間の共参照関係もある程度捉えている 8 ルールベース: Leave-as-is Fine-tuning なし: 学習済み公開モデル Fine-tuning あり: mluke-large ベースの 先行詞予測型モデル ルールベース: 同一文字列をクラスタ化
  8. 実験結果:エンティティ曖昧性解消 (Task 3) ◆両システムの概要 • エンティティ・エントリ の文字列情報間の 比較に基づく方法 ◆結果 •

    概ね BERT-ED>Rule-ED で、k が大きいときに精度差も大きい • 絶対的な精度は低い – 入力文脈・エントリ属性情報を不使用、Fine-tuning なしの簡易な設定のため 9 中谷 他「メンション文脈とエントリ属性を考慮した Transformer Bi-Encoder によるジオコーディング」 R@1:0.384,R@100:0.902(※本実験と実験設定が異なるため参考値。論文から数値訂正) 近鉄奈良駅 そこ name=近鉄奈良|pref=奈良県|… name=近鉄奈良駅バス停|pref=… name=奈良公園|pref=奈良県|… name=興福寺|pref=東京都|… name=興福寺|pref=奈良県|… name=興福寺|pref=長崎県|… … エンティティ中の 代表表現の表層 各エントリの “name” 属性値 … ルールベース:文字列完全一致 Recall (R) @k:出力 k 件が正解を含む割合 Fine-tuning なし: BERT ベクトル間のコサイン類似度 比較
  9. 場所参照表現の mLUKE-MR 不正解事例 (1/3) • ラベル分類誤り (1) – 固有名と一般名詞句の区別に失敗 •

    ラベル分類誤り (2) – モデル予測は妥当、正解はアノテーション誤りと考えられる 10 … 山陰に入ることにしました。 神宮でもペットを預けることはできる … 伊達光宗の菩提寺。 LOC_NAME -> LOC_NOM FAC_NOM -> FAC_NAME まずは、輪王寺の金堂・三仏堂。 FAC_NAME -> FAC_NOM FAC_NAME -> FAC_NOM 正解 予測 ≒本堂 ※事例は「地球の歩き方旅行記データセット」本文(開発データ)より (固有名) (固有名) (固有名) (固有名) (非固有名) (非固有名) (非固有名) (非固有名)
  10. 場所参照表現の mLUKE-MR 不正解事例 (2/3) • ラベル分類誤り (3) – 駅を指し得る地名の正解ラベルが一貫せず、モデルが区別に失敗 ➢

    曖昧な(vague)言及のため LOC か FAC に限定しがたい事例であった 11 大糸線で糸魚川に向かいますが、 FAC_NAME -> LOC_NAME LOC_NAME -> FAC_NAME 一本前の列車で鳥取に戻ります。 正解 予測 ※事例は「地球の歩き方旅行記データセット」本文(開発データ)より (施設) (施設) (地域) (地域)
  11. 場所参照表現の mLUKE-MR 不正解事例 (3/3) • 抽出漏れ(False Negative) – 場所参照表現の典型的な特徴を持たない難しい事例など •

    過剰な抽出(False Positive) – 場所を指さない表現を誤って抽出したものが中心 12 「あなごめし うえの」が見つからず ヒロシマ二日目は雨、、、、 FAC_NAME FAC_NAME 正解 予測 小十郎の一本杉のある傑山寺 LOC_NAME 伯方の塩ソフトを食べました。 鳥居に掛かる文字は「東照大権現」。 こちらはツガザクラ。 とても観光どころではなく、 LOC_NAME DEICTIC FAC_NAME LOC_OR_FAC ※事例は「地球の歩き方旅行記データセット」本文(開発データ)より
  12. まとめ:日本語ジオパージングデータセットの構築 ◆実験結果 • 場所参照表現抽出、共参照解析では概ね高い精度を達成 • 曖昧性解消では、中谷 他 に加えて更に改善が必要 – 文書の大域的情報と候補

    DB エントリの地理的近接性を利用した 「文書レベルジオパージング」の実現 ◆Future Work 1. 曖昧性解消システム(ジオコーダ)の高度化 2. 移動軌跡情報の付与と解析システムの高度化 3. 他言語/多言語のジオパージングデータセットの構築 13 山本 他 中谷 他 山本 他「移動軌跡解析:文章中の人物の地理的な移動を読み取る」 中谷 他「メンション文脈とエントリ属性を考慮した Transformer Bi-Encoder によるジオコーディング」 データセット:https://github.com/naist-nlp/atd-mcl 実験コード: https://github.com/naist-nlp/luke-ner https://github.com/naist-nlp/atd-mcl-baselines (近日公開予定) 文章と地理空間を接続する研究に、本データセットや 「地球の歩き方旅行記データセット」をご利用いただければ幸いです