ATD-MCL@NLP2024

日本語旅行記ジオパージングデータセット ATD-MCL 東山翔平1,2 大内啓樹2,3 寺西裕紀3 大友寛之4 井手佑翼2 山本和太郎2 進藤裕之2
渡辺太郎2 1NICT 2NAIST 3理研 4サイバーエージェント D4-5 データセット公開 URL：https://github.com/naist-nlp/atd-mcl 山本他「移動軌跡解析：文章中の人物の地理的な移動を読み取る」中谷他「メンション文脈とエントリ属性を考慮した Transformer Bi-Encoder によるジオコーディング」本データセットを用いた研究： NLP2024

本研究の概要 ◆日本語旅行記に地理的情報を付与したデータセットを構築 1. 場所参照表現 2. 共参照関係 3. 地理データベースエントリ ◆3つのサブタスクでベースラインシステムの精度を評価
• 場所参照表現抽出、共参照解析では良好な精度 • 曖昧性解消（エントリ予測）では改善の余地大 2 近鉄奈良駅に到着。そこから奈良公園まで歩いてすぐです。お寺が好きなので最初に興福寺に行きました。境内で鹿と遭遇し、奈良に来たことを実感しました。 OpenStreetMap (OSM) link coref 国際会議版@EACL 2024 Findings: Arukikata Travelogue Dataset with Geographic Entity Mention, Coreference, and Link Annotation 1 (+2) +3 の情報を予測する問題：ジオパージング generic 地理データベース coref link Map data from OpenStreetMap © OpenStreetMap contributors

本研究の位置づけ ◆ジオパージング • 言語表現と実世界の場所を紐づける技術で、地理的な観点に基づくテキスト解析の基盤 ◆本データセットの主な特徴 • 地名や固有名だけでなく、施設名や一般名詞句等の表現も対象 •
旅行記1文書中に、地理的関連性を持つ場所参照表現が豊富に含まれる 3 近鉄奈良駅に到着。そこから奈良公園まで歩いてすぐです。お寺が好きなので最初に興福寺に行きました。境内で鹿と遭遇し、奈良に来たことを実感しました。場所参照表現を含む旅行記のイメージ

「地理的関連性」を示す実例 • 文書中の位置が近い表現は、参照先の場所が地理的に近い傾向 ➢文脈を考慮した文書レベルジオパージングに利用可能 4 同名の施設は全国に40件以上 ※実例は「地球の歩き方旅行記データセット」（https://www.nii.ac.jp/dsc/idr/arukikata/）本文からの引用地理データベース OpenStreetMap
(OSM) の地図と、各場所参照表現に対応する OSM エントリの位置 Map data from OpenStreetMap © OpenStreetMap contributors

本データセットの記述統計と特徴 ◆記述統計 ◆主な特徴 • 47 都道府県に関する場所参照表現を含む • 全場所参照表現中、施設名が 50.3%、一般名詞句・指示表現が 48.4%
• 全共参照クラスタ（＝エンティティ）中、サイズ≧2 が 35.6% • 全エンティティ中、OSM エントリが付与された事例は 54.1% – 固有名の場所参照表現を含むエンティティに限ると 75.7% で、 OSM のカバレッジの高さを示している 5 Set-B のみエントリ付与各都道府県内のOSMエントリにリンクされたエンティティ数

実験結果：場所参照表現抽出 (Task 1) ◆結果 • Fine-tuning 済みモデル（特に mLUKE-MR）で高精度 • 予測が難しいラベルは、
指示表現（DEICTIC：F1 最大 0.681）と組織を指すメトニミー（*_ORG：最大 0.556） – LOC_ORG の例：「市の有形文化財だそうです。」 7 ラベルセット Fine-tuning なし：学習済み公開モデル（ラベル変換ルール適用） Fine-tuning あり： ja_ginza_electra ベースの遷移型モデル Fine-tuning あり： mluke-large-lite ベースのスパン抽出型モデル LOC-NAME LOC-NOM FAC-NAME FAC-NOM LINE-NAME LINE-NOM TRANS-NAME TRANS-NOM LOC_OR_FAC DEICTIC LOC_ORG FAC_ORG 地域・地形施設路線乗り物指示表現地名/施設組織

実験結果：共参照解析 (Task 2) ◆結果 • サイズ1 のクラスタ（シングルトン）の特定では、単純な方法でも本データで高いスコアが出る傾向 • KWJA,
ｍLUKE-CR は、サイズ≧2 のクラスタにおいて表層が異なる表現間の共参照関係もある程度捉えている 8 ルールベース： Leave-as-is Fine-tuning なし：学習済み公開モデル Fine-tuning あり： mluke-large ベースの先行詞予測型モデルルールベース：同一文字列をクラスタ化

実験結果：エンティティ曖昧性解消 (Task 3) ◆両システムの概要 • エンティティ・エントリの文字列情報間の比較に基づく方法 ◆結果 •
概ね BERT-ED＞Rule-ED で、k が大きいときに精度差も大きい • 絶対的な精度は低い – 入力文脈・エントリ属性情報を不使用、Fine-tuning なしの簡易な設定のため 9 中谷他「メンション文脈とエントリ属性を考慮した Transformer Bi-Encoder によるジオコーディング」 R@1：0.384，R@100：0.902（※本実験と実験設定が異なるため参考値。論文から数値訂正）近鉄奈良駅そこ name=近鉄奈良|pref=奈良県|… name=近鉄奈良駅バス停|pref=… name=奈良公園|pref=奈良県|… name=興福寺|pref=東京都|… name=興福寺|pref=奈良県|… name=興福寺|pref=長崎県|… … エンティティ中の代表表現の表層各エントリの “name” 属性値 … ルールベース：文字列完全一致 Recall (R) @k：出力 k 件が正解を含む割合 Fine-tuning なし： BERT ベクトル間のコサイン類似度比較

場所参照表現の mLUKE-MR 不正解事例 (1/3) • ラベル分類誤り (1) – 固有名と一般名詞句の区別に失敗 •
ラベル分類誤り (2) – モデル予測は妥当、正解はアノテーション誤りと考えられる 10 … 山陰に入ることにしました。神宮でもペットを預けることはできる … 伊達光宗の菩提寺。 LOC_NAME -> LOC_NOM FAC_NOM -> FAC_NAME まずは、輪王寺の金堂・三仏堂。 FAC_NAME -> FAC_NOM FAC_NAME -> FAC_NOM 正解予測 ≒本堂 ※事例は「地球の歩き方旅行記データセット」本文（開発データ）より（固有名）（固有名）（固有名）（固有名）（非固有名）（非固有名）（非固有名）（非固有名）

場所参照表現の mLUKE-MR 不正解事例 (2/3) • ラベル分類誤り (3) – 駅を指し得る地名の正解ラベルが一貫せず、モデルが区別に失敗 ➢
曖昧な（vague）言及のため LOC か FAC に限定しがたい事例であった 11 大糸線で糸魚川に向かいますが、 FAC_NAME -> LOC_NAME LOC_NAME -> FAC_NAME 一本前の列車で鳥取に戻ります。正解予測 ※事例は「地球の歩き方旅行記データセット」本文（開発データ）より（施設）（施設）（地域）（地域）

場所参照表現の mLUKE-MR 不正解事例 (3/3) • 抽出漏れ（False Negative） – 場所参照表現の典型的な特徴を持たない難しい事例など •
過剰な抽出（False Positive） – 場所を指さない表現を誤って抽出したものが中心 12 「あなごめしうえの」が見つからずヒロシマ二日目は雨、、、、 FAC_NAME FAC_NAME 正解予測小十郎の一本杉のある傑山寺 LOC_NAME 伯方の塩ソフトを食べました。鳥居に掛かる文字は「東照大権現」。こちらはツガザクラ。とても観光どころではなく、 LOC_NAME DEICTIC FAC_NAME LOC_OR_FAC ※事例は「地球の歩き方旅行記データセット」本文（開発データ）より

まとめ：日本語ジオパージングデータセットの構築 ◆実験結果 • 場所参照表現抽出、共参照解析では概ね高い精度を達成 • 曖昧性解消では、中谷他に加えて更に改善が必要 – 文書の大域的情報と候補
DB エントリの地理的近接性を利用した「文書レベルジオパージング」の実現 ◆Future Work 1. 曖昧性解消システム（ジオコーダ）の高度化 2. 移動軌跡情報の付与と解析システムの高度化 3. 他言語／多言語のジオパージングデータセットの構築 13 山本他中谷他山本他「移動軌跡解析：文章中の人物の地理的な移動を読み取る」中谷他「メンション文脈とエントリ属性を考慮した Transformer Bi-Encoder によるジオコーディング」データセット：https://github.com/naist-nlp/atd-mcl 実験コード： https://github.com/naist-nlp/luke-ner https://github.com/naist-nlp/atd-mcl-baselines (近日公開予定) 文章と地理空間を接続する研究に、本データセットや「地球の歩き方旅行記データセット」をご利用いただければ幸いです

ATD-MCL@NLP2024

ATD-MCL@NLP2024

shigashiyama

More Decks by shigashiyama

Featured

Transcript

日本語旅行記ジオパージングデータセット ATD-MCL 東山翔平1,2 大内啓樹2,3 寺西裕紀3 大友寛之4 井手佑翼2 山本和太郎2 進藤裕之2

本研究の概要 ◆日本語旅行記に地理的情報を付与したデータセットを構築 1. 場所参照表現 2. 共参照関係 3. 地理データベースエントリ ◆3つのサブタスクでベースラインシステムの精度を評価

本データセットの記述統計と特徴 ◆記述統計 ◆主な特徴 • 47 都道府県に関する場所参照表現を含む • 全場所参照表現中、施設名が 50.3%、一般名詞句・指示表現が 48.4%

実験結果：場所参照表現抽出 (Task 1) ◆結果 • Fine-tuning 済みモデル（特に mLUKE-MR）で高精度 • 予測が難しいラベルは、

実験結果：共参照解析 (Task 2) ◆結果 • サイズ1 のクラスタ（シングルトン）の特定では、単純な方法でも本データで高いスコアが出る傾向 • KWJA,

実験結果：エンティティ曖昧性解消 (Task 3) ◆両システムの概要 • エンティティ・エントリの文字列情報間の比較に基づく方法 ◆結果 •

場所参照表現の mLUKE-MR 不正解事例 (1/3) • ラベル分類誤り (1) – 固有名と一般名詞句の区別に失敗 •

場所参照表現の mLUKE-MR 不正解事例 (2/3) • ラベル分類誤り (3) – 駅を指し得る地名の正解ラベルが一貫せず、モデルが区別に失敗 ➢

場所参照表現の mLUKE-MR 不正解事例 (3/3) • 抽出漏れ（False Negative） – 場所参照表現の典型的な特徴を持たない難しい事例など •

まとめ：日本語ジオパージングデータセットの構築 ◆実験結果 • 場所参照表現抽出、共参照解析では概ね高い精度を達成 • 曖昧性解消では、中谷他に加えて更に改善が必要 – 文書の大域的情報と候補