Upgrade to Pro — share decks privately, control downloads, hide ads and more …

旅行記から地図へ:文章から旅の軌跡を取り出して地図上に描く

Hiroki Ouchi
September 23, 2023

 旅行記から地図へ:文章から旅の軌跡を取り出して地図上に描く

国立民俗学博物館主催の国際シンポジウム・ワークショップ「GISを用いて言語情報と非言語情報をつなぐ」( https://www.minpaku.ac.jp/ai1ec_event/46676 )の招待講演で使用したスライド(一部修正版)

Hiroki Ouchi

September 23, 2023
Tweet

More Decks by Hiroki Ouchi

Other Decks in Research

Transcript

  1. ⼤内 啓樹 奈良 先 端 科学 技 術⼤ 学院⼤ 学

    ⾃ 然⾔ 語処理 学研 究室 助教 @国 ⽴⺠ 俗 学 博 物館 ( 2 0 2 3 /0 9 /2 3 ) 旅⾏記から地図へ ‒ ⽂章から旅の軌跡を取り出して地図上に描く ‒
  2. 2022年4⽉ プロジェクト始動 3 科 研 費 基盤研 究 ( B)

    研究代表者 ⼤内啓樹 研究分担者 進藤裕之,若宮翔⼦,松⽥裕貴 研究協⼒者 東⼭翔平,寺⻄裕紀, ⼤友寛之,⼭本和太郎, 中⾕響,⽚⼭歩希,辻本陵, 井之上直也,中村哲,渡辺太郎 https://kaken.nii.ac.jp/ja/grant/KAKENHI-PROJECT-22H03648/ 「⽂章中の⼈物の移動軌跡を 実世界の地図上に接地する ための基礎研究とその応⽤」
  3. 我々のプロジェクトの⽅向性 「地理空間情報×⾃然⾔語処理」を拡⼤ 5 n この領域をもっともっと盛り上げたい • 仲間を集めてオープンに知⾒を共有する「場」を作る • Slackワークスペース Geography&Language

    を開始 • ⽉に1回オンライン勉強会を開催している • 本Slackの現在の参加者は165名 ⾔語は⾯⽩く、地理も⾯⽩い。 両⽅合わさればもっと⾯⽩い。 https://join.slack.com/t/geography language/shared_invite/zt- 22c9v321h-F4Lf81qMzaaM3IP2V~SRpA n 地理と⾔語が交差する領域の先駆的な研究プロジェクト: GeoNLP • ROIS-DS⼈⽂学オープンデータ共同利⽤センターの北本朝展教授が主導 ▼ 参加リンク
  4. ⽂章中の⼈物の「移動軌跡」を読み取り,地図上に再現できるAIの開発 「⾔葉の世界」と「地図の世界」をつなげたい 出⼒:移動軌跡の描画 午前8時 近鉄奈良駅 到着。 ホテルニューわかさに 9時 チェックイン予定。 時間に余裕があったので、

    途中のスタバで ⼀服。 30分過ごしてから 店を出て、 ホテルにチェックインしました。 ⼊⼒:⽂章 近鉄奈良駅 スターバックス 奈良公園店 ホテル ニューわかさ 2 3 1 ⾔語知能 空間知能
  5. 時代を横断するAI 歴史的⽇本語資料も研究対象 7 n まずは現代旅⾏記から研究を開始 • 現代:平成〜令和 • 近代:明治〜昭和 •

    近世:江⼾時代 • 中世:鎌倉〜安⼟桃⼭ • 古代:⾶⿃〜平安 昔の⼈たちの歩いた軌跡を 現在の地図上に再現したい ここから着⼿ 現在はここにも着⼿
  6. 我々のアプローチ 「機械学習」を利⽤し,構造化を⾃動化 11 n ⼈⼿による⽂章の構造化には多⼤な労⼒がかかる n そこで,機械学習技術を利⽤する n ⽂章を⾃動で構造化できるシステムを構築する n

    我々の研究における機械学習のイメージ n 少ない正解情報付きデータから学習し,多くの未知データの構造を予測 友達と 居酒屋「すぎ乃」 へ! 割烹「利助」に到着。 施設名 割烹「利助」は 施設名っぽいな 正解できるように学習 未知データの構造を予測
  7. 以上の⽅針にもとづいて 「移動軌跡接地」にチャレンジ 出⼒:移動軌跡の描画 午前8時 近鉄奈良駅 到着。 ホテルニューわかさに 9時 チェックイン予定。 時間に余裕があったので、

    途中のスタバで ⼀服。 30分過ごしてから 店を出て、 ホテルにチェックインしました。 ⼊⼒:⽂章 近鉄奈良駅 スターバックス 奈良公園店 ホテル ニューわかさ 2 3 1 ⾔語知能 空間知能
  8. データセットの実例 「旅⾏記」と「旅スケジュール」 15 「旅⾏記」の実例 会津若松へ向かう磐越西線の接続を考慮して選んだ やまびこ203号はE5系での運転でした。何度も乗って いるE2系よりも座席が広く感じ、快適な移動でした。 ・・・ 会津若松駅から快速あいづ4号に乗車し、郡山へ向 かいました。

    会津若松は晴れ間がありましたが、山を上るにつれ て雲が増えて行き、途中から雨が降り出しました。天 気予報通りでしたが、今回の旅行は暖かい2日間で 移動時間を除いて雨に降られることがなかったのは ラッキーでした。 1日目 2021年10月15日(金) 05:40 - 05:50 自宅 05:50 - 05:53 最寄駅 ・・・ 15:33 - 23:59 庄助の宿 瀧の湯 2日目 2021年10月16日(土) 00:00 - 09:25 庄助の宿 瀧の湯 09:25 - 09:32 東山温泉入口 (瀧の湯前)バス停 ・・・ 17:33 - 17:38 最寄駅 17:38 - 17:45 自宅 「旅スケジュール」の実例
  9. データセットの学術的意義 研究の透明化・再現性の担保 18 n これまでの課題:共通利⽤可能な旅⾏記データがなかった n それぞれの研究者がウェブ上の旅⾏記投稿サイトなどから独⾃に取得した 旅⾏記データを⽤いることが多かった n そのため,研究の再現や実験結果の公平な⽐較分析が困難であった

    n 本データセット:⼀定条件下での利⽤機会についてオープン化 n 研究に使⽤したデータが特定可能になる → 研究の透明性・再現性の担保 n 他の研究との⽐較も格段に容易となる → 研究の知⾒の蓄積が加速 オープンサイエンスの促進 [⼤須賀他 2021 https://www.ipsj.or.jp/dp/contents/publication/46/TR0202-05.html]
  10. 「移動軌跡接地」タスクの特徴 複合的な処理が必要となる 20 ① 場所参照表現抽出:各場所参照表現を抽出 ② 共参照解析:同じ場所を指す表現の認識 ③ ジオコーディング:各場所参照表現を地図上に接地 ④

    訪問状態分類:訪問したか否かを予測 ⑤ 訪問順序認識:訪問場所の整序 午前8時 近鉄奈良駅 到着。 ホテルニューわかさに 9時 チェックイン予定。 時間に余裕があったので、 途中のスタバで ⼀服。 30分過ごしてから 店を出て、 ホテルにチェックインしました。 Visit PlanToVisit Visit Visit Visit ① ② ② ③ ⼊⼒:⽂章 地図データベース OpenStreetMap Visit/NotVisit/ PlanToVisit ①,②,...
  11. 「移動軌跡接地」タスクの特徴 複合的な処理が必要となる 21 ① 場所参照表現抽出:各場所参照表現を抽出 ② 共参照解析:同じ場所を指す表現の認識 ③ ジオコーディング:各場所参照表現を地図上に接地 ④

    訪問状態分類:訪問したか否かを予測 ⑤ 訪問順序認識:訪問場所の整序 午前8時 近鉄奈良駅 到着。 ホテルニューわかさに 9時 チェックイン予定。 時間に余裕があったので、 途中のスタバで ⼀服。 30分過ごしてから 店を出て、 ホテルにチェックインしました。 Visit PlanToVisit Visit Visit Visit ① ② ② ③ ⼊⼒:⽂章 地図データベース OpenStreetMap Visit/NotVisit/ PlanToVisit ①,②,... これら2つの技術について詳しく説明します
  12. 「⾔葉の世界」と「地図の世界」の架け橋:ジオコーディング 場所参照表現と位置情報を紐付ける技術 22 n 主流のアプローチはふたつある a. 位置情報(経緯度)を直接出⼒するアプローチ b. 位置情報(経緯度)を地図データベース(DB)を介して出⼒するアプローチ シ

    ス テ ム シ ス テ ム 久本他,場所参照表現と位置情報を紐付けるジオコーディングの概観と発展に向けての考察.ANLP2023 https://www.anlp.jp/proceedings/annual_meeting/2023/pdf_dir/B11-1.pdf
  13. 「⾔葉の世界」と「地図の世界」の架け橋:ジオコーディング 地図DBを介するアプローチを採⽤ 23 n 我々のプロジェクトでは「地図DBを介するアプローチ」を採⽤ n 利点①:経緯度に限らず多様な情報を出⼒可能 n 利点②:地図DBの変更に柔軟に対応可能 シ

    ス テ ム シ ス テ ム 久本他,場所参照表現と位置情報を紐付けるジオコーディングの概観と発展に向けての考察.ANLP2023 https://www.anlp.jp/proceedings/annual_meeting/2023/pdf_dir/B11-1.pdf
  14. ジオコーディングの技術的課題 どちらのスタバが正しい? 24 ⽂章中の「⽂脈」と地図上の「位置関係」を同時に考慮した技術を洗練したい 近鉄奈良駅 スターバックス 猿沢池店 スターバックス 奈良公園店 ホテル

    ニューわかさ へ⾄る道 どちらのスタバ? 午前8時 近鉄奈良駅 到着。 ホテルニューわかさに 9時 チェックイン予定。 時間に余裕があったので、 途中のスタバで ⼀服。 30分過ごしてから 店を出て、 ホテルにチェックインしました。 Visit Visit Visit Visit ① ② ② ③ ⼊⼒:⽂章 PlanToVisit
  15. 訪問順序認識の技術的課題 「関⻄」のあとに「京都」? 25 n粒度の異なる場所を直列に並べると不⾃然 関⻄ 京都 清⽔寺 東⼤寺 奈良 ホテル京都

    「関⻄」から「京都」? 「京都」から「清⽔寺」? 関⻄へ旅⾏にやってきました。 1⽇⽬は京都です。清⽔寺に⾏き、ホテル京都で宿泊。 2⽇⽬は奈良。東⼤寺の⼤仏を⾒ました。 ⼭本他,移動軌跡可視化のための旅⾏記への訪問順序アノテーション.JSAI2023 https://www.jstage.jst.go.jp/article/pjsai/JSAI2023/0/JSAI2023_4Xin106/_pdf/-char/ja
  16. 「地理情報処理」と「⾃然⾔語処理」の融合的アプローチ 幅広い研究を展開中 31 n 歴史的⽇本語資料から旅⾏経路や名所の抽出 • With 国⽴国語研究所 n 歴史災害資料からの情報抽出

    • With ⽴命館⼤学 n ⾃由記述⽂から感染経路および⾏動の抽出 • With 北⾒⼯業⼤学/北海道⼤学/東京⼤学 n 衛星画像に基づく⼟地利⽤変遷の説明⽣成
  17. 参考⽂献 n ⼤内啓樹, 進藤裕之, 若宮翔⼦, 松⽥裕貴, 井之上直也, 東⼭翔平, 中村哲, 渡辺太郎.地球の歩き⽅旅⾏記データセット.⾔語処理学会第29回

    年次⼤会発表論⽂集.2023. n Hiroki Ouchi, Hiroyuki Shindo, Shoko Wakamiya, Yuki Matsuda, Naoya Inoue, Shohei Higashiyama, Satoshi Nakamura, Taro Watanabe. Arukikata Travelogue Dataset.arXiv.2023. n ⼤須賀智⼦, ⼤⼭敬三.情報学研究データリポジトリ IDR における研究⽤データセット共同利⽤の取り組み.情報処理学会論⽂誌デジタル プラクティス(DP), Vol. 2, No. 2, pp. 47–56, 2021. n 久本空海, ⻄尾悟, 井⼝奏⼤, 古川泰⼈, ⼤友寛之, 東⼭翔平, ⼤内啓樹.場所参照表現と位置情報を紐付けるジオコーディングの概観と発展 に向けての考察.⾔語処理学会第29回年次⼤会発表論⽂集.2023. n ⼭本和太郎, 東⼭翔平, ⼤内啓樹, ⼤友寛之, 井⼿佑翼, 進藤裕之, 渡辺太郎.移動軌跡可視化のための旅⾏記への訪問順序アノテーション. 2023年度⼈⼯知能学会全国⼤会論⽂集.2023. n ⽚⼭歩希, 東⼭翔平, ⼤内啓樹, 渡辺太郎.ChatGPTで「おくのほそ道」を読む―近世紀⾏⽂における場所参照表現の認識―.NLP若⼿の会. 2023. n 中⾕響, 寺⻄裕紀, 東⼭翔平, ⼤内啓樹, 渡辺太郎.⽂章から地図へ:テキストジオグラウンディングシステムの開発. NLP若⼿の会.2023. https://www.anlp.jp/proceedings/annual_meeting/2023/pdf_dir/B12-1.pdf https://arxiv.org/abs/2305.11444 https://www.anlp.jp/proceedings/annual_meeting/2023/pdf_dir/B11-1.pdf https://www.ipsj.or.jp/dp/contents/publication/46/TR0202-05.html https://www.jstage.jst.go.jp/article/pjsai/JSAI2023/0/JSAI2023_4Xin106/_article/-char/ja/
  18. 場所参照表現抽出 場所を表す⾔語表現の出現位置と種別を同定 35 n 場所を表す⾔語表現 = 「場所参照表現」と呼ぶ 午前1 8時2 に3

    近鉄4 奈良5 駅6 到着7 午前8時に近鉄奈良駅到着 [4, 6] FACILITY ①⼊⼒⽂章をある単位(単語/⽂字など)で分割 ②場所参照表現の出現位置と種別を予測 (出現位置) (種別)
  19. 共参照解析 同じ場所を指す表現のグルーピング 36 ⼊⼒:⽂章と場所参照表現 午前8時に近鉄奈良駅到着。 ホテルニューわかさに9時チェックイン 予定。時間に余裕があったので、途中の スタバで⼀服。 30分過ごしてから店を出て、ホテルに チェックインしました。

    出⼒:共参照グループ 近鉄奈良駅 スタバ 店 ホテルニューわかさ ホテル n 共参照解析 = 同じ事物や概念を指す異なる⾔語表現をグルーピング n 共参照関係(グループ) = 同じ事物や概念を指す表現のグループ Group ID: 1 Group ID: 2 Group ID: 3
  20. 共参照解析 同じ場所を指す表現のグルーピング 37 ⼊⼒:⽂章と場所参照表現 午前8時に近鉄奈良駅到着。 ホテルニューわかさに9時チェックイン 予定。時間に余裕があったので、途中の スタバで⼀服。 30分過ごしてから店を出て、ホテルに チェックインしました。

    n 共参照解析の利点は? n その場所に関する情報をより広範な⽂脈から取り出しやすくなる 例)「ホテルニューわかさ」にチェックインした 事実やタイミングを抽出したい場合 Ø 「ホテルニューわかさ」が登場する⽂を⾒ただ けでは特定できないが,「ホテル」が登場する ⽂を根拠として特定可能 Ø もし「ホテルニューわかさ」と「ホテル」をグ ループ化できていない場合,「ホテル」に関す る情報を「ホテルニューわかさ」に関する情報 として取り出すことは困難である