$30 off During Our Annual Pro Sale. View Details »

旅行記から地図へ:文章から旅の軌跡を取り出して地図上に描く

Hiroki Ouchi
September 23, 2023

 旅行記から地図へ:文章から旅の軌跡を取り出して地図上に描く

国立民俗学博物館主催の国際シンポジウム・ワークショップ「GISを用いて言語情報と非言語情報をつなぐ」( https://www.minpaku.ac.jp/ai1ec_event/46676 )の招待講演で使用したスライド(一部修正版)

Hiroki Ouchi

September 23, 2023
Tweet

More Decks by Hiroki Ouchi

Other Decks in Research

Transcript

  1. ⼤内 啓樹
    奈良 先 端 科学 技 術⼤ 学院⼤ 学 ⾃ 然⾔ 語処理 学研 究室 助教
    @国 ⽴⺠ 俗 学 博 物館 ( 2 0 2 3 /0 9 /2 3 )
    旅⾏記から地図へ
    ‒ ⽂章から旅の軌跡を取り出して地図上に描く ‒

    View Slide

  2. 2021年8⽉中旬の夜,科研費のテーマを考えていた
    芭蕉からの贈りもの
    2
    AI技術によって
    「⽂章」を読み解き
    「地図」と紐づける
    着想は松尾芭蕉から授かった
    http://www.basho-bp.jp/?page_id=28
    ⽂章に埋まっている
    「地理的な移動」を取り出して
    地図上に再現したい

    View Slide

  3. 2022年4⽉
    プロジェクト始動
    3
    科 研 費 基盤研 究 ( B)
    研究代表者 ⼤内啓樹
    研究分担者 進藤裕之,若宮翔⼦,松⽥裕貴
    研究協⼒者 東⼭翔平,寺⻄裕紀,
    ⼤友寛之,⼭本和太郎,
    中⾕響,⽚⼭歩希,辻本陵,
    井之上直也,中村哲,渡辺太郎
    https://kaken.nii.ac.jp/ja/grant/KAKENHI-PROJECT-22H03648/
    「⽂章中の⼈物の移動軌跡を
    実世界の地図上に接地する
    ための基礎研究とその応⽤」

    View Slide

  4. 本⽇の発表
    もくじ
    4
    1. 研究プロジェクトの背景・⽅向性
    2. データセットの構築
    3. データの構造化
    4. 現在の進捗とこれから

    View Slide

  5. 我々のプロジェクトの⽅向性
    「地理空間情報×⾃然⾔語処理」を拡⼤
    5
    n この領域をもっともっと盛り上げたい
    • 仲間を集めてオープンに知⾒を共有する「場」を作る
    • Slackワークスペース Geography&Language を開始
    • ⽉に1回オンライン勉強会を開催している
    • 本Slackの現在の参加者は165名
    ⾔語は⾯⽩く、地理も⾯⽩い。
    両⽅合わさればもっと⾯⽩い。
    https://join.slack.com/t/geography
    language/shared_invite/zt-
    22c9v321h-F4Lf81qMzaaM3IP2V~SRpA
    n 地理と⾔語が交差する領域の先駆的な研究プロジェクト: GeoNLP
    • ROIS-DS⼈⽂学オープンデータ共同利⽤センターの北本朝展教授が主導
    ▼ 参加リンク

    View Slide

  6. ⽂章中の⼈物の「移動軌跡」を読み取り,地図上に再現できるAIの開発
    「⾔葉の世界」と「地図の世界」をつなげたい
    出⼒:移動軌跡の描画
    午前8時 近鉄奈良駅 到着。
    ホテルニューわかさに
    9時 チェックイン予定。
    時間に余裕があったので、
    途中のスタバで ⼀服。
    30分過ごしてから 店を出て、
    ホテルにチェックインしました。
    ⼊⼒:⽂章
    近鉄奈良駅
    スターバックス
    奈良公園店
    ホテル
    ニューわかさ
    2
    3
    1
    ⾔語知能 空間知能

    View Slide

  7. 時代を横断するAI
    歴史的⽇本語資料も研究対象
    7
    n まずは現代旅⾏記から研究を開始
    • 現代:平成〜令和
    • 近代:明治〜昭和
    • 近世:江⼾時代
    • 中世:鎌倉〜安⼟桃⼭
    • 古代:⾶⿃〜平安
    昔の⼈たちの歩いた軌跡を
    現在の地図上に再現したい
    ここから着⼿
    現在はここにも着⼿

    View Slide

  8. なぜ「⽂章」に着⽬するのか?
    「⽂章」は地理空間情報の鉱脈
    8
    n ⽂章には地理空間に関するゆたかな情報が書かれている
    n ある場所での⼈間の経験や⾏動,ある場所から受けた印象
    n ある場所に存在した事物,ある場所で起こった事象
    ⼤量の⽂章から地理空間に関する情報を
    取り出して有効利⽤するにはどうすれば?
    n 地理空間に関わる記述を含む⽂章はたくさん存在する
    n 旅⾏記・紀⾏⽂,新聞,SNS投稿,⼩説,百科事典

    View Slide

  9. 基盤技術①
    「⽂章」を機械で扱いやすい形にする
    9
    n ⽂章は⾮構造化データ
    n GISを含む機械(コンピュータ・システム)で扱いにくい
    午前8時近鉄奈良駅到着。
    固有名: 近鉄奈良駅
    出現位置: [5, 9]
    種別: 施設名
    位置情報: 34.6841376, 135.8285414
    ⼊⼒ 出⼒
    ⽂章を構造化データへ変換

    View Slide

  10. 基盤技術②
    場所を表す⽂字列に位置情報を吹き込む
    10
    午前8時近鉄奈良駅到着。
    ⼊⼒⽂章
    近鉄奈良駅
    近鉄奈良駅
    地図データベース
    OpenStreetMap
    n 場所を表す⽂字列を地図に接地(グラウンディング)

    View Slide

  11. 我々のアプローチ
    「機械学習」を利⽤し,構造化を⾃動化
    11
    n ⼈⼿による⽂章の構造化には多⼤な労⼒がかかる
    n そこで,機械学習技術を利⽤する
    n ⽂章を⾃動で構造化できるシステムを構築する
    n 我々の研究における機械学習のイメージ
    n 少ない正解情報付きデータから学習し,多くの未知データの構造を予測
    友達と 居酒屋「すぎ乃」 へ! 割烹「利助」に到着。
    施設名
    割烹「利助」は
    施設名っぽいな
    正解できるように学習 未知データの構造を予測

    View Slide

  12. 以上の⽅針にもとづいて
    「移動軌跡接地」にチャレンジ
    出⼒:移動軌跡の描画
    午前8時 近鉄奈良駅 到着。
    ホテルニューわかさに
    9時 チェックイン予定。
    時間に余裕があったので、
    途中のスタバで ⼀服。
    30分過ごしてから 店を出て、
    ホテルにチェックインしました。
    ⼊⼒:⽂章
    近鉄奈良駅
    スターバックス
    奈良公園店
    ホテル
    ニューわかさ
    2
    3
    1
    ⾔語知能 空間知能

    View Slide

  13. 本⽇の発表
    もくじ
    13
    1. 研究プロジェクトの背景・⽅向性
    2. データセットの構築
    3. データの構造化
    4. 現在の進捗とこれから

    View Slide

  14. 2022年11⽉24⽇
    「地球の歩き⽅旅⾏記データセット」公開
    14
    国⽴情報学研究所情報学研究データリポジトリ(IDR)から学術⽬的で無償提供開始
    https://doi.org/10.32130/idr.18.1
    データセットDOI:
    https://www.nii.ac.jp/dsc/idr/arukikata/
    申込サイト:
    論⽂(和⽂):⼤内他,地球の歩き⽅旅⾏記データセット.ANLP2023.https://www.anlp.jp/proceedings/annual_meeting/2023/pdf_dir/B12-1.pdf
    論⽂(英⽂):Ouchi et al., Arukikata Travelogue Dataset. arXiv 2023. https://arxiv.org/abs/2305.11444

    View Slide

  15. データセットの実例
    「旅⾏記」と「旅スケジュール」
    15
    「旅⾏記」の実例
    会津若松へ向かう磐越西線の接続を考慮して選んだ
    やまびこ203号はE5系での運転でした。何度も乗って
    いるE2系よりも座席が広く感じ、快適な移動でした。
    ・・・
    会津若松駅から快速あいづ4号に乗車し、郡山へ向
    かいました。
    会津若松は晴れ間がありましたが、山を上るにつれ
    て雲が増えて行き、途中から雨が降り出しました。天
    気予報通りでしたが、今回の旅行は暖かい2日間で
    移動時間を除いて雨に降られることがなかったのは
    ラッキーでした。
    1日目 2021年10月15日(金)
    05:40 - 05:50 自宅
    05:50 - 05:53 最寄駅
    ・・・
    15:33 - 23:59 庄助の宿 瀧の湯
    2日目 2021年10月16日(土)
    00:00 - 09:25 庄助の宿 瀧の湯
    09:25 - 09:32 東山温泉入口
    (瀧の湯前)バス停
    ・・・
    17:33 - 17:38 最寄駅
    17:38 - 17:45 自宅
    「旅スケジュール」の実例

    View Slide

  16. データセットの特徴
    国内旅⾏記4500記事と海外旅⾏記9500記事
    16
    ツイートの
    10倍以上の⻑さ
    豊富な
    地名・施設名
    3100万⽂字規模

    View Slide

  17. データセットの特徴
    旅⾏記の⾔及する地域
    17
    国内旅⾏記:全都道府県をカバー 海外旅⾏記:150以上の国・地域をカバー
    ベスト10 ベスト10

    View Slide

  18. データセットの学術的意義
    研究の透明化・再現性の担保
    18
    n これまでの課題:共通利⽤可能な旅⾏記データがなかった
    n それぞれの研究者がウェブ上の旅⾏記投稿サイトなどから独⾃に取得した
    旅⾏記データを⽤いることが多かった
    n そのため,研究の再現や実験結果の公平な⽐較分析が困難であった
    n 本データセット:⼀定条件下での利⽤機会についてオープン化
    n 研究に使⽤したデータが特定可能になる → 研究の透明性・再現性の担保
    n 他の研究との⽐較も格段に容易となる → 研究の知⾒の蓄積が加速
    オープンサイエンスの促進
    [⼤須賀他 2021 https://www.ipsj.or.jp/dp/contents/publication/46/TR0202-05.html]

    View Slide

  19. 本⽇の発表
    もくじ
    19
    1. 研究プロジェクトの背景・⽅向性
    2. データセットの構築
    3. データの構造化
    4. 現在の進捗とこれから

    View Slide

  20. 「移動軌跡接地」タスクの特徴
    複合的な処理が必要となる
    20
    ① 場所参照表現抽出:各場所参照表現を抽出
    ② 共参照解析:同じ場所を指す表現の認識
    ③ ジオコーディング:各場所参照表現を地図上に接地
    ④ 訪問状態分類:訪問したか否かを予測
    ⑤ 訪問順序認識:訪問場所の整序
    午前8時 近鉄奈良駅 到着。
    ホテルニューわかさに
    9時 チェックイン予定。
    時間に余裕があったので、
    途中のスタバで ⼀服。
    30分過ごしてから 店を出て、
    ホテルにチェックインしました。
    Visit
    PlanToVisit
    Visit
    Visit
    Visit




    ⼊⼒:⽂章 地図データベース
    OpenStreetMap
    Visit/NotVisit/
    PlanToVisit
    ①,②,...

    View Slide

  21. 「移動軌跡接地」タスクの特徴
    複合的な処理が必要となる
    21
    ① 場所参照表現抽出:各場所参照表現を抽出
    ② 共参照解析:同じ場所を指す表現の認識
    ③ ジオコーディング:各場所参照表現を地図上に接地
    ④ 訪問状態分類:訪問したか否かを予測
    ⑤ 訪問順序認識:訪問場所の整序
    午前8時 近鉄奈良駅 到着。
    ホテルニューわかさに
    9時 チェックイン予定。
    時間に余裕があったので、
    途中のスタバで ⼀服。
    30分過ごしてから 店を出て、
    ホテルにチェックインしました。
    Visit
    PlanToVisit
    Visit
    Visit
    Visit




    ⼊⼒:⽂章 地図データベース
    OpenStreetMap
    Visit/NotVisit/
    PlanToVisit
    ①,②,...
    これら2つの技術について詳しく説明します

    View Slide

  22. 「⾔葉の世界」と「地図の世界」の架け橋:ジオコーディング
    場所参照表現と位置情報を紐付ける技術
    22
    n 主流のアプローチはふたつある
    a. 位置情報(経緯度)を直接出⼒するアプローチ
    b. 位置情報(経緯度)を地図データベース(DB)を介して出⼒するアプローチ








    久本他,場所参照表現と位置情報を紐付けるジオコーディングの概観と発展に向けての考察.ANLP2023
    https://www.anlp.jp/proceedings/annual_meeting/2023/pdf_dir/B11-1.pdf

    View Slide

  23. 「⾔葉の世界」と「地図の世界」の架け橋:ジオコーディング
    地図DBを介するアプローチを採⽤
    23
    n 我々のプロジェクトでは「地図DBを介するアプローチ」を採⽤
    n 利点①:経緯度に限らず多様な情報を出⼒可能
    n 利点②:地図DBの変更に柔軟に対応可能








    久本他,場所参照表現と位置情報を紐付けるジオコーディングの概観と発展に向けての考察.ANLP2023
    https://www.anlp.jp/proceedings/annual_meeting/2023/pdf_dir/B11-1.pdf

    View Slide

  24. ジオコーディングの技術的課題
    どちらのスタバが正しい?
    24
    ⽂章中の「⽂脈」と地図上の「位置関係」を同時に考慮した技術を洗練したい
    近鉄奈良駅
    スターバックス
    猿沢池店
    スターバックス
    奈良公園店
    ホテル
    ニューわかさ
    へ⾄る道
    どちらのスタバ?
    午前8時 近鉄奈良駅 到着。
    ホテルニューわかさに
    9時 チェックイン予定。
    時間に余裕があったので、
    途中のスタバで ⼀服。
    30分過ごしてから 店を出て、
    ホテルにチェックインしました。
    Visit
    Visit
    Visit
    Visit




    ⼊⼒:⽂章
    PlanToVisit

    View Slide

  25. 訪問順序認識の技術的課題
    「関⻄」のあとに「京都」?
    25
    n粒度の異なる場所を直列に並べると不⾃然
    関⻄ 京都 清⽔寺 東⼤寺
    奈良
    ホテル京都
    「関⻄」から「京都」? 「京都」から「清⽔寺」?
    関⻄へ旅⾏にやってきました。
    1⽇⽬は京都です。清⽔寺に⾏き、ホテル京都で宿泊。
    2⽇⽬は奈良。東⼤寺の⼤仏を⾒ました。
    ⼭本他,移動軌跡可視化のための旅⾏記への訪問順序アノテーション.JSAI2023
    https://www.jstage.jst.go.jp/article/pjsai/JSAI2023/0/JSAI2023_4Xin106/_pdf/-char/ja

    View Slide

  26. 訪問順序認識の技術的課題
    「関⻄」のあとに「京都」?
    26
    n 「場所の階層」と「訪問の順序」の両⽅を考慮する必要がある
    関⻄へ旅⾏にやってきました。
    1⽇⽬は京都です。清⽔寺に⾏き、ホテル京都で宿泊。
    2⽇⽬は奈良。東⼤寺の⼤仏を⾒ました。
    関⻄
    京都府
    清⽔寺 東⼤寺
    奈良県
    ホテル京都
    ⼭本他,移動軌跡可視化のための旅⾏記への訪問順序アノテーション.JSAI2023
    https://www.jstage.jst.go.jp/article/pjsai/JSAI2023/0/JSAI2023_4Xin106/_pdf/-char/ja

    View Slide

  27. 本⽇の発表
    もくじ
    27
    1. 研究プロジェクトの背景・⽅向性
    2. データセットの構築
    3. データの構造化
    4. 現在の進捗とこれから

    View Slide

  28. 「移動軌跡接地」システムのために着々と研究開発を推進
    データ作成完了,システム構築中
    28
    ①場所参照表現抽出
    ②共参照解析
    ③ジオコーディング
    ④訪問状態分類
    ⑤訪問順序認識
    解析精度90%程度に到達
    解析精度90%程度に到達
    システムの改善途中
    システムの構築途中
    システムの構築途中
    正解アノテーション付き
    データを近⽇公開予定
    論⽂も投稿中
    論⽂執筆中

    View Slide

  29. 「移動軌跡接地」システムのために着々と研究開発を推進
    デモアプリも構築
    29
    中⾕他,⽂章から地図へ:テキストジオグラウンディングシステムの開発.YANS2023

    View Slide

  30. 現代旅⾏記から出発して
    近世旅⾏記に研究対象を拡⼤
    30
    n 「おくのほそ道」を⼤規模⾔語モデルで解析
    ⽚⼭他,ChatGPT で「おくのほそ道」を読む―近世紀⾏⽂における場所参照表現の認識―.YANS2023

    View Slide

  31. 「地理情報処理」と「⾃然⾔語処理」の融合的アプローチ
    幅広い研究を展開中
    31
    n 歴史的⽇本語資料から旅⾏経路や名所の抽出
    • With 国⽴国語研究所
    n 歴史災害資料からの情報抽出
    • With ⽴命館⼤学
    n ⾃由記述⽂から感染経路および⾏動の抽出
    • With 北⾒⼯業⼤学/北海道⼤学/東京⼤学
    n 衛星画像に基づく⼟地利⽤変遷の説明⽣成

    View Slide

  32. コラボレーション募集中
    (研究・開発・雑談・その他)
    [email protected]
    Geography & Language

    View Slide

  33. 参考⽂献
    n ⼤内啓樹, 進藤裕之, 若宮翔⼦, 松⽥裕貴, 井之上直也, 東⼭翔平, 中村哲, 渡辺太郎.地球の歩き⽅旅⾏記データセット.⾔語処理学会第29回
    年次⼤会発表論⽂集.2023.
    n Hiroki Ouchi, Hiroyuki Shindo, Shoko Wakamiya, Yuki Matsuda, Naoya Inoue, Shohei Higashiyama, Satoshi Nakamura, Taro Watanabe.
    Arukikata Travelogue Dataset.arXiv.2023.
    n ⼤須賀智⼦, ⼤⼭敬三.情報学研究データリポジトリ IDR における研究⽤データセット共同利⽤の取り組み.情報処理学会論⽂誌デジタル
    プラクティス(DP), Vol. 2, No. 2, pp. 47–56, 2021.
    n 久本空海, ⻄尾悟, 井⼝奏⼤, 古川泰⼈, ⼤友寛之, 東⼭翔平, ⼤内啓樹.場所参照表現と位置情報を紐付けるジオコーディングの概観と発展
    に向けての考察.⾔語処理学会第29回年次⼤会発表論⽂集.2023.
    n ⼭本和太郎, 東⼭翔平, ⼤内啓樹, ⼤友寛之, 井⼿佑翼, 進藤裕之, 渡辺太郎.移動軌跡可視化のための旅⾏記への訪問順序アノテーション.
    2023年度⼈⼯知能学会全国⼤会論⽂集.2023.
    n ⽚⼭歩希, 東⼭翔平, ⼤内啓樹, 渡辺太郎.ChatGPTで「おくのほそ道」を読む―近世紀⾏⽂における場所参照表現の認識―.NLP若⼿の会.
    2023.
    n 中⾕響, 寺⻄裕紀, 東⼭翔平, ⼤内啓樹, 渡辺太郎.⽂章から地図へ:テキストジオグラウンディングシステムの開発. NLP若⼿の会.2023.
    https://www.anlp.jp/proceedings/annual_meeting/2023/pdf_dir/B12-1.pdf
    https://arxiv.org/abs/2305.11444
    https://www.anlp.jp/proceedings/annual_meeting/2023/pdf_dir/B11-1.pdf
    https://www.ipsj.or.jp/dp/contents/publication/46/TR0202-05.html
    https://www.jstage.jst.go.jp/article/pjsai/JSAI2023/0/JSAI2023_4Xin106/_article/-char/ja/

    View Slide

  34. 付録

    View Slide

  35. 場所参照表現抽出
    場所を表す⾔語表現の出現位置と種別を同定
    35
    n 場所を表す⾔語表現 = 「場所参照表現」と呼ぶ
    午前1
    8時2
    に3
    近鉄4
    奈良5
    駅6
    到着7
    午前8時に近鉄奈良駅到着
    [4, 6] FACILITY
    ①⼊⼒⽂章をある単位(単語/⽂字など)で分割
    ②場所参照表現の出現位置と種別を予測
    (出現位置) (種別)

    View Slide

  36. 共参照解析
    同じ場所を指す表現のグルーピング
    36
    ⼊⼒:⽂章と場所参照表現
    午前8時に近鉄奈良駅到着。
    ホテルニューわかさに9時チェックイン
    予定。時間に余裕があったので、途中の
    スタバで⼀服。
    30分過ごしてから店を出て、ホテルに
    チェックインしました。
    出⼒:共参照グループ
    近鉄奈良駅
    スタバ

    ホテルニューわかさ
    ホテル
    n 共参照解析 = 同じ事物や概念を指す異なる⾔語表現をグルーピング
    n 共参照関係(グループ) = 同じ事物や概念を指す表現のグループ
    Group ID: 1
    Group ID: 2
    Group ID: 3

    View Slide

  37. 共参照解析
    同じ場所を指す表現のグルーピング
    37
    ⼊⼒:⽂章と場所参照表現
    午前8時に近鉄奈良駅到着。
    ホテルニューわかさに9時チェックイン
    予定。時間に余裕があったので、途中の
    スタバで⼀服。
    30分過ごしてから店を出て、ホテルに
    チェックインしました。
    n 共参照解析の利点は?
    n その場所に関する情報をより広範な⽂脈から取り出しやすくなる
    例)「ホテルニューわかさ」にチェックインした
    事実やタイミングを抽出したい場合
    Ø 「ホテルニューわかさ」が登場する⽂を⾒ただ
    けでは特定できないが,「ホテル」が登場する
    ⽂を根拠として特定可能
    Ø もし「ホテルニューわかさ」と「ホテル」をグ
    ループ化できていない場合,「ホテル」に関す
    る情報を「ホテルニューわかさ」に関する情報
    として取り出すことは困難である

    View Slide

  38. 訪問状態分類
    各場所を訪問したかどうかを判定
    38
    n 各場所(共参照グループ)を,以下の3つのうちどれかに分類する
    a. Visit
    b. Unknown
    c. NotVisit

    View Slide