Upgrade to Pro — share decks privately, control downloads, hide ads and more …

場所参照表現と位置情報を紐付けるジオコーディングの概観と発展に向けての考察 / 言語処理学会第29回年次大会(NLP2023)

場所参照表現と位置情報を紐付けるジオコーディングの概観と発展に向けての考察 / 言語処理学会第29回年次大会(NLP2023)

テーマセッション「地理空間情報と自然言語処理」
https://www.anlp.jp/nlp2023/#theme

B-11 場所参照表現と位置情報を紐付けるジオコーディングの概観と発展に向けての考察
○久本空海, 西尾悟, 井口奏大, 古川泰人 (MIERUNE), 大友寛之 (NAIST), 東山翔平 (NICT/NAIST), 大内啓樹 (NAIST/理研)
https://www.anlp.jp/proceedings/annual_meeting/2023/pdf_dir/B11-1.pdf

Sorami Hisamoto

March 16, 2023
Tweet

More Decks by Sorami Hisamoto

Other Decks in Research

Transcript

  1. ©MapTiler ©OpenStreetMap contributors
    場所参照表現と位置情報を紐づける
    ジオコーディングの概観と発展に向けての考察
    久本空海, 西尾悟, 井口奏大, 古川泰人 (MIERUNE),
    大友寛之 (NAIST), 東山翔平 (NICT/NAIST), 大内啓樹 (NAIST/理研)
    B11-1
    言語処理学会第29回年次大会(NLP2023)

    View Slide

  2. ©Project PLATEAU / MLIT Japan
    概要
    ●ジオコーディング
    ○ 住所や施設名といった間接的に位置を表す「場所参照表現」と、
    緯度経度のように直接的な「位置情報」を紐づける処理
    ●自然言語処理における関連タスクや用語の整理
    ○ 固有表現抽出, エンティティ曖昧性解消, エンティティ・リンキング, 等
    ●関連するリソース(データ・実装・サービス)の解説
    ○ 予稿の付録A,Bでもオープンなデータセットや商用サービス等を紹介
    ●課題と発展へ向けての考察
    ○ 曖昧性の解消
    ○ データの整備
    2

    View Slide

  3. ©OpenStreetMap contributors
    01 位置情報と言語情報
    02 ジオコーディングと関連タスク
    03 リソース: データ, 実装, サービス
    04 課題と発展に向けての考察
    目次

    View Slide

  4. ©OpenStreetMap contributors
    01 位置情報と言語情報

    View Slide

  5. © 地理院地図 全国最新写真(シームレス)
    位置情報は身近なところで使われています
    インフラ
    防災
    交通
    ナビ
    ゲーム
    環境
    マーケティ
    ング
    位置情報
    データ
    (GIS)

    View Slide

  6. ©Project PLATEAU / MLIT Japan
    01. 位置情報と言語情報
    ●地理空間情報
    ○ 地球上に存在する、山・川・海・気候・人口・集落・産業・交通などのあ
    りとあらゆるデータのこと
    ○ これらの情報は、位置情報と詳細情報(属性情報)を持つ
    「位置情報・地理空間情報」とは?
    6

    View Slide

  7. ©Project PLATEAU / MLIT Japan
    01. 位置情報と言語情報
    例: 奈良文化財研究所 文化財総覧WebGIS https://heritagemap.nabunken.go.jp/
    7
    遺跡など様々な「文化財」の
    「位置情報」(ポイントやポリゴン)と、
    付随する「属性情報」(名称やID等)
    奈良文化財研究所の取り組みについては、当年次大会での発表
    B11-2 『文化財報告書データベースにおけるテキスト可視化と地理情報』 も参照のこと

    View Slide

  8. ©Project PLATEAU / MLIT Japan
    01. 位置情報と言語情報
    ●住所や地名をはじめ、位置を指し示す様々な情報が登場
    ●しかしテキスト表現のままでは、機械処理による活用が困難
    言語処理分野のデータと位置情報
    ●「言語情報」を「位置」と紐付けることで、様々な応用が可能
    ○ 例) 既存の地図サービスでの検索
    ●そのほか、分野を横断するまだ見ぬ実応用へ向けても重要なピース
    8

    View Slide

  9. ©OpenStreetMap contributors
    02 ジオコーディングと関連タスク

    View Slide

  10. ©Project PLATEAU / MLIT Japan
    02. ジオコーディングと関連タスク
    ジオコーディングとは
    住所や施設名といった間接的に位置を表す「場所参照表現」と、
    緯度経度のように直接的な「位置情報」を紐づける処理
    “札幌”

      北緯 43.1
      東経 131.4
    場所参照情報 位置情報
    10

    View Slide

  11. ©Project PLATEAU / MLIT Japan
    02. ジオコーディングと関連タスク
    ●住所・所在地
    ○ “沖縄県宜野湾市真志喜 4-3-1”, …

    ●地名
    ○ “那覇”, …

    ●関心がある場所 (Point of Interest, POI)
    ○ “沖縄コンベンションセンター”, …

    入力: 場所参照表現
    11
    発展的な設定として、
    一意に位置を特定できない
    「一般名詞句」を対象としたいこともある
    “県”, “病院”, “コンビニ”,
    “自然言語処理研究室”, …

    View Slide

  12. ©Project PLATEAU / MLIT Japan
    02. ジオコーディングと関連タスク
    2つの処理方法:
    ● A. 位置情報を直接出力
    ● B. データベースなどへ登録した識別子との紐付けした後、
    識別子に付随する属性として位置情報を出力
    出力: 位置情報(地理座標)
    入出力が疎結合:
    用途に合わせて別の属性を利用したり、
    識別子を他の知識ベースと紐付けることが可能
    12

    View Slide

  13. ©Project PLATEAU / MLIT Japan
    02. ジオコーディングと関連タスク
    ● 多くの場合、地球上の「緯度・経度」
    ● 位置を特定できれば、他の情報でも可 (例: 平面直角座標系の座標値)
    ● 「縦・横」だけでなく、「標高」や「建物内の位置」などが求められる状況も
    ● 「点(ポイント)」ではなく「面(ポリゴン)」としたいケースも (次頁→)
    出力: 位置情報(地理座標)
    13

    View Slide

  14. ©Project PLATEAU / MLIT Japan
    02. ジオコーディングと関連タスク
    ● 例えば “札幌” という入力に対して、「ある1点」ではなく「行政区域全体(ポリゴン)」
    ● 「ある1点」を選びたい場合は? → ポリゴンの「代表点」
    ○ 意味的な中心: “札幌市役所”, “札幌駅”, …
    ○ 地理的な中心: ポリゴンの重心
    「点(ポイント)」 と 「面(ポリゴン)」
    複雑なポリゴンの例 様々なポリゴンに対する重心の例:
    形状によっては、重心が領域外に配置されてしまう
    14

    View Slide

  15. ©Project PLATEAU / MLIT Japan
    02. ジオコーディングと関連タスク
    ● 「位置情報」 → その地点を表す「テキスト表現(住所,地名等)」
    ● 用途の例: 自動車のGPSセンサー
    ○ 記録された経緯度データ → 人間に可読性の高いテキスト表現
    ○ 「経由地点記録の自動生成」や「事故現場の報告」などに利用可能
    逆ジオコーディング
    15

    View Slide

  16. ©Project PLATEAU / MLIT Japan
    02. ジオコーディングと関連タスク
    自然言語処理における関連タスク (1)
    16

    View Slide

  17. ©Project PLATEAU / MLIT Japan
    02. ジオコーディングと関連タスク
    ●固有表現抽出 (NER) → ジオタギング
    ●エンティティ曖昧性解消 → ジオコーディング
    ●エンティティ・リンキング → ジオパージング
    ●Geolocation
    ○ 対象の位置情報を推定・特定するタスク
    ○ 言語処理分野: 「文書」や「ユーザー」の位置情報推定など
    自然言語処理における関連タスク (2)
    17

    View Slide

  18. ©Project PLATEAU / MLIT Japan
    02. ジオコーディングと関連タスク
    ●“ジオコーディング” の類語・同義語
    ○ “Toponym Resolution”, “場所参照表現解析”
    ○ “Address Geocoding”, “アドレスマッチング”
    ●“地理情報システム (GIS, Geographic Information System)”
    ○ 位置に紐付く情報の管理・加工・分析・可視化などを行うシステム
    ○ 及び、それを取り巻く分野
    ジオコーディングに関連する用語 (1)
    18

    View Slide

  19. ©Project PLATEAU / MLIT Japan
    02. ジオコーディングと関連タスク
    ジオコーディングに関連する用語 (2)
    ●“ジオコーダー”
    ○ ジオコーディングを行うソフトウェア
    ●“Geocode”
    ○ 動詞として: ジオコーディング処理
    ○ 名詞として: 位置情報を表す「コード」 (国名コードや郵便番号など)
    19

    View Slide

  20. ©OpenStreetMap contributors
    03 リソース データ, 実装, サービス

    View Slide

  21. ©Project PLATEAU / MLIT Japan
    03. リソース
    ● “地名辞書”, “ジオコーディングDB”, “Gazetteer” など呼称
    ● 対象範囲
    ○ 日本国内, 全世界, …
    ○ 範囲の粒度: 行政区域単位, 街区単位, …
    ○ 種類: 住所, POI, …
    ● 言語・表記
    ○ “札幌”, “Sapporo”, …
    ○ 元言語や翻字: “キーウ”, “キエフ”, …
    ● 別称・表記揺れ
    データ 「場所参照表現」と「位置情報」の対
    予稿の「付録A」で、
    ジオコーディングへ活用できる
    オープンな関連データセットを紹介
    21

    View Slide

  22. ©Project PLATEAU / MLIT Japan
    03. リソース
    ●「入力テキスト」から、地名辞書への検索を実施
    ○ 全文検索と同じ枠組み
    ○ 実際に全文検索エンジンを用いてジオコーダーの構築が可能
    ●入力テキストの「部分一致」や「誤字」「表記揺れ」の対応も必要
    実装とサービス (1)
    22

    View Slide

  23. ©Project PLATEAU / MLIT Japan
    03. リソース
    ● Elasticsearch
    ○ 汎用的な検索エンジン: 空間検索クエリも可能
    ● Nominatim
    ○ OpenStreetMap(”地図のWikipedia”)のデータを利用したジオコーダー
    ● carmen
    ○ Mapbox社による実装: 誤字や部分一致からの効率的な探索手法を実装
    実装とサービス (2)
    23

    View Slide

  24. ©Project PLATEAU / MLIT Japan
    03. リソース
    ● GeoNLPプロジェクト
    ○ オープンな地名情報処理のためのソフトウェア、データ、サービスを研究開発
    ● 位置情報技術を用いたツールとユティリティ
    ○ 住所・地名フィールドを含むCSV形式データへアドレスマッチング処理
    実装とサービス (3)
    加えて予稿の「付録B」で、
    商用を含む関連サービスを紹介
    24

    View Slide

  25. ©OpenStreetMap contributors
    04 課題と発展に向けての考察

    View Slide

  26. ©Project PLATEAU / MLIT Japan
    04. 課題と発展に向けての考察
    ○ 外部情報の参照(人口が最も多い場所を選択、など)
    ○ ユーザー現在地の活用
    ○ 複数検索候補のサジェスト
    ○ インクリメント検索による絞り込み
    ○ …
    曖昧性の解消 (1)
    “日本橋”
    日本橋 (大阪)
    日本橋 (東京)
    ?

    26

    View Slide

  27. ©Project PLATEAU / MLIT Japan
    04. 課題と発展に向けての考察
    ● 「入力の拡張」による曖昧性解消の可能性
    ○ 「文・文書」を入力として、固有表現抽出も含めたタスクとして処理
    ○ 文脈を考慮することで、より適切な曖昧性解消が可能?
    曖昧性の解消 (2)
    “銀座から日本橋へ歩いた”
    日本橋 (大阪)
    日本橋 (東京)
    X

    27

    View Slide

  28. ©Project PLATEAU / MLIT Japan
    04. 課題と発展に向けての考察
    ●「画像」や「ユーザー履歴」など、テキスト以外の情報による入力拡張?
    ●画像などのデータ自体に「ジオタグ(位置情報)」が付随する場合
    ○ 「併記されたテキスト」の位置情報が間接的に把握可能
    ●学習データの拡張や、辞書項目の半自動収集へ活用できる可能性
    曖昧性の解消 (3)
    28

    View Slide

  29. ©Project PLATEAU / MLIT Japan
    04. 課題と発展に向けての考察
    ● 性能評価や知見蓄積のために重要
    ● 関連する既存資源
    ○ 場所参照表現タグ付きコーパス (松田+, 2015)
    ■ 構築されたデータ全体が公開されていない
    ○ 日本語Wikificationコーパス (Jargalsaikhan+, 2016)
    ■ ジオコーディングへ特化したデータではない
    ● 公平な性能比較のできる新たなデータセットの構築により、技術発展の加速を期待
    データの整備: 評価用データセット
    29

    View Slide

  30. ©Project PLATEAU / MLIT Japan
    04. 課題と発展に向けての考察
    ● 産官学でのデータの増加
    ○ 例: デジタル庁の「ベース・レジストリ」
    ■ アドレス(町字・地番)や不動産登記などの情報も収録
    ■ 行政の役割: 正確な情報の管理
    ■ 通称や読み間違いなどの情報は民間領域
    ● 公的情報以外にも、SNSデータやユーザー生成コンテンツ、アプリログなど、データは急増
    ● それぞれを適切に連携させることで、まだ見ぬ資源の構築が可能に
    データの整備: 多様なデータの連携
    30

    View Slide

  31. ©OpenStreetMap contributors
    まとめ

    View Slide

  32. ©Project PLATEAU / MLIT Japan
    まとめ
    ●ジオコーディング
    ○ 住所や施設名といった間接的に位置を表す「場所参照表現」と、
    緯度経度のように直接的な「位置情報」を紐づける処理
    ●自然言語処理における関連タスクや用語の整理
    ○ 固有表現抽出, エンティティ曖昧性解消, エンティティ・リンキング, 等
    ●関連するリソース(データ・実装・サービス)の解説
    ○ 予稿の付録A,Bでもオープンなデータセットや商用サービス等を紹介
    ●課題と発展へ向けての考察
    ○ 曖昧性の解消
    ○ データの整備
    32

    View Slide