Upgrade to Pro — share decks privately, control downloads, hide ads and more …

場所参照表現と位置情報を紐付けるジオコーディングの概観と発展に向けての考察 / 言語処理学会第...

場所参照表現と位置情報を紐付けるジオコーディングの概観と発展に向けての考察 / 言語処理学会第29回年次大会(NLP2023)

テーマセッション「地理空間情報と自然言語処理」
https://www.anlp.jp/nlp2023/#theme

B-11 場所参照表現と位置情報を紐付けるジオコーディングの概観と発展に向けての考察
○久本空海, 西尾悟, 井口奏大, 古川泰人 (MIERUNE), 大友寛之 (NAIST), 東山翔平 (NICT/NAIST), 大内啓樹 (NAIST/理研)
https://www.anlp.jp/proceedings/annual_meeting/2023/pdf_dir/B11-1.pdf

Sorami Hisamoto

March 16, 2023
Tweet

More Decks by Sorami Hisamoto

Other Decks in Research

Transcript

  1. ©Project PLATEAU / MLIT Japan 概要 •ジオコーディング ◦ 住所や施設名といった間接的に位置を表す「場所参照表現」と、 緯度経度のように直接的な「位置情報」を紐づける処理

    •自然言語処理における関連タスクや用語の整理 ◦ 固有表現抽出, エンティティ曖昧性解消, エンティティ・リンキング, 等 •関連するリソース(データ・実装・サービス)の解説 ◦ 予稿の付録A,Bでもオープンなデータセットや商用サービス等を紹介 •課題と発展へ向けての考察 ◦ 曖昧性の解消 ◦ データの整備 2
  2. ©Project PLATEAU / MLIT Japan 01. 位置情報と言語情報 •地理空間情報 ◦ 地球上に存在する、山・川・海・気候・人口・集落・産業・交通などのあ

    りとあらゆるデータのこと ◦ これらの情報は、位置情報と詳細情報(属性情報)を持つ 「位置情報・地理空間情報」とは? 6
  3. ©Project PLATEAU / MLIT Japan 01. 位置情報と言語情報 例: 奈良文化財研究所 文化財総覧WebGIS

    https://heritagemap.nabunken.go.jp/ 7 遺跡など様々な「文化財」の 「位置情報」(ポイントやポリゴン)と、 付随する「属性情報」(名称やID等) 奈良文化財研究所の取り組みについては、当年次大会での発表 B11-2 『文化財報告書データベースにおけるテキスト可視化と地理情報』 も参照のこと
  4. ©Project PLATEAU / MLIT Japan 01. 位置情報と言語情報 •住所や地名をはじめ、位置を指し示す様々な情報が登場 •しかしテキスト表現のままでは、機械処理による活用が困難 言語処理分野のデータと位置情報

    •「言語情報」を「位置」と紐付けることで、様々な応用が可能 ◦ 例) 既存の地図サービスでの検索 •そのほか、分野を横断するまだ見ぬ実応用へ向けても重要なピース 8
  5. ©Project PLATEAU / MLIT Japan 02. ジオコーディングと関連タスク •住所・所在地 ◦ “沖縄県宜野湾市真志喜

    4-3-1”, …
 •地名 ◦ “那覇”, …
 •関心がある場所 (Point of Interest, POI) ◦ “沖縄コンベンションセンター”, …
 入力: 場所参照表現 11 発展的な設定として、 一意に位置を特定できない 「一般名詞句」を対象としたいこともある “県”, “病院”, “コンビニ”, “自然言語処理研究室”, …
  6. ©Project PLATEAU / MLIT Japan 02. ジオコーディングと関連タスク 2つの処理方法: • A.

    位置情報を直接出力 • B. データベースなどへ登録した識別子との紐付けした後、 識別子に付随する属性として位置情報を出力 出力: 位置情報(地理座標) 入出力が疎結合: 用途に合わせて別の属性を利用したり、 識別子を他の知識ベースと紐付けることが可能 12
  7. ©Project PLATEAU / MLIT Japan 02. ジオコーディングと関連タスク • 多くの場合、地球上の「緯度・経度」 •

    位置を特定できれば、他の情報でも可 (例: 平面直角座標系の座標値) • 「縦・横」だけでなく、「標高」や「建物内の位置」などが求められる状況も • 「点(ポイント)」ではなく「面(ポリゴン)」としたいケースも (次頁→) 出力: 位置情報(地理座標) 13
  8. ©Project PLATEAU / MLIT Japan 02. ジオコーディングと関連タスク • 例えば “札幌”

    という入力に対して、「ある1点」ではなく「行政区域全体(ポリゴン)」 • 「ある1点」を選びたい場合は? → ポリゴンの「代表点」 ◦ 意味的な中心: “札幌市役所”, “札幌駅”, … ◦ 地理的な中心: ポリゴンの重心 「点(ポイント)」 と 「面(ポリゴン)」 複雑なポリゴンの例 様々なポリゴンに対する重心の例: 形状によっては、重心が領域外に配置されてしまう 14
  9. ©Project PLATEAU / MLIT Japan 02. ジオコーディングと関連タスク • 「位置情報」 →

    その地点を表す「テキスト表現(住所,地名等)」 • 用途の例: 自動車のGPSセンサー ◦ 記録された経緯度データ → 人間に可読性の高いテキスト表現 ◦ 「経由地点記録の自動生成」や「事故現場の報告」などに利用可能 逆ジオコーディング 15
  10. ©Project PLATEAU / MLIT Japan 02. ジオコーディングと関連タスク •固有表現抽出 (NER) →

    ジオタギング •エンティティ曖昧性解消 → ジオコーディング •エンティティ・リンキング → ジオパージング •Geolocation ◦ 対象の位置情報を推定・特定するタスク ◦ 言語処理分野: 「文書」や「ユーザー」の位置情報推定など 自然言語処理における関連タスク (2) 17
  11. ©Project PLATEAU / MLIT Japan 02. ジオコーディングと関連タスク •“ジオコーディング” の類語・同義語 ◦

    “Toponym Resolution”, “場所参照表現解析” ◦ “Address Geocoding”, “アドレスマッチング” •“地理情報システム (GIS, Geographic Information System)” ◦ 位置に紐付く情報の管理・加工・分析・可視化などを行うシステム ◦ 及び、それを取り巻く分野 ジオコーディングに関連する用語 (1) 18
  12. ©Project PLATEAU / MLIT Japan 02. ジオコーディングと関連タスク ジオコーディングに関連する用語 (2) •“ジオコーダー”

    ◦ ジオコーディングを行うソフトウェア •“Geocode” ◦ 動詞として: ジオコーディング処理 ◦ 名詞として: 位置情報を表す「コード」 (国名コードや郵便番号など) 19
  13. ©Project PLATEAU / MLIT Japan 03. リソース • “地名辞書”, “ジオコーディングDB”,

    “Gazetteer” など呼称 • 対象範囲 ◦ 日本国内, 全世界, … ◦ 範囲の粒度: 行政区域単位, 街区単位, … ◦ 種類: 住所, POI, … • 言語・表記 ◦ “札幌”, “Sapporo”, … ◦ 元言語や翻字: “キーウ”, “キエフ”, … • 別称・表記揺れ データ 「場所参照表現」と「位置情報」の対 予稿の「付録A」で、 ジオコーディングへ活用できる オープンな関連データセットを紹介 21
  14. ©Project PLATEAU / MLIT Japan 03. リソース •「入力テキスト」から、地名辞書への検索を実施 ◦ 全文検索と同じ枠組み

    ◦ 実際に全文検索エンジンを用いてジオコーダーの構築が可能 •入力テキストの「部分一致」や「誤字」「表記揺れ」の対応も必要 実装とサービス (1) 22
  15. ©Project PLATEAU / MLIT Japan 03. リソース • Elasticsearch ◦

    汎用的な検索エンジン: 空間検索クエリも可能 • Nominatim ◦ OpenStreetMap(”地図のWikipedia”)のデータを利用したジオコーダー • carmen ◦ Mapbox社による実装: 誤字や部分一致からの効率的な探索手法を実装 実装とサービス (2) 23
  16. ©Project PLATEAU / MLIT Japan 03. リソース • GeoNLPプロジェクト ◦

    オープンな地名情報処理のためのソフトウェア、データ、サービスを研究開発 • 位置情報技術を用いたツールとユティリティ ◦ 住所・地名フィールドを含むCSV形式データへアドレスマッチング処理 実装とサービス (3) 加えて予稿の「付録B」で、 商用を含む関連サービスを紹介 24
  17. ©Project PLATEAU / MLIT Japan 04. 課題と発展に向けての考察 ◦ 外部情報の参照(人口が最も多い場所を選択、など) ◦

    ユーザー現在地の活用 ◦ 複数検索候補のサジェスト ◦ インクリメント検索による絞り込み ◦ … 曖昧性の解消 (1) “日本橋” 日本橋 (大阪) 日本橋 (東京) ?
 26
  18. ©Project PLATEAU / MLIT Japan 04. 課題と発展に向けての考察 • 「入力の拡張」による曖昧性解消の可能性 ◦

    「文・文書」を入力として、固有表現抽出も含めたタスクとして処理 ◦ 文脈を考慮することで、より適切な曖昧性解消が可能? 曖昧性の解消 (2) “銀座から日本橋へ歩いた” 日本橋 (大阪) 日本橋 (東京) X
 27
  19. ©Project PLATEAU / MLIT Japan 04. 課題と発展に向けての考察 •「画像」や「ユーザー履歴」など、テキスト以外の情報による入力拡張? •画像などのデータ自体に「ジオタグ(位置情報)」が付随する場合 ◦

    「併記されたテキスト」の位置情報が間接的に把握可能 •学習データの拡張や、辞書項目の半自動収集へ活用できる可能性 曖昧性の解消 (3) 28
  20. ©Project PLATEAU / MLIT Japan 04. 課題と発展に向けての考察 • 性能評価や知見蓄積のために重要 •

    関連する既存資源 ◦ 場所参照表現タグ付きコーパス (松田+, 2015) ▪ 構築されたデータ全体が公開されていない ◦ 日本語Wikificationコーパス (Jargalsaikhan+, 2016) ▪ ジオコーディングへ特化したデータではない • 公平な性能比較のできる新たなデータセットの構築により、技術発展の加速を期待 データの整備: 評価用データセット 29
  21. ©Project PLATEAU / MLIT Japan 04. 課題と発展に向けての考察 • 産官学でのデータの増加 ◦

    例: デジタル庁の「ベース・レジストリ」 ▪ アドレス(町字・地番)や不動産登記などの情報も収録 ▪ 行政の役割: 正確な情報の管理 ▪ 通称や読み間違いなどの情報は民間領域 • 公的情報以外にも、SNSデータやユーザー生成コンテンツ、アプリログなど、データは急増 • それぞれを適切に連携させることで、まだ見ぬ資源の構築が可能に データの整備: 多様なデータの連携 30
  22. ©Project PLATEAU / MLIT Japan まとめ •ジオコーディング ◦ 住所や施設名といった間接的に位置を表す「場所参照表現」と、 緯度経度のように直接的な「位置情報」を紐づける処理

    •自然言語処理における関連タスクや用語の整理 ◦ 固有表現抽出, エンティティ曖昧性解消, エンティティ・リンキング, 等 •関連するリソース(データ・実装・サービス)の解説 ◦ 予稿の付録A,Bでもオープンなデータセットや商用サービス等を紹介 •課題と発展へ向けての考察 ◦ 曖昧性の解消 ◦ データの整備 32