Slide 1

Slide 1 text

©MapTiler ©OpenStreetMap contributors 場所参照表現と位置情報を紐づける ジオコーディングの概観と発展に向けての考察 久本空海, 西尾悟, 井口奏大, 古川泰人 (MIERUNE), 大友寛之 (NAIST), 東山翔平 (NICT/NAIST), 大内啓樹 (NAIST/理研) B11-1 言語処理学会第29回年次大会(NLP2023)

Slide 2

Slide 2 text

©Project PLATEAU / MLIT Japan 概要 ●ジオコーディング ○ 住所や施設名といった間接的に位置を表す「場所参照表現」と、 緯度経度のように直接的な「位置情報」を紐づける処理 ●自然言語処理における関連タスクや用語の整理 ○ 固有表現抽出, エンティティ曖昧性解消, エンティティ・リンキング, 等 ●関連するリソース(データ・実装・サービス)の解説 ○ 予稿の付録A,Bでもオープンなデータセットや商用サービス等を紹介 ●課題と発展へ向けての考察 ○ 曖昧性の解消 ○ データの整備 2

Slide 3

Slide 3 text

©OpenStreetMap contributors 01 位置情報と言語情報 02 ジオコーディングと関連タスク 03 リソース: データ, 実装, サービス 04 課題と発展に向けての考察 目次

Slide 4

Slide 4 text

©OpenStreetMap contributors 01 位置情報と言語情報

Slide 5

Slide 5 text

© 地理院地図 全国最新写真(シームレス) 位置情報は身近なところで使われています インフラ 防災 交通 ナビ ゲーム 環境 マーケティ ング 位置情報 データ (GIS)

Slide 6

Slide 6 text

©Project PLATEAU / MLIT Japan 01. 位置情報と言語情報 ●地理空間情報 ○ 地球上に存在する、山・川・海・気候・人口・集落・産業・交通などのあ りとあらゆるデータのこと ○ これらの情報は、位置情報と詳細情報(属性情報)を持つ 「位置情報・地理空間情報」とは? 6

Slide 7

Slide 7 text

©Project PLATEAU / MLIT Japan 01. 位置情報と言語情報 例: 奈良文化財研究所 文化財総覧WebGIS https://heritagemap.nabunken.go.jp/ 7 遺跡など様々な「文化財」の 「位置情報」(ポイントやポリゴン)と、 付随する「属性情報」(名称やID等) 奈良文化財研究所の取り組みについては、当年次大会での発表 B11-2 『文化財報告書データベースにおけるテキスト可視化と地理情報』 も参照のこと

Slide 8

Slide 8 text

©Project PLATEAU / MLIT Japan 01. 位置情報と言語情報 ●住所や地名をはじめ、位置を指し示す様々な情報が登場 ●しかしテキスト表現のままでは、機械処理による活用が困難 言語処理分野のデータと位置情報 ●「言語情報」を「位置」と紐付けることで、様々な応用が可能 ○ 例) 既存の地図サービスでの検索 ●そのほか、分野を横断するまだ見ぬ実応用へ向けても重要なピース 8

Slide 9

Slide 9 text

©OpenStreetMap contributors 02 ジオコーディングと関連タスク

Slide 10

Slide 10 text

©Project PLATEAU / MLIT Japan 02. ジオコーディングと関連タスク ジオコーディングとは 住所や施設名といった間接的に位置を表す「場所参照表現」と、 緯度経度のように直接的な「位置情報」を紐づける処理 “札幌”
   北緯 43.1   東経 131.4 場所参照情報 位置情報 10

Slide 11

Slide 11 text

©Project PLATEAU / MLIT Japan 02. ジオコーディングと関連タスク ●住所・所在地 ○ “沖縄県宜野湾市真志喜 4-3-1”, …
 ●地名 ○ “那覇”, …
 ●関心がある場所 (Point of Interest, POI) ○ “沖縄コンベンションセンター”, …
 入力: 場所参照表現 11 発展的な設定として、 一意に位置を特定できない 「一般名詞句」を対象としたいこともある “県”, “病院”, “コンビニ”, “自然言語処理研究室”, …

Slide 12

Slide 12 text

©Project PLATEAU / MLIT Japan 02. ジオコーディングと関連タスク 2つの処理方法: ● A. 位置情報を直接出力 ● B. データベースなどへ登録した識別子との紐付けした後、 識別子に付随する属性として位置情報を出力 出力: 位置情報(地理座標) 入出力が疎結合: 用途に合わせて別の属性を利用したり、 識別子を他の知識ベースと紐付けることが可能 12

Slide 13

Slide 13 text

©Project PLATEAU / MLIT Japan 02. ジオコーディングと関連タスク ● 多くの場合、地球上の「緯度・経度」 ● 位置を特定できれば、他の情報でも可 (例: 平面直角座標系の座標値) ● 「縦・横」だけでなく、「標高」や「建物内の位置」などが求められる状況も ● 「点(ポイント)」ではなく「面(ポリゴン)」としたいケースも (次頁→) 出力: 位置情報(地理座標) 13

Slide 14

Slide 14 text

©Project PLATEAU / MLIT Japan 02. ジオコーディングと関連タスク ● 例えば “札幌” という入力に対して、「ある1点」ではなく「行政区域全体(ポリゴン)」 ● 「ある1点」を選びたい場合は? → ポリゴンの「代表点」 ○ 意味的な中心: “札幌市役所”, “札幌駅”, … ○ 地理的な中心: ポリゴンの重心 「点(ポイント)」 と 「面(ポリゴン)」 複雑なポリゴンの例 様々なポリゴンに対する重心の例: 形状によっては、重心が領域外に配置されてしまう 14

Slide 15

Slide 15 text

©Project PLATEAU / MLIT Japan 02. ジオコーディングと関連タスク ● 「位置情報」 → その地点を表す「テキスト表現(住所,地名等)」 ● 用途の例: 自動車のGPSセンサー ○ 記録された経緯度データ → 人間に可読性の高いテキスト表現 ○ 「経由地点記録の自動生成」や「事故現場の報告」などに利用可能 逆ジオコーディング 15

Slide 16

Slide 16 text

©Project PLATEAU / MLIT Japan 02. ジオコーディングと関連タスク 自然言語処理における関連タスク (1) 16

Slide 17

Slide 17 text

©Project PLATEAU / MLIT Japan 02. ジオコーディングと関連タスク ●固有表現抽出 (NER) → ジオタギング ●エンティティ曖昧性解消 → ジオコーディング ●エンティティ・リンキング → ジオパージング ●Geolocation ○ 対象の位置情報を推定・特定するタスク ○ 言語処理分野: 「文書」や「ユーザー」の位置情報推定など 自然言語処理における関連タスク (2) 17

Slide 18

Slide 18 text

©Project PLATEAU / MLIT Japan 02. ジオコーディングと関連タスク ●“ジオコーディング” の類語・同義語 ○ “Toponym Resolution”, “場所参照表現解析” ○ “Address Geocoding”, “アドレスマッチング” ●“地理情報システム (GIS, Geographic Information System)” ○ 位置に紐付く情報の管理・加工・分析・可視化などを行うシステム ○ 及び、それを取り巻く分野 ジオコーディングに関連する用語 (1) 18

Slide 19

Slide 19 text

©Project PLATEAU / MLIT Japan 02. ジオコーディングと関連タスク ジオコーディングに関連する用語 (2) ●“ジオコーダー” ○ ジオコーディングを行うソフトウェア ●“Geocode” ○ 動詞として: ジオコーディング処理 ○ 名詞として: 位置情報を表す「コード」 (国名コードや郵便番号など) 19

Slide 20

Slide 20 text

©OpenStreetMap contributors 03 リソース データ, 実装, サービス

Slide 21

Slide 21 text

©Project PLATEAU / MLIT Japan 03. リソース ● “地名辞書”, “ジオコーディングDB”, “Gazetteer” など呼称 ● 対象範囲 ○ 日本国内, 全世界, … ○ 範囲の粒度: 行政区域単位, 街区単位, … ○ 種類: 住所, POI, … ● 言語・表記 ○ “札幌”, “Sapporo”, … ○ 元言語や翻字: “キーウ”, “キエフ”, … ● 別称・表記揺れ データ 「場所参照表現」と「位置情報」の対 予稿の「付録A」で、 ジオコーディングへ活用できる オープンな関連データセットを紹介 21

Slide 22

Slide 22 text

©Project PLATEAU / MLIT Japan 03. リソース ●「入力テキスト」から、地名辞書への検索を実施 ○ 全文検索と同じ枠組み ○ 実際に全文検索エンジンを用いてジオコーダーの構築が可能 ●入力テキストの「部分一致」や「誤字」「表記揺れ」の対応も必要 実装とサービス (1) 22

Slide 23

Slide 23 text

©Project PLATEAU / MLIT Japan 03. リソース ● Elasticsearch ○ 汎用的な検索エンジン: 空間検索クエリも可能 ● Nominatim ○ OpenStreetMap(”地図のWikipedia”)のデータを利用したジオコーダー ● carmen ○ Mapbox社による実装: 誤字や部分一致からの効率的な探索手法を実装 実装とサービス (2) 23

Slide 24

Slide 24 text

©Project PLATEAU / MLIT Japan 03. リソース ● GeoNLPプロジェクト ○ オープンな地名情報処理のためのソフトウェア、データ、サービスを研究開発 ● 位置情報技術を用いたツールとユティリティ ○ 住所・地名フィールドを含むCSV形式データへアドレスマッチング処理 実装とサービス (3) 加えて予稿の「付録B」で、 商用を含む関連サービスを紹介 24

Slide 25

Slide 25 text

©OpenStreetMap contributors 04 課題と発展に向けての考察

Slide 26

Slide 26 text

©Project PLATEAU / MLIT Japan 04. 課題と発展に向けての考察 ○ 外部情報の参照(人口が最も多い場所を選択、など) ○ ユーザー現在地の活用 ○ 複数検索候補のサジェスト ○ インクリメント検索による絞り込み ○ … 曖昧性の解消 (1) “日本橋” 日本橋 (大阪) 日本橋 (東京) ?
 26

Slide 27

Slide 27 text

©Project PLATEAU / MLIT Japan 04. 課題と発展に向けての考察 ● 「入力の拡張」による曖昧性解消の可能性 ○ 「文・文書」を入力として、固有表現抽出も含めたタスクとして処理 ○ 文脈を考慮することで、より適切な曖昧性解消が可能? 曖昧性の解消 (2) “銀座から日本橋へ歩いた” 日本橋 (大阪) 日本橋 (東京) X
 27

Slide 28

Slide 28 text

©Project PLATEAU / MLIT Japan 04. 課題と発展に向けての考察 ●「画像」や「ユーザー履歴」など、テキスト以外の情報による入力拡張? ●画像などのデータ自体に「ジオタグ(位置情報)」が付随する場合 ○ 「併記されたテキスト」の位置情報が間接的に把握可能 ●学習データの拡張や、辞書項目の半自動収集へ活用できる可能性 曖昧性の解消 (3) 28

Slide 29

Slide 29 text

©Project PLATEAU / MLIT Japan 04. 課題と発展に向けての考察 ● 性能評価や知見蓄積のために重要 ● 関連する既存資源 ○ 場所参照表現タグ付きコーパス (松田+, 2015) ■ 構築されたデータ全体が公開されていない ○ 日本語Wikificationコーパス (Jargalsaikhan+, 2016) ■ ジオコーディングへ特化したデータではない ● 公平な性能比較のできる新たなデータセットの構築により、技術発展の加速を期待 データの整備: 評価用データセット 29

Slide 30

Slide 30 text

©Project PLATEAU / MLIT Japan 04. 課題と発展に向けての考察 ● 産官学でのデータの増加 ○ 例: デジタル庁の「ベース・レジストリ」 ■ アドレス(町字・地番)や不動産登記などの情報も収録 ■ 行政の役割: 正確な情報の管理 ■ 通称や読み間違いなどの情報は民間領域 ● 公的情報以外にも、SNSデータやユーザー生成コンテンツ、アプリログなど、データは急増 ● それぞれを適切に連携させることで、まだ見ぬ資源の構築が可能に データの整備: 多様なデータの連携 30

Slide 31

Slide 31 text

©OpenStreetMap contributors まとめ

Slide 32

Slide 32 text

©Project PLATEAU / MLIT Japan まとめ ●ジオコーディング ○ 住所や施設名といった間接的に位置を表す「場所参照表現」と、 緯度経度のように直接的な「位置情報」を紐づける処理 ●自然言語処理における関連タスクや用語の整理 ○ 固有表現抽出, エンティティ曖昧性解消, エンティティ・リンキング, 等 ●関連するリソース(データ・実装・サービス)の解説 ○ 予稿の付録A,Bでもオープンなデータセットや商用サービス等を紹介 ●課題と発展へ向けての考察 ○ 曖昧性の解消 ○ データの整備 32