Slide 1

Slide 1 text

1 2024/10/27 地理情報システム学会・第33回学術研究発表⼤会 データ品質検証ツールを⽤いた OpenStreetMapにおける編集傾向と特徴 A02 KOMAZAWA UNIVERSITY Visual Identity Guidelines Ϋʴ࿨จϩΰλΠϓ ,ϚʔΫʴ࿨จϩΰλΠϓͷ૊Έ߹Θͤ ͸ɺ ࠨͷछͰ͢ɻ ԣ جຊܗͱ͠ɺ ༏ઌతʹ࢖༻͠·͢ɻ ԣ ϫϯϙΠϯτͳͲɺ ʮԣʯ ͕഑ஔ͠ʹ͍͘ ৔߹ʹ࢖༻͠·͢ɻ ॎ ॎܕαΠϯͳͲɺ ࡉ௕͍഑ஔʹ࢖༻͠·͢ɻ ඞͣϚελʔσʔλΛ࢖༻͍ͯͩ͘͠͞ɻ ࠨهҎ֎ͷ૊Έ߹ΘͤΛ࡞੒͠ͳ͍Ͱ ͍ͩ͘͞ɻ ܗʣ ϙΠϯτ౳ʣ ॎ 駒澤⼤学⽂学部地理学科・准教授 東京⼤学空間情報科学研究センター(CSIS)・特任准教授 https://tossetolab.github.io/ [email protected] 瀬⼾ 寿⼀ A02 KOMAZAWA UNIVERSITY Visual Identity Guidelines Ϋʴ࿨จϩΰλΠϓ ,ϚʔΫʴ࿨จϩΰλΠϓͷ૊Έ߹Θͤ ͸ɺ ࠨͷछͰ͢ɻ ԣ جຊܗͱ͠ɺ ༏ઌతʹ࢖༻͠·͢ɻ ԣ ϫϯϙΠϯτͳͲɺ ʮԣʯ ͕഑ஔ͠ʹ͍͘ ৔߹ʹ࢖༻͠·͢ɻ ॎ ॎܕαΠϯͳͲɺ ࡉ௕͍഑ஔʹ࢖༻͠·͢ɻ ඞͣϚελʔσʔλΛ࢖༻͍ͯͩ͘͠͞ɻ ࠨهҎ֎ͷ૊Έ߹ΘͤΛ࡞੒͠ͳ͍Ͱ ͍ͩ͘͞ɻ ܗʣ ϙΠϯτ౳ʣ ॎ

Slide 2

Slide 2 text

2 2024/10/27 地理情報システム学会・第33回学術研究発表⼤会 発表の内容 • 研究の背景・⽅法 • OSMCha を⽤いた編集傾向の定量分析 – 時系列分析に基づく傾向 – OSMChaにおけるエラー検出理由 – 「疑わしい(suspicious)」編集の傾向 • OSMCha の探索的(定性)分析 – New Mappers による編集 – Map-with-AI (RapiD)の利⽤ • 研究結果・今後の展望

Slide 3

Slide 3 text

3 2024/10/27 地理情報システム学会・第33回学術研究発表⼤会 OpenStreetMap: OSM(2004〜) • Wiki的⼿法による⾃由な地図データ作成 = 地図のデータコモンズ – 運営は基本的にボランティアで⾏われ、OSM財団はサーバー管理やコミュニティ⽀援、外 部機関との連携・調停・法務対応など窓⼝として機能 – ⼆次利⽤可能(OdbL)なライセンスの地理データベース(≠ 背景地図) • 2004年にイギリスで開始。世界で1000万編集者超(Mapper)が登録 – 全世界を⼀つのXMLデータ(約800GB)で整備し、毎⽇〜毎週単位でアーカイブ配布 – ⽇本から累計約45,000編集者以上が貢献 (Seto, 2024) • OSMデータを操作・検証するツールの多くはオープンソースで開発 – 地図エディタもオープンソース(GISソフトウェアに内包されている場合も) – Facebookなどのグローバル企業や国際連合での採⽤・ツール開発等の⽀援 • OSMを利⽤/対象とした論⽂︓主要学術誌で約1,800本(瀬⼾, 2024)

Slide 4

Slide 4 text

4 2024/10/27 地理情報システム学会・第33回学術研究発表⼤会 研究の背景: OSMやVGIの品質評価研究 • Quattrone et al., 2016 – 国レベルの更新頻度とタグの分析 (uid、変更セット、タ イムスタンプ、バージョン、緯度、経度、タグリスト) • Anderson et al., 2019 – OSM-QAタイルを⽤いた企業編集者の分析 • Raifer et al., 2019 – OSHDB ⽤の開発分析プラットフォーム構築と ohsome-APIによるデータ集約、データ抽出、ユー ザー統計 • Minghini and Frassinelli, 2019 – “Is OSM up-to-date” ツールを⽤いたOSMデータの作 成⽇ (最初の編集⽇)、最終編集⽇、バージョン数 (リビ ジョン数)、編集者数、更新頻度等の分析

Slide 5

Slide 5 text

5 2024/10/27 地理情報システム学会・第33回学術研究発表⼤会 近年のOSMにおける新しいリサーチトピック • 地理空間データとしての品質向上と品質モニタリング – AI等による⾃動マッピング技術の提供や精度向上 – 特にローカルでの⽇常的な活動に対するデータアセスメント – 意図しない&悪意のあるデータ破壊に対する対応 (Juhász et al., 2020) • 多様なアクターの出現と活動コミュニティにおける受容 – 商業的︓企業メンバーの台頭とAI技術の進展 (Anderson et al., 2019) – ⼈道的︓ジェンダーギャップ問題・ローカルな貢献者や若⼿育成(Solís & Zeballos, 2023) https://www.openstreetmap.org/user/mvexel/diary/400035

Slide 6

Slide 6 text

6 2024/10/27 地理情報システム学会・第33回学術研究発表⼤会 OSMにおけるAI⽀援型マッピングツールの開発 Meta社のRapiD(2016〜) https://www.geospatialworld.net/blogs/facebook-opens-up-its-ai-powered-mapping-service-for-osm- community/

Slide 7

Slide 7 text

7 2024/10/27 地理情報システム学会・第33回学術研究発表⼤会 OSM Changeset Analyzer (OSMCha) https://github.com/OSMCha/osmcha • 変更セット(changeset)データをもとに、時間・空間・タグ 等の編集履歴を追跡するPythonパッケージ(Web&API) • 「疑わしい」OSMを⾃動検出するアルゴリズム • Djangoでの利⽤のほか、スタンドアロン環境にも対応 • ライセンス: GPL-3.0

Slide 8

Slide 8 text

8 2024/10/27 地理情報システム学会・第33回学術研究発表⼤会 研究対象(OSMCha)の概要 • 対象期間︓2023年1⽉1⽇〜2023年12⽉31⽇までの ⽇本における1年間の「変更セット」(195,598セット) – 1時間に1⼈のユーザーが⾏った作成・変更・削除・タグ等の修正 ⼀連の変更からなるもの。10,000要素ごとに1つの変更セット – OSM編集にエラーが含まれる可能性の評価以外に、OSMの基本属 性(データの編集数やOSMのユーザーID、編集⽇時、使⽤した衛 星写真等)なども含まれる。 • 抽出範囲︓⽇本国内を対象範囲に含むエリア – ジオメトリは、変更セットの編集範囲(矩形)を⽰す。 – ⽇本の周辺や全世界を範囲に含むものもいくつかあるが、分析上 は⽇本国内を対象としたログに限定 • 本研究では主に、OSMChaの「疑わしい」OSM 編集(独 ⾃の「検出理由」に基づくもの)に着⽬し、⽇本におけ る全体的な特徴を明らかにすることが⽬的。

Slide 9

Slide 9 text

9 2024/10/27 地理情報システム学会・第33回学術研究発表⼤会 2023年におけるOSM編集の時系列的な傾向

Slide 10

Slide 10 text

10 2024/10/27 地理情報システム学会・第33回学術研究発表⼤会 OSMChaにおける検出ルール (⼀部抜粋) • Possible Import – 作成された要素の数が、作成・変更・削除した合計の70%を超えた場合。 • Mass Modification – 変更された要素の数が、作成・変更・削除した合計の70%を超えた場合。200 を超える要素を変更する場合も、⼀括変更と⾒なす。 • Mass Deletion – 1000 を超える要素を削除する変更セットは、⼀括削除と⾒なす。変更セット が200〜1000 の要素を削除し、削除された要素の数が、作成・変更・削除し た合計の70%を超える場合も、⼀括削除とみなす。 • New mapper – ユーザーの編集回数が 5 回未満、またはマッピング⽇数が 5 ⽇未満であるこ とにより判断される。 • User has multiple blocks – 複数のブロックを受け取ったユーザーによって作成された変更セットには、こ のフラグが付けられる。 • Suspect words – 変更セット投稿時のコメント欄にimportやgoogle、pokemonなど特定の単語 が含まれる場合。 https://github.com/OSMCha

Slide 11

Slide 11 text

11 2024/10/27 地理情報システム学会・第33回学術研究発表⼤会 具体例

Slide 12

Slide 12 text

12 2024/10/27 地理情報システム学会・第33回学術研究発表⼤会 「疑わしい」編集セットの空間的範囲 N=75,909 *: ⽇本以外の変更セットの範囲を除いたもの

Slide 13

Slide 13 text

13 2024/10/27 地理情報システム学会・第33回学術研究発表⼤会 N=119,689 通常の編集セットの空間的範囲 *: ⽇本以外の変更セットの範囲を除いたもの

Slide 14

Slide 14 text

14 2024/10/27 地理情報システム学会・第33回学術研究発表⼤会 「疑わしい」編集セットの中⼼点を基にしたカーネル密度分析 (単位:10km) 東京 ⼤阪 名古屋 福島 岩⼿ 福岡

Slide 15

Slide 15 text

15 2024/10/27 地理情報システム学会・第33回学術研究発表⼤会 「疑わしい」編集の検出ルール N=103,238 (複数の理由)

Slide 16

Slide 16 text

16 2024/10/27 地理情報システム学会・第33回学術研究発表⼤会 「New Mapper」による編集の空間パターン 変更セットの空間範囲 *: ⽇本以外の変更セットの範囲を除いたもの

Slide 17

Slide 17 text

17 2024/10/27 地理情報システム学会・第33回学術研究発表⼤会 「survey」に起因する編集の空間パターン 変更セットの空間範囲

Slide 18

Slide 18 text

18 2024/10/27 地理情報システム学会・第33回学術研究発表⼤会 RapiDを⽤いた編集の空間パターン 変更セットの空間範囲

Slide 19

Slide 19 text

19 2024/10/27 地理情報システム学会・第33回学術研究発表⼤会 RapiDによる編集の検出例 他ユーザーからのコメント • Rapid を使って建物を「⼤量」 に追加されていますが、Bingの 「ずれ」や「古さ」を確認した うえでの編集でしょうか︖ 編集 されている地域のBingは国⼟地 理院の航空画像とずれています し、⼊⼒された建物の形状は地 理院地図のものと異なっている ものが多いです。建物同⼠の重 複や、道路と建物の交差エラー も発⽣していますまた、このよ うな⼤量編集は「インポート」 ではありませんか︖

Slide 20

Slide 20 text

20 2024/10/27 地理情報システム学会・第33回学術研究発表⼤会 2024年1⽉能登半島地震におけるクライシスマッピング • 1ヶ⽉間に約36,963回の 変更セットが存在 • ⽯川・富⼭県内での編集 に限っても16,576(約 45%)の編集 • NewMapperが40.4% で、Review Requested が16.27%の順に多い • 編集範囲は⾮常に⼩さな 空間的範囲(クライシス マッピング時のTasking Managerを利⽤している ことに起因)

Slide 21

Slide 21 text

21 2024/10/27 地理情報システム学会・第33回学術研究発表⼤会 N=14,244 N=23,054

Slide 22

Slide 22 text

22 2024/10/27 地理情報システム学会・第33回学術研究発表⼤会 研究結果と今後の展望 • ⽇本ではNew Mapperの寄与が⼤きく、エラーが⼀定含まれて いる可能性は否めない。ただし、New mapperの編集が全て疑 わしいとは限らない。 • RapidによるAIマッピングも取り⼊れられているが、これらを⽤ いても間違いは⽣じている。ただ空間的な範囲(編集⾯積)は 他と⽐べると⼩さい傾向にある。 • 現地調査(survey)の場合は、「疑わしい」編集と⽐して正しい マッピングの範囲・割合が多くなる傾向 • 能登半島地震のクライシスマッピングでも多くの編集が実施さ れたが、1編集あたりの⾯積は⼩さく細かい傾向(マッピング活 動の分担実施) • OSMChaの検出ルールが細かいため、さらなるパターン分析が必要 • 編集した地物の種類やユーザー単位でのエラー発⽣確率の評価 • OSMにおけるAI導⼊や⾃動化はまだ端緒にあり、マッパーの基本スキ ルや普段の地理的知識によるマッピングの観点から、研究蓄積に期待。

Slide 23

Slide 23 text

23 2024/10/27 地理情報システム学会・第33回学術研究発表⼤会 Thank You ! [email protected] https://speakerdeck.com/tosseto https://tossetolab.github.io/