Upgrade to Pro — share decks privately, control downloads, hide ads and more …

20241027OSMCha

Toshikazu SETO
October 27, 2024
15

 20241027OSMCha

* 第33回地理情報システム学会

Toshikazu SETO

October 27, 2024
Tweet

Transcript

  1. 1 2024/10/27 地理情報システム学会・第33回学術研究発表⼤会 データ品質検証ツールを⽤いた OpenStreetMapにおける編集傾向と特徴 A02 KOMAZAWA UNIVERSITY Visual Identity

    Guidelines Ϋʴ࿨จϩΰλΠϓ ,ϚʔΫʴ࿨จϩΰλΠϓͷ૊Έ߹Θͤ ͸ɺ ࠨͷछͰ͢ɻ ԣ جຊܗͱ͠ɺ ༏ઌతʹ࢖༻͠·͢ɻ ԣ ϫϯϙΠϯτͳͲɺ ʮԣʯ ͕഑ஔ͠ʹ͍͘ ৔߹ʹ࢖༻͠·͢ɻ ॎ ॎܕαΠϯͳͲɺ ࡉ௕͍഑ஔʹ࢖༻͠·͢ɻ ඞͣϚελʔσʔλΛ࢖༻͍ͯͩ͘͠͞ɻ ࠨهҎ֎ͷ૊Έ߹ΘͤΛ࡞੒͠ͳ͍Ͱ ͍ͩ͘͞ɻ ܗʣ ϙΠϯτ౳ʣ ॎ 駒澤⼤学⽂学部地理学科・准教授 東京⼤学空間情報科学研究センター(CSIS)・特任准教授 https://tossetolab.github.io/ [email protected] 瀬⼾ 寿⼀ A02 KOMAZAWA UNIVERSITY Visual Identity Guidelines Ϋʴ࿨จϩΰλΠϓ ,ϚʔΫʴ࿨จϩΰλΠϓͷ૊Έ߹Θͤ ͸ɺ ࠨͷछͰ͢ɻ ԣ جຊܗͱ͠ɺ ༏ઌతʹ࢖༻͠·͢ɻ ԣ ϫϯϙΠϯτͳͲɺ ʮԣʯ ͕഑ஔ͠ʹ͍͘ ৔߹ʹ࢖༻͠·͢ɻ ॎ ॎܕαΠϯͳͲɺ ࡉ௕͍഑ஔʹ࢖༻͠·͢ɻ ඞͣϚελʔσʔλΛ࢖༻͍ͯͩ͘͠͞ɻ ࠨهҎ֎ͷ૊Έ߹ΘͤΛ࡞੒͠ͳ͍Ͱ ͍ͩ͘͞ɻ ܗʣ ϙΠϯτ౳ʣ ॎ
  2. 2 2024/10/27 地理情報システム学会・第33回学術研究発表⼤会 発表の内容 • 研究の背景・⽅法 • OSMCha を⽤いた編集傾向の定量分析 –

    時系列分析に基づく傾向 – OSMChaにおけるエラー検出理由 – 「疑わしい(suspicious)」編集の傾向 • OSMCha の探索的(定性)分析 – New Mappers による編集 – Map-with-AI (RapiD)の利⽤ • 研究結果・今後の展望
  3. 3 2024/10/27 地理情報システム学会・第33回学術研究発表⼤会 OpenStreetMap: OSM(2004〜) • Wiki的⼿法による⾃由な地図データ作成 = 地図のデータコモンズ –

    運営は基本的にボランティアで⾏われ、OSM財団はサーバー管理やコミュニティ⽀援、外 部機関との連携・調停・法務対応など窓⼝として機能 – ⼆次利⽤可能(OdbL)なライセンスの地理データベース(≠ 背景地図) • 2004年にイギリスで開始。世界で1000万編集者超(Mapper)が登録 – 全世界を⼀つのXMLデータ(約800GB)で整備し、毎⽇〜毎週単位でアーカイブ配布 – ⽇本から累計約45,000編集者以上が貢献 (Seto, 2024) • OSMデータを操作・検証するツールの多くはオープンソースで開発 – 地図エディタもオープンソース(GISソフトウェアに内包されている場合も) – Facebookなどのグローバル企業や国際連合での採⽤・ツール開発等の⽀援 • OSMを利⽤/対象とした論⽂︓主要学術誌で約1,800本(瀬⼾, 2024)
  4. 4 2024/10/27 地理情報システム学会・第33回学術研究発表⼤会 研究の背景: OSMやVGIの品質評価研究 • Quattrone et al., 2016

    – 国レベルの更新頻度とタグの分析 (uid、変更セット、タ イムスタンプ、バージョン、緯度、経度、タグリスト) • Anderson et al., 2019 – OSM-QAタイルを⽤いた企業編集者の分析 • Raifer et al., 2019 – OSHDB ⽤の開発分析プラットフォーム構築と ohsome-APIによるデータ集約、データ抽出、ユー ザー統計 • Minghini and Frassinelli, 2019 – “Is OSM up-to-date” ツールを⽤いたOSMデータの作 成⽇ (最初の編集⽇)、最終編集⽇、バージョン数 (リビ ジョン数)、編集者数、更新頻度等の分析
  5. 5 2024/10/27 地理情報システム学会・第33回学術研究発表⼤会 近年のOSMにおける新しいリサーチトピック • 地理空間データとしての品質向上と品質モニタリング – AI等による⾃動マッピング技術の提供や精度向上 – 特にローカルでの⽇常的な活動に対するデータアセスメント

    – 意図しない&悪意のあるデータ破壊に対する対応 (Juhász et al., 2020) • 多様なアクターの出現と活動コミュニティにおける受容 – 商業的︓企業メンバーの台頭とAI技術の進展 (Anderson et al., 2019) – ⼈道的︓ジェンダーギャップ問題・ローカルな貢献者や若⼿育成(Solís & Zeballos, 2023) https://www.openstreetmap.org/user/mvexel/diary/400035
  6. 7 2024/10/27 地理情報システム学会・第33回学術研究発表⼤会 OSM Changeset Analyzer (OSMCha) https://github.com/OSMCha/osmcha • 変更セット(changeset)データをもとに、時間・空間・タグ

    等の編集履歴を追跡するPythonパッケージ(Web&API) • 「疑わしい」OSMを⾃動検出するアルゴリズム • Djangoでの利⽤のほか、スタンドアロン環境にも対応 • ライセンス: GPL-3.0
  7. 8 2024/10/27 地理情報システム学会・第33回学術研究発表⼤会 研究対象(OSMCha)の概要 • 対象期間︓2023年1⽉1⽇〜2023年12⽉31⽇までの ⽇本における1年間の「変更セット」(195,598セット) – 1時間に1⼈のユーザーが⾏った作成・変更・削除・タグ等の修正 ⼀連の変更からなるもの。10,000要素ごとに1つの変更セット

    – OSM編集にエラーが含まれる可能性の評価以外に、OSMの基本属 性(データの編集数やOSMのユーザーID、編集⽇時、使⽤した衛 星写真等)なども含まれる。 • 抽出範囲︓⽇本国内を対象範囲に含むエリア – ジオメトリは、変更セットの編集範囲(矩形)を⽰す。 – ⽇本の周辺や全世界を範囲に含むものもいくつかあるが、分析上 は⽇本国内を対象としたログに限定 • 本研究では主に、OSMChaの「疑わしい」OSM 編集(独 ⾃の「検出理由」に基づくもの)に着⽬し、⽇本におけ る全体的な特徴を明らかにすることが⽬的。
  8. 10 2024/10/27 地理情報システム学会・第33回学術研究発表⼤会 OSMChaにおける検出ルール (⼀部抜粋) • Possible Import – 作成された要素の数が、作成・変更・削除した合計の70%を超えた場合。

    • Mass Modification – 変更された要素の数が、作成・変更・削除した合計の70%を超えた場合。200 を超える要素を変更する場合も、⼀括変更と⾒なす。 • Mass Deletion – 1000 を超える要素を削除する変更セットは、⼀括削除と⾒なす。変更セット が200〜1000 の要素を削除し、削除された要素の数が、作成・変更・削除し た合計の70%を超える場合も、⼀括削除とみなす。 • New mapper – ユーザーの編集回数が 5 回未満、またはマッピング⽇数が 5 ⽇未満であるこ とにより判断される。 • User has multiple blocks – 複数のブロックを受け取ったユーザーによって作成された変更セットには、こ のフラグが付けられる。 • Suspect words – 変更セット投稿時のコメント欄にimportやgoogle、pokemonなど特定の単語 が含まれる場合。 https://github.com/OSMCha
  9. 19 2024/10/27 地理情報システム学会・第33回学術研究発表⼤会 RapiDによる編集の検出例 他ユーザーからのコメント • Rapid を使って建物を「⼤量」 に追加されていますが、Bingの 「ずれ」や「古さ」を確認した

    うえでの編集でしょうか︖ 編集 されている地域のBingは国⼟地 理院の航空画像とずれています し、⼊⼒された建物の形状は地 理院地図のものと異なっている ものが多いです。建物同⼠の重 複や、道路と建物の交差エラー も発⽣していますまた、このよ うな⼤量編集は「インポート」 ではありませんか︖
  10. 20 2024/10/27 地理情報システム学会・第33回学術研究発表⼤会 2024年1⽉能登半島地震におけるクライシスマッピング • 1ヶ⽉間に約36,963回の 変更セットが存在 • ⽯川・富⼭県内での編集 に限っても16,576(約

    45%)の編集 • NewMapperが40.4% で、Review Requested が16.27%の順に多い • 編集範囲は⾮常に⼩さな 空間的範囲(クライシス マッピング時のTasking Managerを利⽤している ことに起因)
  11. 22 2024/10/27 地理情報システム学会・第33回学術研究発表⼤会 研究結果と今後の展望 • ⽇本ではNew Mapperの寄与が⼤きく、エラーが⼀定含まれて いる可能性は否めない。ただし、New mapperの編集が全て疑 わしいとは限らない。

    • RapidによるAIマッピングも取り⼊れられているが、これらを⽤ いても間違いは⽣じている。ただ空間的な範囲(編集⾯積)は 他と⽐べると⼩さい傾向にある。 • 現地調査(survey)の場合は、「疑わしい」編集と⽐して正しい マッピングの範囲・割合が多くなる傾向 • 能登半島地震のクライシスマッピングでも多くの編集が実施さ れたが、1編集あたりの⾯積は⼩さく細かい傾向(マッピング活 動の分担実施) • OSMChaの検出ルールが細かいため、さらなるパターン分析が必要 • 編集した地物の種類やユーザー単位でのエラー発⽣確率の評価 • OSMにおけるAI導⼊や⾃動化はまだ端緒にあり、マッパーの基本スキ ルや普段の地理的知識によるマッピングの観点から、研究蓄積に期待。