Upgrade to Pro — share decks privately, control downloads, hide ads and more …

nl253-19-2022

Takashi INUI
September 30, 2022

 nl253-19-2022

nl253-19 言及に対する地理的特定性指標の提案と文書ジオロケーションへの適用

Takashi INUI

September 30, 2022
Tweet

More Decks by Takashi INUI

Other Decks in Research

Transcript

  1. 言及に対する地理的特定性指標の提案と 文書ジオロケーションへの適用 筑波大学 隂山宗一 乾孝司 1

  2. 研究背景(1/2) • SNS投稿から情報取得 • リアルタイムの天気や災害状況 • 位置情報付きツイートは1%未満[1] • 文書ジオロケーション課題 •

    文書(Tweetなど)と場所の対応づけ • 場所を表す表現の曖昧性解消が重要 2 中華街でランタン フェスティバルなう 横浜市 ? 神戸市 ? 長崎市 ? [1] L. Sloan, J. Morgan, W. Housley, M. Williams, A. Edwards, P. Burnap, and O. Rana. “Knowing the Tweeters: Deriving Sociologically Relevant Demographics from Twitter”.Sociological Research Online, Vol. 18,No. 3, p. 7, 2013.
  3. 研究背景(2/2) • SNSユーザの立場 • 個人情報が他人に知られない範囲での使用 • 場所を特定しやすい表現を避けたい 3 場所(地理的位置)の特定しやすさを指標化

  4. 研究目的 • 地理的特定性指標の提案・検討 • 地理的位置の特定しやすさを指標化 • 文書ジオロケーションへ適用して評価 • 文書に対応する地理的位置を予測 4

  5. 関連研究:Wikification[1] • 文章の単語とリンクするWikipediaページを予測 • 例:中央区の人口は千代田区に次いで2番目に少ない 5 ◎ 中央区(東京都) × 中央区(神戸市)

    × 中央区(札幌市)… [1]Rada Mihalcea and Andras Csomai. Wikify! linking documents to encyclopedic knowledge. In Proceedings of the sixteenth ACM conference on Conference on information and knowledge management, pages 233–242, 2007. • 予測によく使われる情報 • Wikipedia内の アンカ文字列とページの リンク情報
  6. 関連研究:Wikification手法 6 入力文章: 中央区の人口は少ない 中央区の人口は少ない メンション抽出 • Wikificationにおいて非常に単純な手法 メンション 中央区

    Wikipediaページ 中央区 (東京都) 中央区 (神戸市) 中央区 (札幌市) … 3925 1249 1173 予測結果: 中央区 (東京都)
  7. 地理的特定性とは • 地理的位置の特定しやすさ • 言語処理分野での応用を考えた特定性 • 2つの構成要素 • 地理的曖昧性 •

    名称専有性 7
  8. 地理的特定性の構成 • 地理的曖昧性 • 異なる地理的位置属性をどれだけもっているか • 「中央区」は10都道府県に存在 • 地理的曖昧性が高い→地理的特定性が低い •

    名称専有性 • 特定の地理的位置として認知されるか • 「横浜」といえば「神奈川県横浜市」 • 名称専有性が高い→地理的特定性が高い 8
  9. 地理的特定性の付与対象 • エンティティ • 日本語Wikipediaの 地理的位置属性を持つ ページ 9 • メンション(言及)

    • Twitter投稿中の 場所を表す表現 中華街でランタンフ ェスティバルなう Twitter投稿 Wikipediaページ ※地理的位置属性を持つページ: 森羅プロジェクトが公開している,日本語Wikipedia全ページに 拡張固有表現ラベルを割り当てたデータのうち,組織名,地名, 施設名,イベント名に割り当てられたページ ※場所を表すメンション: GiNZAによる固有表現抽出によって,組織名,地名,施設名, イベント名と予測されたメンション Wikipedia 長崎新地中華街 https://ja.wikipedia.org/wiki/長崎新地中華街 より引用
  10. エンティティの地理的特定性 10 ページ「福岡ソフトバンクホークス」の地理的特定性の求め方 Wikipediaページ 崔周煥 …日本の柳田悠岐(福岡)、吉田正尚(大阪) を目標に掲げている。... Wikipediaページ プロ野球選手 2011年のシーズンオフに、ソフトバンク

    から巨人へと移籍した際、... Wikipediaページ 浅尾拓也 …センター前にはじき返され、ホークス の日本一を決定付ける... ... 527 605 1668 福岡 ソフトバンク ホークス mi ページ「福岡ソフトバンクホークス」と リンクするメンション集合Me Meのメンションとリンクするページ集合Pe 福岡ソフト バンクホークス 福岡県 福岡市 ソフトバンク pj 1 331 55 p1 p2 p96 = 96 = 0.568
  11. エンティティの地理的特定性 11 地理的曖昧性 名称専有性 厳島神社 (広島県) 13 0.646 厳島神社 (横浜市中区)

    11 0.021 厳島神社 (松山市) 11 0.097 厳島神社 (京都市上京区) 11 0.019 地理的曖昧性 名称専有性 鴨川 (淀川水系) 13 0.633 鴨川市 (千葉市) 9 0.558 地理的曖昧性 名称専有性 中央区 (東京都) 145 0.141 中央区 (大阪市) 135 0.117 中央区 (千葉市) 52 0.052 中央区 (福岡市) 83 0.075 地理的曖昧性 名称専有性 竹下通り (東京都) 2 0.919 竹下通り (福岡市) 2 0.082 「厳島神社」の地理的特定性 「中央区」の地理的特定性 「竹下通り」の地理的特定性 「鴨川」の地理的特定性
  12. エンティティの地理的曖昧性 12 地理的曖昧性が高い事例 地理的曖昧性が低い事例 - 言及表現として地名が 使用されるもの - 複数の場所に存在する 名称の場所

    - 言及表現が固有なもの
  13. エンティティの名称専有性 13 名称専有性が高い事例 名称専有性が低い事例 - 言及表現が固有なもの - 同じ名称を持つエンティティ の中で一般的に最も認知 されているもの

    - 言及表現として地名が 使用されているもの - 同じ名称を持つエンティティ の中で認知されていないもの
  14. メンションの地理的特定性 • 都道府県数47次元のベクトル • リンクするエンティティの地理的特定性を 都道府県ごとに集約 14 メンション「福岡」の地理的特定性の求め方 「福岡」の地理的特定性 0

    0 77 76 0 ⋮ 77 ⋮ 84 ⋮ 80 ⋮ 142 ⋮ 0 0 0 0.012 0.003 0 ⋮ 0.030 ⋮ 0.031 ⋮ 0.027 ⋮ 0.936 ⋮ 0 地理的曖昧性 名称専有性 北海道 青森県 岩手県 宮城県 秋田県 ⋮ 富山県 ⋮ 岐阜県 ⋮ 岡山県 ⋮ 福岡県 ⋮ 沖縄県
  15. 「中央区」の地理的特定性 0.096 ⋮ 0.071 ⋮ 0.026 0.051 0.141 ⋮ 0.117

    0.103 ⋮ 0.075 ⋮ 0.043 ⋮ 11 ⋮ 11 ⋮ 11 52 145 ⋮ 135 11 ⋮ 83 ⋮ 11 ⋮ 地理的曖昧性 名称専有性 メンションの地理的特定性 15 「厳島神社」の地理的特定性 0.015 ⋮ 0.021 ⋮ 0.019 ⋮ 0.014 ⋮ 0.646 ⋮ 0 11 ⋮ 11 ⋮ 11 ⋮ 11 ⋮ 13 ⋮ 0 地理的曖昧性 名称専有性 北海道 ⋮ 静岡県 ⋮ 京都府 ⋮ 兵庫県 ⋮ 広島県 ⋮ 沖縄県 北海道 ⋮ 新潟県 ⋮ 埼玉県 千葉県 東京都 ⋮ 大阪府 兵庫県 ⋮ 福岡県 ⋮ 熊本県 ⋮
  16. 評価実験 • 実験設定 • 文書ジオロケーション課題 • 入力:Twitter投稿 • 出力:都道府県 •

    観光ドメイン日本語Twitter投稿文書データ[2] • 2014~2015年に日本国内から投稿された 日本語Tweet • 地理的特定性を獲得できたメンション:12,758 16 [2] 平川冬尉and乾孝司.日本語地理的位置推定課題におけるインジケータ付 deepgeo法の提案と評価. In人工知能学会全国大会論文集 第34回(2020), pages 3Rin473–3Rin473.一般社団法人 人工知能学会, 2020.
  17. 実験目的 • メンションの地理的曖昧性と名称専有性が 文書ジオロケーションにおいて 有効であるかを検証 17 中華街でランタン フェスティバルなう 神奈川県 ?

    兵庫県 ? 長崎県 ? 地理的特定 性 入力 出力
  18. 手法(ベースライン1) • deepgeo[3] • 既存の文書ジオロケーションモデル • 投稿文書や投稿時間,投稿者プロフィール などの特徴量から予測 • TextNetwork(サブネットワーク)で投稿文書を処理

    18 中 華 街 の ・ ・ ・ な う TextNetwork (LSTM+CNN) char embedding 200 dim [3] Jey Han Lau, Lianhua Chi, Khoi-Nguyen Tran, and TrevorCohn. End-to- end network for twitter geolocation predictionand hashing. InProceedings of the Eighth International JointConference on Natural Language Processing (Volume 1: LongPapers), pages 744–753, 2017
  19. 手法(ベースライン2) • deepgeo+MentionVec • MentionVec:メンションに対応するベクトル • メンションとリンクするページの分散表現[4]の平均 19 中華街のランタンフェスティバルなう Wikipediaページ

    横浜中華街 Wikipediaページ 神戸南京町 Wikipediaページ 長崎新地 中華街 平均 ページの 分散表現 「中華街」の MentionVec 中 華 街 char embedding + MentionVec TextNetworkへの入力 200 dim 300 dim [4] 日本語Wikipediaエンティティベクトル: http://www.cl.ecei.tohoku.ac.jp/~m-suzuki/jawiki_vector/
  20. 今回の手法 • deepgeo+GeoVec • メンションの地理的特定性を使用 • TextNetworkの入力文字ベクトルに連結 20 中 華

    街 char embedding + 地理的曖昧性 + 名称専有性 TextNetworkへの入力 200 dim 47 dim 47 dim
  21. 結果・考察 • deepgeo+GeoVec > deepgeo • 地理的特定性が文書ジオロケーションに有効 • GeoVec >

    MentionVec • より地理に特化した情報を保有できている • 曖昧性+専有性が最も高い • 曖昧性と専有性は異なる情報を持つ • 両方が構成要素として妥当 21 ルールベース →
  22. ⋮ 0.108 ⋮ 0.951 ⋮ 0.693 ⋮ 0.138 ⋮ 0.318

    ⋮ ⋮ 12 ⋮ 11 ⋮ 11 ⋮ 11 ⋮ 13 ⋮ 地理的曖昧性 名称専有性 予測結果 • 地理的特定性をうまく使えている例 22 0 ⋮ 0.248 ⋮ 0 0 ⋮ 11 ⋮ 0 地理的曖昧性 名称専有性 長崎県 小浜温泉のジャカランダフェスタ #小浜 (省略) #小浜温泉 ベースラインモデル:福井県 × 地理的特定性モデル:長崎県 ◎ 「小浜温泉」の地理的特定性 「小浜」の地理的特定性 福島県 福井県 滋賀県 兵庫県 長崎県
  23. 場所を表すメンション数ごとの性能 • 場所を表すメンションが含まれるほうが どちらの手法も性能が高い • 場所を表すメンションがあるときは 地理的特定性を加えた方が性能が高い 23

  24. 24 ※太字はMentionVecまたはGeoVecが付与された文字列

  25. まとめ • 地理的特定性を提案した • 地理的曖昧性 • 名称専有性 • エンティティとメンションの 地理的特定性の表し方を提案した

    • メンションの地理的特定性が 文書ジオロケーションに有効で あることを示した 25
  26. 今後 • エンティティの地理的特定性の 妥当性の確認 • 他の課題(Entity Linkingなど)における 有効性の確認 • 文脈情報を考慮したメンションの

    地理的特定性の検討 26