Upgrade to Pro — share decks privately, control downloads, hide ads and more …

nl253-19-2022 言及に対する地理的特定性指標の提案と文書ジオロケーションへの適用

Takashi INUI
September 30, 2022

nl253-19-2022 言及に対する地理的特定性指標の提案と文書ジオロケーションへの適用

Takashi INUI

September 30, 2022
Tweet

More Decks by Takashi INUI

Other Decks in Research

Transcript

  1. 研究背景(1/2) • SNS投稿から情報取得 • リアルタイムの天気や災害状況 • 位置情報付きツイートは1%未満[1] • 文書ジオロケーション課題 •

    文書(Tweetなど)と場所の対応づけ • 場所を表す表現の曖昧性解消が重要 2 中華街でランタン フェスティバルなう 横浜市 ? 神戸市 ? 長崎市 ? [1] L. Sloan, J. Morgan, W. Housley, M. Williams, A. Edwards, P. Burnap, and O. Rana. “Knowing the Tweeters: Deriving Sociologically Relevant Demographics from Twitter”.Sociological Research Online, Vol. 18,No. 3, p. 7, 2013.
  2. 関連研究:Wikification[1] • 文章の単語とリンクするWikipediaページを予測 • 例:中央区の人口は千代田区に次いで2番目に少ない 5 ◎ 中央区(東京都) × 中央区(神戸市)

    × 中央区(札幌市)… [1]Rada Mihalcea and Andras Csomai. Wikify! linking documents to encyclopedic knowledge. In Proceedings of the sixteenth ACM conference on Conference on information and knowledge management, pages 233–242, 2007. • 予測によく使われる情報 • Wikipedia内の アンカ文字列とページの リンク情報
  3. 関連研究:Wikification手法 6 入力文章: 中央区の人口は少ない 中央区の人口は少ない メンション抽出 • Wikificationにおいて非常に単純な手法 メンション 中央区

    Wikipediaページ 中央区 (東京都) 中央区 (神戸市) 中央区 (札幌市) … 3925 1249 1173 予測結果: 中央区 (東京都)
  4. 地理的特定性の構成 • 地理的曖昧性 • 異なる地理的位置属性をどれだけもっているか • 「中央区」は10都道府県に存在 • 地理的曖昧性が高い→地理的特定性が低い •

    名称専有性 • 特定の地理的位置として認知されるか • 「横浜」といえば「神奈川県横浜市」 • 名称専有性が高い→地理的特定性が高い 8
  5. 地理的特定性の付与対象 • エンティティ • 日本語Wikipediaの 地理的位置属性を持つ ページ 9 • メンション(言及)

    • Twitter投稿中の 場所を表す表現 中華街でランタンフ ェスティバルなう Twitter投稿 Wikipediaページ ※地理的位置属性を持つページ: 森羅プロジェクトが公開している,日本語Wikipedia全ページに 拡張固有表現ラベルを割り当てたデータのうち,組織名,地名, 施設名,イベント名に割り当てられたページ ※場所を表すメンション: GiNZAによる固有表現抽出によって,組織名,地名,施設名, イベント名と予測されたメンション Wikipedia 長崎新地中華街 https://ja.wikipedia.org/wiki/長崎新地中華街 より引用
  6. エンティティの地理的特定性 10 ページ「福岡ソフトバンクホークス」の地理的特定性の求め方 Wikipediaページ 崔周煥 …日本の柳田悠岐(福岡)、吉田正尚(大阪) を目標に掲げている。... Wikipediaページ プロ野球選手 2011年のシーズンオフに、ソフトバンク

    から巨人へと移籍した際、... Wikipediaページ 浅尾拓也 …センター前にはじき返され、ホークス の日本一を決定付ける... ... 527 605 1668 福岡 ソフトバンク ホークス mi ページ「福岡ソフトバンクホークス」と リンクするメンション集合Me Meのメンションとリンクするページ集合Pe 福岡ソフト バンクホークス 福岡県 福岡市 ソフトバンク pj 1 331 55 p1 p2 p96 = 96 = 0.568
  7. エンティティの地理的特定性 11 地理的曖昧性 名称専有性 厳島神社 (広島県) 13 0.646 厳島神社 (横浜市中区)

    11 0.021 厳島神社 (松山市) 11 0.097 厳島神社 (京都市上京区) 11 0.019 地理的曖昧性 名称専有性 鴨川 (淀川水系) 13 0.633 鴨川市 (千葉市) 9 0.558 地理的曖昧性 名称専有性 中央区 (東京都) 145 0.141 中央区 (大阪市) 135 0.117 中央区 (千葉市) 52 0.052 中央区 (福岡市) 83 0.075 地理的曖昧性 名称専有性 竹下通り (東京都) 2 0.919 竹下通り (福岡市) 2 0.082 「厳島神社」の地理的特定性 「中央区」の地理的特定性 「竹下通り」の地理的特定性 「鴨川」の地理的特定性
  8. メンションの地理的特定性 • 都道府県数47次元のベクトル • リンクするエンティティの地理的特定性を 都道府県ごとに集約 14 メンション「福岡」の地理的特定性の求め方 「福岡」の地理的特定性 0

    0 77 76 0 ⋮ 77 ⋮ 84 ⋮ 80 ⋮ 142 ⋮ 0 0 0 0.012 0.003 0 ⋮ 0.030 ⋮ 0.031 ⋮ 0.027 ⋮ 0.936 ⋮ 0 地理的曖昧性 名称専有性 北海道 青森県 岩手県 宮城県 秋田県 ⋮ 富山県 ⋮ 岐阜県 ⋮ 岡山県 ⋮ 福岡県 ⋮ 沖縄県
  9. 「中央区」の地理的特定性 0.096 ⋮ 0.071 ⋮ 0.026 0.051 0.141 ⋮ 0.117

    0.103 ⋮ 0.075 ⋮ 0.043 ⋮ 11 ⋮ 11 ⋮ 11 52 145 ⋮ 135 11 ⋮ 83 ⋮ 11 ⋮ 地理的曖昧性 名称専有性 メンションの地理的特定性 15 「厳島神社」の地理的特定性 0.015 ⋮ 0.021 ⋮ 0.019 ⋮ 0.014 ⋮ 0.646 ⋮ 0 11 ⋮ 11 ⋮ 11 ⋮ 11 ⋮ 13 ⋮ 0 地理的曖昧性 名称専有性 北海道 ⋮ 静岡県 ⋮ 京都府 ⋮ 兵庫県 ⋮ 広島県 ⋮ 沖縄県 北海道 ⋮ 新潟県 ⋮ 埼玉県 千葉県 東京都 ⋮ 大阪府 兵庫県 ⋮ 福岡県 ⋮ 熊本県 ⋮
  10. 評価実験 • 実験設定 • 文書ジオロケーション課題 • 入力:Twitter投稿 • 出力:都道府県 •

    観光ドメイン日本語Twitter投稿文書データ[2] • 2014~2015年に日本国内から投稿された 日本語Tweet • 地理的特定性を獲得できたメンション:12,758 16 [2] 平川冬尉and乾孝司.日本語地理的位置推定課題におけるインジケータ付 deepgeo法の提案と評価. In人工知能学会全国大会論文集 第34回(2020), pages 3Rin473–3Rin473.一般社団法人 人工知能学会, 2020.
  11. 手法(ベースライン1) • deepgeo[3] • 既存の文書ジオロケーションモデル • 投稿文書や投稿時間,投稿者プロフィール などの特徴量から予測 • TextNetwork(サブネットワーク)で投稿文書を処理

    18 中 華 街 の ・ ・ ・ な う TextNetwork (LSTM+CNN) char embedding 200 dim [3] Jey Han Lau, Lianhua Chi, Khoi-Nguyen Tran, and TrevorCohn. End-to- end network for twitter geolocation predictionand hashing. InProceedings of the Eighth International JointConference on Natural Language Processing (Volume 1: LongPapers), pages 744–753, 2017
  12. 手法(ベースライン2) • deepgeo+MentionVec • MentionVec:メンションに対応するベクトル • メンションとリンクするページの分散表現[4]の平均 19 中華街のランタンフェスティバルなう Wikipediaページ

    横浜中華街 Wikipediaページ 神戸南京町 Wikipediaページ 長崎新地 中華街 平均 ページの 分散表現 「中華街」の MentionVec 中 華 街 char embedding + MentionVec TextNetworkへの入力 200 dim 300 dim [4] 日本語Wikipediaエンティティベクトル: http://www.cl.ecei.tohoku.ac.jp/~m-suzuki/jawiki_vector/
  13. 今回の手法 • deepgeo+GeoVec • メンションの地理的特定性を使用 • TextNetworkの入力文字ベクトルに連結 20 中 華

    街 char embedding + 地理的曖昧性 + 名称専有性 TextNetworkへの入力 200 dim 47 dim 47 dim
  14. 結果・考察 • deepgeo+GeoVec > deepgeo • 地理的特定性が文書ジオロケーションに有効 • GeoVec >

    MentionVec • より地理に特化した情報を保有できている • 曖昧性+専有性が最も高い • 曖昧性と専有性は異なる情報を持つ • 両方が構成要素として妥当 21 ルールベース →
  15. ⋮ 0.108 ⋮ 0.951 ⋮ 0.693 ⋮ 0.138 ⋮ 0.318

    ⋮ ⋮ 12 ⋮ 11 ⋮ 11 ⋮ 11 ⋮ 13 ⋮ 地理的曖昧性 名称専有性 予測結果 • 地理的特定性をうまく使えている例 22 0 ⋮ 0.248 ⋮ 0 0 ⋮ 11 ⋮ 0 地理的曖昧性 名称専有性 長崎県 小浜温泉のジャカランダフェスタ #小浜 (省略) #小浜温泉 ベースラインモデル:福井県 × 地理的特定性モデル:長崎県 ◎ 「小浜温泉」の地理的特定性 「小浜」の地理的特定性 福島県 福井県 滋賀県 兵庫県 長崎県