Upgrade to Pro — share decks privately, control downloads, hide ads and more …

nl253-19-2022 言及に対する地理的特定性指標の提案と文書ジオロケーションへの適用

Takashi INUI
September 30, 2022

nl253-19-2022 言及に対する地理的特定性指標の提案と文書ジオロケーションへの適用

Takashi INUI

September 30, 2022
Tweet

More Decks by Takashi INUI

Other Decks in Research

Transcript

  1. 言及に対する地理的特定性指標の提案と
    文書ジオロケーションへの適用
    筑波大学
    隂山宗一 乾孝司
    1

    View full-size slide

  2. 研究背景(1/2)
    ● SNS投稿から情報取得
    ● リアルタイムの天気や災害状況
    ● 位置情報付きツイートは1%未満[1]
    ● 文書ジオロケーション課題
    ● 文書(Tweetなど)と場所の対応づけ
    ● 場所を表す表現の曖昧性解消が重要
    2
    中華街でランタン
    フェスティバルなう
    横浜市 ?
    神戸市 ?
    長崎市 ?
    [1] L. Sloan, J. Morgan, W. Housley, M. Williams, A. Edwards, P. Burnap, and O.
    Rana. “Knowing the Tweeters: Deriving Sociologically Relevant Demographics from
    Twitter”.Sociological Research Online, Vol. 18,No. 3, p. 7, 2013.

    View full-size slide

  3. 研究背景(2/2)
    ● SNSユーザの立場
    ● 個人情報が他人に知られない範囲での使用
    ● 場所を特定しやすい表現を避けたい
    3
    場所(地理的位置)の特定しやすさを指標化

    View full-size slide

  4. 研究目的
    ● 地理的特定性指標の提案・検討
    ● 地理的位置の特定しやすさを指標化
    ● 文書ジオロケーションへ適用して評価
    ● 文書に対応する地理的位置を予測
    4

    View full-size slide

  5. 関連研究:Wikification[1]
    ● 文章の単語とリンクするWikipediaページを予測
    ● 例:中央区の人口は千代田区に次いで2番目に少ない
    5
    ◎ 中央区(東京都)
    × 中央区(神戸市)
    × 中央区(札幌市)…
    [1]Rada Mihalcea and Andras Csomai. Wikify! linking documents to encyclopedic knowledge. In Proceedings of the sixteenth ACM
    conference on Conference on information and knowledge management, pages 233–242, 2007.
    ● 予測によく使われる情報
    ● Wikipedia内の
    アンカ文字列とページの
    リンク情報

    View full-size slide

  6. 関連研究:Wikification手法
    6
    入力文章:
    中央区の人口は少ない
    中央区の人口は少ない
    メンション抽出
    ● Wikificationにおいて非常に単純な手法
    メンション
    中央区
    Wikipediaページ
    中央区 (東京都)
    中央区 (神戸市)
    中央区 (札幌市)

    3925
    1249
    1173
    予測結果:
    中央区 (東京都)

    View full-size slide

  7. 地理的特定性とは
    ● 地理的位置の特定しやすさ
    ● 言語処理分野での応用を考えた特定性
    ● 2つの構成要素
    ● 地理的曖昧性
    ● 名称専有性
    7

    View full-size slide

  8. 地理的特定性の構成
    ● 地理的曖昧性
    ● 異なる地理的位置属性をどれだけもっているか
    ● 「中央区」は10都道府県に存在
    ● 地理的曖昧性が高い→地理的特定性が低い
    ● 名称専有性
    ● 特定の地理的位置として認知されるか
    ● 「横浜」といえば「神奈川県横浜市」
    ● 名称専有性が高い→地理的特定性が高い
    8

    View full-size slide

  9. 地理的特定性の付与対象
    ● エンティティ
    ● 日本語Wikipediaの
    地理的位置属性を持つ
    ページ
    9
    ● メンション(言及)
    ● Twitter投稿中の
    場所を表す表現
    中華街でランタンフ
    ェスティバルなう
    Twitter投稿
    Wikipediaページ
    ※地理的位置属性を持つページ:
    森羅プロジェクトが公開している,日本語Wikipedia全ページに
    拡張固有表現ラベルを割り当てたデータのうち,組織名,地名,
    施設名,イベント名に割り当てられたページ
    ※場所を表すメンション:
    GiNZAによる固有表現抽出によって,組織名,地名,施設名,
    イベント名と予測されたメンション
    Wikipedia 長崎新地中華街 https://ja.wikipedia.org/wiki/長崎新地中華街 より引用

    View full-size slide

  10. エンティティの地理的特定性
    10
    ページ「福岡ソフトバンクホークス」の地理的特定性の求め方
    Wikipediaページ 崔周煥
    …日本の柳田悠岐(福岡)、吉田正尚(大阪)
    を目標に掲げている。...
    Wikipediaページ プロ野球選手
    2011年のシーズンオフに、ソフトバンク
    から巨人へと移籍した際、...
    Wikipediaページ 浅尾拓也
    …センター前にはじき返され、ホークス
    の日本一を決定付ける...
    ...
    527
    605
    1668
    福岡
    ソフトバンク
    ホークス
    mi
    ページ「福岡ソフトバンクホークス」と
    リンクするメンション集合Me
    Meのメンションとリンクするページ集合Pe
    福岡ソフト
    バンクホークス
    福岡県
    福岡市
    ソフトバンク
    pj
    1
    331
    55
    p1
    p2
    p96
    = 96
    = 0.568

    View full-size slide

  11. エンティティの地理的特定性
    11
    地理的曖昧性 名称専有性
    厳島神社 (広島県) 13 0.646
    厳島神社 (横浜市中区) 11 0.021
    厳島神社 (松山市) 11 0.097
    厳島神社 (京都市上京区) 11 0.019
    地理的曖昧性 名称専有性
    鴨川 (淀川水系) 13 0.633
    鴨川市 (千葉市) 9 0.558
    地理的曖昧性 名称専有性
    中央区 (東京都) 145 0.141
    中央区 (大阪市) 135 0.117
    中央区 (千葉市) 52 0.052
    中央区 (福岡市) 83 0.075
    地理的曖昧性 名称専有性
    竹下通り (東京都) 2 0.919
    竹下通り (福岡市) 2 0.082
    「厳島神社」の地理的特定性 「中央区」の地理的特定性
    「竹下通り」の地理的特定性 「鴨川」の地理的特定性

    View full-size slide

  12. エンティティの地理的曖昧性
    12
    地理的曖昧性が高い事例 地理的曖昧性が低い事例
    - 言及表現として地名が
    使用されるもの
    - 複数の場所に存在する
    名称の場所
    - 言及表現が固有なもの

    View full-size slide

  13. エンティティの名称専有性
    13
    名称専有性が高い事例 名称専有性が低い事例
    - 言及表現が固有なもの
    - 同じ名称を持つエンティティ
    の中で一般的に最も認知
    されているもの
    - 言及表現として地名が
    使用されているもの
    - 同じ名称を持つエンティティ
    の中で認知されていないもの

    View full-size slide

  14. メンションの地理的特定性
    ● 都道府県数47次元のベクトル
    ● リンクするエンティティの地理的特定性を
    都道府県ごとに集約
    14
    メンション「福岡」の地理的特定性の求め方
    「福岡」の地理的特定性
    0
    0
    77
    76
    0

    77

    84

    80

    142

    0
    0
    0
    0.012
    0.003
    0

    0.030

    0.031

    0.027

    0.936

    0
    地理的曖昧性 名称専有性
    北海道
    青森県
    岩手県
    宮城県
    秋田県

    富山県

    岐阜県

    岡山県

    福岡県

    沖縄県

    View full-size slide

  15. 「中央区」の地理的特定性
    0.096

    0.071

    0.026
    0.051
    0.141

    0.117
    0.103

    0.075

    0.043

    11

    11

    11
    52
    145

    135
    11

    83

    11

    地理的曖昧性 名称専有性
    メンションの地理的特定性
    15
    「厳島神社」の地理的特定性
    0.015

    0.021

    0.019

    0.014

    0.646

    0
    11

    11

    11

    11

    13

    0
    地理的曖昧性 名称専有性
    北海道

    静岡県

    京都府

    兵庫県

    広島県

    沖縄県
    北海道

    新潟県

    埼玉県
    千葉県
    東京都

    大阪府
    兵庫県

    福岡県

    熊本県

    View full-size slide

  16. 評価実験
    ● 実験設定
    ● 文書ジオロケーション課題
    ● 入力:Twitter投稿
    ● 出力:都道府県
    ● 観光ドメイン日本語Twitter投稿文書データ[2]
    ● 2014~2015年に日本国内から投稿された
    日本語Tweet
    ● 地理的特定性を獲得できたメンション:12,758
    16
    [2] 平川冬尉and乾孝司.日本語地理的位置推定課題におけるインジケータ付
    deepgeo法の提案と評価. In人工知能学会全国大会論文集 第34回(2020),
    pages 3Rin473–3Rin473.一般社団法人 人工知能学会, 2020.

    View full-size slide

  17. 実験目的
    ● メンションの地理的曖昧性と名称専有性が
    文書ジオロケーションにおいて
    有効であるかを検証
    17
    中華街でランタン
    フェスティバルなう
    神奈川県 ?
    兵庫県 ?
    長崎県 ?
    地理的特定

    入力 出力

    View full-size slide

  18. 手法(ベースライン1)
    ● deepgeo[3]
    ● 既存の文書ジオロケーションモデル
    ● 投稿文書や投稿時間,投稿者プロフィール
    などの特徴量から予測
    ● TextNetwork(サブネットワーク)で投稿文書を処理
    18









    TextNetwork
    (LSTM+CNN)
    char embedding
    200 dim
    [3] Jey Han Lau, Lianhua Chi, Khoi-Nguyen Tran, and TrevorCohn. End-to-
    end network for twitter geolocation predictionand hashing. InProceedings of
    the Eighth International JointConference on Natural Language Processing
    (Volume 1: LongPapers), pages 744–753, 2017

    View full-size slide

  19. 手法(ベースライン2)
    ● deepgeo+MentionVec
    ● MentionVec:メンションに対応するベクトル
    ● メンションとリンクするページの分散表現[4]の平均
    19
    中華街のランタンフェスティバルなう
    Wikipediaページ
    横浜中華街
    Wikipediaページ
    神戸南京町
    Wikipediaページ
    長崎新地
    中華街
    平均
    ページの
    分散表現
    「中華街」の
    MentionVec



    char embedding + MentionVec
    TextNetworkへの入力
    200 dim 300 dim
    [4] 日本語Wikipediaエンティティベクトル:
    http://www.cl.ecei.tohoku.ac.jp/~m-suzuki/jawiki_vector/

    View full-size slide

  20. 今回の手法
    ● deepgeo+GeoVec
    ● メンションの地理的特定性を使用
    ● TextNetworkの入力文字ベクトルに連結
    20



    char embedding + 地理的曖昧性 + 名称専有性
    TextNetworkへの入力
    200 dim 47 dim 47 dim

    View full-size slide

  21. 結果・考察
    ● deepgeo+GeoVec > deepgeo
    ● 地理的特定性が文書ジオロケーションに有効
    ● GeoVec > MentionVec
    ● より地理に特化した情報を保有できている
    ● 曖昧性+専有性が最も高い
    ● 曖昧性と専有性は異なる情報を持つ
    ● 両方が構成要素として妥当
    21
    ルールベース →

    View full-size slide


  22. 0.108

    0.951

    0.693

    0.138

    0.318


    12

    11

    11

    11

    13

    地理的曖昧性 名称専有性
    予測結果
    ● 地理的特定性をうまく使えている例
    22
    0

    0.248

    0
    0

    11

    0
    地理的曖昧性 名称専有性
    長崎県
    小浜温泉のジャカランダフェスタ
    #小浜 (省略) #小浜温泉
    ベースラインモデル:福井県 ×
    地理的特定性モデル:長崎県 ◎
    「小浜温泉」の地理的特定性
    「小浜」の地理的特定性
    福島県
    福井県
    滋賀県
    兵庫県
    長崎県

    View full-size slide

  23. 場所を表すメンション数ごとの性能
    ● 場所を表すメンションが含まれるほうが
    どちらの手法も性能が高い
    ● 場所を表すメンションがあるときは
    地理的特定性を加えた方が性能が高い
    23

    View full-size slide

  24. 24
    ※太字はMentionVecまたはGeoVecが付与された文字列

    View full-size slide

  25. まとめ
    ● 地理的特定性を提案した
    ● 地理的曖昧性
    ● 名称専有性
    ● エンティティとメンションの
    地理的特定性の表し方を提案した
    ● メンションの地理的特定性が
    文書ジオロケーションに有効で
    あることを示した
    25

    View full-size slide

  26. 今後
    ● エンティティの地理的特定性の
    妥当性の確認
    ● 他の課題(Entity Linkingなど)における
    有効性の確認
    ● 文脈情報を考慮したメンションの
    地理的特定性の検討
    26

    View full-size slide