Upgrade to Pro — share decks privately, control downloads, hide ads and more …

nlp2023 位置属性を有しない事物に対する地理的特定性の分析

nlp2023 位置属性を有しない事物に対する地理的特定性の分析

Takashi INUI

March 20, 2023
Tweet

More Decks by Takashi INUI

Other Decks in Technology

Transcript

  1. 位置属性を有しない事物に対する
    地理的特定性の分析
    筑波大学
    隂山 宗一 乾 孝司
    1
    B11-4

    View Slide

  2. 研究背景(1/2)
    ● SNS投稿から情報取得
    ● リアルタイムの天気や災害の投稿
    ● 位置情報付きツイートは1%未満[1]
    ● 文書ジオロケーション課題
    ● 文書(Tweetなど)と場所の対応づけ
    ● 場所を表す表現の曖昧性解消が重要
    2
    中華街でランタン
    フェスティバルなう
    横浜市 ?
    神戸市 ?
    長崎市 ?
    [1] L. Sloan, J. Morgan, W. Housley, M. Williams, A. Edwards, P. Burnap, and O. Rana.
    “Knowing the Tweeters: Deriving Sociologically Relevant Demographics from
    Twitter”.Sociological Research Online, Vol. 18,No. 3, p. 7, 2013.

    View Slide

  3. 研究背景(2/2)
    ● SNSユーザの立場
    ● 個人情報が他人に知られない範囲での使用
    ● 場所を特定しやすい表現を避けたい
    3
    [2] 隂山宗一,乾孝司.言及に対する地理的特定性指標の提案と
    文書ジオロケーションへの適用.
    情報処理学会自然言語処理研究会(NL-253-19), 2022.
    場所(地理的位置)の特定しやすさを指標化
    地理的特定性[2]

    View Slide

  4. 地理的特定性[2]の例
    4
    「厳島神社」の地理的特定性
    0.015

    0.021

    0.019

    0.014

    0.646

    0
    名称専有性
    北海道

    静岡県

    京都府

    兵庫県

    広島県

    沖縄県
    ● 47次元のベクトル
    ● 都道府県ごとに
    値を持つ
    ● 値の偏り=認知の偏り
    ● この例は
    広島に値が偏っている
    [2] 隂山宗一,乾孝司.言及に対する地理的特定性指標の提案と
    文書ジオロケーションへの適用.
    情報処理学会自然言語処理研究会(NL-253-19), 2022.

    View Slide

  5. 研究目的
    ● 目標
    ● 地理的特定性の活用可能範囲を
    明らかにすること
    ● 先行研究[2]
    ● 地理的位置属性を持つカテゴリ
    ● 地名 施設名 組織名 イベント名
    ● 今回
    ● 地理的位置属性を持たないカテゴリ
    ● 列車 特産品 苗字 植物 (祭り)
    ● どんな意味を持った値?
    5
    [2] 隂山宗一,乾孝司.言及に対する地理的特定性指標の提案と
    文書ジオロケーションへの適用.
    情報処理学会自然言語処理研究会(NL-253-19), 2022.

    View Slide

  6. 目次
    6
    ● 地理的特定性とは
    ● 定義
    ● 推定方法
    ● エンティティ
    ● メンション
    ● 分析
    ● 地理的位置属性を持たないカテゴリ

    View Slide

  7. 地理的特定性
    ● 地理的位置の特定しやすさ
    ● 言語処理分野での応用を考えた特定性
    ● 2つの構成要素
    ● 地理的曖昧性
    ● 名称専有性 ←今回はこちらだけ
    7

    View Slide

  8. 地理的特定性の構成
    ● 名称専有性
    ● 特定の地理的位置として認知されるか
    ● 「横浜」といえば「神奈川県横浜市」
    ● 名称専有性が高い→地理的特定性が高い
    8

    View Slide

  9. 地理的特定性の付与対象
    ● メンション
    ● 分析対象
    ● 後述するカテゴリのデータから抽出
    ● エンティティ
    ● メンションの特定性を求めるのに必要
    ● 日本語Wikipediaページ
    を使用
    9
    Wikipedia 長崎新地中華街 https://ja.wikipedia.org/wiki/長崎新地中華街 より引用
    同じ名称のエンティティの区別
    ・厳島神社(広島県)
    ・厳島神社(横浜市中区)
    ・厳島神社(松山市)

    View Slide

  10. エンティティの地理的特定性
    10
    ページ「福岡ソフトバンクホークス」の地理的特定性の求め方
    = 0.568

    View Slide

  11. エンティティの地理的特定性
    11
    名称専有性
    厳島神社 (広島県) 0.646
    厳島神社 (横浜市中区) 0.021
    厳島神社 (松山市) 0.097
    厳島神社 (京都市上京区) 0.019
    名称専有性
    鴨川 (淀川水系) 0.633
    鴨川市 (千葉市) 0.558
    名称専有性
    中央区 (東京都) 0.141
    中央区 (大阪市) 0.117
    中央区 (千葉市) 0.052
    中央区 (福岡市) 0.075
    名称専有性
    竹下通り (東京都) 0.919
    竹下通り (福岡市) 0.082
    「厳島神社」の地理的特定性 「中央区」の地理的特定性
    「竹下通り」の地理的特定性 「鴨川」の地理的特定性

    View Slide

  12. メンションの地理的特定性
    ● 都道府県数47次元のベクトル
    ● リンクするエンティティの地理的特定性を
    都道府県ごとに集約
    12
    メンション「福岡」の地理的特定性の求め方
    「福岡」の地理的特定性
    名称専有性
    北海道
    青森県
    岩手県
    宮城県

    富山県

    岐阜県

    岡山県

    福岡県

    沖縄県
    0
    0
    0.012
    0.003

    0.030

    0.031

    0.027

    0.936

    0

    View Slide

  13. 「中央区」の地理的特定性
    0.096

    0.071

    0.026
    0.051
    0.141

    0.117
    0.103

    0.075

    0.043

    名称専有性
    メンションの地理的特定性
    13
    「厳島神社」の地理的特定性
    0.015

    0.021

    0.019

    0.014

    0.646

    0
    名称専有性
    北海道

    静岡県

    京都府

    兵庫県

    広島県

    沖縄県
    北海道

    新潟県

    埼玉県
    千葉県
    東京都

    大阪府
    兵庫県

    福岡県

    熊本県

    View Slide

  14. 目次(再掲)
    14
    ● 地理的特定性とは
    ● 定義
    ● 推定方法
    ● エンティティ
    ● メンション
    ● 分析
    ● 地理的位置属性を持たないカテゴリ

    View Slide

  15. 今回の分析
    ● 対象:地理的位置属性を持たないカテゴリ
    ● 列車 特産品 祭り 苗字 植物
    ● 例:牛タン ウメ
    ● 分析方法
    ● 目視による特定性の確認
    どんな意味をもった値?
    ● データ(メンション)
    ● 表のデータから抽出
    15
    カテゴリ データ
    列車
    Wikipediaページ
    日本の列車愛称一覧
    特産品
    Wikipediaページ
    特産品
    祭り
    観光ドメイン日本語
    Twitter投稿文書
    データ
    苗字 苗字由来net
    植物 都道府県のシンボル

    View Slide

  16. カテゴリ:列車
    16
    ● 列車が走る地域に値を持つ
    ● ただし網羅していない
    ● 列車が走る地域に値を持っていない事例
    ● 昔の列車で固有のページがない
    ムーンライト信州
    山梨県 1
    東京都 0
    神奈川県 0
    長野県 0
    うずしお
    徳島県 0.908
    (愛媛県 0.685)
    香川県 0
    岡山県 0
    日光
    栃木県 0.924
    東京都 0.509
    埼玉県 0.504
    群馬県 0
    新雪 (誤り)
    (兵庫県 1)
    東京都 0
    新潟県 0
    括弧で閉じられている都道府県 :対象の列車が走らない地域

    View Slide

  17. カテゴリ:特産品 (地名あり)
    17
    ● 特定性ベクトルに値を持つ都道府県
    = 生産地 or 水揚げ地
    = 地名が属する都道府県
    ● 言及表現が多様なエンティティは
    特定性が低くなりやすい
    ● 讃岐うどんの言及表現:讃岐,うどん
    関あじ
    大分県 1
    川俣シャモ
    福島県 1
    讃岐うどん
    香川県 0.127
    吉野葛わらび餅 (誤り)
    (静岡県 0.612)
    奈良県 0
    水沢うどん
    群馬県 1

    View Slide

  18. カテゴリ:特産品 (地名なし)
    18
    ● 特定性ベクトルに値を持つ都道府県
    = そのエンティティで知られる都道府県
    ● 特定性の値が低くなりやすい
    ● 一般名詞と特産品で表現が重なりやすい
    玉子焼
    兵庫県 0.741
    スタミナラーメン
    茨城県 0.833
    埼玉県 0.429
    牛タン
    宮城県 0.522
    たこ焼き (誤り?)
    (福岡県 0.880)
    (北海道 0.007)
    大阪府 0

    View Slide

  19. カテゴリ:祭り
    19
    ● それぞれの祭りが有名な地域に値を持ちやすい
    ● 地理的位置属性を持つエンティティと同様の
    特徴を持つカテゴリ
    ねぶた祭り
    青森県 0.448
    よさこい祭り
    高知県 0.510
    七夕まつり
    愛知県 0.786
    富山県 0.714
    宮城県 0.046
    雪まつり
    北海道 0.879
    新潟県 0.467
    花火大会 (微妙?)
    東京都 0.087
    神奈川県 0.031

    View Slide

  20. カテゴリ:苗字
    20
    ● 苗字の起源となる地域がある都道府県に
    値を持つ傾向
    ● 人口が多い地域との関連がある苗字がいくつか
    ● 特定性の値を持つ次元が比較的多い
    米原
    滋賀県 0.913
    大井
    東京都 0.844 岐阜県 0.083
    静岡県 0.536 神奈川県 0.024
    三重県 0.250 山梨県 0.015
    埼玉県 0.084
    磯部
    山口県 0.671
    群馬県 0.575
    三重県 0.531
    茨城県 0.176
    芳賀
    栃木県 0.994

    View Slide

  21. カテゴリ:植物
    21
    サクラソウ
    北海道 1
    ● 一般名詞でも値を持つことができる
    ● 群生地を持つ都道府県
    ● 栽培が盛んな地域で大きな値
    エゾマツ
    北海道 1
    ウメ
    和歌山県 0.939
    鹿児島県 0.086
    米 (微妙)
    東京都 0.658 神奈川県 0.128
    青森県 0.425 沖縄県 0.081
    北海道 0.293 福岡県 0.043

    View Slide

  22. カテゴリごとの特徴まとめ
    22
    ● 列車 :走行地域
    ● 特産品:生産地 or 水揚げ地
    その特産品で知られる都道府県
    ● 祭り :その祭りが有名な地域
    ● 苗字 :苗字の起源となる地域
    ● 植物 :群生地、栽培が盛んな都道府県

    View Slide

  23. まとめ・今後
    23
    ● 地理的位置属性を有しない事物に対する
    地理的特定性を分析した
    ● カテゴリごとの特徴が見つかった
    ● 今後
    ● 規模を広げた詳細かつ定量的な分析

    View Slide