Slide 1

Slide 1 text

自然言語処理研究室 文献紹介ゼミ 論文紹介 Broadly Improving User Classification via Communication-Based Name and Location Clustering on Twitter 長岡技術科学大学 B4 竹野 峻輔 ※資料中の表及び図は 基本的に論文より引用しています

Slide 2

Slide 2 text

• S. Bergsma, M. Dredze, and B. Van Durme, “Broadly Improving User Classification via Communication-Based Name and Location Clustering on Twitter.,” in NAACL- HLT2013, 2013, no. June, pp. 1010–1019. • 概要 twitter の アカウントに対する素性判定に関する研究 twitterのプロフィール、発言等から個人の国・言語・社会的性, 人種,民族 等について推定を行うもの これまでの手法よりも高精度で、人手でクラスタしたものよりも精度は高い。 筆者らによれば、手法はreadly(簡易)でrepliable(信頼でき), なおかつversatile(多様性)を持つstate-of-artsな手法であると述べている。 2014/7/30 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ 文献紹介:Broadly Improving User Classification via Communication-Based Name and Location Clustering on Twitter ※資料中の表及び図は 基本的に論文より引用しています

Slide 3

Slide 3 text

Twitterのツイートからアカウントの素性(国・言語・性別・宗 教)の判定を行うタスクについて前々から研究がなされてい る。 主な素性判定にはTwitterのプロフィールを利用 ・文字ベースまたは見出し語ベースの素性 例) wassim hassan → tanger(モロッコの都市) 2014/7/30 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ 1. Introduction

Slide 4

Slide 4 text

Twitterのツイートからアカウントの素性(国・言語・性別・宗 教)の判定を行うタスクについて前々から研究がなされてい る。 主な素性判定にはTwitterのプロフィールを利用 ・文字ベースまたは見出し語ベースの素性 例) wassim hassan → tanger(モロッコの都市) 提案手法: 候補となる素性に対して、 クラスタリングを行うことで 素性判定の大幅な向上に成功した。 2014/7/30 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ 1. Introduction

Slide 5

Slide 5 text

• 2.2 billion tweets 2009.May ~ 2010.10 • 1.8 billion tweets 2011.July ~ 2010.Aug. • 10,000 tweets 言語および地域データが付随さ れたもの 2014/7/30 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ 1. Data

Slide 6

Slide 6 text

 Attributeの抽出 • mention(@user)を利用してUser間のリンクを把握(User-User link) • User-User LinkからProfile中の情報のペアを作成(Attribute- Attritbute Pairs) • PMIによって閾値選択を行う.(有効な素性を抽出)  Attributeのクラスタリング • 得られた属性について, クラスタリングを行う • クラスタ数は50, 200, 1000で試験を行った. • 基本となる手法はK-Means. MapReduceを使った並列化 • ここでできたクラスタがクラスタ自体の特徴素性になる  クラスタした素性を用いた分類器の構築 • SVMを用いた多クラス分類器を生成.(入力はUser Profile:名 前, 地域, プロフィール情報など) • binary attribute, 文字Ngram(1-4), Cluseter Featuresを利用 して、学習器の作成。 2014/7/30 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ 素性判定までの

Slide 7

Slide 7 text

• 性別に関しては90.2%の正解率を達成.(性別 はもともと判別しやすい:エラー減少率は6.7%) • もっとも顕著なところではエラー減少率が Origin(出身地)の判定.(50.8%も減っている) 2014/7/30 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ

Slide 8

Slide 8 text

2014/7/30 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ クラスタ数1000での結果

Slide 9

Slide 9 text

2014/7/30 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ クラスタ数200での結果

Slide 10

Slide 10 text

2014/7/30 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ

Slide 11

Slide 11 text

2014/7/30 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ

Slide 12

Slide 12 text

2014/7/30 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ