Twitterユーザに対するゼロショットタグ付け /DEIM2021

Twitterユーザに対するゼロショットタグ付け筑波⼤学新⽥洸平，加藤誠 2021年03⽉02⽇ DEIM 2021 [I25] SNS④

ユーザの性質が分かることで有益な判断が容易になるより具体的でより多くの性質を明らかにすることが重要背景 2 • SNSにおいてユーザの特徴を明らかにすることは重要深層学習に関する情報をよく発信するユーザの性質からそのユーザが
発信する情報の傾向がわかる情報源として有効か否かの判断が容易イベントに参加するユーザの性質からイベント⾃体の性質がわかる興味と合致するか否かの判断が容易 GPT-3… BERT… Go⾔語勉強会初⼼者 60% 中級者 35% 上級者 5%

• ユーザの属性に基づく分類 ‒ クラスがあらかじめ決められているような問題設定[1,2] 関連研究 3 SNSユーザ⺠主党共和党
30歳未満 30歳以上政党年齢あらかじめ与えるクラスラベル学習テストデータ予測機械学習モデル学習データ SNSユーザ予測結果⺠主党 30歳未満ユーザにクラスラベルを付与 • ユーザに対するタグ付け ‒ クラスが明⽰的に決められていないような問題設定[3,4,5] ｢Go⾔語の初⼼者｣ Go⾔語初⼼者作成 SNSユーザ共通点を持つユーザ集合リスト※１タグ付けシステムリスト名タグ付け ※１:リストとはTwitterの機能．ユーザをまとめることで情報を閲覧しやすくする機能．Facebookであればグループ． [3] Sharma et al., Inferring who-is-who in the Twitter social network. SIGCOMM 2012. [4] Yamaguchi et al., Tag-based User Topic Discovery Using Twitter Lists. ASONAM 2011. [5] Kim et al., Analysis of Twitter Lists as a Potential Source for Discovering Latent Characteristics of Users. CHI 2010. [1] Rao et al., Classifying Latent User Attributes in Twitter. CIKM 2010. [2] Marco et al., A Machine Learning Approach to Twitter User Classification. ICWSM 2011. ユーザの特徴としてツイートなどを利⽤

既存⼿法の限界 4 多くのクラスに分類したい場合，あらかじめ⼤量のクラスを決めることは困難データセットに含まれていないユーザが多く存在するタグの表現はデータセットに含まれている表現に限定されるクラスを明⽰的に決めない
「ユーザに対するタグ付け｣データセットに含まれないユーザにもタグ付けしたいデータセットに含まれないような表現もタグ付けしたい属性に基づくユーザ分類の課題ユーザに対するタグ付けの課題１ユーザに対するタグ付けの課題２課題への対応課題への対応課題への対応

SNSユーザに対してタグ付けを⾏う研究⽬的 5 ユーザが含まれるリスト名と同じタグでユーザをタグ付けリストに含まれていないユーザに対してタグ付け学習データに存在しない具体的な表現をタグ付け具体的な⽬的
リスザルが好き Go⾔語の初⼼者 Rust⾔語の初⼼者リスザルが好き Go⾔語の初⼼者ユーザ集合 U リスト集合 L タグ集合 T u1 u2 u3 t1 t2 t4 l1 l2 ロック l3 ロック t3 これらの⽬的を満たす⼿法を提案する

具体的な研究⽬的 1/3 6 リスザルが好き Go⾔語の初⼼者リスザルが好き Go⾔語の
初⼼者ロックユーザ集合 U リスト集合 L タグ集合 T u1 u2 u3 t1 t2 l1 l2 l3 ユーザが含まれるリスト名と同じタグでユーザをタグ付けリストに含まれていないユーザに対してタグ付け学習データに存在しない具体的な表現をタグ付け具体的な⽬的含まれる同じタグ付けロック t3 1. タグの名前と同じ名前を持つリストに含まれるユーザにタグ付け SNSユーザに対してタグ付けを⾏うリストに含まれていないユーザにタグ付けできない

具体的な研究⽬的 2/3 7 リスザルが好き Go⾔語の初⼼者リスザルが好き Go⾔語の
初⼼者ユーザ集合 U リスト集合 L タグ集合 T u1 u2 u3 t1 t2 l1 l2 ユーザが含まれるリスト名と同じタグでユーザをタグ付けリストに含まれていないユーザに対してタグ付け学習データに存在しない具体的な表現をタグ付け具体的な⽬的ロックタグと同じ名前を持つリストに含まれない l3 ロック t3 1. ユーザとタグの適合性を判定 2. 適合しているならユーザに対してタグ付け SNSユーザに対してタグ付けを⾏うタグ付け

具体的な研究⽬的 3/3 8 ユーザが含まれるリスト名と同じタグでユーザをタグ付けリストに含まれていないユーザに対してタグ付け学習データに存在しない具体的な表現をタグ付け具体的な⽬的
リスザルが好き Go⾔語の初⼼者 Rust⾔語の初⼼者リスザルが好き Go⾔語の初⼼者ユーザ集合 U リスト集合 L タグ集合 T u1 u2 u3 t1 t2 t4 l1 l2 ロック l3 ロック t3 ⽣成 1. 既存のタグから品詞に注⽬して新たなタグを⽣成 2. ユーザとタグの適合性を判定 3. 適合しているならユーザに対してタグ付けタグ付け SNSユーザに対してタグ付けを⾏う

研究の⽬的 9 ユーザリスザルが好きリスザルが好き含まれる同じタグ付け
タグリスト Go⾔語の初⼼者タグと同じ名前を持つリストに含まれないタグ付け Rust⾔語の初⼼者タグ付け Go⾔語の初⼼者⽣成ユーザが含まれるリスト名と同じタグでユーザをタグ付けリストに含まれていないユーザに対してタグ付け学習データに存在しない具体的な表現をタグ付けタグタグユーザユーザタグゼロショット学習⼿法[6]を⽤いることで学習データがない場合でもタグを付与できる⽅法を実現 [6] Socher et al., Zero-Shot Learning Through Cross-Modal Transfer. NIPS 2013. SNSユーザに対してタグ付けを⾏う

• ゼロショット学習⼿法を⽤いたユーザとタグの適合性判定 ‒ タグに対応するユーザがいない場合でもタグとユーザの適合度からユーザに対してタグ付けを⾏う提案⼿法の概要 10 既知タグ：学習データとなるユーザが存在するタグ未知タグ：学習データとなるユーザが存在しないタグ Rust⾔語の
初⼼者未知タグ対応するユーザが存在しない Go⾔語の初⼼者既知タグ対応するユーザが存在する未知タグは既知タグから⽣成予測対象のユーザモデル対応関係を学習学習モデルで適合性を判定特徴表現空間学習データとなるユーザ変換変換変換変換学習：既知タグの特徴表現と対応するユーザの特徴表現の対応関係を学習予測：未知タグの特徴表現と予測対象のユーザの特徴表現から適合性を判定

提案⼿法と既存⼿法の違い 11 ツイートツイートドッグフードって… • タグとユーザの特徴表現空間上の対応関係を学習 ‒ 既存⼿法ではタグごとにユーザのパターンを学習
⽝好きタグユーザツイートツイート⾖柴かわいいよね… ツイート … ツイートツイート散歩に⾏ってきました⽝好きツイートツイート散歩に⾏ってきましたタグユーザツイート特徴表現空間タグごとにユーザパターンを学習既存⼿法タグとユーザの対応関係を学習提案⼿法タグごとに⼗分な量のユーザが必要になるタグごとに⼗分な量のユーザを必要としない

提案⼿法における学習の概要 12 ツイートとタグの表現の違い学習時の損失関数の違い⽝好きタグユーザツイートツイートツイート
ツイート⽂埋め込み BERT 単語埋め込み fastText 特徴表現 Binary cross entropy loss Margin ranking loss 損失関数 • タグとユーザツイートの特徴表現ベクトルを作成，ベクトルを全結合層に⼊⼒して対応関係を学習 ‒ 特徴表現: 単語埋め込み(fastText[7,8]), ⽂埋め込み(BERT[9]) ‒ 損失関数: Binary cross entropy loss, Margin ranking loss [7] Bojanowski et al., Enriching word vectors with subword information. TACL 2017. [8] Joulin et al., Bag of tricks for efficient text classification. EACL 2017. [9] Devlin et al., BERT: Pre-training of deep bidirectional transformers for language understanding. NAACL 2019. 全結合層

特徴表現として単語埋め込みを利⽤した学習 13 単語埋め込みベクトル平均ベクトル結合ベクトル⼊⼒ 𝓍 tag 既知タグ
⁝ ユーザ tweetn tweet1 ツイートツイートごとに平均してツイート全てを平均する出⼒ 𝑦 ⽬標値(適合度) 𝗍 300次元 600次元全結合層 … 単語単語 t 単語単語 t 単語単語 t … ⁝ ⁝ ⁝ ⁝ ⁝ ⁝ … ⁝ ⁝ ⁝ ⁝ ⁝ ⁝ 300次元単語分割 MeCab 学習⽅法 • タグ：タグの単語埋め込みの平均 • ユーザ：ツイート毎に単語埋め込み平均して，全てのツイートベクトルを平均 • タグベクトルとユーザツイートベクトルを結合 • 結合ベクトルを全結合層へ⼊⼒して適合度を出⼒ • ⽬標値との誤差から学習 fastTextによる変換タグとツイートの特徴表現 • fastText: subword を考慮することで未知語の埋め込みを⾼い精度で獲得できる⼿法 • 対象としているデータには未知語が多く含まれるため活⽤語や未知語に対応している fastText を⽤いる損失関数 • Binary cross entropy loss • Margin ranking loss 誤差

特徴表現として⽂埋め込みを利⽤した学習 14 単語分割⼊⼒シーケンス [CLS]のベクトル⼊⼒ 𝓍 既知タグユーザツイート
全結合層 … ⁝ [CLS], 𝑡- ./0, …, 𝑡1 ./0, [SEP], 𝑡- .233., …, 𝑡4 .233., [SEP] BERTによる変換出⼒ 𝑦 学習⽅法 • タグとユーザツイートの単語をBERT の⼊⼒形式に合わせてBERTへ⼊⼒ • [CLS] のベクトルを全結合層へ⼊⼒して適合度を出⼒ • タグとユーザのツイート毎に適合度を出⼒ • ツイート毎の適合度の中で最も⾼い適合度をタグとユーザの適合度とする損失関数 • Binary cross entropy loss • Margin ranking loss tag tweetn tweet1 単語単語 t 単語単語 t タグとツイートの特徴表現 • BERT: 広範囲の⾃然⾔語タスクで優れた性能を発揮する双⽅向学習による汎⽤⾔語モデル • ⽂脈を考慮した埋め込みを獲得できるため BERT を⽤いる⼊⼒トークン毎にベクトルが出⼒ [CLS]: 先頭を表すトークン [SEP]: ⽂の区切りを表すトークン

[CLS], 𝑡- ./0, …, 𝑡1 ./0, [SEP], 𝑡- .233., …,
𝑡4 .233., [SEP] tag tweetn tweet1 単語単語 t 単語単語 t 特徴表現として⽂埋め込みを利⽤した学習 15 単語分割⼊⼒シーケンス [CLS]のベクトル⼊⼒ 𝓍 既知タグユーザツイート全結合層 … ⁝ BERTによる変換出⼒ 𝑦1 , …, 𝑦n max • タグと各ツイートのスコアを出⼒ • 最も⾼いスコアがタグとユーザの適合度損失関数 • Binary cross entropy loss • Margin ranking loss 出⼒ 𝑦 ⽬標値(適合度) 𝗍 学習⽅法 • タグとユーザツイートの単語をBERT の⼊⼒形式に合わせてBERTへ⼊⼒ • [CLS] のベクトルを全結合層へ⼊⼒して適合度を出⼒ • タグとユーザのツイート毎に適合度を出⼒ • ツイート毎の適合度の中で最も⾼い適合度をタグとユーザの適合度とするタグとツイートの特徴表現 • BERT: 広範囲の⾃然⾔語タスクで優れた性能を発揮する双⽅向学習による汎⽤⾔語モデル • ⽂脈を考慮した埋め込みを獲得できるため BERT を⽤いる誤差

• 単語の厳密な⼀致による⼿法と⽂の表現を抽象化した⼿法によって適合性判定を互いに補完できるという考え ‒ BM25[10]は単語の厳密な⼀致による⼿法．ユーザをクエリ，タグを⽂書．提案⼿法とBM25による組み合わせ⼿法 16 𝑓(𝑈, 𝑡) =
𝑤 ) 𝑓BM25 (𝑈, 𝑡) + (1 − 𝑤) ) 𝑓ZSL (𝑈, 𝑡) U: ユーザツイート, t: タグ, 𝑤: ハイパーパラメータ [10] Robertson et al,. Okapi at trec-3. TREC 1995. BM25のスコアと提案⼿法によるスコアの線型結合 ※ ZSL: Zero shot learning パラメータはバリデーションデータでグリッドサーチ

予測：適合度に基づくユーザに対するタグ付け 17 • ユーザとタグの適合度に基づいてタグを順位付けし，最も適合するタグをユーザに対してタグ付けする ‒ ⼊⼒：ユーザとタグ集合 ‒ 出⼒：ユーザと各タグとの適合度学習モデル
⽝好きユーザタグ集合⼊⼒⽝好き猫好きリスザルが好き ⁝ 0.63 0.01 0.89 リスザルが好き⽝好き猫好き ⁝ 0.89 0.63 0.01 出⼒順位付け ⁝ タグ付け

実験に⽤いるデータセットの構築 18 Twitterからのデータ収集 1. ユーザ名の収集 • 仮定：フォロワーの多いユーザはリストに多く含まれている • ロケーション：⽇本
2. ユーザが含まれるリストの収集 • 公開リストのみ 3. リストの選定 • ⽇本語のみで構成 • 固有名詞を1つ以上含む • 内容語を 2 つ以上含む • センシティブな単語を含まない • リスト名は重複しない 4. ユーザのツイート収集 • リストに含まれるユーザ • 1,000件/ユーザ 5. ユーザの選定 • 1,000件以上のツイートを持つユーザのみ ※1: meyou, https://meyou.jp/ranking/follower_allcat ※2: Twitter, https://twitter.com １フォロワーランキングサイト※1 ユーザ Twitter ※2 2 3 user_name ツイート 4 選定したユーザ 5 リスト選定したリスト 1,000件/ユーザ 80,271 1,829,518 8,501 19,805

ゼロショット学習によるユーザに対するタグの適合性判定は効果的か？実験設定・評価⽅法 19 • データセット ‒ Twitter から収集したデータから 1,000
セットの学習データを構築 • 実験⽅法 ‒ 各ユーザ u にたいして，正解タグ 1 件と不正解タグ 99 件を⽤意 ‒ 100件のタグを適合性によって順位付け • 評価指標 ‒ Hit@k (上位 k 件に正解タグが⼊るか) ‒ nDCG@k（正解タグ: 1，不正解タグ: 0） • ⽐較⼿法 ‒ BM25：タグとユーザの推定適合度 ‒ 提案⼿法とBM25の組み合わせた⼿法 t1 t2 t100 ⁝ ユーザタグ u1 正解タグ1 不正解タグ1 不正解タグ99 学習データの形式ユーザごとに100件のタグを⽤意して学習と評価に利⽤実験で明らかにすること 1セット

• Hit@10 において BM25，nDCG@10 において BM25 と提案⼿法（BERT, Margin ranking loss）を⽤いた⽅法が最も⾼い精度を⽰した
‒ 単語のマッチングによる⼿法とタグとユーザの特徴表現空間上の対応関係を学習する⼿法を組み合わせることで微量ではあるが適合性判定精度を向上することが⽰唆された実験結果と考察 20 0.074 0.04739 0 0.02 0.04 0.06 0.08 0.1 Hit@10 nDCG@10 各⼿法の上位 10 件の精度 BM25 ZSL(fastText, BCELoss) ZSL(fastText, MRLoss) ZSL(BERT, BCELoss) ZSL(BERT, MRLoss) BM25+ZSL(fastText, BCELoss) BM25+ZSL(fastText, MRLoss) BM25+ZSL(BERT, BCELoss) BM25+ZSL(BERT, MRLoss) ※ ZSL: Zero shot learning 考察：fasteText ではユーザのツイートの平均を⽤いたが，BERT ではタグとツイートの最も⾼い適合度を⽤いたことでユーザとタグの関係性におけるノイズを考慮できた可能性がある．作成したデータセットにおける偏りを考慮できていない学習⽅法を改善する必要がある．

予測結果の成功・失敗例と考察 21 提案⼿法の成功例タグユーザ特徴⾳楽バンドメンバー guita_rei ミュージシャン
作家、⽂化⼈ nog_ak ドラマ・映画の脚本家テレビラジオ番組 LIVEYEAH_sstv テレビ番組公式アカウントアニソン声優 koiwai_kotori 声優提案⼿法の失敗例タグユーザ特徴歌い⼿踊り⼿ namidai0402 声優歌い⼿踊り⼿ morishitamao アイドル歌い⼿踊り⼿ confidencemanJP 映画公式アカウント歌い⼿踊り⼿ bokuun2017 映画公式アカウント • データセットの偏りが対応関係の学習に影響している可能性が⾼い ‒ リストに含まれていてフォロワーが多いかつ 1,000 件以上の投稿をしているユーザを収集したことでデータセットに芸能関係のデータが多いという偏りがある可能性が⾼い ‒ 失敗した結果の中には，意味的には近いような結果も複数存在した ‒ 適合度を0,1から多値に変えることが必要である可能性もある

まとめ 22 SNSにおいてユーザの性質を明らかにすることは重要 • ユーザの性質がわかることで様々な判断が容易になる３つの課題 • 多くのクラスに分類したい場合，
あらかじめ⼤量のクラスを決めることは困難 • データセットに含まれていないユーザが多く存在する • タグの表現はデータセットに含まれている表現に限定される 1. 背景 SNSユーザにタグ付け • ユーザが含まれているリスト名をタグ付け • リストに含まれていないユーザに対してタグ付け • 学習データに存在しない具体的な表現をタグ付け 2. 既存⼿法の課題 3. 研究⽬的タグとユーザの対応関係 • タグとユーザツイートの対応関係を学習 • タグとユーザの適合度を予測 • タグを適合度で順位付けて最も適合度の⾼いタグをユーザに付与 4. 提案⼿法 Hit@10 において BM25，nDCG@10 において BM25と提案⼿法を⽤いた⽅法が最も⾼い精度を⽰した 5. 実験結果 • fasteText ではユーザのツイートの平均を⽤いたが，BERT ではタグとツイートの最も⾼い適合度を⽤いたことでユーザとタグの関係性におけるノイズを考慮できた可能性がある． • 作成したデータセットにおける偏りを考慮できていない学習⽅法を改善する必要がある 6. 考察 0 0.02 0.04 0.06 0.08 0.1 Hit@10 nDCG@10

補⾜資料 23

実際に構築したデータセット 24 id rel tag user 0 1 エンタメ界隈 teokun711
1 0 新潟のフォロワーさん teokun711 2 0 イラストレーター・アニメーター teokun711 ⁝ ⁝ ⁝ ⁝ 99 0 京都府のホテル・旅館 teokun711 100 1 好きな⼈達 daaiicchhi 101 0 機動戦⼠ガンダムシリーズ daaiicchhi 102 0 ジャニーズ情報 daaiicchhi ⁝ ⁝ ⁝ ⁝ 構築したデータセットの⼀部 • id: ⾏番号 • rel: ユーザとタグの適合性 • tag: タグ • user: ユーザ名別ファイルにユーザごとにツイート 1,000 件を保存各列の説明 • Train: 600 set(00000 ~ 59999) • Validation: 200 set(60000 ~ 79999) • Test: 200 set(80000 ~ 99999) 学習データ • 収集したデータから 1,000 件のユーザと正解タグのペアを抽出 ‒ 1,000 件から Train, Validation, Test のデータを決定 ‒ 不正解データは Train, Validation, Test それぞれのタグから作成

学習時の損失関数の違い 25 Binary cross entropy Margin ranking タグユーザ予測値
ラベル tag1 0.89 1 x y t タグユーザ予測値ラベル tag1 0.89 1 x1 y1 t tag2 0.63 x2 y2 u1 u1 𝑳 = −𝒕 𝐥𝐨𝐠 𝒚 − 𝟏 − 𝒕 𝐥𝐨𝐠(𝟏 − 𝒚) 𝑳 = 𝐦𝐚𝐱(𝟎, −𝒕 𝒚𝟏 − 𝒚𝟐 + 𝐦𝐚𝐫𝐠𝐢𝐧)

予測結果の成功例と失敗例 26 BM25: 成功例 BM25: 失敗例タグユーザ特徴静岡県関連情報
ieyasukun100 静岡県浜松市のゆるキャラ遊戯王声優 ishige_syoya アニメ遊戯王の声優ディズニー公式 disneystudiojp Disney 公式情報発信アカウントタグユーザ特徴にじさんじ所属 key_999 にじさんじファンかつ関係者⼥⼦サッカー選⼿ afpbbcom AFP通信の⽇本語アカウント台湾好き Yomiuri_Online 読売新聞のアカウント

Twitterユーザに対するゼロショットタグ付け /DEIM2021

Twitterユーザに対するゼロショットタグ付け /DEIM2021

Kohei Shinden

More Decks by Kohei Shinden

Other Decks in Research

Featured

Transcript

Twitterユーザに対するゼロショットタグ付け筑波⼤学新⽥洸平，加藤誠 2021年03⽉02⽇ DEIM 2021 [I25] SNS④

• ユーザの属性に基づく分類 ‒ クラスがあらかじめ決められているような問題設定[1,2] 関連研究 3 SNSユーザ⺠主党共和党

SNSユーザに対してタグ付けを⾏う研究⽬的 5 ユーザが含まれるリスト名と同じタグでユーザをタグ付けリストに含まれていないユーザに対してタグ付け学習データに存在しない具体的な表現をタグ付け具体的な⽬的

具体的な研究⽬的 1/3 6 リスザルが好き Go⾔語の初⼼者リスザルが好き Go⾔語の

具体的な研究⽬的 2/3 7 リスザルが好き Go⾔語の初⼼者リスザルが好き Go⾔語の

具体的な研究⽬的 3/3 8 ユーザが含まれるリスト名と同じタグでユーザをタグ付けリストに含まれていないユーザに対してタグ付け学習データに存在しない具体的な表現をタグ付け具体的な⽬的

研究の⽬的 9 ユーザリスザルが好きリスザルが好き含まれる同じタグ付け

提案⼿法と既存⼿法の違い 11 ツイートツイートドッグフードって… • タグとユーザの特徴表現空間上の対応関係を学習 ‒ 既存⼿法ではタグごとにユーザのパターンを学習

提案⼿法における学習の概要 12 ツイートとタグの表現の違い学習時の損失関数の違い⽝好きタグユーザツイートツイートツイート

特徴表現として単語埋め込みを利⽤した学習 13 単語埋め込みベクトル平均ベクトル結合ベクトル⼊⼒ 𝓍 tag 既知タグ

特徴表現として⽂埋め込みを利⽤した学習 14 単語分割⼊⼒シーケンス [CLS]のベクトル⼊⼒ 𝓍 既知タグユーザツイート

[CLS], 𝑡- ./0, …, 𝑡1 ./0, [SEP], 𝑡- .233., …,

実験に⽤いるデータセットの構築 18 Twitterからのデータ収集 1. ユーザ名の収集 • 仮定：フォロワーの多いユーザはリストに多く含まれている • ロケーション：⽇本

ゼロショット学習によるユーザに対するタグの適合性判定は効果的か？実験設定・評価⽅法 19 • データセット ‒ Twitter から収集したデータから 1,000

• Hit@10 において BM25，nDCG@10 において BM25 と提案⼿法（BERT, Margin ranking loss）を⽤いた⽅法が最も⾼い精度を⽰した

予測結果の成功・失敗例と考察 21 提案⼿法の成功例タグユーザ特徴⾳楽バンドメンバー guita_rei ミュージシャン

まとめ 22 SNSにおいてユーザの性質を明らかにすることは重要 • ユーザの性質がわかることで様々な判断が容易になる３つの課題 • 多くのクラスに分類したい場合，

補⾜資料 23

実際に構築したデータセット 24 id rel tag user 0 1 エンタメ界隈 teokun711

学習時の損失関数の違い 25 Binary cross entropy Margin ranking タグユーザ予測値

予測結果の成功例と失敗例 26 BM25: 成功例 BM25: 失敗例タグユーザ特徴静岡県関連情報