Slide 1

Slide 1 text

User-guided Hierarchical Attention Network for Multi-modal Social Image Popularity Prediction Yuki Iwazaki@AI Lab Wei Zhang, Wen Wang, Jun Wang, Hongyuan Zha East China Normal University, Georgia Institute of Technology, JD.com

Slide 2

Slide 2 text

どっちがView稼ぎそうか

Slide 3

Slide 3 text

Potential予測と重要点可視化

Slide 4

Slide 4 text

なんでこれ ◉ 業務: Media Ads x Multimodal x Engagements ○ Facebook/Twitter/LINE広告の画像/文章/配信設定からCTR予測 ◉ これ: Social Media x Multimodal x Popularity ○ Flickrの画像/文章/User表現からView予測

Slide 5

Slide 5 text

なんでこれ ◉ 業務: Media Ads x Multimodal x Engagements ○ Facebook/Twitter/LINE広告の画像/文章/配信設定からCTR予測 ◉ これ: Social Media x Multimodal x Popularity ○ Flickrの画像/文章/User表現からView予測

Slide 6

Slide 6 text

TL;DR ◉ SNSに投稿した画像のView数を予測 ◉ Image/Text/Userをうまく学習する高精度な手法を提案 ◉ 予測に重要な単語、画像部位の可視化 ◉ FlickrをCrawlingしてデータ作ったから皆使ってね

Slide 7

Slide 7 text

3 ML Challenges in ◉ Content-based Video Relevance Prediction Challenge - 動画のレコメンド (1st: $2K USD) ◉ Half Million Beauty Product Image Recognition - 化粧品認識 (1st: $2K USD) ◉ Social Media Headline Prediction - SNS投稿物の人気予測 (1st: ???)

Slide 8

Slide 8 text

3 ML Challenges in ◉ Content-based Video Relevance Prediction Challenge - 動画のレコメンド (1st: $2K USD) ◉ Half Million Beauty Product Image Recognition - 化粧品認識 (1st: $2K USD) ◉ Social Media Headline Prediction - SNS投稿物の人気予測 (1st: ???) 👉

Slide 9

Slide 9 text

3 ML Challenges in ◉ Content-based Video Relevance Prediction Challenge - 動画のレコメンド (1st: $2K USD) ◉ Half Million Beauty Product Image Recognition - 化粧品認識 (1st: $2K USD) ◉ Social Media Headline Prediction - SNS投稿物の人気予測 (1st: ???) 👉

Slide 10

Slide 10 text

Flickr Popularity Prediction Post# User# Categories# Months Avg(Title len.) Tags# POIs# Avg. Views 340K 80K 11 16 26 669 103K 306 Winners Talkと思いきや主催者側

Slide 11

Slide 11 text

こんなデータ 1 { ‘uid’: ‘37810@N60’, ‘pid’: ‘565202’, ‘category’: ‘Fasion’, ‘subcategory’: ‘Girls,Fasion’, ‘concept’: ‘skirt’, ‘pathalias’: ‘None’, ‘ispublic’: ‘1’, ‘mediastatus’: ‘ready’, ‘title’: ‘2016-03-07 17.54.15’, ‘mediatype’: ‘photo’, ‘alltags’: ‘orange sexy philadelphia blonde hockey sweater’, ‘postdate’: ‘1457273948’, ‘latitude’: ‘0’, ‘longitude’: ‘0’, ‘geoaccuracy’: ‘0’ } { ‘views’: ‘876’, ‘favs’: ‘1’, ‘comments’: ‘0’ } popularity score: 3.2

Slide 12

Slide 12 text

こんなデータ 2 { ‘uid’: ‘25893@N22’, ‘pid’: ‘565381’, ‘category’: ‘Whether&Season’, ‘subcategory’: ‘Raining’, ‘concept’: ‘puddle’, ‘pathalias’: ‘hoo_nose_68’, ‘ispublic’: ‘1’, ‘mediastatus’: ‘ready’, ‘title’: ‘Tristesse at the Federal Chancellery’, ‘mediatype’: ‘photo’, ‘alltags’: ‘blackandwhite bw reflection berlin wet rain symmetry’, ‘postdate’: ‘1457273948’, ‘latitude’: ‘52.520213’, ‘longitude’: ‘13.373097’, ‘geoaccuracy’: ‘16’ } { ‘views’: ‘630’, ‘favs’: ‘8’, ‘comments’: ‘0’ } popularity score: 2.3

Slide 13

Slide 13 text

問題設定 Visual Textual User Popularity Score 画像(i)投稿時の情報からPopularity Score(y)を予測

Slide 14

Slide 14 text

Popularity Score days views

Slide 15

Slide 15 text

Proposed Methodology 提案手法 1

Slide 16

Slide 16 text

User-guided Hierarchical Attention Network(UHAN)

Slide 17

Slide 17 text

How to Representation 各入力の説明 2

Slide 18

Slide 18 text

Image Representation ◉ Input image 448x448 ◉ ImageNet Pre-trained VGG16 w/o top-> 14x14x512 448x448

Slide 19

Slide 19 text

Text Representation ◉ Input text max 50 words ◉ one-hot embedding -> LSTM -> 50x512

Slide 20

Slide 20 text

User Representation ◉ one-hot per user ID -> 謎のUser Embedding-> 512 ◉ 後述するinter-attentionで嗜好等のUser表現をGet

Slide 21

Slide 21 text

User-guided Hierarchical Attention Mechanism Attention機構の説明 3

Slide 22

Slide 22 text

intra-attention for Vitual

Slide 23

Slide 23 text

画像のどこに注目すればいいかの指標 画像領域mに対してUser, Text表現の関連度を計算 intra-attention for Vitual Visual 画像領域mの Importance Score User Textual

Slide 24

Slide 24 text

intra-attention for Textual

Slide 25

Slide 25 text

intra-attention for Textual どの単語に注目すればいいかの指標 単語tに対してUser, Visual表現の関連度を計算 単語tの Importance Score Visual User Textual

Slide 26

Slide 26 text

User-guided inter-attention

Slide 27

Slide 27 text

User-guided inter-attention UserとImageの関連性 UserとTextの関連性

Slide 28

Slide 28 text

Experiment 実験 4

Slide 29

Slide 29 text

実験で確かめたいこと ◉ Q1. 既存手法と比べて性能どうなのか ◉ Q2. VisualとTextualのModalityは効果的か ◉ Q3. 提案手法のどのパーツが予測に貢献したか

Slide 30

Slide 30 text

データセット ◉ Flickr179K Datasetを構築 ◉ 英語Post以外削除, 単語に分割, 小文字化, 頻度5回以下の単語削除, 5単語以下のPost削除 ◉ 時系列順で最初の70%をTraining用 ○ RandomよりRealだろうとのこと ◉ 残り10%をValidation用, 20%をTest用 ◉ 十分に投稿してる128Userを選定

Slide 31

Slide 31 text

評価指標

Slide 32

Slide 32 text

戦わせる既存手法 MultimodalやAttention機構を持つ手法を選択 ◉ HisAve. ○ 今までのPopularityの平均を取るだけ ◉ SVR. ○ 人手で特徴設計, 色, TF-IDF, W2V色々試してbestを選択 ◉ DMF. ○ VGG+LSTMの出力のvector横に繋げてDNN. by Esty ◉ DualAtt. ○ 提案手法からUser表現を抜いたDNN w/ Att. by NAVER

Slide 33

Slide 33 text

Experiment Results 実験結果 5

Slide 34

Slide 34 text

Q1. 既存手法と比べてどうなのか 提案手法が最高 . User特徴は大事

Slide 35

Slide 35 text

Q2. VisualとTextualのModalityは効果的か どっちも大事だけど特にテキストが効く

Slide 36

Slide 36 text

Q3. 提案手法のどのパーツが予測に貢献したか 全部入りが一番良い

Slide 37

Slide 37 text

Attentionの可視化 提案手法は Attentionもくっきり

Slide 38

Slide 38 text

Attentionの可視化 - 雀と蝶は良い例 - 重要箇所を可視化できてる - 模様は悪い例 - 画像中に理解しやすい物体がない - 美学的指標を入れると改善しそう

Slide 39

Slide 39 text

Attentionの可視化 - 異なるスタイルの2User - A...人間多め - AのAttentionは人間を見れている - 最後の飛行機みたいに自分らしくないことするとだめ - B...人間少なめ物体多め - Bの飛行機はくっきり特徴が取れている - 普段からそれっぽい画像を投稿しているため - PersonalizedされたAttentionを算出できる

Slide 40

Slide 40 text

まとめ ◉ SNSに投稿した画像のView数を予測 ◉ Image/Text/Userをうまく学習する高精度な手法を提案 ◉ 予測に重要な単語、画像部位の可視化 ◉ FlickrをCrawlingしてデータ作ったから皆使ってね

Slide 41

Slide 41 text

感想 ◉ Attentionを可視化するだけで画像・テキストそれぞれ人気 度に効く特徴が見えて良い ◉ 広告にもそのまま使えそう ○ User特徴の表現力次第なので広告主をどうデザインできるか

Slide 42

Slide 42 text

Any questions ? You can find me at ◉ @chck ◉ [email protected] Thanks! 42

Slide 43

Slide 43 text

Feedback ◉ Attentionとは ○ 出力に影響を与える入力系列の重要度を割合で計算して おきvectorに掛け合わせて使う機構 ◉ Attentionの可視化を見て何を判断するのか ○ Embeddingの確認, +αなので定量的なものではない ○ エラー分析の判断材料にはなると思う ◉ MSE, MAEの2指標ある理由 ○ 予測の分散への厳しさの程度 ◉ 128Usersしか使ってないところが肝 ○ 実データはもっとlong tailでcold startなので難しい

Slide 44

Slide 44 text

実装詳細 ◉ 言語処理 ○ 50単語以上は切捨, Embedding, LSTM共に512次元 ◉ 画像処理 ○ 入力は196x512 ◉ User表現 ○ 512次元 ◉ Keras ○ Adam, batch_size: 128, Early Stopping