Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
論文読み会 / User-guided Hierarchical Attention Netw...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
chck
August 31, 2018
Research
0
10
論文読み会 / User-guided Hierarchical Attention Network for Multi-modal Social Image Popularity Prediction
社内論文読み会、PaperFridayでの発表資料です
chck
August 31, 2018
Tweet
Share
More Decks by chck
See All by chck
CyberAgent AI Lab研修 / Container for Research
chck
1
2.1k
CyberAgent AI Lab研修 / Code Review in a Team
chck
3
2.1k
論文読み会 / Socio-Technical Anti-Patterns in Building ML-Enabled Software: Insights from Leaders on the Forefront
chck
0
68
CyberAgent AI事業本部MLOps研修Container編 / Container for MLOps
chck
3
5.8k
論文読み会 / GLAZE: Protecting Artists from Style Mimicry by Text-to-Image Models
chck
0
47
論文読み会 / On the Factory Floor: ML Engineering for Industrial-Scale Ads Recommendation Models
chck
0
26
論文読み会 / GUIGAN: Learning to Generate GUI Designs Using Generative Adversarial Networks
chck
0
38
機械学習開発のためのコンテナ入門 / Container for ML
chck
0
950
Web系企業研究所における研究開発を加速させるエコシステム / Ecosystem accelerates our R&D in CyberAgent AI Lab
chck
0
150
Other Decks in Research
See All in Research
生成的情報検索時代におけるAI利用と認知バイアス
trycycle
PRO
0
210
Attaques quantiques sur Bitcoin : comment se protéger ?
rlifchitz
0
140
国際論文を出そう!ICRA / IROS / RA-L への論文投稿の心構えとノウハウ / RSJ2025 Luncheon Seminar
koide3
13
7k
Tiaccoon: Unified Access Control with Multiple Transports in Container Networks
hiroyaonoe
0
440
教師あり学習と強化学習で作る 最強の数学特化LLM
analokmaus
2
850
音声感情認識技術の進展と展望
nagase
0
450
Proposal of an Information Delivery Method for Electronic Paper Signage Using Human Mobility as the Communication Medium / ICCE-Asia 2025
yumulab
0
130
Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint/Restore in Edge–Cloud Continuum
chikuwait
0
290
POI: Proof of Identity
katsyoshi
0
130
【NICOGRAPH2025】Photographic Conviviality: ボディペイント・ワークショップによる 同時的かつ共生的な写真体験
toremolo72
0
140
Stealing LUKS Keys via TPM and UUID Spoofing in 10 Minutes - BSides 2025
anykeyshik
0
180
それ、チームの改善になってますか?ー「チームとは?」から始めた組織の実験ー
hirakawa51
0
440
Featured
See All Featured
Kristin Tynski - Automating Marketing Tasks With AI
techseoconnect
PRO
0
120
What Being in a Rock Band Can Teach Us About Real World SEO
427marketing
0
160
Collaborative Software Design: How to facilitate domain modelling decisions
baasie
0
120
30 Presentation Tips
portentint
PRO
1
190
How STYLIGHT went responsive
nonsquared
100
6k
Learning to Love Humans: Emotional Interface Design
aarron
275
41k
How GitHub (no longer) Works
holman
316
140k
Redefining SEO in the New Era of Traffic Generation
szymonslowik
1
200
Speed Design
sergeychernyshev
33
1.5k
Designing for Performance
lara
610
70k
The Impact of AI in SEO - AI Overviews June 2024 Edition
aleyda
5
710
Believing is Seeing
oripsolob
1
33
Transcript
User-guided Hierarchical Attention Network for Multi-modal Social Image Popularity Prediction
Yuki Iwazaki@AI Lab Wei Zhang, Wen Wang, Jun Wang, Hongyuan Zha East China Normal University, Georgia Institute of Technology, JD.com
どっちがView稼ぎそうか
Potential予測と重要点可視化
なんでこれ ◉ 業務: Media Ads x Multimodal x Engagements ◦
Facebook/Twitter/LINE広告の画像/文章/配信設定からCTR予測 ◉ これ: Social Media x Multimodal x Popularity ◦ Flickrの画像/文章/User表現からView予測
なんでこれ ◉ 業務: Media Ads x Multimodal x Engagements ◦
Facebook/Twitter/LINE広告の画像/文章/配信設定からCTR予測 ◉ これ: Social Media x Multimodal x Popularity ◦ Flickrの画像/文章/User表現からView予測
TL;DR ◉ SNSに投稿した画像のView数を予測 ◉ Image/Text/Userをうまく学習する高精度な手法を提案 ◉ 予測に重要な単語、画像部位の可視化 ◉ FlickrをCrawlingしてデータ作ったから皆使ってね
3 ML Challenges in ◉ Content-based Video Relevance Prediction Challenge
- 動画のレコメンド (1st: $2K USD) ◉ Half Million Beauty Product Image Recognition - 化粧品認識 (1st: $2K USD) ◉ Social Media Headline Prediction - SNS投稿物の人気予測 (1st: ???)
3 ML Challenges in ◉ Content-based Video Relevance Prediction Challenge
- 動画のレコメンド (1st: $2K USD) ◉ Half Million Beauty Product Image Recognition - 化粧品認識 (1st: $2K USD) ◉ Social Media Headline Prediction - SNS投稿物の人気予測 (1st: ???) 👉
3 ML Challenges in ◉ Content-based Video Relevance Prediction Challenge
- 動画のレコメンド (1st: $2K USD) ◉ Half Million Beauty Product Image Recognition - 化粧品認識 (1st: $2K USD) ◉ Social Media Headline Prediction - SNS投稿物の人気予測 (1st: ???) 👉
Flickr Popularity Prediction Post# User# Categories# Months Avg(Title len.) Tags#
POIs# Avg. Views 340K 80K 11 16 26 669 103K 306 Winners Talkと思いきや主催者側
こんなデータ 1 { ‘uid’: ‘37810@N60’, ‘pid’: ‘565202’, ‘category’: ‘Fasion’, ‘subcategory’:
‘Girls,Fasion’, ‘concept’: ‘skirt’, ‘pathalias’: ‘None’, ‘ispublic’: ‘1’, ‘mediastatus’: ‘ready’, ‘title’: ‘2016-03-07 17.54.15’, ‘mediatype’: ‘photo’, ‘alltags’: ‘orange sexy philadelphia blonde hockey sweater’, ‘postdate’: ‘1457273948’, ‘latitude’: ‘0’, ‘longitude’: ‘0’, ‘geoaccuracy’: ‘0’ } { ‘views’: ‘876’, ‘favs’: ‘1’, ‘comments’: ‘0’ } popularity score: 3.2
こんなデータ 2 { ‘uid’: ‘25893@N22’, ‘pid’: ‘565381’, ‘category’: ‘Whether&Season’, ‘subcategory’:
‘Raining’, ‘concept’: ‘puddle’, ‘pathalias’: ‘hoo_nose_68’, ‘ispublic’: ‘1’, ‘mediastatus’: ‘ready’, ‘title’: ‘Tristesse at the Federal Chancellery’, ‘mediatype’: ‘photo’, ‘alltags’: ‘blackandwhite bw reflection berlin wet rain symmetry’, ‘postdate’: ‘1457273948’, ‘latitude’: ‘52.520213’, ‘longitude’: ‘13.373097’, ‘geoaccuracy’: ‘16’ } { ‘views’: ‘630’, ‘favs’: ‘8’, ‘comments’: ‘0’ } popularity score: 2.3
問題設定 Visual Textual User Popularity Score 画像(i)投稿時の情報からPopularity Score(y)を予測
Popularity Score days views
Proposed Methodology 提案手法 1
User-guided Hierarchical Attention Network(UHAN)
How to Representation 各入力の説明 2
Image Representation ◉ Input image 448x448 ◉ ImageNet Pre-trained VGG16
w/o top-> 14x14x512 448x448
Text Representation ◉ Input text max 50 words ◉ one-hot
embedding -> LSTM -> 50x512
User Representation ◉ one-hot per user ID -> 謎のUser Embedding->
512 ◉ 後述するinter-attentionで嗜好等のUser表現をGet
User-guided Hierarchical Attention Mechanism Attention機構の説明 3
intra-attention for Vitual
画像のどこに注目すればいいかの指標 画像領域mに対してUser, Text表現の関連度を計算 intra-attention for Vitual Visual 画像領域mの Importance Score
User Textual
intra-attention for Textual
intra-attention for Textual どの単語に注目すればいいかの指標 単語tに対してUser, Visual表現の関連度を計算 単語tの Importance Score Visual
User Textual
User-guided inter-attention
User-guided inter-attention UserとImageの関連性 UserとTextの関連性
Experiment 実験 4
実験で確かめたいこと ◉ Q1. 既存手法と比べて性能どうなのか ◉ Q2. VisualとTextualのModalityは効果的か ◉ Q3. 提案手法のどのパーツが予測に貢献したか
データセット ◉ Flickr179K Datasetを構築 ◉ 英語Post以外削除, 単語に分割, 小文字化, 頻度5回以下の単語削除, 5単語以下のPost削除
◉ 時系列順で最初の70%をTraining用 ◦ RandomよりRealだろうとのこと ◉ 残り10%をValidation用, 20%をTest用 ◉ 十分に投稿してる128Userを選定
評価指標
戦わせる既存手法 MultimodalやAttention機構を持つ手法を選択 ◉ HisAve. ◦ 今までのPopularityの平均を取るだけ ◉ SVR. ◦ 人手で特徴設計,
色, TF-IDF, W2V色々試してbestを選択 ◉ DMF. ◦ VGG+LSTMの出力のvector横に繋げてDNN. by Esty ◉ DualAtt. ◦ 提案手法からUser表現を抜いたDNN w/ Att. by NAVER
Experiment Results 実験結果 5
Q1. 既存手法と比べてどうなのか 提案手法が最高 . User特徴は大事
Q2. VisualとTextualのModalityは効果的か どっちも大事だけど特にテキストが効く
Q3. 提案手法のどのパーツが予測に貢献したか 全部入りが一番良い
Attentionの可視化 提案手法は Attentionもくっきり
Attentionの可視化 - 雀と蝶は良い例 - 重要箇所を可視化できてる - 模様は悪い例 - 画像中に理解しやすい物体がない -
美学的指標を入れると改善しそう
Attentionの可視化 - 異なるスタイルの2User - A...人間多め - AのAttentionは人間を見れている - 最後の飛行機みたいに自分らしくないことするとだめ -
B...人間少なめ物体多め - Bの飛行機はくっきり特徴が取れている - 普段からそれっぽい画像を投稿しているため - PersonalizedされたAttentionを算出できる
まとめ ◉ SNSに投稿した画像のView数を予測 ◉ Image/Text/Userをうまく学習する高精度な手法を提案 ◉ 予測に重要な単語、画像部位の可視化 ◉ FlickrをCrawlingしてデータ作ったから皆使ってね
感想 ◉ Attentionを可視化するだけで画像・テキストそれぞれ人気 度に効く特徴が見えて良い ◉ 広告にもそのまま使えそう ◦ User特徴の表現力次第なので広告主をどうデザインできるか
Any questions ? You can find me at ◉ @chck
◉
[email protected]
Thanks! 42
Feedback ◉ Attentionとは ◦ 出力に影響を与える入力系列の重要度を割合で計算して おきvectorに掛け合わせて使う機構 ◉ Attentionの可視化を見て何を判断するのか ◦ Embeddingの確認,
+αなので定量的なものではない ◦ エラー分析の判断材料にはなると思う ◉ MSE, MAEの2指標ある理由 ◦ 予測の分散への厳しさの程度 ◉ 128Usersしか使ってないところが肝 ◦ 実データはもっとlong tailでcold startなので難しい
実装詳細 ◉ 言語処理 ◦ 50単語以上は切捨, Embedding, LSTM共に512次元 ◉ 画像処理 ◦
入力は196x512 ◉ User表現 ◦ 512次元 ◉ Keras ◦ Adam, batch_size: 128, Early Stopping