Slide 1

Slide 1 text

#スニリプ 全自動化への検討 たくみP 2017/12/16 www.shuukei.info

Slide 2

Slide 2 text

自己紹介  たくみP  担当アイドル: 喜多日菜子  Twitter: @shuukei_imas_cg  @[email protected]  運営しているサイト・サービス https://www.shuukei.info/  モバマス-Pixiv集計所  シンデレラガールズ/ミリオンライブ!/SideM台詞判定  喜多日菜子LINE BOT  デレマスユニット推薦 2017/12/16 2

Slide 3

Slide 3 text

スニリプの要件/特徴  Twitterで#スニリプ のハッシュタグを付けてスニッ カーズのパッケージが写り込んだ写真を投稿すると、 アイドルから返事が来る(ことがある)  何人かのアイドルについては、動画メッセージがくる  返事をくれるアイドルは選べず、ランダムに選択される? (選定条件不明)  返信は事前に用意されたテキスト(著作者チェック済み)の 中から適当に選ばれる  従って発言パターンが少ない。写真のシチュエーションと 合っているとはいえないものも多い  返事がなかなか来ない… 2017/12/16 3 自動化で解決

Slide 4

Slide 4 text

自動化に向けた要素技術  「スニッカーズが写っているか否か」  物体検出  写真のシチュエーションに応じたテキストの生成  日本語イメージキャプショニング  Twitter Bot  リミットを守って正しいリプライを 2017/12/16 4

Slide 5

Slide 5 text

今回実現したこと  「スニッカーズが写っているか否か」  物体検出  学習済みディープラーニングモデルの後段を 特徴抽出器とみなしてSVMで判定  写真のシチュエーションに応じたテキストの生成  日本語イメージキャプショニング  画像をCNNでベクトル化→LSTMでキャプション生成  Twitter Bot  リミットを守って正しいリプライを  一般的なTwitter Botの技術 2017/12/16 5

Slide 6

Slide 6 text

物体検出  学習済みで配布されているディープラーニングモデル を特徴抽出器として使う  実質5行で書ける  この1000次元の特徴(要素数1000個のfloat32の配列)を SVMに渡して判別する  例によってJubatus(jubaclassfier: AROW)を使う 2017/12/16 6

Slide 7

Slide 7 text

物体検出  今回は「キーアイテム」として2種類対応  スニッカーズ:  スニリプ公式アカウントがリプライをした500ツイー トの画像から125個をランダムに選定  十六茶(喜多日菜子の総合16位にちなんで):  Google画像検索で人手で125個収集  負例:  てきとうに人手で125個収集  上記の375個で学習  正解率: 78%(???) 2017/12/16 7

Slide 8

Slide 8 text

イメージキャプショニング  有名なShow and tell論文のChainer実装がある (ありがたく使わせていただく)  https://qiita.com/dsanno/items/b237482087207d0364c3 2017/12/16 8

Slide 9

Slide 9 text

日本語イメージキャプショニング  MS-COCOデータセットに日本語キャプションを付 けたデータセットがある  STAIR Captions  https://stair.center/archives/research/stair-captions  164,062画像に対する820,310キャプション  英語でキャプション生成 → 日本語に翻訳 の 場合に較べて性能がよいとされている 2017/12/16 9

Slide 10

Slide 10 text

Twitter Bot  口調変換  とりあえずルールベースで  リミットを守る  30分ごとにTwitterが設定する制限がある  具体的な数値は公言されていない  有志の調査により、APIで投稿できるのは 1時間で100ポスト程度と言われている  30分で50ポスト? 2017/12/16 10

Slide 11

Slide 11 text

デモ  Twitterアカウント: @hinako_rep  このアカウントに対し画像添付のリプライを送る と返事が来る  喜多日菜子からの返事という体で作成 2017/12/16 11

Slide 12

Slide 12 text

課題  物体検出の性能向上  真面目にディープラーニングモデルのファイン チューニングを行う  キャプション生成精度の向上  もしかすると多クラスの一般物体検出を行って、見 つかった物体ごとに(人手で)事前定義したコメント を付けたほうがいいかも…  その場合、英語の物体検出でもよい  (複数アイドルへの対応) 2017/12/16 12