Slide 1

Slide 1 text

ソーシャルメディア分析Saasの ⼤規模⾃然⾔語処理における SageMakerの活⽤事例 株式会社ホットリンク 榊 剛史/⼭中 志⼀

Slide 2

Slide 2 text

今⽇の発表 AI技術の活⽤事例 SageMakerの活⽤事例 第6回 Amazon SageMaker 事例祭り 会社紹介

Slide 3

Slide 3 text

今⽇の発表 AI技術の活⽤事例 SageMakerの活⽤事例 第6回 Amazon SageMaker 事例祭り 会社紹介

Slide 4

Slide 4 text

軽く⾃⼰紹介 榊 剛史 (株)ホットリンク R&D部部⻑,PhD 東京⼤学 客員研究員 推しの研究分野 – ⼈⼯知能 – 計算社会科学 – ⾃然⾔語処理 第6回 Amazon SageMaker 事例祭り ⼭中 志⼀ (株)ホットリンク リサーチプログラマ 推しの開発ツール – AWS • SageMaker • Fargate @tksakaki

Slide 5

Slide 5 text

社 名 株式会社ホットリンク 資 本 金 2,358百万円(2018年12月末時点) 本 社 東京都千代田区富士見1-3-11 富士見デュープレックスビズ5階 設 立 2000年6月26日 代 表 代表取締役社長 内山 幸樹 事 業 内 容 ソーシャル・ビッグデータの分析・販売事業 クラウドサービス事業 インバウンドプロモーション支援事業など 連 結 子 会 社 株式会社トレンドExpress(100%子会社) EFFYIS、inc。 (100%子会社) 流行特急(100%中国小会社) 会社概要 株 式 市 場 東 京 証 券 取 引 所 マ ザ ー ズ 第6回 Amazon SageMaker 事例祭り

Slide 6

Slide 6 text

Big Data Social AI 事業コンセプト ソーシャル・ビッグデータを活⽤し, 「データとAIで意思決定をサポートする」ことを⽬指し, マーケティングに関わる事業を運営・提供しています. 第6回 Amazon SageMaker 事例祭り

Slide 7

Slide 7 text

会社概要 ソーシャル・ビッグデータを活用し, 「データとAIで意思決定をサポートする」ことを目指し, マーケティングに関わる事業を運営・提供しています. クチコミの マーケティング活用 SNSアカウント活用 の効率化 訪日中国人の 現状把握 ソーシャル・ ビッグデータ 解析ツール事業 クロスバウンド・ マーケティング 支援事業 ソーシャル・ ビッグデータ 流通・販売事業 24種類の口コミデータ 流通・販売 第6回 Amazon SageMaker 事例祭り

Slide 8

Slide 8 text

ソーシャルメディア分析ツール https://service.hottolink.co.jp/service/kakaricho/ 投 影 俯 瞰 ネット世界 リアル世界 世界観 第6回 Amazon SageMaker 事例祭り

Slide 9

Slide 9 text

ソーシャルメディア分析ツール 第6回 Amazon SageMaker 事例祭り

Slide 10

Slide 10 text

ソーシャルメディアアカウント運用ツール https://service.hottolink.co.jp/service/buzzspreader/ https://hashtag-ai.buzzspreader.com これまでの情報発信 SNSを活用した情報発信・拡散 世界観 第6回 Amazon SageMaker 事例祭り

Slide 11

Slide 11 text

今⽇の発表 AI技術の活⽤事例 SageMakerの活⽤事例 第6回 Amazon SageMaker 事例祭り 会社紹介

Slide 12

Slide 12 text

既存プロダクト (主力) ルールベース・機械学習 ホットリンクとAI(人工知能)技術の歴史 BuzzSpreader (開発中) 深層学習を含む機械学習 2005年 2019年 深層学習を含む機械学習 Ø スパム推定 Ø 属性推定 (性別、年齢、職業等) Ø 画像解析 Ø 時系列解析 Ø キーワード抽出 Ø 評判分析 Ø キーワード抽出 2015年 2010年 既存プロダクト (主力以外) 機械学習 Ø 株価予測 Ø 自動レコメンド Ø 選挙予測 社会ネットワーク分析 機械学習を含んだシステムを ⻑期的に運⽤してきた実績がある Ø コミュニティ抽出 Ø 情報伝播分析 第6回 Amazon SageMaker 事例祭り

Slide 13

Slide 13 text

既存プロダクト (主力) ルールベース・機械学習 ホットリンクとAI(人工知能)技術の歴史 BuzzSpreader (開発中) 深層学習を含む機械学習 2005年 2019年 深層学習を含む機械学習 Ø スパム推定 Ø 属性推定 (性別、年齢、職業等) Ø 画像解析 Ø 時系列解析 Ø キーワード抽出 Ø 評判分析 Ø キーワード抽出 2015年 2010年 既存プロダクト (主力以外) 機械学習 Ø 株価予測 Ø 自動レコメンド Ø 選挙予測 社会ネットワーク分析 Ø コミュニティ抽出 Ø 情報伝播分析 ルールベース+α の時期 機械学習 の時期 深層学習 の時期 第6回 Amazon SageMaker 事例祭り

Slide 14

Slide 14 text

機械学習のビジネス活⽤事例 ユーザの属性推定 インタレスト属性推定 第6回 Amazon SageMaker 事例祭り ハッシュタグ推薦

Slide 15

Slide 15 text

SNSアカウントのプロフィール推定 マーケティング 担当者 ⾃社製品/ブランドについ て、どこの誰が興味を持っ ているかがわからない ユーザの属性推定 第6回 Amazon SageMaker 事例祭り 目的

Slide 16

Slide 16 text

SNSアカウントのプロフィール推定 第6回 Amazon SageMaker 事例祭り

Slide 17

Slide 17 text

SNSアカウントのプロフィール推定 発⾔・⾃⼰紹介⽂の特徴からユーザのプロフィールを推定 ⾃⼰紹介⽂ 投稿内容 テキスト解析 第6回 Amazon SageMaker 事例祭り

Slide 18

Slide 18 text

Twitterユーザデータ 10代 20代 学習データ 30代 40代 50代 60代 10代 10代10代⼗代 20代 20代20代⼆⼗代 30代 30代30代三⼗代 40代 40代40代四⼗代 50代 50代50代五⼗代 60代 60代60代六⼗代還暦 投稿データ 10代 特徴 20代 特徴 30代 特徴 40代 特徴 50代 特徴 60代 特徴 ⾃⼰紹介⽂ ⽂書分類(fasttext) 10代 分類器 20代 分類器 30代 分類器 40代 分類器 50代 分類器 60代 分類器 one-versus-the-rest︓ 例︓60代判別器︓ 60代と60代以外を分類する 学習データ収集 特徴量生成 モデル構築 SNSアカウントのプロフィール推定 第6回 Amazon SageMaker 事例祭り ⼿法の概要

Slide 19

Slide 19 text

SNSアカウントのプロフィール推定 男性 ⼥性 ⾃⼰紹介︓男⼦ ⾃⼰紹介︓⼥の⼦ ⾃⼰紹介︓愛しています ⾃⼰紹介︓⼥性 発⾔︓腐⼥⼦ ⾃⼰紹介︓キスマイ 発⾔︓⼥⼦⾼⽣ 発⾔︓腐男⼦ 各ユーザ属性の分類に有効な特徴量 (Support Vector Machine) ⼤学⽣ それ以外 ⾃⼰紹介:回⽣ ⾃⼰紹介︓元気 ⾃⼰紹介︓⼥⼦⼤ ⾃⼰紹介︓海外旅 ⾏ 発⾔︓レポート ⾃⼰紹介:キロ 発⾔︓サークル 発⾔︓遠⾜ 発⾔︓履修登録 発⾔︓職場 50代 それ以外 ⾃⼰紹介︓おじさん ⾃⼰紹介︓⼥⼦ ⾃⼰紹介︓おばさん ⾃⼰紹介︓ゲーム ⾃⼰紹介︓読書 ⾃⼰紹介︓在住 ⾃⼰紹介︓蕎⻨ ⾃⼰紹介︓社会⼈ 発⾔︓膝 発⾔︓(t_t) 第6回 Amazon SageMaker 事例祭り

Slide 20

Slide 20 text

機械学習のビジネス活⽤事例 ユーザの属性推定 インタレスト属性推定 第6回 Amazon SageMaker 事例祭り ハッシュタグ推薦

Slide 21

Slide 21 text

SNSアカウントの興味関心推定 マーケティング 担当者 ⾃社製品/ブランドについ て興味を持っている⼈は、 他にどんなことに興味を 持っているのか知りたい インタレスト属性推定 第6回 Amazon SageMaker 事例祭り 目的

Slide 22

Slide 22 text

SNSアカウントの興味関心推定 第6回 Amazon SageMaker 事例祭り

Slide 23

Slide 23 text

SNSアカウントの興味関心推定 – ユーザの投稿内容から,そのユーザのインタレストを 推定する – 特定のインタレストを⼊⼒すると,そのインタレスト について⾔及しているユーザリストを作成することが できる – ユーザ・ユーザリストを⼊⼒すると,それらに紐付い たインタレストの分布を知ることができる – あるユーザのインタレストを推定することができる – 特定のインタレストに興味を持っているユーザ群を抽 出できる ⽬的 ⽅法論 貢献 第6回 Amazon SageMaker 事例祭り

Slide 24

Slide 24 text

– GraphDBにキーワード/インタレスト/カテゴリのグラフ構造を格納する – 各ユーザの投稿からキーワードを抽出する – キーワードに重みを与え、GraphDB上で伝播させた後、重みが⼤きいカ テゴリノードをインタレストとして抽出 SNSアカウントの興味関心推定 第6回 Amazon SageMaker 事例祭り ⼿法の概要 ・・・・ ・・・・ ・・・・ ・・・・ ユーザノード キーワードノード インタレストノード カテゴリノード 厳密にはAI技術ではないですが。。。

Slide 25

Slide 25 text

SNSアカウントの興味関心推定 第6回 Amazon SageMaker 事例祭り デプロイ

Slide 26

Slide 26 text

機械学習のビジネス活⽤事例 ユーザの属性推定 インタレスト属性推定 第6回 Amazon SageMaker 事例祭り ハッシュタグ推薦

Slide 27

Slide 27 text

ハッシュタグ推薦 第6回 Amazon SageMaker 事例祭り SNSアカウント 運用者 どんなハッシュタグを付け れば、いいね数・コメント 数が増えるかがわからない

Slide 28

Slide 28 text

ハッシュタグ推薦(画像) 第6回 Amazon SageMaker 事例祭り

Slide 29

Slide 29 text

ハッシュタグ推薦(画像) – ⼊⼒した画像からInstagramらしいハッシュタグを取得 したい – 特定のユーザ群をターゲットとする場合のコンテンツ 作成やクリエイティブ作成の⼿掛かりとなる ⽬的 ⽅法論 貢献 第6回 Amazon SageMaker 事例祭り 社外秘 (スライド公開時は 削除予定)

Slide 30

Slide 30 text

ハッシュタグ推薦(画像) 近傍探索によるハッシュ画像推薦 第6回 Amazon SageMaker 事例祭り 社外秘 (スライド公開時は 削除予定)

Slide 31

Slide 31 text

ハッシュタグ推薦(画像) デプロイ 第6回 Amazon SageMaker 事例祭り 社外秘 (スライド公開時は 削除予定)

Slide 32

Slide 32 text

今⽇の発表 AI技術の活⽤事例 SageMakerの活⽤事例 第6回 Amazon SageMaker 事例祭り 会社紹介

Slide 33

Slide 33 text

SNS投稿からのキーフレーズ抽出 第6回 Amazon SageMaker 事例祭り

Slide 34

Slide 34 text

SNS投稿からのキーフレーズ抽出 – SNS投稿から,投稿のトピックを代表するフレーズを抽出する – – ⼊⼒:SNS投稿(もしくはスニペット) – 出⼒:キーフレーズリスト – 昨⽇の君の名はのついったー実況はめっちゃ盛り上がった – 君の名は,ついったー,実況 ⽬的 ⽅法論 サンプル 第6回 Amazon SageMaker 事例祭り

Slide 35

Slide 35 text

SNS投稿からのキーフレーズ抽出 第6回 Amazon SageMaker 事例祭り ⼿法 レインボー Char embedding CNN Word embedding PoS embedding BiLSTM CRF わたあめ Char embedding CNN Word embedding PoS embedding BiLSTM CRF BiLSTM – Char CNN – PoS – CRF (系列ラベリング) ハッシュタグをキーフレーズとし、SNSデータ約1.5年分を使用して学習 例) 入力:念願 の レインボー わたあめ 食べ た 出力:O O B I O O

Slide 36

Slide 36 text

SNS投稿からのキーフレーズ抽出 第6回 Amazon SageMaker 事例祭り SageMakerの活⽤ ※SageMakerが無いとき ※SageMakerがあるとき

Slide 37

Slide 37 text

トレーニングジョブで モデルを学習 (ノートブック上で可能) GPUでも回るか GPUノートブックで確認 (設定を変えるだけ) SNS投稿からのキーフレーズ抽出 第6回 Amazon SageMaker 事例祭り SageMakerの活⽤ 安価なCPUノートブックで モデル作成 トレーニングジョブ

Slide 38

Slide 38 text

SNS投稿からのキーフレーズ抽出 第6回 Amazon SageMaker 事例祭り SageMakerの活⽤ ①学習スクリプト ②ソースディレクトリ ④学習データ ③学習インスタンス

Slide 39

Slide 39 text

SNS投稿からのキーフレーズ抽出 第6回 Amazon SageMaker 事例祭り SageMakerの活⽤ ②ソースディレクトリ ①学習スクリプト ④学習データ ③学習インスタンス ②ソースディレクトリ ①学習スクリプト ④学習データ

Slide 40

Slide 40 text

SNS投稿からのキーフレーズ抽出 コンテナ化に時間がかかる – ノートブック上のソースコードをコピーして、学習⽤コンテナを 作成するため – 「source_dir」内はできるだけ軽量にしておく – できれば「トレーニングジョブ」画⾯でジョブをクローンして、 設定を編集するだけで試したいパターンを試せるようにしておく 第6回 Amazon SageMaker 事例祭り めんどくさかったこと

Slide 41

Slide 41 text

SNS投稿からのキーフレーズ抽出 SNSデータ2億件を使ったword2vec作成が1時間! – コーパスを⽤意すれば、組み込みアルゴリズムBlazingTextに必要 項⽬設定するだけで、p3.2xlargeでサクッと1時間 ログが簡単にのこる – GPUやCPU、メモリ使⽤率は「モニタリング」で確認でき、残し たいログはprint()でもCloudWatchに出⼒される N個同時に別々に学習ができる – ハイパーパラメータ調整もお⼿軽 トレーニングジョブをクローンして再実⾏できる – ハイパーパラメータを再設定できるので、別のデータで学習可能 第6回 Amazon SageMaker 事例祭り うれしかったこと

Slide 42

Slide 42 text

SNS投稿からのキーフレーズ抽出 SageMakerとして、インスタンス制限がある – デフォルトml.p3.2xlarge : 2、ml.p2.xlarge : 1等々 – いつもの「制限緩和のリクエスト」で緩和をお願いする ノートブックインスタンスを再起動すると新規の環境として起動 – インストールしたライブラリはもう⼀度インストール – $HOME/SageMaker/ 以下は消えないので安⼼ 学習してるとノートブックのストレージがいっぱいに? 第6回 Amazon SageMaker 事例祭り 注意点

Slide 43

Slide 43 text

おわりに おわりに 第6回 Amazon SageMaker 事例祭り

Slide 44

Slide 44 text

おわりに ホットリンク社の紹介 AI技術の活⽤事例 – ユーザの属性推定 – インタレスト属性推定 – ハッシュタグ推薦 SageMakerの活⽤事例 – モデル学習の効率化 – 当社での使う際の流れ – メリット・注意点 第6回 Amazon SageMaker 事例祭り

Slide 45

Slide 45 text

CM:学習済みモデルの配布 単語分散表現:hottoSNS-w2v – https://github.com/hottolink/hottoSNS-w2v ⽂分散表現:hottoSNS-bert – https://github.com/hottolink/hottoSNS-bert モデル名 分かち書き 学習⾔語 学習ドメイン BERT Multi WordPiece 多⾔語 Wikipedia BERT JP SentencePiece ⽇本語 Wikipedia hottoSNS-BERT SentencePiece ⽇本語 Twitter モデル 相関係数 ⽇本語⼤規模SNS+Webコーパス 0.548 Wikipedia (ホットリンク) 0.478 Wikipedia (東北⼤) 0.472 第6回 Amazon SageMaker 事例祭り

Slide 46

Slide 46 text

CM:⾔語理解とコミュニケーション研究会 第15回テキストアナリティクス・シンポジウム – 概要: • 学術・産業でテキスト解析を活⽤している⽅を対象とした研 究会 • http://www.ieice.org/~nlc/tm15.html – ⽇程: • 2019年 9⽉ 27⽇ (⾦) • 2019年 9⽉ 28⽇ (⼟) – 場所: • フューチャー株式会社 • 東京都品川区⼤崎1-2-2 アートヴィレッジ⼤崎セントラルタ ワー – 発表募集締切:7⽉19⽇ 原稿締切:8⽉中旬 • DC研究会と連催 第6回 Amazon SageMaker 事例祭り