Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ソーシャルメディア分析Saasの大規模自然言語処理におけるSageMakerの活用事例@第5回...

ソーシャルメディア分析Saasの大規模自然言語処理におけるSageMakerの活用事例@第5回 Amazon SageMaker 事例祭り 

ホットリンク社では、2000年代の後半から機械学習を自社のソーシャルメディア分析SaaS、特に自然言語処理(NLP)の領域で活用してきました。本講演では、その事例と変遷を紹介しつつ、それらを通じて機械学習を自社サービスに活用する上でコツや注意点を共有します。また、直近の取り組みとして、NLP技術を用いた機能開発におけるSageMakerの活用事例を紹介します。

Hottolink, R&D

July 18, 2019
Tweet

More Decks by Hottolink, R&D

Other Decks in Programming

Transcript

  1. 軽く⾃⼰紹介 榊 剛史 (株)ホットリンク R&D部部⻑,PhD 東京⼤学 客員研究員 推しの研究分野 – ⼈⼯知能

    – 計算社会科学 – ⾃然⾔語処理 第6回 Amazon SageMaker 事例祭り ⼭中 志⼀ (株)ホットリンク リサーチプログラマ 推しの開発ツール – AWS • SageMaker • Fargate @tksakaki
  2. 社 名 株式会社ホットリンク 資 本 金 2,358百万円(2018年12月末時点) 本 社 東京都千代田区富士見1-3-11

    富士見デュープレックスビズ5階 設 立 2000年6月26日 代 表 代表取締役社長 内山 幸樹 事 業 内 容 ソーシャル・ビッグデータの分析・販売事業 クラウドサービス事業 インバウンドプロモーション支援事業など 連 結 子 会 社 株式会社トレンドExpress(100%子会社) EFFYIS、inc。 (100%子会社) 流行特急(100%中国小会社) 会社概要 株 式 市 場 東 京 証 券 取 引 所 マ ザ ー ズ 第6回 Amazon SageMaker 事例祭り
  3. 会社概要 ソーシャル・ビッグデータを活用し, 「データとAIで意思決定をサポートする」ことを目指し, マーケティングに関わる事業を運営・提供しています. クチコミの マーケティング活用 SNSアカウント活用 の効率化 訪日中国人の 現状把握

    ソーシャル・ ビッグデータ 解析ツール事業 クロスバウンド・ マーケティング 支援事業 ソーシャル・ ビッグデータ 流通・販売事業 24種類の口コミデータ 流通・販売 第6回 Amazon SageMaker 事例祭り
  4. 既存プロダクト (主力) ルールベース・機械学習 ホットリンクとAI(人工知能)技術の歴史 BuzzSpreader (開発中) 深層学習を含む機械学習 2005年 2019年 深層学習を含む機械学習

    Ø スパム推定 Ø 属性推定 (性別、年齢、職業等) Ø 画像解析 Ø 時系列解析 Ø キーワード抽出 Ø 評判分析 Ø キーワード抽出 2015年 2010年 既存プロダクト (主力以外) 機械学習 Ø 株価予測 Ø 自動レコメンド Ø 選挙予測 社会ネットワーク分析 機械学習を含んだシステムを ⻑期的に運⽤してきた実績がある Ø コミュニティ抽出 Ø 情報伝播分析 第6回 Amazon SageMaker 事例祭り
  5. 既存プロダクト (主力) ルールベース・機械学習 ホットリンクとAI(人工知能)技術の歴史 BuzzSpreader (開発中) 深層学習を含む機械学習 2005年 2019年 深層学習を含む機械学習

    Ø スパム推定 Ø 属性推定 (性別、年齢、職業等) Ø 画像解析 Ø 時系列解析 Ø キーワード抽出 Ø 評判分析 Ø キーワード抽出 2015年 2010年 既存プロダクト (主力以外) 機械学習 Ø 株価予測 Ø 自動レコメンド Ø 選挙予測 社会ネットワーク分析 Ø コミュニティ抽出 Ø 情報伝播分析 ルールベース+α の時期 機械学習 の時期 深層学習 の時期 第6回 Amazon SageMaker 事例祭り
  6. Twitterユーザデータ 10代 20代 学習データ 30代 40代 50代 60代 10代 10代10代⼗代

    20代 20代20代⼆⼗代 30代 30代30代三⼗代 40代 40代40代四⼗代 50代 50代50代五⼗代 60代 60代60代六⼗代還暦 投稿データ 10代 特徴 20代 特徴 30代 特徴 40代 特徴 50代 特徴 60代 特徴 ⾃⼰紹介⽂ ⽂書分類(fasttext) 10代 分類器 20代 分類器 30代 分類器 40代 分類器 50代 分類器 60代 分類器 one-versus-the-rest︓ 例︓60代判別器︓ 60代と60代以外を分類する 学習データ収集 特徴量生成 モデル構築 SNSアカウントのプロフィール推定 第6回 Amazon SageMaker 事例祭り ⼿法の概要
  7. SNSアカウントのプロフィール推定 男性 ⼥性 ⾃⼰紹介︓男⼦ ⾃⼰紹介︓⼥の⼦ ⾃⼰紹介︓愛しています ⾃⼰紹介︓⼥性 発⾔︓腐⼥⼦ ⾃⼰紹介︓キスマイ 発⾔︓⼥⼦⾼⽣

    発⾔︓腐男⼦ 各ユーザ属性の分類に有効な特徴量 (Support Vector Machine) ⼤学⽣ それ以外 ⾃⼰紹介:回⽣ ⾃⼰紹介︓元気 ⾃⼰紹介︓⼥⼦⼤ ⾃⼰紹介︓海外旅 ⾏ 発⾔︓レポート ⾃⼰紹介:キロ 発⾔︓サークル 発⾔︓遠⾜ 発⾔︓履修登録 発⾔︓職場 50代 それ以外 ⾃⼰紹介︓おじさん ⾃⼰紹介︓⼥⼦ ⾃⼰紹介︓おばさん ⾃⼰紹介︓ゲーム ⾃⼰紹介︓読書 ⾃⼰紹介︓在住 ⾃⼰紹介︓蕎⻨ ⾃⼰紹介︓社会⼈ 発⾔︓膝 発⾔︓(t_t) 第6回 Amazon SageMaker 事例祭り
  8. SNSアカウントの興味関心推定 – ユーザの投稿内容から,そのユーザのインタレストを 推定する – 特定のインタレストを⼊⼒すると,そのインタレスト について⾔及しているユーザリストを作成することが できる – ユーザ・ユーザリストを⼊⼒すると,それらに紐付い

    たインタレストの分布を知ることができる – あるユーザのインタレストを推定することができる – 特定のインタレストに興味を持っているユーザ群を抽 出できる ⽬的 ⽅法論 貢献 第6回 Amazon SageMaker 事例祭り
  9. SNS投稿からのキーフレーズ抽出 第6回 Amazon SageMaker 事例祭り ⼿法 レインボー Char embedding CNN

    Word embedding PoS embedding BiLSTM CRF <B> わたあめ Char embedding CNN Word embedding PoS embedding BiLSTM CRF <I> BiLSTM – Char CNN – PoS – CRF (系列ラベリング) ハッシュタグをキーフレーズとし、SNSデータ約1.5年分を使用して学習 例) 入力:念願 の レインボー わたあめ 食べ た 出力:O O B I O O
  10. SNS投稿からのキーフレーズ抽出 SageMakerとして、インスタンス制限がある – デフォルトml.p3.2xlarge : 2、ml.p2.xlarge : 1等々 – いつもの「制限緩和のリクエスト」で緩和をお願いする

    ノートブックインスタンスを再起動すると新規の環境として起動 – インストールしたライブラリはもう⼀度インストール – $HOME/SageMaker/ 以下は消えないので安⼼ 学習してるとノートブックのストレージがいっぱいに? 第6回 Amazon SageMaker 事例祭り 注意点
  11. おわりに ホットリンク社の紹介 AI技術の活⽤事例 – ユーザの属性推定 – インタレスト属性推定 – ハッシュタグ推薦 SageMakerの活⽤事例

    – モデル学習の効率化 – 当社での使う際の流れ – メリット・注意点 第6回 Amazon SageMaker 事例祭り
  12. CM:学習済みモデルの配布 単語分散表現:hottoSNS-w2v – https://github.com/hottolink/hottoSNS-w2v ⽂分散表現:hottoSNS-bert – https://github.com/hottolink/hottoSNS-bert モデル名 分かち書き 学習⾔語

    学習ドメイン BERT Multi WordPiece 多⾔語 Wikipedia BERT JP SentencePiece ⽇本語 Wikipedia hottoSNS-BERT SentencePiece ⽇本語 Twitter モデル 相関係数 ⽇本語⼤規模SNS+Webコーパス 0.548 Wikipedia (ホットリンク) 0.478 Wikipedia (東北⼤) 0.472 第6回 Amazon SageMaker 事例祭り
  13. CM:⾔語理解とコミュニケーション研究会 第15回テキストアナリティクス・シンポジウム – 概要: • 学術・産業でテキスト解析を活⽤している⽅を対象とした研 究会 • http://www.ieice.org/~nlc/tm15.html –

    ⽇程: • 2019年 9⽉ 27⽇ (⾦) • 2019年 9⽉ 28⽇ (⼟) – 場所: • フューチャー株式会社 • 東京都品川区⼤崎1-2-2 アートヴィレッジ⼤崎セントラルタ ワー – 発表募集締切:7⽉19⽇ 原稿締切:8⽉中旬 • DC研究会と連催 第6回 Amazon SageMaker 事例祭り