Upgrade to Pro — share decks privately, control downloads, hide ads and more …

20190827 AWS [email protected]#5 by Hottolink

20190827 AWS [email protected]#5 by Hottolink

タイトル:【悲報】TwitterのNLPがマジ😂😂やばたにえん🙅の無理茶漬けwwwww

NLPを活用したソーシャルメディアマーケティングの支援機能を紹介しつつ,ソーシャルメディアの投稿にNLP技術を適用する上での諸問題とその対処方法を紹介します。

Hottolink, R&D

August 27, 2019
Tweet

More Decks by Hottolink, R&D

Other Decks in Technology

Transcript

  1. 【悲報】TwitterのNLPがマジや
    ばたにえんの無理茶漬けwwwww
    株式会社ホットリンク
    榊 剛史 ⼭中 志⼀

    View Slide

  2. ソーシャルメディア分析サービスに
    おけるNLPに関する諸問題について
    株式会社ホットリンク
    榊 剛史 ⼭中 志⼀

    View Slide

  3. 今⽇の発表
    第6回 Amazon SageMaker 事例祭り
    Twitter上のテキスト処理の難しさを知ってもらう
    ツイートに対する前処理・分かち書きの⼯夫を紹介する
    既存のNLPアプローチとEnd-to-Endアプローチを⽐較する

    View Slide

  4. 今⽇の発表
    第6回 Amazon SageMaker 事例祭り
    Twitter上テキストに対するNLPの諸問題
    問題への対処︓前処理の⼯夫
    会社紹介
    問題への対処︓⼿法による⼯夫

    View Slide

  5. 今⽇の発表
    第6回 Amazon SageMaker 事例祭り
    Twitter上テキストに対するNLPの諸問題
    問題への対処︓前処理の⼯夫
    会社紹介
    問題への対処︓⼿法による⼯夫

    View Slide

  6. 軽く⾃⼰紹介
    榊 剛史 (株)ホットリンク R&D部部⻑,PhD
    東京⼤学 客員研究員
    推しの研究分野
    – ⼈⼯知能
    – 計算社会科学
    – ⾃然⾔語処理
    第6回 Amazon SageMaker 事例祭り
    ⼭中 志⼀ (株)ホットリンク
    リサーチプログラマ
    推しの開発ツール
    – AWS
    • SageMaker
    • Fargate
    @tksakaki

    View Slide

  7. Big Data
    Social
    AI
    事業コンセプト
    第6回 Amazon SageMaker 事例祭り
    ソーシャル・ビッグデータを活⽤し,
    「データとAIで意思決定をサポートする」ことを⽬指し,
    マーケティングに関わる事業を運営・提供しています.

    View Slide

  8. ソーシャルメディア分析ツール
    第6回 Amazon SageMaker 事例祭り
    https://service.hottolink.co.jp/service/kakaricho/
    投 影
    俯 瞰
    ネット世界
    リアル世界
    世界観

    View Slide

  9. ソーシャルメディアアカウント運用ツール
    第6回 Amazon SageMaker 事例祭り
    https://service.hottolink.co.jp/service/buzzspreader/
    https://hashtag-ai.buzzspreader.com
    これまでの情報発信 SNSを活用した情報発信・拡散
    世界観

    View Slide

  10. 今⽇の発表
    第6回 Amazon SageMaker 事例祭り
    Twitter上テキストに対するNLPの諸問題
    問題への対処︓前処理の⼯夫
    会社紹介
    問題への対処︓⼿法による⼯夫

    View Slide

  11. ソーシャルメディア分析ツール
    第6回 Amazon SageMaker 事例祭り

    View Slide

  12. ソーシャルメディア分析ツール
    第6回 Amazon SageMaker 事例祭り

    View Slide

  13. ソーシャルメディア分析ツールの機能
    検索機能 記事数集計
    本⽂抽出

    View Slide

  14. ソーシャルメディア分析ツールの機能
    関連語

    View Slide

  15. 分析機能とNLP技術の関係
    検索 関連語
    話題語 評判
    属性推定 スパム判定
    形態素解析
    (分かち書き)
    複合語処理 評判分析
    スパムフィルタ
    ユーザ属性
    係り受け解析
    ソーシャルメディアの⽂書
    前処理

    View Slide

  16. Twitterに⾒られる⽂書の特徴
    【悲報】TwitterのNLPがマジ
    やばたにえんの無理茶漬けwwwww
    意味の無い
    煽り⽂句
    コミュニティに
    特化した略語
    全⾓の中に突如現れる
    突然の半⾓︕
    絵⽂字
    謎の慣⽤句 その慣⽤句の中に
    絵⽂字
    ⻑さが不安定な草

    View Slide

  17. Twitterに⾒られる⽂書の特徴
    【悲報】TwitterのNLPがマジ
    やばたにえんの無理茶漬けwwwww
    意味の無い
    煽り⽂句
    コミュニティに
    特化した略語
    全⾓の中に突如現れる
    突然の半⾓︕
    絵⽂字
    謎の慣⽤句 その慣⽤句の中に
    絵⽂字
    ⻑さが不安定な草
    種類 説明
    複合名詞 ⼀般単名詞が連接して作られる名詞
    固有表現(複合名詞含む) ⼈名や地名などといった固有名詞や、⽇付表現、時間表現など
    専⾨⽤語(jargon) 特定の集団のみで通じる⽤語、略語
    ⼝語表現(Slang) 話し⾔葉のようなくだけた表現、意味の無い表現
    顔⽂字・絵⽂字(emoticon) 表情や動作を図的に表現する⽂字や記号、単独の⽂字の集合
    テキストメタ情報 テキスト形式で本⽂に埋め込まれたメタ情報

    View Slide

  18. 分析機能とNLP技術の関係
    検索 関連語
    話題語
    形態素解析
    (分かち書き)
    複合語処理
    ソーシャルメディアの⽂書
    前処理

    View Slide

  19. 分析機能とNLP技術の関係
    検索 関連語
    話題語
    形態素解析
    (分かち書き)
    複合語処理
    ソーシャルメディアの⽂書
    前処理

    View Slide

  20. 対処⽅法:前処理の⼯夫
    前処理
    正規化
    •NFKC正規化
    •Neologd⽅式の正規化
    •neologdn
    •⼤⽂字・⼩⽂字正規化
    不要表現除去
    •絵⽂字・顔⽂字
    •草
    •Html-encoding
    etc.
    メタ情報
    除去・抽出
    •URL
    •RT/メンション
    •ハッシュタグ(抽出)
    etc.
    等価な⽂字や⽂字の並
    びを統⼀的な内部表現
    に変換すること

    View Slide

  21. 対処⽅法:前処理の⼯夫
    前処理
    正規化
    •NFKC正規化
    •Neologd⽅式の正規化
    •neologdn
    •⼤⽂字・⼩⽂字正規化
    不要表現除去
    •絵⽂字・顔⽂字
    •草
    •Html-encoding
    etc.
    メタ情報
    除去・抽出
    •URL
    •RT/メンション
    •ハッシュタグ(抽出)
    etc.
    【悲報】TwitterのNLPがマジやば
    たにえんの無理茶漬けwwwww
    【悲報】 TwitterのNLPがマジやばたに
    えんの無理茶漬けwwwww
    【悲報】 TwitterのNLPがマジやばたに
    えんの無理茶漬け
    【悲報】TwitterのNLPがマジやば
    たにえんの無理茶漬けwwwww

    View Slide

  22. 分析機能とNLP技術の関係
    検索 関連語
    話題語
    形態素解析
    (分かち書き)
    複合語処理
    ソーシャルメディアの⽂書
    前処理

    View Slide

  23. 対処⽅法:分かち書きの⼯夫
    辞書の工夫
    辞書の
    使い分け
    • 検索インデキシング︓ipadic
    • カタカナ語︓unidic
    • キーワード抽出︓
    • mecab-ipadic-Neologd
    辞書の
    拡張
    • 動詞の追加
    • 形容詞の追加
    ※件数が多いもののみ
    解析器の
    使い分け
    • 速度重視︓MeCab
    • 新語・未知語対応︓JUMAN
    解析結果
    の再構築
    •ルールベースによる結合
    アガる,ドヤる
    解析器の工夫
    複合語の種類 品詞 具体例
    サ変名詞+補助
    動詞
    動詞
    達成できる,協⼒いたしま
    せん
    形容動詞+に+な
    る|する
    動詞 きれいになる,静かにする
    形容詞+形容詞
    形容

    暑苦しい,細⻑い,⽢酸っ
    ぱい,⻘臭い
    動詞+形容詞
    形容

    歩きやすい,⾷べにくい,
    許しがたい
    エモい,サムい

    View Slide

  24. 今⽇の発表
    第6回 Amazon SageMaker 事例祭り
    問題への対処:手法による工夫
    問題への対処︓前処理の⼯夫
    会社紹介
    Twitter上テキストに対するNLPの諸問題

    View Slide

  25. 問題への対処:⼿法による⼯夫
    SNS投稿からのキーフレーズ抽出
    SNS投稿のテキスト分類比較

    View Slide

  26. SNS投稿からのキーフレーズ抽出

    View Slide

  27. SNS投稿からのキーフレーズ抽出
    – SNS投稿から,投稿のトピックを代表するフレーズを抽出する
    – ⼊⼒︓SNS投稿(もしくはスニペット)
    – 出⼒︓キーフレーズリスト
    – 昨⽇の君の名はのついったー実況はめっちゃ盛り上がった
    – 君の名は,ついったー,実況
    ⽬的
    ⽅法論
    サンプル

    View Slide

  28. SNS投稿からのキーフレーズ抽出
    ⼿法
    レインボー
    Char
    embedding
    CNN
    Word embedding
    PoS embedding
    BiLSTM CRF
    わたあめ
    Char
    embedding
    CNN
    Word embedding
    PoS embedding
    BiLSTM CRF
    BiLSTM – Char CNN – PoS – CRF (系列ラベリング)
    ハッシュタグをキーフレーズとし、SNSデータ約1.5年分を使用して学習
    例)
    入力:念願 の レインボー わたあめ 食べ た
    出力:O O B I O O

    View Slide

  29. SNS投稿からのキーフレーズ抽出
    Precision Recall F1
    単語ベース 0.842 0.765 0.800
    キーフレーズベース 0.728 0.600 0.658
    • ハッシュタグによる検証
    • 人手で作成したキーフレーズデータでの検証
    Precision Recall F1
    辞書ベース⼿法 +
    Heuristics (1)
    0.447 0.336 0.383
    DNN(2) 0.574 0.349 0.434
    (1)&(2) 0.472 0.538 0.503

    View Slide

  30. SNS投稿のテキスト分類⽐較
    前処理、分かち書きに
    疲れました.....
    前処理、分かち書き、
    がイヤなら、
    そのまま突っ込めばいいじ
    ゃない?

    View Slide

  31. SNS投稿のテキスト分類⽐較
    ホットリンク : 名詞 固有名詞 組織 * *
    の : 助詞 連体化 * * *
    メルマガ : 名詞 固有名詞 一般 * *
    は : 助詞 係助詞 * * *
    あったかい : 形容詞 自立 * * 形容詞・アウオ段
    ホ, ッ, ト, リ, ン, ク, の, メ, ル
    , マ, ガ, は, あ, っ, た, か, い
    コツコツ分かち書き ⽂字ごとそのまま

    View Slide

  32. SNS投稿のテキスト分類⽐較
    ⼿法
    BiLSTM
    ⼊⼒1 embedding LSTM LSTM
    ⼊⼒2 embedding LSTM LSTM
    ⼊⼒N embedding LSTM LSTM FCN クラス
    BiLSTMでのテキスト分類で単語単位、文字単位の精度を比較
    SNSテキストデータのアフィリエイト判定を行う
    学習データ:約2万件
    アフィリエイト : 非アフィリエイト = 1 : 1
    (単語の分かち書きはneologd)

    View Slide

  33. SNS投稿のテキスト分類⽐較
    ホットリンク Word embedding LSTM LSTM
    の Word embedding LSTM LSTM
    あったかい Word embedding LSTM LSTM FCN クラス
    ホ Char embedding LSTM LSTM
    ッ Char embedding LSTM LSTM
    い Char embedding LSTM LSTM FCN クラス
    • 単語単位で分割 → ホットリンク, の, メルマガ, は, あったかい
    • 文字単位で分割 → ホ, ッ, ト, リ, ン, ク, の, メ, ル, マ, ガ, は, あ, っ, た, か, い
    例文)ホットリンクのメルマガはあったかい

    View Slide

  34. SNS投稿のテキスト分類⽐較
    • 単語:30398種類
    • 文字:3269種類
    • 処理時間は1.5倍
    – 単語ベースの⽅が速い
    • ⽇本語SNS投稿において⽂字ベースでは
    – モデルの改善
    – より多くのデータが必要
    • 単語を適切に処理したほうがいい
    Precision Recall F1
    単語ベース 0.967 0.967 0.967
    ⽂字ベース 0.951 0.949 0.950

    View Slide

  35. 今⽇の発表
    第6回 Amazon SageMaker 事例祭り
    Twitter上のテキスト処理の難しさを知ってもらう
    ツイートに対する前処理・分かち書きの⼯夫を紹介する
    既存のNLPアプローチとEnd-to-Endアプローチを⽐較する

    View Slide

  36. CM:学習済みモデルの配布
    単語分散表現:hottoSNS-w2v
    – https://github.com/hottolink/hottoSNS-w2v
    ⽂分散表現:hottoSNS-bert
    – https://github.com/hottolink/hottoSNS-bert
    モデル名 分かち書き 学習⾔語 学習ドメイン
    BERT Multi WordPiece 多⾔語 Wikipedia
    BERT JP SentencePiece ⽇本語 Wikipedia
    hottoSNS-BERT SentencePiece ⽇本語 Twitter
    モデル 相関係数
    ⽇本語⼤規模SNS+Webコーパス 0.548
    Wikipedia (ホットリンク) 0.478
    Wikipedia (東北⼤) 0.472
    第6回 Amazon SageMaker 事例祭り

    View Slide

  37. CM:⾔語理解とコミュニケーション研究会
    第15回テキストアナリティクス・シンポジウム
    – 概要:
    • 学術・産業でテキスト解析を活⽤している⽅を対象とした研
    究会
    – ⽇程:
    • 2019年 9⽉ 27⽇ (⾦)
    • 2019年 9⽉ 28⽇ (⼟)
    – 場所:
    • フューチャー株式会社
    • 東京都品川区⼤崎1-2-2 アートヴィレッジ⼤崎セントラルタ
    ワー
    – http://www.ieice.org/~nlc/tm15a.html
    第6回 Amazon SageMaker 事例祭り

    View Slide