Upgrade to Pro — share decks privately, control downloads, hide ads and more …

20190827 AWS ML@Loft#5 by Hottolink

20190827 AWS ML@Loft#5 by Hottolink

タイトル:【悲報】TwitterのNLPがマジ😂😂やばたにえん🙅の無理茶漬けwwwww

NLPを活用したソーシャルメディアマーケティングの支援機能を紹介しつつ,ソーシャルメディアの投稿にNLP技術を適用する上での諸問題とその対処方法を紹介します。

Hottolink, R&D

August 27, 2019
Tweet

More Decks by Hottolink, R&D

Other Decks in Technology

Transcript

  1. 軽く⾃⼰紹介 榊 剛史 (株)ホットリンク R&D部部⻑,PhD 東京⼤学 客員研究員 推しの研究分野 – ⼈⼯知能

    – 計算社会科学 – ⾃然⾔語処理 第6回 Amazon SageMaker 事例祭り ⼭中 志⼀ (株)ホットリンク リサーチプログラマ 推しの開発ツール – AWS • SageMaker • Fargate @tksakaki
  2. Big Data Social AI 事業コンセプト 第6回 Amazon SageMaker 事例祭り ソーシャル・ビッグデータを活⽤し,

    「データとAIで意思決定をサポートする」ことを⽬指し, マーケティングに関わる事業を運営・提供しています.
  3. 分析機能とNLP技術の関係 検索 関連語 話題語 評判 属性推定 スパム判定 形態素解析 (分かち書き) 複合語処理

    評判分析 スパムフィルタ ユーザ属性 係り受け解析 ソーシャルメディアの⽂書 前処理
  4. Twitterに⾒られる⽂書の特徴 【悲報】TwitterのNLPがマジ やばたにえんの無理茶漬けwwwww 意味の無い 煽り⽂句 コミュニティに 特化した略語 全⾓の中に突如現れる 突然の半⾓︕ 絵⽂字

    謎の慣⽤句 その慣⽤句の中に 絵⽂字 ⻑さが不安定な草 種類 説明 複合名詞 ⼀般単名詞が連接して作られる名詞 固有表現(複合名詞含む) ⼈名や地名などといった固有名詞や、⽇付表現、時間表現など 専⾨⽤語(jargon) 特定の集団のみで通じる⽤語、略語 ⼝語表現(Slang) 話し⾔葉のようなくだけた表現、意味の無い表現 顔⽂字・絵⽂字(emoticon) 表情や動作を図的に表現する⽂字や記号、単独の⽂字の集合 テキストメタ情報 テキスト形式で本⽂に埋め込まれたメタ情報
  5. 対処⽅法:前処理の⼯夫 前処理 正規化 •NFKC正規化 •Neologd⽅式の正規化 •neologdn •⼤⽂字・⼩⽂字正規化 不要表現除去 •絵⽂字・顔⽂字 •草

    •Html-encoding etc. メタ情報 除去・抽出 •URL •RT/メンション •ハッシュタグ(抽出) etc. 等価な⽂字や⽂字の並 びを統⼀的な内部表現 に変換すること
  6. 対処⽅法:前処理の⼯夫 前処理 正規化 •NFKC正規化 •Neologd⽅式の正規化 •neologdn •⼤⽂字・⼩⽂字正規化 不要表現除去 •絵⽂字・顔⽂字 •草

    •Html-encoding etc. メタ情報 除去・抽出 •URL •RT/メンション •ハッシュタグ(抽出) etc. 【悲報】TwitterのNLPがマジやば たにえんの無理茶漬けwwwww 【悲報】 TwitterのNLPがマジやばたに えんの無理茶漬けwwwww 【悲報】 TwitterのNLPがマジやばたに えんの無理茶漬け 【悲報】TwitterのNLPがマジやば たにえんの無理茶漬けwwwww
  7. 対処⽅法:分かち書きの⼯夫 辞書の工夫 辞書の 使い分け • 検索インデキシング︓ipadic • カタカナ語︓unidic • キーワード抽出︓

    • mecab-ipadic-Neologd 辞書の 拡張 • 動詞の追加 • 形容詞の追加 ※件数が多いもののみ 解析器の 使い分け • 速度重視︓MeCab • 新語・未知語対応︓JUMAN 解析結果 の再構築 •ルールベースによる結合 アガる,ドヤる 解析器の工夫 複合語の種類 品詞 具体例 サ変名詞+補助 動詞 動詞 達成できる,協⼒いたしま せん 形容動詞+に+な る|する 動詞 きれいになる,静かにする 形容詞+形容詞 形容 詞 暑苦しい,細⻑い,⽢酸っ ぱい,⻘臭い 動詞+形容詞 形容 詞 歩きやすい,⾷べにくい, 許しがたい エモい,サムい
  8. SNS投稿からのキーフレーズ抽出 ⼿法 レインボー Char embedding CNN Word embedding PoS embedding

    BiLSTM CRF <B> わたあめ Char embedding CNN Word embedding PoS embedding BiLSTM CRF <I> BiLSTM – Char CNN – PoS – CRF (系列ラベリング) ハッシュタグをキーフレーズとし、SNSデータ約1.5年分を使用して学習 例) 入力:念願 の レインボー わたあめ 食べ た 出力:O O B I O O
  9. SNS投稿からのキーフレーズ抽出 Precision Recall F1 単語ベース 0.842 0.765 0.800 キーフレーズベース 0.728

    0.600 0.658 • ハッシュタグによる検証 • 人手で作成したキーフレーズデータでの検証 Precision Recall F1 辞書ベース⼿法 + Heuristics (1) 0.447 0.336 0.383 DNN(2) 0.574 0.349 0.434 (1)&(2) 0.472 0.538 0.503
  10. SNS投稿のテキスト分類⽐較 ホットリンク : 名詞 固有名詞 組織 * * の :

    助詞 連体化 * * * メルマガ : 名詞 固有名詞 一般 * * は : 助詞 係助詞 * * * あったかい : 形容詞 自立 * * 形容詞・アウオ段 ホ, ッ, ト, リ, ン, ク, の, メ, ル , マ, ガ, は, あ, っ, た, か, い コツコツ分かち書き ⽂字ごとそのまま
  11. SNS投稿のテキスト分類⽐較 ⼿法 BiLSTM ⼊⼒1 embedding LSTM LSTM ⼊⼒2 embedding LSTM

    LSTM ⼊⼒N embedding LSTM LSTM FCN クラス BiLSTMでのテキスト分類で単語単位、文字単位の精度を比較 SNSテキストデータのアフィリエイト判定を行う 学習データ:約2万件 アフィリエイト : 非アフィリエイト = 1 : 1 (単語の分かち書きはneologd)
  12. SNS投稿のテキスト分類⽐較 ホットリンク Word embedding LSTM LSTM の Word embedding LSTM

    LSTM あったかい Word embedding LSTM LSTM FCN クラス ホ Char embedding LSTM LSTM ッ Char embedding LSTM LSTM い Char embedding LSTM LSTM FCN クラス • 単語単位で分割 → ホットリンク, の, メルマガ, は, あったかい • 文字単位で分割 → ホ, ッ, ト, リ, ン, ク, の, メ, ル, マ, ガ, は, あ, っ, た, か, い 例文)ホットリンクのメルマガはあったかい
  13. SNS投稿のテキスト分類⽐較 • 単語:30398種類 • 文字:3269種類 • 処理時間は1.5倍 – 単語ベースの⽅が速い •

    ⽇本語SNS投稿において⽂字ベースでは – モデルの改善 – より多くのデータが必要 • 単語を適切に処理したほうがいい Precision Recall F1 単語ベース 0.967 0.967 0.967 ⽂字ベース 0.951 0.949 0.950
  14. CM:学習済みモデルの配布 単語分散表現:hottoSNS-w2v – https://github.com/hottolink/hottoSNS-w2v ⽂分散表現:hottoSNS-bert – https://github.com/hottolink/hottoSNS-bert モデル名 分かち書き 学習⾔語

    学習ドメイン BERT Multi WordPiece 多⾔語 Wikipedia BERT JP SentencePiece ⽇本語 Wikipedia hottoSNS-BERT SentencePiece ⽇本語 Twitter モデル 相関係数 ⽇本語⼤規模SNS+Webコーパス 0.548 Wikipedia (ホットリンク) 0.478 Wikipedia (東北⼤) 0.472 第6回 Amazon SageMaker 事例祭り
  15. CM:⾔語理解とコミュニケーション研究会 第15回テキストアナリティクス・シンポジウム – 概要: • 学術・産業でテキスト解析を活⽤している⽅を対象とした研 究会 – ⽇程: •

    2019年 9⽉ 27⽇ (⾦) • 2019年 9⽉ 28⽇ (⼟) – 場所: • フューチャー株式会社 • 東京都品川区⼤崎1-2-2 アートヴィレッジ⼤崎セントラルタ ワー – http://www.ieice.org/~nlc/tm15a.html 第6回 Amazon SageMaker 事例祭り