Slide 1

Slide 1 text

【悲報】TwitterのNLPがマジや ばたにえんの無理茶漬けwwwww 株式会社ホットリンク 榊 剛史 ⼭中 志⼀

Slide 2

Slide 2 text

ソーシャルメディア分析サービスに おけるNLPに関する諸問題について 株式会社ホットリンク 榊 剛史 ⼭中 志⼀

Slide 3

Slide 3 text

今⽇の発表 第6回 Amazon SageMaker 事例祭り Twitter上のテキスト処理の難しさを知ってもらう ツイートに対する前処理・分かち書きの⼯夫を紹介する 既存のNLPアプローチとEnd-to-Endアプローチを⽐較する

Slide 4

Slide 4 text

今⽇の発表 第6回 Amazon SageMaker 事例祭り Twitter上テキストに対するNLPの諸問題 問題への対処︓前処理の⼯夫 会社紹介 問題への対処︓⼿法による⼯夫

Slide 5

Slide 5 text

今⽇の発表 第6回 Amazon SageMaker 事例祭り Twitter上テキストに対するNLPの諸問題 問題への対処︓前処理の⼯夫 会社紹介 問題への対処︓⼿法による⼯夫

Slide 6

Slide 6 text

軽く⾃⼰紹介 榊 剛史 (株)ホットリンク R&D部部⻑,PhD 東京⼤学 客員研究員 推しの研究分野 – ⼈⼯知能 – 計算社会科学 – ⾃然⾔語処理 第6回 Amazon SageMaker 事例祭り ⼭中 志⼀ (株)ホットリンク リサーチプログラマ 推しの開発ツール – AWS • SageMaker • Fargate @tksakaki

Slide 7

Slide 7 text

Big Data Social AI 事業コンセプト 第6回 Amazon SageMaker 事例祭り ソーシャル・ビッグデータを活⽤し, 「データとAIで意思決定をサポートする」ことを⽬指し, マーケティングに関わる事業を運営・提供しています.

Slide 8

Slide 8 text

ソーシャルメディア分析ツール 第6回 Amazon SageMaker 事例祭り https://service.hottolink.co.jp/service/kakaricho/ 投 影 俯 瞰 ネット世界 リアル世界 世界観

Slide 9

Slide 9 text

ソーシャルメディアアカウント運用ツール 第6回 Amazon SageMaker 事例祭り https://service.hottolink.co.jp/service/buzzspreader/ https://hashtag-ai.buzzspreader.com これまでの情報発信 SNSを活用した情報発信・拡散 世界観

Slide 10

Slide 10 text

今⽇の発表 第6回 Amazon SageMaker 事例祭り Twitter上テキストに対するNLPの諸問題 問題への対処︓前処理の⼯夫 会社紹介 問題への対処︓⼿法による⼯夫

Slide 11

Slide 11 text

ソーシャルメディア分析ツール 第6回 Amazon SageMaker 事例祭り

Slide 12

Slide 12 text

ソーシャルメディア分析ツール 第6回 Amazon SageMaker 事例祭り

Slide 13

Slide 13 text

ソーシャルメディア分析ツールの機能 検索機能 記事数集計 本⽂抽出

Slide 14

Slide 14 text

ソーシャルメディア分析ツールの機能 関連語

Slide 15

Slide 15 text

分析機能とNLP技術の関係 検索 関連語 話題語 評判 属性推定 スパム判定 形態素解析 (分かち書き) 複合語処理 評判分析 スパムフィルタ ユーザ属性 係り受け解析 ソーシャルメディアの⽂書 前処理

Slide 16

Slide 16 text

Twitterに⾒られる⽂書の特徴 【悲報】TwitterのNLPがマジ やばたにえんの無理茶漬けwwwww 意味の無い 煽り⽂句 コミュニティに 特化した略語 全⾓の中に突如現れる 突然の半⾓︕ 絵⽂字 謎の慣⽤句 その慣⽤句の中に 絵⽂字 ⻑さが不安定な草

Slide 17

Slide 17 text

Twitterに⾒られる⽂書の特徴 【悲報】TwitterのNLPがマジ やばたにえんの無理茶漬けwwwww 意味の無い 煽り⽂句 コミュニティに 特化した略語 全⾓の中に突如現れる 突然の半⾓︕ 絵⽂字 謎の慣⽤句 その慣⽤句の中に 絵⽂字 ⻑さが不安定な草 種類 説明 複合名詞 ⼀般単名詞が連接して作られる名詞 固有表現(複合名詞含む) ⼈名や地名などといった固有名詞や、⽇付表現、時間表現など 専⾨⽤語(jargon) 特定の集団のみで通じる⽤語、略語 ⼝語表現(Slang) 話し⾔葉のようなくだけた表現、意味の無い表現 顔⽂字・絵⽂字(emoticon) 表情や動作を図的に表現する⽂字や記号、単独の⽂字の集合 テキストメタ情報 テキスト形式で本⽂に埋め込まれたメタ情報

Slide 18

Slide 18 text

分析機能とNLP技術の関係 検索 関連語 話題語 形態素解析 (分かち書き) 複合語処理 ソーシャルメディアの⽂書 前処理

Slide 19

Slide 19 text

分析機能とNLP技術の関係 検索 関連語 話題語 形態素解析 (分かち書き) 複合語処理 ソーシャルメディアの⽂書 前処理

Slide 20

Slide 20 text

対処⽅法:前処理の⼯夫 前処理 正規化 •NFKC正規化 •Neologd⽅式の正規化 •neologdn •⼤⽂字・⼩⽂字正規化 不要表現除去 •絵⽂字・顔⽂字 •草 •Html-encoding etc. メタ情報 除去・抽出 •URL •RT/メンション •ハッシュタグ(抽出) etc. 等価な⽂字や⽂字の並 びを統⼀的な内部表現 に変換すること

Slide 21

Slide 21 text

対処⽅法:前処理の⼯夫 前処理 正規化 •NFKC正規化 •Neologd⽅式の正規化 •neologdn •⼤⽂字・⼩⽂字正規化 不要表現除去 •絵⽂字・顔⽂字 •草 •Html-encoding etc. メタ情報 除去・抽出 •URL •RT/メンション •ハッシュタグ(抽出) etc. 【悲報】TwitterのNLPがマジやば たにえんの無理茶漬けwwwww 【悲報】 TwitterのNLPがマジやばたに えんの無理茶漬けwwwww 【悲報】 TwitterのNLPがマジやばたに えんの無理茶漬け 【悲報】TwitterのNLPがマジやば たにえんの無理茶漬けwwwww

Slide 22

Slide 22 text

分析機能とNLP技術の関係 検索 関連語 話題語 形態素解析 (分かち書き) 複合語処理 ソーシャルメディアの⽂書 前処理

Slide 23

Slide 23 text

対処⽅法:分かち書きの⼯夫 辞書の工夫 辞書の 使い分け • 検索インデキシング︓ipadic • カタカナ語︓unidic • キーワード抽出︓ • mecab-ipadic-Neologd 辞書の 拡張 • 動詞の追加 • 形容詞の追加 ※件数が多いもののみ 解析器の 使い分け • 速度重視︓MeCab • 新語・未知語対応︓JUMAN 解析結果 の再構築 •ルールベースによる結合 アガる,ドヤる 解析器の工夫 複合語の種類 品詞 具体例 サ変名詞+補助 動詞 動詞 達成できる,協⼒いたしま せん 形容動詞+に+な る|する 動詞 きれいになる,静かにする 形容詞+形容詞 形容 詞 暑苦しい,細⻑い,⽢酸っ ぱい,⻘臭い 動詞+形容詞 形容 詞 歩きやすい,⾷べにくい, 許しがたい エモい,サムい

Slide 24

Slide 24 text

今⽇の発表 第6回 Amazon SageMaker 事例祭り 問題への対処:手法による工夫 問題への対処︓前処理の⼯夫 会社紹介 Twitter上テキストに対するNLPの諸問題

Slide 25

Slide 25 text

問題への対処:⼿法による⼯夫 SNS投稿からのキーフレーズ抽出 SNS投稿のテキスト分類比較

Slide 26

Slide 26 text

SNS投稿からのキーフレーズ抽出

Slide 27

Slide 27 text

SNS投稿からのキーフレーズ抽出 – SNS投稿から,投稿のトピックを代表するフレーズを抽出する – ⼊⼒︓SNS投稿(もしくはスニペット) – 出⼒︓キーフレーズリスト – 昨⽇の君の名はのついったー実況はめっちゃ盛り上がった – 君の名は,ついったー,実況 ⽬的 ⽅法論 サンプル

Slide 28

Slide 28 text

SNS投稿からのキーフレーズ抽出 ⼿法 レインボー Char embedding CNN Word embedding PoS embedding BiLSTM CRF わたあめ Char embedding CNN Word embedding PoS embedding BiLSTM CRF BiLSTM – Char CNN – PoS – CRF (系列ラベリング) ハッシュタグをキーフレーズとし、SNSデータ約1.5年分を使用して学習 例) 入力:念願 の レインボー わたあめ 食べ た 出力:O O B I O O

Slide 29

Slide 29 text

SNS投稿からのキーフレーズ抽出 Precision Recall F1 単語ベース 0.842 0.765 0.800 キーフレーズベース 0.728 0.600 0.658 • ハッシュタグによる検証 • 人手で作成したキーフレーズデータでの検証 Precision Recall F1 辞書ベース⼿法 + Heuristics (1) 0.447 0.336 0.383 DNN(2) 0.574 0.349 0.434 (1)&(2) 0.472 0.538 0.503

Slide 30

Slide 30 text

SNS投稿のテキスト分類⽐較 前処理、分かち書きに 疲れました..... 前処理、分かち書き、 がイヤなら、 そのまま突っ込めばいいじ ゃない?

Slide 31

Slide 31 text

SNS投稿のテキスト分類⽐較 ホットリンク : 名詞 固有名詞 組織 * * の : 助詞 連体化 * * * メルマガ : 名詞 固有名詞 一般 * * は : 助詞 係助詞 * * * あったかい : 形容詞 自立 * * 形容詞・アウオ段 ホ, ッ, ト, リ, ン, ク, の, メ, ル , マ, ガ, は, あ, っ, た, か, い コツコツ分かち書き ⽂字ごとそのまま

Slide 32

Slide 32 text

SNS投稿のテキスト分類⽐較 ⼿法 BiLSTM ⼊⼒1 embedding LSTM LSTM ⼊⼒2 embedding LSTM LSTM ⼊⼒N embedding LSTM LSTM FCN クラス BiLSTMでのテキスト分類で単語単位、文字単位の精度を比較 SNSテキストデータのアフィリエイト判定を行う 学習データ:約2万件 アフィリエイト : 非アフィリエイト = 1 : 1 (単語の分かち書きはneologd)

Slide 33

Slide 33 text

SNS投稿のテキスト分類⽐較 ホットリンク Word embedding LSTM LSTM の Word embedding LSTM LSTM あったかい Word embedding LSTM LSTM FCN クラス ホ Char embedding LSTM LSTM ッ Char embedding LSTM LSTM い Char embedding LSTM LSTM FCN クラス • 単語単位で分割 → ホットリンク, の, メルマガ, は, あったかい • 文字単位で分割 → ホ, ッ, ト, リ, ン, ク, の, メ, ル, マ, ガ, は, あ, っ, た, か, い 例文)ホットリンクのメルマガはあったかい

Slide 34

Slide 34 text

SNS投稿のテキスト分類⽐較 • 単語:30398種類 • 文字:3269種類 • 処理時間は1.5倍 – 単語ベースの⽅が速い • ⽇本語SNS投稿において⽂字ベースでは – モデルの改善 – より多くのデータが必要 • 単語を適切に処理したほうがいい Precision Recall F1 単語ベース 0.967 0.967 0.967 ⽂字ベース 0.951 0.949 0.950

Slide 35

Slide 35 text

今⽇の発表 第6回 Amazon SageMaker 事例祭り Twitter上のテキスト処理の難しさを知ってもらう ツイートに対する前処理・分かち書きの⼯夫を紹介する 既存のNLPアプローチとEnd-to-Endアプローチを⽐較する

Slide 36

Slide 36 text

CM:学習済みモデルの配布 単語分散表現:hottoSNS-w2v – https://github.com/hottolink/hottoSNS-w2v ⽂分散表現:hottoSNS-bert – https://github.com/hottolink/hottoSNS-bert モデル名 分かち書き 学習⾔語 学習ドメイン BERT Multi WordPiece 多⾔語 Wikipedia BERT JP SentencePiece ⽇本語 Wikipedia hottoSNS-BERT SentencePiece ⽇本語 Twitter モデル 相関係数 ⽇本語⼤規模SNS+Webコーパス 0.548 Wikipedia (ホットリンク) 0.478 Wikipedia (東北⼤) 0.472 第6回 Amazon SageMaker 事例祭り

Slide 37

Slide 37 text

CM:⾔語理解とコミュニケーション研究会 第15回テキストアナリティクス・シンポジウム – 概要: • 学術・産業でテキスト解析を活⽤している⽅を対象とした研 究会 – ⽇程: • 2019年 9⽉ 27⽇ (⾦) • 2019年 9⽉ 28⽇ (⼟) – 場所: • フューチャー株式会社 • 東京都品川区⼤崎1-2-2 アートヴィレッジ⼤崎セントラルタ ワー – http://www.ieice.org/~nlc/tm15a.html 第6回 Amazon SageMaker 事例祭り