タイトル:【悲報】TwitterのNLPがマジ😂😂やばたにえん🙅の無理茶漬けwwwww
NLPを活用したソーシャルメディアマーケティングの支援機能を紹介しつつ,ソーシャルメディアの投稿にNLP技術を適用する上での諸問題とその対処方法を紹介します。
【悲報】TwitterのNLPがマジやばたにえんの無理茶漬けwwwww株式会社ホットリンク榊 剛史 ⼭中 志⼀
View Slide
ソーシャルメディア分析サービスにおけるNLPに関する諸問題について株式会社ホットリンク榊 剛史 ⼭中 志⼀
今⽇の発表第6回 Amazon SageMaker 事例祭りTwitter上のテキスト処理の難しさを知ってもらうツイートに対する前処理・分かち書きの⼯夫を紹介する既存のNLPアプローチとEnd-to-Endアプローチを⽐較する
今⽇の発表第6回 Amazon SageMaker 事例祭りTwitter上テキストに対するNLPの諸問題問題への対処︓前処理の⼯夫会社紹介問題への対処︓⼿法による⼯夫
軽く⾃⼰紹介榊 剛史 (株)ホットリンク R&D部部⻑,PhD東京⼤学 客員研究員推しの研究分野– ⼈⼯知能– 計算社会科学– ⾃然⾔語処理第6回 Amazon SageMaker 事例祭り⼭中 志⼀ (株)ホットリンクリサーチプログラマ推しの開発ツール– AWS• SageMaker• Fargate@tksakaki
Big DataSocialAI事業コンセプト第6回 Amazon SageMaker 事例祭りソーシャル・ビッグデータを活⽤し,「データとAIで意思決定をサポートする」ことを⽬指し,マーケティングに関わる事業を運営・提供しています.
ソーシャルメディア分析ツール第6回 Amazon SageMaker 事例祭りhttps://service.hottolink.co.jp/service/kakaricho/投 影俯 瞰ネット世界リアル世界世界観
ソーシャルメディアアカウント運用ツール第6回 Amazon SageMaker 事例祭りhttps://service.hottolink.co.jp/service/buzzspreader/https://hashtag-ai.buzzspreader.comこれまでの情報発信 SNSを活用した情報発信・拡散世界観
ソーシャルメディア分析ツール第6回 Amazon SageMaker 事例祭り
ソーシャルメディア分析ツールの機能検索機能 記事数集計本⽂抽出
ソーシャルメディア分析ツールの機能関連語
分析機能とNLP技術の関係検索 関連語話題語 評判属性推定 スパム判定形態素解析(分かち書き)複合語処理 評判分析スパムフィルタユーザ属性係り受け解析ソーシャルメディアの⽂書前処理
Twitterに⾒られる⽂書の特徴【悲報】TwitterのNLPがマジやばたにえんの無理茶漬けwwwww意味の無い煽り⽂句コミュニティに特化した略語全⾓の中に突如現れる突然の半⾓︕絵⽂字謎の慣⽤句 その慣⽤句の中に絵⽂字⻑さが不安定な草
Twitterに⾒られる⽂書の特徴【悲報】TwitterのNLPがマジやばたにえんの無理茶漬けwwwww意味の無い煽り⽂句コミュニティに特化した略語全⾓の中に突如現れる突然の半⾓︕絵⽂字謎の慣⽤句 その慣⽤句の中に絵⽂字⻑さが不安定な草種類 説明複合名詞 ⼀般単名詞が連接して作られる名詞固有表現(複合名詞含む) ⼈名や地名などといった固有名詞や、⽇付表現、時間表現など専⾨⽤語(jargon) 特定の集団のみで通じる⽤語、略語⼝語表現(Slang) 話し⾔葉のようなくだけた表現、意味の無い表現顔⽂字・絵⽂字(emoticon) 表情や動作を図的に表現する⽂字や記号、単独の⽂字の集合テキストメタ情報 テキスト形式で本⽂に埋め込まれたメタ情報
分析機能とNLP技術の関係検索 関連語話題語形態素解析(分かち書き)複合語処理ソーシャルメディアの⽂書前処理
対処⽅法:前処理の⼯夫前処理正規化•NFKC正規化•Neologd⽅式の正規化•neologdn•⼤⽂字・⼩⽂字正規化不要表現除去•絵⽂字・顔⽂字•草•Html-encodingetc.メタ情報除去・抽出•URL•RT/メンション•ハッシュタグ(抽出)etc.等価な⽂字や⽂字の並びを統⼀的な内部表現に変換すること
対処⽅法:前処理の⼯夫前処理正規化•NFKC正規化•Neologd⽅式の正規化•neologdn•⼤⽂字・⼩⽂字正規化不要表現除去•絵⽂字・顔⽂字•草•Html-encodingetc.メタ情報除去・抽出•URL•RT/メンション•ハッシュタグ(抽出)etc.【悲報】TwitterのNLPがマジやばたにえんの無理茶漬けwwwww【悲報】 TwitterのNLPがマジやばたにえんの無理茶漬けwwwww【悲報】 TwitterのNLPがマジやばたにえんの無理茶漬け【悲報】TwitterのNLPがマジやばたにえんの無理茶漬けwwwww
対処⽅法:分かち書きの⼯夫辞書の工夫辞書の使い分け• 検索インデキシング︓ipadic• カタカナ語︓unidic• キーワード抽出︓• mecab-ipadic-Neologd辞書の拡張• 動詞の追加• 形容詞の追加※件数が多いもののみ解析器の使い分け• 速度重視︓MeCab• 新語・未知語対応︓JUMAN解析結果の再構築•ルールベースによる結合アガる,ドヤる解析器の工夫複合語の種類 品詞 具体例サ変名詞+補助動詞動詞達成できる,協⼒いたしません形容動詞+に+なる|する動詞 きれいになる,静かにする形容詞+形容詞形容詞暑苦しい,細⻑い,⽢酸っぱい,⻘臭い動詞+形容詞形容詞歩きやすい,⾷べにくい,許しがたいエモい,サムい
今⽇の発表第6回 Amazon SageMaker 事例祭り問題への対処:手法による工夫問題への対処︓前処理の⼯夫会社紹介Twitter上テキストに対するNLPの諸問題
問題への対処:⼿法による⼯夫SNS投稿からのキーフレーズ抽出SNS投稿のテキスト分類比較
SNS投稿からのキーフレーズ抽出
SNS投稿からのキーフレーズ抽出– SNS投稿から,投稿のトピックを代表するフレーズを抽出する– ⼊⼒︓SNS投稿(もしくはスニペット)– 出⼒︓キーフレーズリスト– 昨⽇の君の名はのついったー実況はめっちゃ盛り上がった– 君の名は,ついったー,実況⽬的⽅法論サンプル
SNS投稿からのキーフレーズ抽出⼿法レインボーCharembeddingCNNWord embeddingPoS embeddingBiLSTM CRF わたあめCharembeddingCNNWord embeddingPoS embeddingBiLSTM CRF BiLSTM – Char CNN – PoS – CRF (系列ラベリング)ハッシュタグをキーフレーズとし、SNSデータ約1.5年分を使用して学習例)入力:念願 の レインボー わたあめ 食べ た出力:O O B I O O
SNS投稿からのキーフレーズ抽出Precision Recall F1単語ベース 0.842 0.765 0.800キーフレーズベース 0.728 0.600 0.658• ハッシュタグによる検証• 人手で作成したキーフレーズデータでの検証Precision Recall F1辞書ベース⼿法 +Heuristics (1)0.447 0.336 0.383DNN(2) 0.574 0.349 0.434(1)&(2) 0.472 0.538 0.503
SNS投稿のテキスト分類⽐較前処理、分かち書きに疲れました.....前処理、分かち書き、がイヤなら、そのまま突っ込めばいいじゃない?
SNS投稿のテキスト分類⽐較ホットリンク : 名詞 固有名詞 組織 * *の : 助詞 連体化 * * *メルマガ : 名詞 固有名詞 一般 * *は : 助詞 係助詞 * * *あったかい : 形容詞 自立 * * 形容詞・アウオ段ホ, ッ, ト, リ, ン, ク, の, メ, ル, マ, ガ, は, あ, っ, た, か, いコツコツ分かち書き ⽂字ごとそのまま
SNS投稿のテキスト分類⽐較⼿法BiLSTM⼊⼒1 embedding LSTM LSTM⼊⼒2 embedding LSTM LSTM⼊⼒N embedding LSTM LSTM FCN クラスBiLSTMでのテキスト分類で単語単位、文字単位の精度を比較SNSテキストデータのアフィリエイト判定を行う学習データ:約2万件アフィリエイト : 非アフィリエイト = 1 : 1(単語の分かち書きはneologd)
SNS投稿のテキスト分類⽐較ホットリンク Word embedding LSTM LSTMの Word embedding LSTM LSTMあったかい Word embedding LSTM LSTM FCN クラスホ Char embedding LSTM LSTMッ Char embedding LSTM LSTMい Char embedding LSTM LSTM FCN クラス• 単語単位で分割 → ホットリンク, の, メルマガ, は, あったかい• 文字単位で分割 → ホ, ッ, ト, リ, ン, ク, の, メ, ル, マ, ガ, は, あ, っ, た, か, い例文)ホットリンクのメルマガはあったかい
SNS投稿のテキスト分類⽐較• 単語:30398種類• 文字:3269種類• 処理時間は1.5倍– 単語ベースの⽅が速い• ⽇本語SNS投稿において⽂字ベースでは– モデルの改善– より多くのデータが必要• 単語を適切に処理したほうがいいPrecision Recall F1単語ベース 0.967 0.967 0.967⽂字ベース 0.951 0.949 0.950
CM:学習済みモデルの配布単語分散表現:hottoSNS-w2v– https://github.com/hottolink/hottoSNS-w2v⽂分散表現:hottoSNS-bert– https://github.com/hottolink/hottoSNS-bertモデル名 分かち書き 学習⾔語 学習ドメインBERT Multi WordPiece 多⾔語 WikipediaBERT JP SentencePiece ⽇本語 WikipediahottoSNS-BERT SentencePiece ⽇本語 Twitterモデル 相関係数⽇本語⼤規模SNS+Webコーパス 0.548Wikipedia (ホットリンク) 0.478Wikipedia (東北⼤) 0.472第6回 Amazon SageMaker 事例祭り
CM:⾔語理解とコミュニケーション研究会第15回テキストアナリティクス・シンポジウム– 概要:• 学術・産業でテキスト解析を活⽤している⽅を対象とした研究会– ⽇程:• 2019年 9⽉ 27⽇ (⾦)• 2019年 9⽉ 28⽇ (⼟)– 場所:• フューチャー株式会社• 東京都品川区⼤崎1-2-2 アートヴィレッジ⼤崎セントラルタワー– http://www.ieice.org/~nlc/tm15a.html第6回 Amazon SageMaker 事例祭り