Slide 1

Slide 1 text

テキストマイニングによる テキストマイニングによる Twitter個人アカウントの性格推定 Twitter個人アカウントの性格推定 Character estimation of Twitter personal account by text mining Character estimation of Twitter personal account by text mining 2018‒09‒17 PyCon JP 2018 @jumpyoshim (Twitter/Qiita/GitLab/GitHub/はてなブログ) / 吉村 潤平 iRidge, Inc. ‒ Gold Sponsor

Slide 2

Slide 2 text

目次(INDEX) 目次(INDEX) ツイートの収集(Collection of tweets) 文書のベクトル化(Vectorization of sentences) 形態素解析(Morphological analysis) 特徴ベクトル(Feature vector) 文書分類器(Document classifier) 機械学習(Machine learning)

Slide 3

Slide 3 text

ツイートの収集(Collection of tweets) ツイートの収集(Collection of tweets) python‒twitter ‒ PyPI python‒twitter ‒ PyPI A Python wrapper around the Twitter API.

Slide 4

Slide 4 text

株式 会社 簡単 答 方 渡 草

Slide 5

Slide 5 text

文書のベクトル化(Vectorization of sentences) 文書のベクトル化(Vectorization of sentences) Bag‒of‒Words(BoW) Bag‒of‒Words(BoW) ベクトル表現の一種。 文章に単語が含まれるかどうかのみを考え、単語の 並び方などは考慮しない形式のこと。

Slide 6

Slide 6 text

形態素解析(Morphological analysis) 形態素解析(Morphological analysis) 形態素解析 ‒ Wikipedia 形態素解析 ‒ Wikipedia 形態素解析(けいたいそかいせき、Morphological Analysis)とは、文 法的な情報の注記の無い自然言語のテキストデータ(文)から、対象言語 の文法や、辞書と呼ばれる単語の品詞等の情報にもとづき、形態素 (Morpheme, おおまかにいえば、言語で意味を持つ最小単位)の列に分 割し、それぞれの形態素の品詞等を判別する作業である

Slide 7

Slide 7 text

名詞 一般 助詞 係助詞 名詞 一般 助詞 係助詞 名詞 一般 助詞 連体化 名詞 非自立 副詞可能

Slide 8

Slide 8 text

mecab‒python3 ‒ PyPI mecab‒python3 ‒ PyPI This python wrapper for mecab works on both python3.x and python2.x.

Slide 9

Slide 9 text

名詞 株式会社 簡単 答 方 渡 草

Slide 10

Slide 10 text

特徴ベクトル(Feature vector) 特徴ベクトル(Feature vector) gensim ‒ PyPI gensim ‒ PyPI Gensim is a Python library for topic modelling, document indexing and similarity retrieval with large corpora. Target audience is the natural language processing (NLP) and information retrieval (IR) community.

Slide 11

Slide 11 text

No content

Slide 12

Slide 12 text

文書分類器(Document classifier) 文書分類器(Document classifier) エゴグラム ‒ Wikipedia エゴグラム ‒ Wikipedia エゴグラム (Egogram) とは、エリック・バーン (Eric Berne) の交流分 析における自我状態をもとに、弟子であるジョン・M・デュセイ (John M. Dusay) が考案した性格診断法で、人の心を5つに分類し、その5つの 自我状態が放出する心的エネルギーの高さをグラフにしたもののこと であ る

Slide 13

Slide 13 text

5つの自我状態 5つの自我状態 CP(Critical Parent):支配性 NP(Nurturing Parent):寛容性 A(Adult):論理性 FC(Free Child):奔放性 AC(Adapted Child):順応性

Slide 14

Slide 14 text

エゴグラムの推定方法 エゴグラムの推定方法 1. 医師による診断 2. ペーパーテスト 5要素のそれぞれに関する質問が10問程度ずつ、全部で50問程度の質問への回答する。最 終的にはグラフ化する。

Slide 15

Slide 15 text

No content

Slide 16

Slide 16 text

分類パターン 分類パターン グラフの形によって分類パターンが存在する。 ネクラ厭世タイプ(W型) 明朗楽観タイプ(M型) 優柔不断タイプ(N型) ハイパワータイプ(逆N型) 頭でっかちタイプ(逆V型) お手あげタイプ(V型) 典型的ネクラタイプ(U型) ぼんぼんタイプ(逆U型) 頑固オヤジタイプ(左上がり型) ガキ丸出しタイプ(右上がり型) ハイレベルタイプ(オールA型)

Slide 17

Slide 17 text

中庸タイプ(オールB型) 原始人タイプ(オールC型) ルーズタイプ(CP欠乏型) クールタイプ(NP欠乏型) 現実無視タイプ(A欠乏型) 自閉症タイプ(FC欠乏型) 気ままタイプ(AC欠乏型) 口うるさタイプ(CP型) お人好しタイプ(NP型) コンピュータタイプ(A型) 自由奔放タイプ(FC型) 自己卑下タイプ(AC型)

Slide 18

Slide 18 text

機械学習(Machine learning) 機械学習(Machine learning) Twitter上にはエゴグラムのペーパーテストの結果をツイートしているアカウントが多数存在する。今回はそ のデータを正解ラベルとする。 scikit‒learn scikit‒learn scikit‒learn is a Python module for machine learning built on top of SciPy and distributed under the 3‒Clause BSD license.

Slide 19

Slide 19 text

厭世 型 明朗楽観 型 厭世 型 明朗楽観 型

Slide 20

Slide 20 text

@PyConJの性格を推定してみよう @PyConJの性格を推定してみよう Let's estimate personality of @PyConJ Let's estimate personality of @PyConJ

Slide 21

Slide 21 text

収集 形態素解析 名詞 抽出 名詞 化 機械学習 人好 型