テキストマイニングによるTwitter個人アカウントの性格推定 / Personal character estimation with Twitter - PyConJP 2018

テキストマイニングによるTwitter個人アカウントの性格推定 / Personal character estimation with Twitter - PyConJP 2018

「あなたこともっとよく知りたいの...」

こんな酔狂な願いもPythonなら叶えてくれます。
python-twitter, gensim, scikit-learnなどPythonのライブラリを利用してTwitter個人アカウントの性格推定を試みました。

スライドの詳細はブログをご覧ください。
https://jumpyoshim.hatenablog.com/entry/report-of-pyconjp-2018-lt

03f5fe5a70c0e79f07a5f88e2e42781c?s=128

Jumpei Yoshimura

September 17, 2018
Tweet

Transcript

  1. テキストマイニングによる テキストマイニングによる Twitter個人アカウントの性格推定 Twitter個人アカウントの性格推定 Character estimation of Twitter personal account

    by text mining Character estimation of Twitter personal account by text mining 2018‒09‒17 PyCon JP 2018 @jumpyoshim (Twitter/Qiita/GitLab/GitHub/はてなブログ) / 吉村 潤平 iRidge, Inc. ‒ Gold Sponsor
  2. 目次(INDEX) 目次(INDEX) ツイートの収集(Collection of tweets) 文書のベクトル化(Vectorization of sentences) 形態素解析(Morphological analysis)

    特徴ベクトル(Feature vector) 文書分類器(Document classifier) 機械学習(Machine learning)
  3. ツイートの収集(Collection of tweets) ツイートの収集(Collection of tweets) python‒twitter ‒ PyPI python‒twitter

    ‒ PyPI A Python wrapper around the Twitter API.
  4. 株式 会社 簡単 答 方 渡 草

  5. 文書のベクトル化(Vectorization of sentences) 文書のベクトル化(Vectorization of sentences) Bag‒of‒Words(BoW) Bag‒of‒Words(BoW) ベクトル表現の一種。 文章に単語が含まれるかどうかのみを考え、単語の

    並び方などは考慮しない形式のこと。
  6. 形態素解析(Morphological analysis) 形態素解析(Morphological analysis) 形態素解析 ‒ Wikipedia 形態素解析 ‒ Wikipedia

    形態素解析(けいたいそかいせき、Morphological Analysis)とは、文 法的な情報の注記の無い自然言語のテキストデータ(文)から、対象言語 の文法や、辞書と呼ばれる単語の品詞等の情報にもとづき、形態素 (Morpheme, おおまかにいえば、言語で意味を持つ最小単位)の列に分 割し、それぞれの形態素の品詞等を判別する作業である
  7. 名詞 一般 助詞 係助詞 名詞 一般 助詞 係助詞 名詞 一般

    助詞 連体化 名詞 非自立 副詞可能
  8. mecab‒python3 ‒ PyPI mecab‒python3 ‒ PyPI This python wrapper for

    mecab works on both python3.x and python2.x.
  9. 名詞 株式会社 簡単 答 方 渡 草

  10. 特徴ベクトル(Feature vector) 特徴ベクトル(Feature vector) gensim ‒ PyPI gensim ‒ PyPI

    Gensim is a Python library for topic modelling, document indexing and similarity retrieval with large corpora. Target audience is the natural language processing (NLP) and information retrieval (IR) community.
  11. None
  12. 文書分類器(Document classifier) 文書分類器(Document classifier) エゴグラム ‒ Wikipedia エゴグラム ‒ Wikipedia

    エゴグラム (Egogram) とは、エリック・バーン (Eric Berne) の交流分 析における自我状態をもとに、弟子であるジョン・M・デュセイ (John M. Dusay) が考案した性格診断法で、人の心を5つに分類し、その5つの 自我状態が放出する心的エネルギーの高さをグラフにしたもののこと であ る
  13. 5つの自我状態 5つの自我状態 CP(Critical Parent):支配性 NP(Nurturing Parent):寛容性 A(Adult):論理性 FC(Free Child):奔放性 AC(Adapted

    Child):順応性
  14. エゴグラムの推定方法 エゴグラムの推定方法 1. 医師による診断 2. ペーパーテスト 5要素のそれぞれに関する質問が10問程度ずつ、全部で50問程度の質問への回答する。最 終的にはグラフ化する。

  15. None
  16. 分類パターン 分類パターン グラフの形によって分類パターンが存在する。 ネクラ厭世タイプ(W型) 明朗楽観タイプ(M型) 優柔不断タイプ(N型) ハイパワータイプ(逆N型) 頭でっかちタイプ(逆V型) お手あげタイプ(V型) 典型的ネクラタイプ(U型)

    ぼんぼんタイプ(逆U型) 頑固オヤジタイプ(左上がり型) ガキ丸出しタイプ(右上がり型) ハイレベルタイプ(オールA型)
  17. 中庸タイプ(オールB型) 原始人タイプ(オールC型) ルーズタイプ(CP欠乏型) クールタイプ(NP欠乏型) 現実無視タイプ(A欠乏型) 自閉症タイプ(FC欠乏型) 気ままタイプ(AC欠乏型) 口うるさタイプ(CP型) お人好しタイプ(NP型) コンピュータタイプ(A型)

    自由奔放タイプ(FC型) 自己卑下タイプ(AC型)
  18. 機械学習(Machine learning) 機械学習(Machine learning) Twitter上にはエゴグラムのペーパーテストの結果をツイートしているアカウントが多数存在する。今回はそ のデータを正解ラベルとする。 scikit‒learn scikit‒learn scikit‒learn is

    a Python module for machine learning built on top of SciPy and distributed under the 3‒Clause BSD license.
  19. 厭世 型 明朗楽観 型 厭世 型 明朗楽観 型

  20. @PyConJの性格を推定してみよう @PyConJの性格を推定してみよう Let's estimate personality of @PyConJ Let's estimate personality

    of @PyConJ
  21. 収集 形態素解析 名詞 抽出 名詞 化 機械学習 人好 型