Upgrade to Pro — share decks privately, control downloads, hide ads and more …

#ビジネススクールのための実践的データ分析 δ.「ブスのマーケティング戦略」をテキスト解析してみよう

#ビジネススクールのための実践的データ分析 δ.「ブスのマーケティング戦略」をテキスト解析してみよう

#ビジネススクールのための実践的データ分析
δ.「ブスのマーケティング戦略」をテキスト解析してみよう

早稲田大学ビジネススクール WBSデータ分析部 3-202教室
2019/7/20 20:00-21:30
一橋大学 経済学研究科 原泰史
[email protected]

yasushihara

July 20, 2019
Tweet

More Decks by yasushihara

Other Decks in Education

Transcript

  1. 自己紹介 • Yasushi HARA • 1998-2004 • TOYOTA NATIONAL COLLEGE

    OF TECHNOLOGY • 2000 • Exchange Student in Malaysia • 2002-2009 • CLARAONLINE, INC. • ICT Hosting Company, nowadays called Cloud system supplier • 2009-2015 • Institute of Innovation Research, HITOTSUBASHI UNIVERSITY • 2015-2017 • Science for RE-Designing Science, Technology and Innovation Policy Center, National Graduate Institute for Policy Studies (GRIPS) / NISTEP / Hitotsubashi UNIVERSITY/MANAGEMENT INNOVATION CENTER • 2018-2019 • EHESS Paris – CEAFJP/Michelin Research Fellow • OECD Expert Advisory Group: Digital Science and Innovation Policy and Governance (DSIP) and STI Policy Monitoring and Analysis (REITER) project • 2019- • TDB Center for Advanced Empirical Research on Enterprise and Economy, Faculty of Economics, Hitotsubashi University
  2. 自己紹介(2) • 主な研究テーマ • 大規模データを活用したイノベーションプロセスの解析が現在の主な 研究テーマです。大学あるいは研究機関で生み出された基礎研究が、 特許あるいは論文などの著作物を媒介して企業の研究開発へと活用さ れ、それがどのような経済的・社会的価値を生み出すイノベーション へと結実するか、 •

    複数のデータソースを組み合わせることでその動態を解析しています。 特許、学術論文、財務データベースおよび、企業活動を包括的に記述 したデータベースを相互に結合することで、定量的な解析を行ってい ます。具体的なフィールドとしては、製薬・バイオ産業および再生医 療分野に関連した解析を行ってきました。また、無形資産が果たす役 割についても近年関心を持っています。
  3. 「ブスのマーケティング戦略」 夢見ることをあきらめたブスと、 劣化が始まった美人へ 推薦! 早稲田大学ビジネススクール准教授・入山章栄氏。 税理士である著者の爆笑半生記と、まじめなマーケティング理論&行動提案が組み合わさった、画期的な1冊! この本はブスの自虐エッセイではないれっきとした実用書である。 税理士、大学院生、一児の母、そしてブスである著者が、これまでの人生で学んだ戦略を、具体的な行動提案として記し たものだ。 この戦略の目的はふたつ。

    1.ブスの幸せな結婚 2.ブスの経済的な自立 である。 著者がこれまでやってきた戦略は、マーケティング理論にのっとったものであった。 結婚したい。 いい男とやりたい。 年収1000万円になりたい。 起業して成功したい。 そんな願いをかなえるためには、自分自身の本質を見極め(プロダクト解析)、自分のいまいる場所(市場)と、ライバルの 特性(競合)を精査しなければならない。 本書に書いてある「ブスの作業33」項目を実際に行動に移しさえすれば、幸せな結婚と経済的自立がかなう。と思う。
  4. Jupyter Notebook のインストール(1) • 1. https://anaconda.com にアクセスし, Python3.7 バージョン の

    [Download] をクリック Windows版 Mac版 ダウンロードが終わるまで待つ。
  5. 2. Mecab+word2vecで解析し, wordcloud を書いてみる • Jupyter Notebook/Google Colaboratory • Mecab

    • Mecab-ipadic-neologd • Mecab-python-windows (Windows ユーザーの場合) 利用するもの • テキストデータ • 「ブスのマーケティング戦略」 データセット
  6. MeCab とは • https://taku910.github.io/mec ab/ • 京都大学情報学研究科−日本 電信電話株式会社コミュニケー ション科学基礎研究所 共同研

    究ユニットプロジェクトを通じ て開発されたオープンソース 形態素解析エンジン • 言語, 辞書,コーパスに依存しな い汎用的な設計 • パラメータの推定に Conditional Random Fields (CRF) を用 いており, ChaSen が採用している 隠れマルコフ モデルに比べ性能が向上 MeCab ChaSen JUMAN KAKASI 解析モデル bi-gram マルコ フモデル 可変長マルコ フモデル bi-gram マル コフモデル 最長一致 コスト推定 コーパスから学 習 コーパスから 学習 人手 コストという 概念無し 学習モデル CRF (識別モデ ル) HMM (生成モ デル) 辞書引きア ルゴリズム Double Array Double Array パトリシア木 Hash? 解探索アル ゴリズム Viterbi Viterbi Viterbi 決定的? 連接表の実 装 2次元 Table オートマトン 2次元 Table? 連接表無し? 品詞の階層 無制限多階層品 詞 無制限多階層 品詞 2段階固定 品詞という概 念無し? 未知語処理 字種 (動作定義 を変更可能) 字種 (変更不 可能) 字種 (変更不 可能) 制約つき解 析 可能 2.4.0で可能 不可能 不可能 N-best解 可能 不可能 不可能 不可能
  7. Mecab をダウンロードする • Windows 10 環境の場合 • https://github.com/ikegami-yukino/mecab/releases • MeCab

    0.996 64bit version を導入する • UTF-8 版で辞書を作成すること • MacOS 環境の場合 • HomeBrew 環境を利用する • https://www.karelie.net/install-mecab-mac/
  8. Mecab-ipadic-NEOlogd とは • https://github.com/neologd/ mecab-ipadic- neologd/blob/master/READ ME.ja.md • 多数のWeb上の言語資源から 得た新語を追加することでカ

    スタマイズした MeCab 用の システム辞書 • Web上の文書の解析をする際 に活用できる • 収録データ(一部) • 人名(姓/名)エントリデータ • ニュース記事から抽出した新語 や未知語をエントリ化したデー タ • ネット上で流行した単語や慣用 句やハッシュタグをエントリ化 したデータ • Web からクロールした大量の 文書データ • 一般名詞/固有名詞の表記ゆれ 文字列とその原型の組のリスト をエントリ化したデータ
  9. 1. Wordcloud • Wordcloud関数を用いて, ワードクラウドを出力する • Font_path で利用する日本 語フォントを指定する(今回 は同じパスに配置)

    • Mask で, プロットするマス ク画像を指定する • Stopwords に, プロットしな いタームを指定したベクト ル stop_wordsを指定する • wordc.to_file でファイルの 保存名を指定する
  10. 2. Word2vec • テキストデータを解析し, 各 単語の意味をベクトル表現 化する • 単語間の近接性などを測定 することが可能に

    • Skip-Gram Model • 入力された単語を元に周辺語 を出力する, 入力層, 隠れ層, 出力層から構成されたニュー ラルネットワークを規定する 引用; https://www.randpy.tokyo/entry/word2vec_skip_gram_model
  11. 2. Word2Vec • 文を単語に分かち書きし, そ れぞれ入力層と出力層にイ ンプットしニューラルネッ トに学習させていく • 入力層から隠れ層への重み行列;

    W 隠れ層から出力層への重み行列; W’ をそれぞれ計算する • このとき、重み行列の各行のベクトルが, 単語の特徴を示すベクトルになる 引用; https://www.randpy.tokyo/entry/word2vec_skip_gram_model
  12. 2. Word2vec • 分かち書きしたファイルに 基づき, Word2vec モデル を生成する • このとき

    • Min_count; 単語の出現回数 • Window; 入力単語からの最 大距離 • Size; ベクトルの次元数 • Sg=1; skip-gram 形式での モデリング • iter; 学習の反復回数 • 最後にファイルを保存する
  13. Similarity Words の抽出 セックス 童貞 処女 男 女 しま 0.36

    ッチャ 0.43 喪失 0.68 好か 0.38 試み 0.35 手っ取り早く 0.33 ずばり 0.43 捨てる 0.51 出会える 0.36 できあがっ 0.34 気持ちよかっ 0.32 口調 0.38 広げる 0.38 本音 0.31 割合 0.34 満たせる 0.31 落とし 0.38 却歳 0.35 っす 0.30 はずれ 0.32 付き合う 0.30 早口 0.36 掲げ 0.35 逃げよ 0.30 加代 0.32 最中 0.29 はじまっ 0.35 驚く 0.34 僕 0.30 こうして 0.30 フリ 0.28 だめ 0.34 手順 0.34 やれれ 0.30 多量 0.29 チュー 0.27 勝負 0.34 域 0.33 天秤 0.29 好ましい 0.29 存在意義 0.27 悲しん 0.32 可動 0.32 異常 0.28 ひとえに 0.28 動物 0.27 見捨て 0.31 まくる 0.32 太る 0.28 問わ 0.28 楽しむ 0.26 単なる 0.30 行動力 0.32 釣り合う 0.28 ども 0.28 おとす 0.25 高学歴 0.30 房 0.31 物色 0.28 生まれる 0.28 別れ 0.25 しゃべり 0.29 秒で 0.31 踏む 0.28 希少価値 0.27 おいしかっ 0.24 エピソード 0.29 捨てろ 0.31 割合 0.27 6年間 0.27 お先 0.24 試す 0.29 とる 0.31 野球部 0.27 5人 0.26
  14. Similarity Words の抽出(from 経営学者リスト) イノベーション マーケティング論 技術経営 コーポレート・ガバナンス 医療 0.92人的資源

    0.92MOT 0.98 神戸大学大学院経 営学研究科 0.93 静岡 0.91評価 0.92開発 0.92第一人者 0.92 地域 0.91ほか 0.91システム 0.92人 0.91 経営情報学 部 0.9勲 0.91知識 0.91組織論 0.91 県立大学 0.88技術 0.9マネジメント 0.9および 0.9 センター 0.88流通 0.9監事 0.88消費者 0.89 研究科 0.87分析 0.9課題 0.85にて 0.89 経営情報 0.87委員会 0.9Certified 0.85問題 0.88 研究所 0.84課題 0.9客員研究員 0.84受章 0.88 所長 0.83人 0.89技術 0.82期 0.87 長 0.82監事 0.89関係 0.82現代 0.87 准教授 0.81および 0.89プロジェクト 0.82勲 0.87 国際企業 0.8多摩大学 0.89 マーケティング 論 0.81アドバイザー 0.87 経済 0.8地域経済 0.88領域 0.81及び 0.87 研究員 0.79サービス 0.88ホスピタリティ 0.8社会学 0.86
  15. 3. Topic モデル • 文章における単語の出現確率 を推定するためのモデル • 出現する単語の種類と数が, トピック(カテゴリ) によって

    異なると仮定する • 各文章は複数のトピックによっ て構成されており, 各トピック の単語分布を合算された形で単 語が生成される https://qiita.com/icoxfog417/items/7c944cb29dd7cdf5e2b1
  16. 3. Topic モデル • 必要なパッケージ をインポートする • 元文章からターム を取り出し, キー

    ワードを抽出する • 今回のデータの場 合, ブスマの行ごと のタームが抽出さ れたベクトルが形 成される 参考文献; https://paper.hatenadiary.jp/entry/2016/11/06/212149
  17. まとめ; テキスト分析で出来そうなこと • 共起ネットワーク • 言葉同士の関係性を明示化し, 可視化する • WordCloud •

    みんなのなんとなくのイメージの可視化 • Word2vec • 言葉のベクトル化により, モデルへの組み込みが可能 • 被説明変数?説明変数? • Topic モデル • グルーピングの可視化 • 類似語の提案
  18. 今日の実習; その2 • ブスマのテキストデータを用 いて, 分析を行う • Wordcloud の作成 •

    Word2vec モデルの作成 • Topic モデルの作成 などを試行して, 結果を出力す ること 気づいたことをディスカッショ ンしてみましょう
  19. b. Twitter の API キーを取得する • Access Token & access

    token secret の Create をクリックする
  20. d. ハッシュタグに基づきデータを取得す る • 利用するパッケージ (tweepyと datetime) をインポートする • b.

    の作業で取得した Consumer_key, Consumer_secret, Access_token, Access_secret を 指定する • 検索キーワードを変数として格 納する • ツイートを取得する 参考; https://qiita.com/kngsym2018/items/3719f8da1f129793257c
  21. 参考文献 • pythonでgensimを使ってトピックモデル(LDA)を行う • https://paper.hatenadiary.jp/entry/2016/11/06/212149 • 「OK word2vec ! "マジ卍"の意味を教えて」

    Pythonで word2vec実践してみた • https://www.randpy.tokyo/entry/python_word2vec • models.word2vec – Word2vec embeddings • https://radimrehurek.com/gensim/models/word2vec.html • 15分でできる日本語Word2Vec • https://qiita.com/makaishi2/items/63b7986f6da93dc55edd
  22. 参考文献(2) • Pythonで文字列を分割(区切り文字、改行、正規表現、文字 数) • https://note.nkmk.me/python-split-rsplit-splitlines-re/ • WindowsでNEologd辞書を比較的簡単に入れる方法 • https://qiita.com/zincjp/items/c61c441426b9482b5a48

    • Windows 10 64bit で python + Mecab • https://qiita.com/kuro_hane/items/64e39d5deeb3f876b421 • Windows10(64bit)/Python3.6でmecab-python環境構築 • http://blog.livedoor.jp/oyajieng_memo/archives/1777479.html
  23. 参考文献(3) • MeCab: Yet Another Part-of-Speech and Morphological Analyzer •

    https://taku910.github.io/mecab • mecab-ipadic-NEologd : Neologism dictionary for MeCab • https://github.com/neologd/mecab-ipadic-neologd • Word2Vecを用いた類義語の抽出が上手く行ったので、分析を まとめてみた • https://qiita.com/To_Murakami/items/cc225e7c9cd9c0ab641e • 自然言語処理による文書分類の基礎の基礎、トピックモデルを 学ぶ • https://qiita.com/icoxfog417/items/7c944cb29dd7cdf5e2b1