Upgrade to Pro — share decks privately, control downloads, hide ads and more …

How To Use Gensim

Shohei Umemoto
September 12, 2015
570

How To Use Gensim

Shohei Umemoto

September 12, 2015
Tweet

Transcript

  1. HFOTJNךאְַַ׋
    )PXUPVTFHFOTJN
    ٽփٽׯƕ ӥڧӥ

    !DBGFEPNBODFS

    View Slide

  2. HFOTJNָדֹ׷ֿהכ

    UPQJDNPEFMMJOH

    XPSEWFD

    זוזו˘

    View Slide

  3. HFOTJNָדֹ׷ֿהכ

    UPQJDNPEFMMJOH

    XPSEWFD

    זוזו˘
    $ pip install gensim

    View Slide

  4. UPQJDNPEFMMJOH
    8JLJQFEJBך鎸✲כ

    ו׿זزؾحؙחאְג

    剅ַ׸גְ׷ד׃׳ֲַ

    View Slide

  5. 番組 ム
    監督 作曲

    収録
    ドラマ
    制作
    選手
    アニメ
    小学校
    isbn
    tbs
    優勝
    ラジオ
    明治
    鉄道 フジテレビ
    高等
    劇場
    nhk
    攻撃
    試合

    市立

    選挙

    km
    cm
    バス
    神社

    px
    野球
    国道
    ret
    江戸
    fc
    丁目
    jr
    京都
    ダム
    大正
    廃止
    設置
    設定

    cd
    リリ

    企業
    文学
    必要
    対応
    店舗
    ガン
    採用
    状態
    自分
    法人
    th
    love
    事件
    楽曲
    医療
    施設
    製造
    バンド
    機関
    改称
    メンバ
    空港
    文化
    専攻
    学部


    工場
    業務
    管理
    現代
    書房
    dvd
    live
    小説
    問題 共著
    のち
    講談社
    公開
    人口
    作詞
    政府
    路線
    記録
    道路
    議員
    販売
    教会
    会社
    獲得
    搭載
    戦闘
    方面
    装備
    専門 病院
    ライブ
    追加
    経済
    大会
    ドイツ
    出場
    製作
    企画
    中学校 原作
    アルバム
    漫画
    教育
    海軍
    フランス
    イギリス
    主義
    選手権
    戦争
    株式会社
    政治
    世紀
    編曲
    都市
    ズン
    部隊
    シングル
    教授
    営業 ロシア
    事業
    大統領
    運行
    プロ
    委員
    列車
    サッカ
    回戦
    車両
    クラブ
    出版
    合併
    文庫
    科学
    指定
    大阪
    女子
    成績
    センタ
    決勝
    エンジン
    区間
    学科
    システム
    モデル
    元年
    キャラクタ
    交通
    運転 公園
    機能
    県立
    社会
    能力
    地区
    交差点
    郵便
    地方
    編入
    設立
    航空
    課程

    View Slide

  6. ׋ֻׁ׿ך俑剅ָ֮׷הֹח

    ׉ך⚥חו׿זزؾحָؙろת׸גְ׷ַ׾

    ؝ٝؾُ٦ةח鋅אֽג׮׵ֲךָ

    زؾحٌؙرؚٔٝדׅ

    View Slide

  7. Ɏ
    ɔ ɔ
    ɔ
    ?
    زؾحؙ
    俑剅
    俑剅醡鸡堣

    View Slide

  8. Ɏ
    ɔ ɔ
    ɔ
    俑剅
    زؾحؙ
    俑剅醡鸡堣

    View Slide

  9. 鳤剅׾אֻ׷
    ؝٦ػأ׾אֻ׷
    ٌرٕ׾אֻ׷
    زؾحؙ׾⳿⸂ׅ׷




    View Slide

  10. 鳤剅׾אֻ׷
    from gensim import corpora, models

    View Slide

  11. 鳤剅׾אֻ׷
    from gensim import corpora, models


    documents = ['ޗഐ͸ೣͰ͋Δɻ',

    '໊લ͸·ͩແ͍ɻ',

    'Ͳ͜ͰੜΕ͔ͨͱΜͱݟ౰͕͔ͭ͵ɻ']

    View Slide

  12. 鳤剅׾אֻ׷
    from gensim import corpora, models


    documents = ['ޗഐ͸ೣͰ͋Δɻ',

    '໊લ͸·ͩແ͍ɻ',

    'Ͳ͜ͰੜΕ͔ͨͱΜͱݟ౰͕͔ͭ͵ɻ']


    texts = [['ޗഐ', '͸', 'ೣ', 'Ͱ', '͋Δ', 'ɻ'],

    ['໊લ', '͸', '·ͩ', 'ແ͍', 'ɻ'],

    ['Ͳ͜', 'Ͱ', 'ੜΕ', 'ͨ', '͔', 'ͱΜͱ',
    'ݟ౰', '͕', '͔ͭ', '͵', 'ɻ']]

    View Slide

  13. 鳤剅׾אֻ׷
    from gensim import corpora, models


    ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~


    texts = [['ޗഐ', '͸', 'ೣ', 'Ͱ', '͋Δ', 'ɻ'],

    ['໊લ', '͸', '·ͩ', 'ແ͍', 'ɻ'],

    ['Ͳ͜', 'Ͱ', 'ੜΕ', 'ͨ', '͔', 'ͱΜͱ',
    'ݟ౰', '͕', '͔ͭ', '͵', 'ɻ']]


    texts = [['ޗഐ', 'ೣ'],

    ['໊લ'],

    ['Ͳ͜', 'ݟ౰']]

    View Slide

  14. 鳤剅׾אֻ׷
    from gensim import corpora, models


    ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~


    texts = [['ޗഐ', ‘ೣ’], ...]


    dictionary = corpora.Dictionary(texts)


    View Slide

  15. ؝٦ػأ׾אֻ׷
    from gensim import corpora, models


    ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~


    texts = [['ޗഐ', ‘ೣ’], ...]


    dictionary = corpora.Dictionary(texts)


    corpus = [dictionary.doc2bow(t) for t in texts]

    View Slide

  16. ٌرٕ׾אֻ׷
    from gensim import corpora, models


    ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~


    texts = [['ޗഐ', ‘ೣ’], ...]


    dictionary = corpora.Dictionary(texts)


    corpus = [dictionary.doc2bow(t) for t in texts]


    model = models.HdpModel(corpus, dictionary)

    View Slide

  17. زؾحؙ׾⳿⸂ׅ׷
    from gensim import corpora, models


    ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~


    texts = [['ޗഐ', ‘ೣ’], ...]


    dictionary = corpora.Dictionary(texts)


    corpus = [dictionary.doc2bow(t) for t in texts]


    model = models.HdpModel(corpus, dictionary)


    print(model.show_topics())

    View Slide

  18. EFNP

    View Slide

  19. XPSEWFD
    ⽃铂וֲ׃ך䠐㄂׾

    鎘皾ד罋ִ׷ֿהָדֹ׋׵

    ו׿ז䠬ׄחז׷ד׃׳ֲ

    View Slide

  20. ؿٓٝأה⡂גְ׷⽃铂כ

    View Slide

  21. ؿٓٝأ

    View Slide

  22. ؿٓٝأ
    س؎خ
    كؘٕ٦
    ؎ؘٔأ
    ؎ةٔ،
    أل؎ٝ

    View Slide

  23. ؿٓٝأ
    ؝ٗٝؽ،
    ؒآفز
    ؚٕؐ،؎
    كزشي
    ًٕؕ٦ٝ
    س؎خ
    كؘٕ٦
    ؎ؘٔأ
    ؎ةٔ،
    أل؎ٝ

    View Slide

  24. 傈劤הٗٝسٝ׾駈׃ג

    ׉ַֿ׵؎ؘٔأ׾䒷ֻה

    View Slide

  25. ٗٝسٝ
    ؎ؘٔأ
    傈劤

    View Slide

  26. ٗٝسٝ
    ؎ؘٔأ
    傈劤

    View Slide

  27. ٗٝسٝ
    ؎ؘٔأ
    傈劤

    View Slide

  28. ٗٝسٝ
    ؎ؘٔأ
    傈劤
    匌❨

    View Slide

  29. ٗٝسٝ
    ؎ؘٔأ
    傈劤
    匌❨
    껷鿪

    View Slide

  30. ⽃铂וֲ׃ך䠐㄂ח㛇בְג

    ⽃铂׾侧⦼ד邌植ׅ׷倯岀׾

    ؝ٝؾُ٦ةח罋ִג׮׵ֲךָ

    XPSEWFDדׅ

    View Slide

  31. ؝٦ػأ׾אֻ׷
    ٌرٕ׾אֻ׷
    ⡂גְ׷⽃铂׾⳿⸂ׅ׷



    View Slide

  32. ؝٦ػأ׾אֻ׷
    from gensim import models

    View Slide

  33. ؝٦ػأ׾אֻ׷
    from gensim import models


    sentences = ['ޗഐ͸ೣͰ͋Δɻ',

    '໊લ͸·ͩແ͍ɻ',

    'Ͳ͜ͰੜΕ͔ͨͱΜͱݟ౰͕͔ͭ͵ɻ']

    View Slide

  34. ؝٦ػأ׾אֻ׷
    from gensim import models


    sentences = ['ޗഐ͸ೣͰ͋Δɻ',

    '໊લ͸·ͩແ͍ɻ',

    'Ͳ͜ͰੜΕ͔ͨͱΜͱݟ౰͕͔ͭ͵ɻ']


    sentences = [[‘ޗഐ ͸ ೣ Ͱ ͋Δ ɻ'],

    [‘໊લ ͸ ·ͩ ແ͍ ɻ'],

    [‘Ͳ͜ Ͱ ੜΕ ͨ ͔ ͱΜͱ ݟ౰ ͕ ͔ͭ
    ͵ ɻ']]

    View Slide

  35. ٌرٕ׾אֻ׷
    from gensim import models


    ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~


    sentences = [[‘ޗഐ ͸ ೣ Ͱ ͋Δ ɻ’], ...]


    model = models.Word2Vec(sentences)

    View Slide

  36. ⡂גְ׷⽃铂׾⳿⸂ׅ׷
    from gensim import models


    ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~


    sentences = [[‘ޗഐ ͸ ೣ Ͱ ͋Δ ɻ’], ...]


    model = models.Word2Vec(sentences)


    print(model.most_similar(positive=[’ೣ’]))

    View Slide

  37. ⡂גְ׷⽃铂׾⳿⸂ׅ׷
    from gensim import models


    ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~


    sentences = [[‘ޗഐ ͸ ೣ Ͱ ͋Δ ɻ’], ...]


    model = models.Word2Vec(sentences)


    print(model.most_similar(positive=[’ೣ’]))


    print(model.most_similar(positive=[’ޗഐ’, ’ೣ’],
    negative=[’໊લ’]))

    View Slide

  38. EFNP

    View Slide

  39. ⿫罋俑柃

    HFOTJN5PQJDNPEFMMJOHGPSIVNBOT

    IUUQTSBEJNSFIVSFLDPNHFOTJN

    03FJMMZ+BQBOⰅꟌ荈搫鎉铂Ⳣ椚

    IUUQXXXPSFJMMZDPKQCPPLT

    03FJMMZ+BQBO㹋騧堣唒㷕统ءأذي

    IUUQXXXPSFJMMZDPKQCPPLT

    03FJMMZ+BQBOXPSEWFDח״׷荈搫鎉铂Ⳣ椚

    IUUQXXXPSFJMMZDPKQCPPLT

    View Slide