Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
女学生の気持ちをPythonで可視化してみた
Search
camera510PC7
December 14, 2019
Technology
0
1.4k
女学生の気持ちをPythonで可視化してみた
camera510PC7
December 14, 2019
Tweet
Share
More Decks by camera510PC7
See All by camera510PC7
SUNCTF2020 PPAP WriteUp
camera510pc7
0
3k
SUNCTF2020 Big brother's mischief WriteUp
camera510pc7
0
2.3k
SUNCTF2020 ネットワーク セッション camera510PC7 担当分
camera510pc7
0
790
SUNCTF2020 フォレンジック セッション camera510PC7 担当分
camera510pc7
1
790
Other Decks in Technology
See All in Technology
エンジニアのキャリアをちょっと楽しくする3本の軸/Three Pillars to Make an Engineer's Career More Enjoyable
kwappa
0
2.6k
データベース02: データベースの概念
trycycle
0
140
推しは推せるときに推せ! プロダクトにフィードバックしていこう
nakasho
0
270
Azure Container Apps + Bicep 〜 こんな感じで運用しています
kaz29
2
430
Azure犬駆動開発の記録/GlobalAzureFukuoka2024_20240420
nina01
1
190
[PlatformCon 24] Platform Orchestrators: The Missing Middle of Internal Developer Platforms?
danielbryantuk
1
830
サーバー間 GraphQL と webmock-graphql の話 / server-to-server graphql and webmock-graphql
qsona
2
170
反実仮想機械学習とは何か
usaito
PRO
8
3k
ここが嬉しいABAC ここが辛いよABAC #再解説+補足編
masahirokawahara
1
270
現代CSSフレームワークの内部実装とその仕組み
poteboy
8
3.5k
「スニダン」開発組織の構造に込めた意図 ~組織作りはパッションや政治ではない!~
rinchsan
3
520
Java EE/Jakarta EEの現状と将来―クラウドネイティブ時代にJava EEは対応できるのか?―
takakiyo
1
130
Featured
See All Featured
The Language of Interfaces
destraynor
151
23k
What the flash - Photography Introduction
edds
64
11k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
221
21k
The Art of Programming - Codeland 2020
erikaheidi
42
12k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
34
8.9k
Optimizing for Happiness
mojombo
370
69k
Docker and Python
trallard
34
2.7k
GraphQLとの向き合い方2022年版
quramy
32
12k
How GitHub (no longer) Works
holman
304
140k
Faster Mobile Websites
deanohume
299
30k
Visualization
eitanlees
136
14k
A Philosophy of Restraint
colly
197
16k
Transcript
女学生の気持ちをPythonで 可視化してみた camera510PC7
皆さん、普段どのように コミュニケーションを取りますか?
100年ぐらい前は? 女学生の間で手紙のやり取りが流行った
現代ならLINEで・・・ タピる マジ卍 やばたにえん 大草原不可避ww
昔の手紙ってどんなの? 国立国会図書館デジタルコレクション で当時の手紙の内容をまとめた本が 公開されている https://base1.nijl.ac.jp/~kindai/img/HKDT/HKDT- 00350/HKDT-00350-01.jpg?log=true&mid=HKDT- 00350&d=1576080649311
昔の手紙ってどんなの? 国立国会図書館デジタルコレクション で当時の手紙の内容をまとめた本が 公開されている https://base1.nijl.ac.jp/~kindai/img/HKDT/HKDT- 00350/HKDT-00350-01.jpg?log=true&mid=HKDT- 00350&d=1576080649311
昔の手紙ってどんなの? 国立国会図書館デジタルコレクション で当時の手紙の内容をまとめた本が 公開されている https://base1.nijl.ac.jp/~kindai/img/HKDT/HKDT- 00350/HKDT-00350-01.jpg?log=true&mid=HKDT- 00350&d=1576080649311 これを解析すれば当時どのようなことが 書かれていたかわかるのではないだろうか
解析手法・手順(すべてPython) MeCabで形態素解析 WordCloudで 単語を可視化 ネガポジ判定 背景画像生成 WordCloudと背景画像を合成
データのテキスト化 ここで問題発生!! OCR
データのテキスト化 ここで問題発生!! OCR OCRが使えない
データのテキスト化 人力で文字起こし した結果
MeCabで形態素解析 形態素解析とは テキストデータを辞書のデータをもとに意味を 持つ最小単位に分けること 今回は旧仮名遣いの文章を扱うため旧仮名口語UniDic という辞書を使用
MeCabで形態素解析 動詞、副詞、形容詞、名詞を抽出
WordCloudで単語を可視化 単語の出現回数が多いほど 文字が大きくなる
ネガティブ、ポジティブ判定 東工大の高村教授が公開されている 単語感情極性対応表を利用 単語ごとに ポジティブであればプラスの値 ネガティブであればマイナスの値 が設定されている
背景画像生成 ネガティブ、ポジティブ判定結果から背景の色を変える ポジティブであれば赤に近づけ、ネガティブであれば青に近づける = =1 ポジティブ (RGB) = (255
, 255- , 255- ) ネガティブ (RGB) = (255+ , 255+ , 255) : バイアス(5) : 対応表に引っ掛かった単語数 :その単語の評価
WordCloudと背景画像を合成
WordCloudと背景画像を合成
None
None
結果&考察 • 6つほど試したがすべてネガティブ判定だった ➢センチメンタルな文章が多いせい? • 分析時のノイズが多い ➢WordCloudのストップワードの設定をすればよい • ネガティブ差がはっきり出た ➢バイアスの効果
今後の改善点 • WordCloudの設定を変える • 表記揺れに対応する ➢わびしい、侘しい ➢やさしい、優しい 等 • そもそもネガポジ判定自体をWord2vecで行う
対応表+Word2vec
参考文献 • 溝口白羊 , 竹久夢二, 若き女の手紙 (1912) • 小木曽智信: 「旧仮名遣いの口語文を対象とした形態素解析辞
書」, じんもんこん2012論文集, pp.25-32 (2012). • 高村大也, 乾孝司, 奥村学 "スピンモデルによる単語の感情極性抽出", 情報処理学会論文誌 ジャーナル, Vol.47 No.02 pp. 627--637, 2006 • 稲垣 恭子, 女学生の手紙の世界, ソシオロジ, 2004-2005, 49 巻, 2 号, p. 111-118