Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
女学生の気持ちをPythonで可視化してみた
Search
camera510PC7
December 14, 2019
Technology
0
1.7k
女学生の気持ちをPythonで可視化してみた
camera510PC7
December 14, 2019
Tweet
Share
More Decks by camera510PC7
See All by camera510PC7
SUNCTF2020 PPAP WriteUp
camera510pc7
0
3.6k
SUNCTF2020 Big brother's mischief WriteUp
camera510pc7
0
2.7k
SUNCTF2020 ネットワーク セッション camera510PC7 担当分
camera510pc7
0
950
SUNCTF2020 フォレンジック セッション camera510PC7 担当分
camera510pc7
1
950
Other Decks in Technology
See All in Technology
下手な強制、ダメ!絶対! 「ガードレール」を「檻」にさせない"ガバナンス"の取り方とは?
tsukaman
2
440
EncryptedSharedPreferences が deprecated になっちゃった!どうしよう! / Oh no! EncryptedSharedPreferences has been deprecated! What should I do?
yanzm
0
270
Language Update: Java
skrb
2
290
要件定義・デザインフェーズでもAIを活用して、コミュニケーションの密度を高める
kazukihayase
0
110
La gouvernance territoriale des données grâce à la plateforme Terreze
bluehats
0
170
【実演版】カンファレンス登壇者・スタッフにこそ知ってほしいマイクの使い方 / 大吉祥寺.pm 2025
arthur1
1
830
[ JAWS-UG 東京 CommunityBuilders Night #2 ]SlackとAmazon Q Developerで 運用効率化を模索する
sh_fk2
3
400
DDD集約とサービスコンテキスト境界との関係性
pandayumi
3
280
職種の壁を溶かして開発サイクルを高速に回す~情報透明性と職種越境から考えるAIフレンドリーな職種間連携~
daitasu
0
160
「何となくテストする」を卒業するためにプロダクトが動く仕組みを理解しよう
kawabeaver
0
390
2025年夏 コーディングエージェントを統べる者
nwiizo
0
140
テストを軸にした生き残り術
kworkdev
PRO
0
200
Featured
See All Featured
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
8
520
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
234
17k
Imperfection Machines: The Place of Print at Facebook
scottboms
268
13k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
252
21k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
29
1.9k
Optimizing for Happiness
mojombo
379
70k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
46
7.6k
Writing Fast Ruby
sferik
628
62k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
32
1.5k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
31
2.2k
For a Future-Friendly Web
brad_frost
180
9.9k
Faster Mobile Websites
deanohume
309
31k
Transcript
女学生の気持ちをPythonで 可視化してみた camera510PC7
皆さん、普段どのように コミュニケーションを取りますか?
100年ぐらい前は? 女学生の間で手紙のやり取りが流行った
現代ならLINEで・・・ タピる マジ卍 やばたにえん 大草原不可避ww
昔の手紙ってどんなの? 国立国会図書館デジタルコレクション で当時の手紙の内容をまとめた本が 公開されている https://base1.nijl.ac.jp/~kindai/img/HKDT/HKDT- 00350/HKDT-00350-01.jpg?log=true&mid=HKDT- 00350&d=1576080649311
昔の手紙ってどんなの? 国立国会図書館デジタルコレクション で当時の手紙の内容をまとめた本が 公開されている https://base1.nijl.ac.jp/~kindai/img/HKDT/HKDT- 00350/HKDT-00350-01.jpg?log=true&mid=HKDT- 00350&d=1576080649311
昔の手紙ってどんなの? 国立国会図書館デジタルコレクション で当時の手紙の内容をまとめた本が 公開されている https://base1.nijl.ac.jp/~kindai/img/HKDT/HKDT- 00350/HKDT-00350-01.jpg?log=true&mid=HKDT- 00350&d=1576080649311 これを解析すれば当時どのようなことが 書かれていたかわかるのではないだろうか
解析手法・手順(すべてPython) MeCabで形態素解析 WordCloudで 単語を可視化 ネガポジ判定 背景画像生成 WordCloudと背景画像を合成
データのテキスト化 ここで問題発生!! OCR
データのテキスト化 ここで問題発生!! OCR OCRが使えない
データのテキスト化 人力で文字起こし した結果
MeCabで形態素解析 形態素解析とは テキストデータを辞書のデータをもとに意味を 持つ最小単位に分けること 今回は旧仮名遣いの文章を扱うため旧仮名口語UniDic という辞書を使用
MeCabで形態素解析 動詞、副詞、形容詞、名詞を抽出
WordCloudで単語を可視化 単語の出現回数が多いほど 文字が大きくなる
ネガティブ、ポジティブ判定 東工大の高村教授が公開されている 単語感情極性対応表を利用 単語ごとに ポジティブであればプラスの値 ネガティブであればマイナスの値 が設定されている
背景画像生成 ネガティブ、ポジティブ判定結果から背景の色を変える ポジティブであれば赤に近づけ、ネガティブであれば青に近づける = =1 ポジティブ (RGB) = (255
, 255- , 255- ) ネガティブ (RGB) = (255+ , 255+ , 255) : バイアス(5) : 対応表に引っ掛かった単語数 :その単語の評価
WordCloudと背景画像を合成
WordCloudと背景画像を合成
None
None
結果&考察 • 6つほど試したがすべてネガティブ判定だった ➢センチメンタルな文章が多いせい? • 分析時のノイズが多い ➢WordCloudのストップワードの設定をすればよい • ネガティブ差がはっきり出た ➢バイアスの効果
今後の改善点 • WordCloudの設定を変える • 表記揺れに対応する ➢わびしい、侘しい ➢やさしい、優しい 等 • そもそもネガポジ判定自体をWord2vecで行う
対応表+Word2vec
参考文献 • 溝口白羊 , 竹久夢二, 若き女の手紙 (1912) • 小木曽智信: 「旧仮名遣いの口語文を対象とした形態素解析辞
書」, じんもんこん2012論文集, pp.25-32 (2012). • 高村大也, 乾孝司, 奥村学 "スピンモデルによる単語の感情極性抽出", 情報処理学会論文誌 ジャーナル, Vol.47 No.02 pp. 627--637, 2006 • 稲垣 恭子, 女学生の手紙の世界, ソシオロジ, 2004-2005, 49 巻, 2 号, p. 111-118