Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
女学生の気持ちをPythonで可視化してみた
Search
camera510PC7
December 14, 2019
Technology
0
1.7k
女学生の気持ちをPythonで可視化してみた
camera510PC7
December 14, 2019
Tweet
Share
More Decks by camera510PC7
See All by camera510PC7
SUNCTF2020 PPAP WriteUp
camera510pc7
0
3.6k
SUNCTF2020 Big brother's mischief WriteUp
camera510pc7
0
2.7k
SUNCTF2020 ネットワーク セッション camera510PC7 担当分
camera510pc7
0
950
SUNCTF2020 フォレンジック セッション camera510PC7 担当分
camera510pc7
1
960
Other Decks in Technology
See All in Technology
ブロックテーマ、WordPress でウェブサイトをつくるということ / 2026.02.07 Gifu WordPress Meetup
torounit
0
200
【Oracle Cloud ウェビナー】[Oracle AI Database + AWS] Oracle Database@AWSで広がるクラウドの新たな選択肢とAI時代のデータ戦略
oracle4engineer
PRO
2
190
SREじゃなかった僕らがenablingを通じて「SRE実践者」になるまでのリアル / SRE Kaigi 2026
aeonpeople
6
2.6k
GitHub Issue Templates + Coding Agentで簡単みんなでIaC/Easy IaC for Everyone with GitHub Issue Templates + Coding Agent
aeonpeople
1
260
Codex 5.3 と Opus 4.6 にコーポレートサイトを作らせてみた / Codex 5.3 vs Opus 4.6
ama_ch
0
220
30万人の同時アクセスに耐えたい!新サービスの盤石なリリースを支える負荷試験 / SRE Kaigi 2026
genda
4
1.4k
会社紹介資料 / Sansan Company Profile
sansan33
PRO
15
400k
AIが実装する時代、人間は仕様と検証を設計する
gotalab555
1
560
AI駆動開発を事業のコアに置く
tasukuonizawa
1
390
顧客の言葉を、そのまま信じない勇気
yamatai1212
1
370
Oracle Cloud Observability and Management Platform - OCI 運用監視サービス概要 -
oracle4engineer
PRO
2
14k
20260204_Midosuji_Tech
takuyay0ne
1
160
Featured
See All Featured
Accessibility Awareness
sabderemane
0
57
Sam Torres - BigQuery for SEOs
techseoconnect
PRO
0
190
Testing 201, or: Great Expectations
jmmastey
46
8.1k
Test your architecture with Archunit
thirion
1
2.2k
Skip the Path - Find Your Career Trail
mkilby
0
60
Paper Plane
katiecoart
PRO
0
46k
Automating Front-end Workflow
addyosmani
1371
200k
My Coaching Mixtape
mlcsv
0
51
WCS-LA-2024
lcolladotor
0
450
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
4.2k
It's Worth the Effort
3n
188
29k
Producing Creativity
orderedlist
PRO
348
40k
Transcript
女学生の気持ちをPythonで 可視化してみた camera510PC7
皆さん、普段どのように コミュニケーションを取りますか?
100年ぐらい前は? 女学生の間で手紙のやり取りが流行った
現代ならLINEで・・・ タピる マジ卍 やばたにえん 大草原不可避ww
昔の手紙ってどんなの? 国立国会図書館デジタルコレクション で当時の手紙の内容をまとめた本が 公開されている https://base1.nijl.ac.jp/~kindai/img/HKDT/HKDT- 00350/HKDT-00350-01.jpg?log=true&mid=HKDT- 00350&d=1576080649311
昔の手紙ってどんなの? 国立国会図書館デジタルコレクション で当時の手紙の内容をまとめた本が 公開されている https://base1.nijl.ac.jp/~kindai/img/HKDT/HKDT- 00350/HKDT-00350-01.jpg?log=true&mid=HKDT- 00350&d=1576080649311
昔の手紙ってどんなの? 国立国会図書館デジタルコレクション で当時の手紙の内容をまとめた本が 公開されている https://base1.nijl.ac.jp/~kindai/img/HKDT/HKDT- 00350/HKDT-00350-01.jpg?log=true&mid=HKDT- 00350&d=1576080649311 これを解析すれば当時どのようなことが 書かれていたかわかるのではないだろうか
解析手法・手順(すべてPython) MeCabで形態素解析 WordCloudで 単語を可視化 ネガポジ判定 背景画像生成 WordCloudと背景画像を合成
データのテキスト化 ここで問題発生!! OCR
データのテキスト化 ここで問題発生!! OCR OCRが使えない
データのテキスト化 人力で文字起こし した結果
MeCabで形態素解析 形態素解析とは テキストデータを辞書のデータをもとに意味を 持つ最小単位に分けること 今回は旧仮名遣いの文章を扱うため旧仮名口語UniDic という辞書を使用
MeCabで形態素解析 動詞、副詞、形容詞、名詞を抽出
WordCloudで単語を可視化 単語の出現回数が多いほど 文字が大きくなる
ネガティブ、ポジティブ判定 東工大の高村教授が公開されている 単語感情極性対応表を利用 単語ごとに ポジティブであればプラスの値 ネガティブであればマイナスの値 が設定されている
背景画像生成 ネガティブ、ポジティブ判定結果から背景の色を変える ポジティブであれば赤に近づけ、ネガティブであれば青に近づける = =1 ポジティブ (RGB) = (255
, 255- , 255- ) ネガティブ (RGB) = (255+ , 255+ , 255) : バイアス(5) : 対応表に引っ掛かった単語数 :その単語の評価
WordCloudと背景画像を合成
WordCloudと背景画像を合成
None
None
結果&考察 • 6つほど試したがすべてネガティブ判定だった ➢センチメンタルな文章が多いせい? • 分析時のノイズが多い ➢WordCloudのストップワードの設定をすればよい • ネガティブ差がはっきり出た ➢バイアスの効果
今後の改善点 • WordCloudの設定を変える • 表記揺れに対応する ➢わびしい、侘しい ➢やさしい、優しい 等 • そもそもネガポジ判定自体をWord2vecで行う
対応表+Word2vec
参考文献 • 溝口白羊 , 竹久夢二, 若き女の手紙 (1912) • 小木曽智信: 「旧仮名遣いの口語文を対象とした形態素解析辞
書」, じんもんこん2012論文集, pp.25-32 (2012). • 高村大也, 乾孝司, 奥村学 "スピンモデルによる単語の感情極性抽出", 情報処理学会論文誌 ジャーナル, Vol.47 No.02 pp. 627--637, 2006 • 稲垣 恭子, 女学生の手紙の世界, ソシオロジ, 2004-2005, 49 巻, 2 号, p. 111-118