Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
女学生の気持ちをPythonで可視化してみた
Search
camera510PC7
December 14, 2019
Technology
0
1.6k
女学生の気持ちをPythonで可視化してみた
camera510PC7
December 14, 2019
Tweet
Share
More Decks by camera510PC7
See All by camera510PC7
SUNCTF2020 PPAP WriteUp
camera510pc7
0
3.6k
SUNCTF2020 Big brother's mischief WriteUp
camera510pc7
0
2.7k
SUNCTF2020 ネットワーク セッション camera510PC7 担当分
camera510pc7
0
940
SUNCTF2020 フォレンジック セッション camera510PC7 担当分
camera510pc7
1
940
Other Decks in Technology
See All in Technology
【TiDB GAME DAY 2025】Shadowverse: Worlds Beyond にみる TiDB 活用術
cygames
0
910
Liquid Glass革新とSwiftUI/UIKit進化
fumiyasac0921
0
150
AIのAIによるAIのための出力評価と改善
chocoyama
1
520
ローカルLLMでファインチューニング
knishioka
0
130
標準技術と独自システムで作る「つらくない」SaaS アカウント管理 / Effortless SaaS Account Management with Standard Technologies & Custom Systems
yuyatakeyama
2
1.1k
MySQL5.6から8.4へ 戦いの記録
kyoshidaxx
1
100
OpenHands🤲にContributeしてみた
kotauchisunsun
0
280
成立するElixirの再束縛(再代入)可という選択
kubell_hr
0
960
白金鉱業Meetup_Vol.19_PoCはデモで語れ!顧客の本音とインサイトを引き出すソリューション構築
brainpadpr
2
490
実践! AIエージェント導入記
1mono2prod
0
150
Navigation3でViewModelにデータを渡す方法
mikanichinose
0
220
LinkX_GitHubを基点にした_AI時代のプロジェクトマネジメント.pdf
iotcomjpadmin
0
160
Featured
See All Featured
For a Future-Friendly Web
brad_frost
179
9.8k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
181
53k
jQuery: Nuts, Bolts and Bling
dougneiner
63
7.8k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
124
52k
Navigating Team Friction
lara
187
15k
Large-scale JavaScript Application Architecture
addyosmani
512
110k
A Modern Web Designer's Workflow
chriscoyier
693
190k
Faster Mobile Websites
deanohume
307
31k
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
Building Applications with DynamoDB
mza
95
6.5k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
26
2.8k
Fashionably flexible responsive web design (full day workshop)
malarkey
407
66k
Transcript
女学生の気持ちをPythonで 可視化してみた camera510PC7
皆さん、普段どのように コミュニケーションを取りますか?
100年ぐらい前は? 女学生の間で手紙のやり取りが流行った
現代ならLINEで・・・ タピる マジ卍 やばたにえん 大草原不可避ww
昔の手紙ってどんなの? 国立国会図書館デジタルコレクション で当時の手紙の内容をまとめた本が 公開されている https://base1.nijl.ac.jp/~kindai/img/HKDT/HKDT- 00350/HKDT-00350-01.jpg?log=true&mid=HKDT- 00350&d=1576080649311
昔の手紙ってどんなの? 国立国会図書館デジタルコレクション で当時の手紙の内容をまとめた本が 公開されている https://base1.nijl.ac.jp/~kindai/img/HKDT/HKDT- 00350/HKDT-00350-01.jpg?log=true&mid=HKDT- 00350&d=1576080649311
昔の手紙ってどんなの? 国立国会図書館デジタルコレクション で当時の手紙の内容をまとめた本が 公開されている https://base1.nijl.ac.jp/~kindai/img/HKDT/HKDT- 00350/HKDT-00350-01.jpg?log=true&mid=HKDT- 00350&d=1576080649311 これを解析すれば当時どのようなことが 書かれていたかわかるのではないだろうか
解析手法・手順(すべてPython) MeCabで形態素解析 WordCloudで 単語を可視化 ネガポジ判定 背景画像生成 WordCloudと背景画像を合成
データのテキスト化 ここで問題発生!! OCR
データのテキスト化 ここで問題発生!! OCR OCRが使えない
データのテキスト化 人力で文字起こし した結果
MeCabで形態素解析 形態素解析とは テキストデータを辞書のデータをもとに意味を 持つ最小単位に分けること 今回は旧仮名遣いの文章を扱うため旧仮名口語UniDic という辞書を使用
MeCabで形態素解析 動詞、副詞、形容詞、名詞を抽出
WordCloudで単語を可視化 単語の出現回数が多いほど 文字が大きくなる
ネガティブ、ポジティブ判定 東工大の高村教授が公開されている 単語感情極性対応表を利用 単語ごとに ポジティブであればプラスの値 ネガティブであればマイナスの値 が設定されている
背景画像生成 ネガティブ、ポジティブ判定結果から背景の色を変える ポジティブであれば赤に近づけ、ネガティブであれば青に近づける = =1 ポジティブ (RGB) = (255
, 255- , 255- ) ネガティブ (RGB) = (255+ , 255+ , 255) : バイアス(5) : 対応表に引っ掛かった単語数 :その単語の評価
WordCloudと背景画像を合成
WordCloudと背景画像を合成
None
None
結果&考察 • 6つほど試したがすべてネガティブ判定だった ➢センチメンタルな文章が多いせい? • 分析時のノイズが多い ➢WordCloudのストップワードの設定をすればよい • ネガティブ差がはっきり出た ➢バイアスの効果
今後の改善点 • WordCloudの設定を変える • 表記揺れに対応する ➢わびしい、侘しい ➢やさしい、優しい 等 • そもそもネガポジ判定自体をWord2vecで行う
対応表+Word2vec
参考文献 • 溝口白羊 , 竹久夢二, 若き女の手紙 (1912) • 小木曽智信: 「旧仮名遣いの口語文を対象とした形態素解析辞
書」, じんもんこん2012論文集, pp.25-32 (2012). • 高村大也, 乾孝司, 奥村学 "スピンモデルによる単語の感情極性抽出", 情報処理学会論文誌 ジャーナル, Vol.47 No.02 pp. 627--637, 2006 • 稲垣 恭子, 女学生の手紙の世界, ソシオロジ, 2004-2005, 49 巻, 2 号, p. 111-118