$30 off During Our Annual Pro Sale. View Details »
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
女学生の気持ちをPythonで可視化してみた
Search
camera510PC7
December 14, 2019
Technology
0
1.7k
女学生の気持ちをPythonで可視化してみた
camera510PC7
December 14, 2019
Tweet
Share
More Decks by camera510PC7
See All by camera510PC7
SUNCTF2020 PPAP WriteUp
camera510pc7
0
3.6k
SUNCTF2020 Big brother's mischief WriteUp
camera510pc7
0
2.7k
SUNCTF2020 ネットワーク セッション camera510PC7 担当分
camera510pc7
0
950
SUNCTF2020 フォレンジック セッション camera510PC7 担当分
camera510pc7
1
950
Other Decks in Technology
See All in Technology
5分で知るMicrosoft Ignite
taiponrock
PRO
0
330
EM歴1年10ヶ月のぼくがぶち当たった苦悩とこれからへ向けて
maaaato
0
270
AWS CLIの新しい認証情報設定方法aws loginコマンドの実態
wkm2
6
700
生成AI活用の型ハンズオン〜顧客課題起点で設計する7つのステップ
yushin_n
0
130
生成AI時代におけるグローバル戦略思考
taka_aki
0
120
LT登壇を続けたらポッドキャストに呼ばれた話
yamatai1212
0
130
学習データって増やせばいいんですか?
ftakahashi
2
310
計算機科学をRubyと歩む 〜DFA型正規表現エンジンをつくる~
ydah
3
230
Haskell を武器にして挑む競技プログラミング ─ 操作的思考から意味モデル思考へ
naoya
6
1.4k
会社紹介資料 / Sansan Company Profile
sansan33
PRO
11
390k
技術以外の世界に『越境』しエンジニアとして進化を遂げる 〜Kotlinへの愛とDevHRとしての挑戦を添えて〜
subroh0508
1
430
最近のLinux普段づかいWaylandデスクトップ元年
penguin2716
1
690
Featured
See All Featured
Statistics for Hackers
jakevdp
799
230k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
162
16k
Product Roadmaps are Hard
iamctodd
PRO
55
12k
Six Lessons from altMBA
skipperchong
29
4.1k
The Hidden Cost of Media on the Web [PixelPalooza 2025]
tammyeverts
1
97
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
46
2.6k
Java REST API Framework Comparison - PWX 2021
mraible
34
9k
Building a Scalable Design System with Sketch
lauravandoore
463
34k
Thoughts on Productivity
jonyablonski
73
5k
Balancing Empowerment & Direction
lara
5
790
Optimizing for Happiness
mojombo
379
70k
jQuery: Nuts, Bolts and Bling
dougneiner
65
8.2k
Transcript
女学生の気持ちをPythonで 可視化してみた camera510PC7
皆さん、普段どのように コミュニケーションを取りますか?
100年ぐらい前は? 女学生の間で手紙のやり取りが流行った
現代ならLINEで・・・ タピる マジ卍 やばたにえん 大草原不可避ww
昔の手紙ってどんなの? 国立国会図書館デジタルコレクション で当時の手紙の内容をまとめた本が 公開されている https://base1.nijl.ac.jp/~kindai/img/HKDT/HKDT- 00350/HKDT-00350-01.jpg?log=true&mid=HKDT- 00350&d=1576080649311
昔の手紙ってどんなの? 国立国会図書館デジタルコレクション で当時の手紙の内容をまとめた本が 公開されている https://base1.nijl.ac.jp/~kindai/img/HKDT/HKDT- 00350/HKDT-00350-01.jpg?log=true&mid=HKDT- 00350&d=1576080649311
昔の手紙ってどんなの? 国立国会図書館デジタルコレクション で当時の手紙の内容をまとめた本が 公開されている https://base1.nijl.ac.jp/~kindai/img/HKDT/HKDT- 00350/HKDT-00350-01.jpg?log=true&mid=HKDT- 00350&d=1576080649311 これを解析すれば当時どのようなことが 書かれていたかわかるのではないだろうか
解析手法・手順(すべてPython) MeCabで形態素解析 WordCloudで 単語を可視化 ネガポジ判定 背景画像生成 WordCloudと背景画像を合成
データのテキスト化 ここで問題発生!! OCR
データのテキスト化 ここで問題発生!! OCR OCRが使えない
データのテキスト化 人力で文字起こし した結果
MeCabで形態素解析 形態素解析とは テキストデータを辞書のデータをもとに意味を 持つ最小単位に分けること 今回は旧仮名遣いの文章を扱うため旧仮名口語UniDic という辞書を使用
MeCabで形態素解析 動詞、副詞、形容詞、名詞を抽出
WordCloudで単語を可視化 単語の出現回数が多いほど 文字が大きくなる
ネガティブ、ポジティブ判定 東工大の高村教授が公開されている 単語感情極性対応表を利用 単語ごとに ポジティブであればプラスの値 ネガティブであればマイナスの値 が設定されている
背景画像生成 ネガティブ、ポジティブ判定結果から背景の色を変える ポジティブであれば赤に近づけ、ネガティブであれば青に近づける = =1 ポジティブ (RGB) = (255
, 255- , 255- ) ネガティブ (RGB) = (255+ , 255+ , 255) : バイアス(5) : 対応表に引っ掛かった単語数 :その単語の評価
WordCloudと背景画像を合成
WordCloudと背景画像を合成
None
None
結果&考察 • 6つほど試したがすべてネガティブ判定だった ➢センチメンタルな文章が多いせい? • 分析時のノイズが多い ➢WordCloudのストップワードの設定をすればよい • ネガティブ差がはっきり出た ➢バイアスの効果
今後の改善点 • WordCloudの設定を変える • 表記揺れに対応する ➢わびしい、侘しい ➢やさしい、優しい 等 • そもそもネガポジ判定自体をWord2vecで行う
対応表+Word2vec
参考文献 • 溝口白羊 , 竹久夢二, 若き女の手紙 (1912) • 小木曽智信: 「旧仮名遣いの口語文を対象とした形態素解析辞
書」, じんもんこん2012論文集, pp.25-32 (2012). • 高村大也, 乾孝司, 奥村学 "スピンモデルによる単語の感情極性抽出", 情報処理学会論文誌 ジャーナル, Vol.47 No.02 pp. 627--637, 2006 • 稲垣 恭子, 女学生の手紙の世界, ソシオロジ, 2004-2005, 49 巻, 2 号, p. 111-118