Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Speaker Deck
PRO
Sign in
Sign up for free
シンデレラガールズの台詞のみから「誰の台詞か」機械学習で判定する
shuukei.imas_cg
December 17, 2016
Technology
1
2.4k
シンデレラガールズの台詞のみから 「誰の台詞か」機械学習で判定する
in #imas_hack 2016-12-17
shuukei.imas_cg
December 17, 2016
Tweet
Share
More Decks by shuukei.imas_cg
See All by shuukei.imas_cg
idol2vec
shuukeiimascg
3
570
台詞を一行も書かずに作る全自動アイドルBotの検討 / Full automated idol's bot
shuukeiimascg
1
790
スニリプ全自動化への検討 / Full automated sni_rep
shuukeiimascg
1
750
シンデレラガールズ台詞判定の開発・運用・反響について
shuukeiimascg
5
2.3k
GAE/P環境でLINE BOTを作る
shuukeiimascg
0
660
Other Decks in Technology
See All in Technology
Salesforce女子部-権限についてまとめてみたその1
sfggjp
0
180
Steps toward self-service operations in eureka
fukubaka0825
0
420
Power BI Premiumでデータ準備!
hanaseleb
1
180
エンジニアと気軽に繋がれるプラットフォーム「ハッカー飯」で行った セキュリティ・モニタリングに関する取り組みについて
nobuakikikuchi
0
350
GitHub 엔터프라이즈 어카운트 소개 및 엔터프라이즈 서버 구축 경험
posquit0
1
140
Puny to Powerful PostgreSQL Rails Apps
andyatkinson
PRO
0
210
msal.jsのあれこれ
takas0522
0
1.4k
[SRE NEXT 2022]ヤプリのSREにおけるセキュリティ強化の取り組みを公開する
mmochi23
1
280
Nutanix_Meetup_20220511
keigotomomatsu
0
140
Babylon.js v5 新機能の紹介
limes2018
0
990
1,000万人以上が利用する「家族アルバム みてね」のSRE組織は4年間でどのように作られてきたのか/SRE NEXT 2022
isaoshimizu
4
2.6k
220428event_overview
caddi_eng
2
210
Featured
See All Featured
GitHub's CSS Performance
jonrohan
1020
410k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
655
120k
The Most Common Mistakes in Cover Letters
jrick
PRO
4
24k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
119
28k
VelocityConf: Rendering Performance Case Studies
addyosmani
316
22k
Bash Introduction
62gerente
596
210k
How to name files
jennybc
39
58k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
212
20k
Six Lessons from altMBA
skipperchong
14
1.3k
4 Signs Your Business is Dying
shpigford
169
20k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
268
11k
The Art of Programming - Codeland 2020
erikaheidi
31
5.8k
Transcript
シンデレラガールズの台詞のみから 「誰の台詞か」機械学習で判定する モバマス-Pixiv集計所 http://www.shuukei.info/imas_cg/ たくみP 2016/12/17
自己紹介 たくみP 担当アイドル: 喜多日菜子 いつもは「imas_cg集計 @shuukei_imas_cg」というTwitterアカウントで地味 につぶやいています
運営しているサイト: モバマス-Pixiv集計所 http://www.shuukei.info/imas_cg/ 2 自力で2枚取りしたフェス 上位報酬日菜子↓
課題設定 「台詞」そのものから取得できる特徴をもとに、その台詞を言ったアイドルを 機械学習で判定することはできるか? 台詞の例: 「プロデューサーさんにおごってもらう、その名もおねだり大作戦っ!」 アイドルマスターシンデレラガールズwiki から取得した台詞データを用いる
http://seesaawiki.jp/imascg/ 183人のアイドルの台詞を対象とする(トレーナーさん達は含まない) 有効なデータ:83,970台詞 まだクレンジングが完全でない(2人のかけあいの台詞が含まれていたりする) 平均459台詞 / 1人 「テキスト分類」の問題としては非常に短いテキストデータ83970個を、 183クラスに分類するタスク 3
試してみたこと 時間がないので機械学習にはアリモノを使う Jubatus(PFN & NTT) - jubaClassifier
fastText(Facebook) 特徴量としてなにを使うか 文字n-gram たとえば「こんにちは」の2-gramなら、「こん んに にち ちは」の5つに分割 形態素n-gram 「こんにちは」は一つの形態素「こんにちは」になる(と思う) 「こんにちは、プロデューサーさん!」なら以下のように5つに分割 こんにちは 感動詞,*,*,*,*,*,こんにちは,コンニチハ,コンニチワ 、 記号,読点,*,*,*,*,、,、,、 プロデューサー 名詞,一般,*,*,*,*,プロデューサー,プロデューサー,プロデューサー さん 名詞,接尾,人名,*,*,*,さん,サン,サン ! 名詞,サ変接続,*,*,*,*,* 4
テストの方法 台詞データを9:1に分割し、学習データとテストデータにわける あるアイドルの台詞集合ごとにきっちり9:1にわける 学習に使ったデータでテストしても意味がない(未知の台詞でテストする) 交差検定を行うとmore better
Train Test 学習に使う テストにのみ使う 9 1 5
Jubatusの場合 分類(classification)について、パーセプトロン法からnearest_neighborまでさ まざまなアルゴリズムがある parceptron, PA, CW, AROW, NHERD…
とりあえず全部試してみる 6
Jubatusの場合 ハッカソン中の試行ではCW(Confidence Weighted)が最も高い正解率を出した アルゴリズム: CW 文字2-gram
accuracy: 0.623794212219 文字3-gram accuracy: 0.598785280457 形態素1-gram (形態素解析にはmecab+ipadic-neologdを使用) accuracy: 0.619864237228 形態素2-gram accuracy: 0.562343694176 7
fastTextの場合 いろいろ試したが、台詞データはテキストとしては非常には短いせいか、時間 内にはあまり精度が出なかった Acc. 0.573 試したこと:
形態素解析でわかち書き -epoch 100 -lrUpdateRate 500 -wordNgrams 2 Acc. 0.567 文字でわかち書き(文字n-gramとみなす) -epoch 100 -wordNgrams 3 Acc. 0.573 wordNgramsを増やすとモデルデータが一気に大きくなってハンドリングが悪い 8
Webインターフェース版の実行例 台詞を入力すると、スコア上位のアイドルから順に表示する 判定した台詞はデレステのSSR[夢みるプリンセス]喜多日菜子のもの 今回の学習データには含まれていないが、ちゃんと判定に成功している 9
考察と今後の展開 そもそも人間がチャレンジしたとき正解率何%出せる問題なのか? かなりやりこんでるPでも、台詞のみから判定するのは難しいのでは 台詞は非常に短いし、語尾や細部の表現がポイントなので、形態素より文字n- gramのほうが(少しだけど)性能が出やすかったのではないか DNN系の手法(LSTMやCNN)も試してみたい
サービスとしてどこかに置いたら使ってくれる人がいるか? SS書きの人が「書いた台詞はそのキャラクターらしいか?」に迷ったら使える…かも 10