Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[Nishika] Narou_z Animal_2nd Solution
Search
Nishika-Inc
January 24, 2022
Technology
0
210
[Nishika] Narou_z Animal_2nd Solution
Nishika 小説家になろうコンペ
z Animal
2位ソリューション
Nishika-Inc
January 24, 2022
Tweet
Share
More Decks by Nishika-Inc
See All by Nishika-Inc
Nishika_テックチーム_ご紹介資料 / Nishika_TechTeam_Introduction
nishikainc
0
140
Nishika_Bussei_大好きオフトゥン_1st_solution.pdf
nishikainc
0
120
Nishika_Bussei_mi-solution_3rd_solution.pdf
nishikainc
0
260
Nishika_Sleep_TYS_1st_Solution.pdf
nishikainc
0
130
Nishika_Sleep_Condor_3rd_Solution.pdf
nishikainc
0
130
[Nishika] Patent_tmsbir_1st Solution
nishikainc
0
400
[Nishika] Patent_TDX_3rd Solution
nishikainc
0
300
[Nishika] Narou_Hi F_1st Solution
nishikainc
0
230
202010_Nishika_サービス紹介 / Nishika_Service_Introduction
nishikainc
0
190
Other Decks in Technology
See All in Technology
レガシーをぶっ壊せ。AEONで始めるDevRelの話 / Qiita Night 2024-2-22
aeonpeople
3
1.3k
継続的な改善 x ⾮連続的な進化
sansantech
PRO
3
150
[新卒向け研修資料] テスト文字列に「うんこ」と入れるな(2024年版)
infiniteloop_inc
2
11k
Kernel MemoryでAzure OpenAI Serviceとお手軽データソース連携
mitsuzono
1
240
ワールドカフェI /チューターを改良する / World Café I and Improving the Tutors
ks91
PRO
0
120
AWSに詳しくない人でも始められるコスト最適化ガイド
yuhta28
0
160
Java EE/Jakarta EEの現状と将来―クラウドネイティブ時代にJava EEは対応できるのか?―
takakiyo
1
140
SPI原点回帰論:事業課題とFour Keysの結節点を見出す実践的ソフトウェアプロセス改善 / DevOpsDays Tokyo 2024
visional_engineering_and_design
4
1.9k
プラットフォームってつくることより計測することが重要なんじゃないかという話 / Platform Engineering Meetup #8
taishin
1
340
私が trocco を推す理由
__allllllllez__
1
210
JAWS-UG Bedrock Claude Night
yamahiro
3
560
Compose Compiler Metricsを使った実践的なコードレビュー
tomorrowkey
1
220
Featured
See All Featured
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
125
32k
Done Done
chrislema
178
15k
Art, The Web, and Tiny UX
lynnandtonic
289
19k
Optimising Largest Contentful Paint
csswizardry
8
2.4k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
120
39k
Writing Fast Ruby
sferik
621
60k
Raft: Consensus for Rubyists
vanstee
132
6.3k
10 Git Anti Patterns You Should be Aware of
lemiorhan
648
58k
A Philosophy of Restraint
colly
197
16k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
21
1.6k
Product Roadmaps are Hard
iamctodd
44
9.7k
KATA
mclloyd
15
12k
Transcript
小説家になろう ブクマ数予測 〜”伸びる”タイトルとは?〜 ソリューション 最終スコア2位: Animal z
改善プロセス CV 暫定スコア 最終スコア 実質スコア 変化幅 トップトークン特徴量など (モデル:LoghtGBM) 0.7822 0.6885
0.6856 0.6870 BERTモデル特徴量 (whole,v2) 0.7661 0.6772 0.6652 0.6712 -0.0158 スパンモデル特徴量(1,2年) 0.7625 0.6677 0.6549 0.6613 -0.0099 Optunaチューニング(LGBM) 0.7516 0.6648 0.6508 0.6578 -0.0035 CatBoost(メインモデル) 0.7059 0.6347 0.6301 0.6324 -0.0254 ミス修正・再現確認など (スパンモデルCBに変更) 0.7059 0.6375 0.6358 0.6366 +0.0042 スパンモデルLGBM(1,2年) 0.7039 0.6335 0.6310 0.6322 -0.0044 (logloss)
改善効果が大きかったもの • トップトークン特徴量(後述:CV-0.02超) • CatBoost(-0.0254)
トップトークン評価(CV) LightGBM 変化幅 CatBoost 変化幅 トップトークン特徴量なし 0.8068 0.743 トップトークン特徴量あり 0.7781
-0.0287 0.7214 -0.0216
トップトークン抽出方法 • ブックマーク度1以上のトップトークンを抽出 【手順】 ① ブックマーク度ごとに各行の title, story, keyword からユニークトークンを抽出
② ブックマーク度ごとにトップトークンを抽出 (title: top200, story: top500, keyword: top200) ③ ユニーク化(title, story, keyword ごとにまとめる)
ブックマーク度別トークン抽出データ • ブックマーク度が高いほど抽出率が上昇 title story keyword トークン数 抽出率 トークン数 抽出率
トークン数 抽出率 1 53,877 0.62% 441,495 0.15% 96,903 0.32% 2 25,446 1.32% 215,279 0.32% 41,270 0.74% 3 14,607 2.22% 112,229 0.62% 20,358 1.47% 4 6,397 4.83% 56,164 1.23% 9,287 2.99% 抽出数 339 695 310
重要度上位トークン(CatBoost) • keyword > story > title で重要度が高い傾向 Rank title
重要度 story 重要度 keyword 重要度 1 ので 0.086 婚約 0.303 冬童話2021 1.072 2 ない 0.057 令嬢 0.301 R15 0.536 3 たち 0.047 ...... 0.273 日常 0.452 4 VS 0.047 する 0.269 ざまぁ 0.371 5 たら 0.044 参加 0.224 異能力バトル 0.345 6 令嬢 0.042 それ 0.207 近未来 0.293 7 転生 0.041 ます 0.202 シリアス 0.272 8 追放 0.040 ある 0.198 IF戦記 0.235 9 幼馴染 0.037 この 0.190 私小説 0.220 10 物語 0.035 って 0.182 婚約 0.203
BERTモデル・スパンモデル追加 • BERTモデル単独では性能が低いものの、特徴量化でスコア改善 (性能が低い割にスコア上昇に貢献、CV:0.9-1.1程度) • スパンモデルも、メインモデルより性能はやや劣るものの、 特徴量化でスコア改善 (訓練データ不足を0パディングで対応、LB:0.642-0.648程度)
CatBoost • モデル変更のみで大幅にスコア改善 【特徴】 • カテゴリカル変数に強い • 過学習を減少させる 【個人的感想】 •
パラメータチューニングが困難
最後に • 特徴量を増やしてスコアを上げていくやり方は効率的 (性能の低いモデルも無駄にはならない) • コードの整理と再現のコストが大きいのが課題 • どうもありがとうございました