Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[Nishika] Narou_z Animal_2nd Solution
Search
Nishika-Inc
January 24, 2022
Technology
0
230
[Nishika] Narou_z Animal_2nd Solution
Nishika 小説家になろうコンペ
z Animal
2位ソリューション
Nishika-Inc
January 24, 2022
Tweet
Share
More Decks by Nishika-Inc
See All by Nishika-Inc
Nishika_テックチーム_ご紹介資料 / Nishika_TechTeam_Introduction
nishikainc
0
550
Nishika_Bussei_大好きオフトゥン_1st_solution.pdf
nishikainc
0
170
Nishika_Bussei_mi-solution_3rd_solution.pdf
nishikainc
0
360
Nishika_Sleep_TYS_1st_Solution.pdf
nishikainc
0
190
Nishika_Sleep_Condor_3rd_Solution.pdf
nishikainc
0
160
[Nishika] Patent_tmsbir_1st Solution
nishikainc
0
450
[Nishika] Patent_TDX_3rd Solution
nishikainc
0
360
[Nishika] Narou_Hi F_1st Solution
nishikainc
0
270
202010_Nishika_サービス紹介 / Nishika_Service_Introduction
nishikainc
0
210
Other Decks in Technology
See All in Technology
入門 PEAK Threat Hunting @SECCON
odorusatoshi
0
190
開発者のための FinOps/FinOps for Engineers
oracle4engineer
PRO
2
290
DevinでAI AWSエンジニア製造計画 序章 〜CDKを添えて〜/devin-load-to-aws-engineer
tomoki10
0
260
最近のSRE支援ニーズ考察 | sogaoh's LT @ Road to SRE NEXT@札幌
sogaoh
PRO
1
170
サイト信頼性エンジニアリングとAmazon Web Services / SRE and AWS
ymotongpoo
8
1.9k
20250309 無冠のわたし これからどう先生きのこれる?
akiko_pusu
9
1.6k
どうすると生き残れないのか/how-not-to-survive
hanhan1978
10
8.7k
Ruby on Railsで持続可能な開発を行うために取り組んでいること
am1157154
3
190
AIエージェント時代のエンジニアになろう #jawsug #jawsdays2025 / 20250301 Agentic AI Engineering
yoshidashingo
9
4.4k
アジリティを高めるテストマネジメント #QiitaQualityForward
makky_tyuyan
1
540
株式会社Awarefy(アウェアファイ)会社説明資料 / Awarefy-Company-Deck
awarefy
3
12k
"TEAM"を導入したら最高のエンジニア"Team"を実現できた / Deploying "TEAM" and Building the Best Engineering "Team"
yuj1osm
1
250
Featured
See All Featured
The World Runs on Bad Software
bkeepers
PRO
67
11k
VelocityConf: Rendering Performance Case Studies
addyosmani
328
24k
Side Projects
sachag
452
42k
Six Lessons from altMBA
skipperchong
27
3.6k
Why You Should Never Use an ORM
jnunemaker
PRO
55
9.2k
Practical Orchestrator
shlominoach
186
10k
Stop Working from a Prison Cell
hatefulcrawdad
268
20k
Code Review Best Practice
trishagee
67
18k
What’s in a name? Adding method to the madness
productmarketing
PRO
22
3.3k
Code Reviewing Like a Champion
maltzj
521
39k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.5k
Optimising Largest Contentful Paint
csswizardry
34
3.1k
Transcript
小説家になろう ブクマ数予測 〜”伸びる”タイトルとは?〜 ソリューション 最終スコア2位: Animal z
改善プロセス CV 暫定スコア 最終スコア 実質スコア 変化幅 トップトークン特徴量など (モデル:LoghtGBM) 0.7822 0.6885
0.6856 0.6870 BERTモデル特徴量 (whole,v2) 0.7661 0.6772 0.6652 0.6712 -0.0158 スパンモデル特徴量(1,2年) 0.7625 0.6677 0.6549 0.6613 -0.0099 Optunaチューニング(LGBM) 0.7516 0.6648 0.6508 0.6578 -0.0035 CatBoost(メインモデル) 0.7059 0.6347 0.6301 0.6324 -0.0254 ミス修正・再現確認など (スパンモデルCBに変更) 0.7059 0.6375 0.6358 0.6366 +0.0042 スパンモデルLGBM(1,2年) 0.7039 0.6335 0.6310 0.6322 -0.0044 (logloss)
改善効果が大きかったもの • トップトークン特徴量(後述:CV-0.02超) • CatBoost(-0.0254)
トップトークン評価(CV) LightGBM 変化幅 CatBoost 変化幅 トップトークン特徴量なし 0.8068 0.743 トップトークン特徴量あり 0.7781
-0.0287 0.7214 -0.0216
トップトークン抽出方法 • ブックマーク度1以上のトップトークンを抽出 【手順】 ① ブックマーク度ごとに各行の title, story, keyword からユニークトークンを抽出
② ブックマーク度ごとにトップトークンを抽出 (title: top200, story: top500, keyword: top200) ③ ユニーク化(title, story, keyword ごとにまとめる)
ブックマーク度別トークン抽出データ • ブックマーク度が高いほど抽出率が上昇 title story keyword トークン数 抽出率 トークン数 抽出率
トークン数 抽出率 1 53,877 0.62% 441,495 0.15% 96,903 0.32% 2 25,446 1.32% 215,279 0.32% 41,270 0.74% 3 14,607 2.22% 112,229 0.62% 20,358 1.47% 4 6,397 4.83% 56,164 1.23% 9,287 2.99% 抽出数 339 695 310
重要度上位トークン(CatBoost) • keyword > story > title で重要度が高い傾向 Rank title
重要度 story 重要度 keyword 重要度 1 ので 0.086 婚約 0.303 冬童話2021 1.072 2 ない 0.057 令嬢 0.301 R15 0.536 3 たち 0.047 ...... 0.273 日常 0.452 4 VS 0.047 する 0.269 ざまぁ 0.371 5 たら 0.044 参加 0.224 異能力バトル 0.345 6 令嬢 0.042 それ 0.207 近未来 0.293 7 転生 0.041 ます 0.202 シリアス 0.272 8 追放 0.040 ある 0.198 IF戦記 0.235 9 幼馴染 0.037 この 0.190 私小説 0.220 10 物語 0.035 って 0.182 婚約 0.203
BERTモデル・スパンモデル追加 • BERTモデル単独では性能が低いものの、特徴量化でスコア改善 (性能が低い割にスコア上昇に貢献、CV:0.9-1.1程度) • スパンモデルも、メインモデルより性能はやや劣るものの、 特徴量化でスコア改善 (訓練データ不足を0パディングで対応、LB:0.642-0.648程度)
CatBoost • モデル変更のみで大幅にスコア改善 【特徴】 • カテゴリカル変数に強い • 過学習を減少させる 【個人的感想】 •
パラメータチューニングが困難
最後に • 特徴量を増やしてスコアを上げていくやり方は効率的 (性能の低いモデルも無駄にはならない) • コードの整理と再現のコストが大きいのが課題 • どうもありがとうございました