[Nishika] Narou_z Animal_2nd Solution

小説家になろうブクマ数予測〜”伸びる”タイトルとは？〜ソリューション最終スコア2位：　Animal z

改善プロセス CV 暫定スコア最終スコア実質スコア変化幅トップトークン特徴量など（モデル：LoghtGBM） 0.7822 0.6885
0.6856 0.6870 BERTモデル特徴量（whole,v2） 0.7661 0.6772 0.6652 0.6712 -0.0158 スパンモデル特徴量（1,2年） 0.7625 0.6677 0.6549 0.6613 -0.0099 Optunaチューニング（LGBM） 0.7516 0.6648 0.6508 0.6578 -0.0035 CatBoost（メインモデル） 0.7059 0.6347 0.6301 0.6324 -0.0254 ミス修正・再現確認など（スパンモデルCBに変更） 0.7059 0.6375 0.6358 0.6366 +0.0042 スパンモデルLGBM（1,2年） 0.7039 0.6335 0.6310 0.6322 -0.0044 (logloss)

改善効果が大きかったもの • トップトークン特徴量（後述：CV-0.02超） • CatBoost（-0.0254）

トップトークン評価（CV） LightGBM 変化幅 CatBoost 変化幅トップトークン特徴量なし 0.8068 0.743 トップトークン特徴量あり 0.7781
-0.0287 0.7214 -0.0216

トップトークン抽出方法 • ブックマーク度1以上のトップトークンを抽出【手順】 ① ブックマーク度ごとに各行の title, story, keyword 　からユニークトークンを抽出
② ブックマーク度ごとにトップトークンを抽出　（title: top200, story: top500, keyword: top200） ③ ユニーク化（title, story, keyword ごとにまとめる）

ブックマーク度別トークン抽出データ • ブックマーク度が高いほど抽出率が上昇 title story keyword トークン数抽出率トークン数抽出率
トークン数抽出率 1 53,877 0.62% 441,495 0.15% 96,903 0.32% 2 25,446 1.32% 215,279 0.32% 41,270 0.74% 3 14,607 2.22% 112,229 0.62% 20,358 1.47% 4 6,397 4.83% 56,164 1.23% 9,287 2.99% 抽出数 339 695 310

重要度上位トークン（CatBoost） • keyword > story > title で重要度が高い傾向 Rank title
重要度 story 重要度 keyword 重要度 1 ので 0.086 婚約 0.303 冬童話2021 1.072 2 ない 0.057 令嬢 0.301 R15 0.536 3 たち 0.047 ...... 0.273 日常 0.452 4 VS 0.047 する 0.269 ざまぁ 0.371 5 たら 0.044 参加 0.224 異能力バトル 0.345 6 令嬢 0.042 それ 0.207 近未来 0.293 7 転生 0.041 ます 0.202 シリアス 0.272 8 追放 0.040 ある 0.198 IF戦記 0.235 9 幼馴染 0.037 この 0.190 私小説 0.220 10 物語 0.035 って 0.182 婚約 0.203

BERTモデル・スパンモデル追加 • BERTモデル単独では性能が低いものの、特徴量化でスコア改善　（性能が低い割にスコア上昇に貢献、CV:0.9-1.1程度） • スパンモデルも、メインモデルより性能はやや劣るものの、　特徴量化でスコア改善　（訓練データ不足を0パディングで対応、LB:0.642-0.648程度）

CatBoost • モデル変更のみで大幅にスコア改善【特徴】 • カテゴリカル変数に強い • 過学習を減少させる【個人的感想】 •
パラメータチューニングが困難

最後に • 特徴量を増やしてスコアを上げていくやり方は効率的　（性能の低いモデルも無駄にはならない） • コードの整理と再現のコストが大きいのが課題 • 　　　　どうもありがとうございました

[Nishika] Narou_z Animal_2nd Solution

[Nishika] Narou_z Animal_2nd Solution

Nishika-Inc

More Decks by Nishika-Inc

Other Decks in Technology

Featured

Transcript

小説家になろうブクマ数予測〜”伸びる”タイトルとは？〜ソリューション最終スコア2位：　Animal z

改善プロセス CV 暫定スコア最終スコア実質スコア変化幅トップトークン特徴量など（モデル：LoghtGBM） 0.7822 0.6885

改善効果が大きかったもの • トップトークン特徴量（後述：CV-0.02超） • CatBoost（-0.0254）

トップトークン評価（CV） LightGBM 変化幅 CatBoost 変化幅トップトークン特徴量なし 0.8068 0.743 トップトークン特徴量あり 0.7781

トップトークン抽出方法 • ブックマーク度1以上のトップトークンを抽出【手順】 ① ブックマーク度ごとに各行の title, story, keyword 　からユニークトークンを抽出

ブックマーク度別トークン抽出データ • ブックマーク度が高いほど抽出率が上昇 title story keyword トークン数抽出率トークン数抽出率

重要度上位トークン（CatBoost） • keyword > story > title で重要度が高い傾向 Rank title

CatBoost • モデル変更のみで大幅にスコア改善【特徴】 • カテゴリカル変数に強い • 過学習を減少させる【個人的感想】 •

最後に • 特徴量を増やしてスコアを上げていくやり方は効率的　（性能の低いモデルも無駄にはならない） • コードの整理と再現のコストが大きいのが課題 • 　　　　どうもありがとうございました