Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[Nishika] Narou_z Animal_2nd Solution
Search
Nishika-Inc
January 24, 2022
Technology
0
250
[Nishika] Narou_z Animal_2nd Solution
Nishika 小説家になろうコンペ
z Animal
2位ソリューション
Nishika-Inc
January 24, 2022
Tweet
Share
More Decks by Nishika-Inc
See All by Nishika-Inc
Nishika_テックチーム_ご紹介資料 / Nishika_TechTeam_Introduction
nishikainc
0
980
Nishika_Bussei_大好きオフトゥン_1st_solution.pdf
nishikainc
0
200
Nishika_Bussei_mi-solution_3rd_solution.pdf
nishikainc
0
410
Nishika_Sleep_TYS_1st_Solution.pdf
nishikainc
0
250
Nishika_Sleep_Condor_3rd_Solution.pdf
nishikainc
0
200
[Nishika] Patent_tmsbir_1st Solution
nishikainc
0
500
[Nishika] Patent_TDX_3rd Solution
nishikainc
0
380
[Nishika] Narou_Hi F_1st Solution
nishikainc
0
310
202010_Nishika_サービス紹介 / Nishika_Service_Introduction
nishikainc
0
240
Other Decks in Technology
See All in Technology
AI時代のインシデント対応 〜時代を切り抜ける、組織アーキテクチャ〜
jacopen
4
210
GitLab Duo Agent Platformで実現する“AI駆動・継続的サービス開発”と最新情報のアップデート
jeffi7
0
110
著者と読み解くAIエージェント現場導入の勘所 Lancers TechBook#2
smiyawaki0820
6
2.3k
AI駆動開発によるDDDの実践
dip_tech
PRO
0
270
Contract One Engineering Unit 紹介資料
sansan33
PRO
0
9.9k
原理から解き明かす AIと人間の成長 - Progate BAR
teba_eleven
2
290
Data Hubグループ 紹介資料
sansan33
PRO
0
2.3k
Digitization部 紹介資料
sansan33
PRO
1
6.1k
【5分でわかる】セーフィー エンジニア向け会社紹介
safie_recruit
0
37k
バグハンター視点によるサプライチェーンの脆弱性
scgajge12
0
180
Introduction to Bill One Development Engineer
sansan33
PRO
0
320
あなたの知らないDateのひみつ / The Secret of "Date" You Haven't known #tqrk16
expajp
0
110
Featured
See All Featured
Writing Fast Ruby
sferik
630
62k
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.5k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
17k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
48
9.8k
Documentation Writing (for coders)
carmenintech
76
5.2k
YesSQL, Process and Tooling at Scale
rocio
174
15k
Producing Creativity
orderedlist
PRO
348
40k
Raft: Consensus for Rubyists
vanstee
140
7.2k
Building Adaptive Systems
keathley
44
2.9k
Building a Modern Day E-commerce SEO Strategy
aleyda
45
8.3k
How to train your dragon (web standard)
notwaldorf
97
6.4k
The Power of CSS Pseudo Elements
geoffreycrofte
80
6.1k
Transcript
小説家になろう ブクマ数予測 〜”伸びる”タイトルとは?〜 ソリューション 最終スコア2位: Animal z
改善プロセス CV 暫定スコア 最終スコア 実質スコア 変化幅 トップトークン特徴量など (モデル:LoghtGBM) 0.7822 0.6885
0.6856 0.6870 BERTモデル特徴量 (whole,v2) 0.7661 0.6772 0.6652 0.6712 -0.0158 スパンモデル特徴量(1,2年) 0.7625 0.6677 0.6549 0.6613 -0.0099 Optunaチューニング(LGBM) 0.7516 0.6648 0.6508 0.6578 -0.0035 CatBoost(メインモデル) 0.7059 0.6347 0.6301 0.6324 -0.0254 ミス修正・再現確認など (スパンモデルCBに変更) 0.7059 0.6375 0.6358 0.6366 +0.0042 スパンモデルLGBM(1,2年) 0.7039 0.6335 0.6310 0.6322 -0.0044 (logloss)
改善効果が大きかったもの • トップトークン特徴量(後述:CV-0.02超) • CatBoost(-0.0254)
トップトークン評価(CV) LightGBM 変化幅 CatBoost 変化幅 トップトークン特徴量なし 0.8068 0.743 トップトークン特徴量あり 0.7781
-0.0287 0.7214 -0.0216
トップトークン抽出方法 • ブックマーク度1以上のトップトークンを抽出 【手順】 ① ブックマーク度ごとに各行の title, story, keyword からユニークトークンを抽出
② ブックマーク度ごとにトップトークンを抽出 (title: top200, story: top500, keyword: top200) ③ ユニーク化(title, story, keyword ごとにまとめる)
ブックマーク度別トークン抽出データ • ブックマーク度が高いほど抽出率が上昇 title story keyword トークン数 抽出率 トークン数 抽出率
トークン数 抽出率 1 53,877 0.62% 441,495 0.15% 96,903 0.32% 2 25,446 1.32% 215,279 0.32% 41,270 0.74% 3 14,607 2.22% 112,229 0.62% 20,358 1.47% 4 6,397 4.83% 56,164 1.23% 9,287 2.99% 抽出数 339 695 310
重要度上位トークン(CatBoost) • keyword > story > title で重要度が高い傾向 Rank title
重要度 story 重要度 keyword 重要度 1 ので 0.086 婚約 0.303 冬童話2021 1.072 2 ない 0.057 令嬢 0.301 R15 0.536 3 たち 0.047 ...... 0.273 日常 0.452 4 VS 0.047 する 0.269 ざまぁ 0.371 5 たら 0.044 参加 0.224 異能力バトル 0.345 6 令嬢 0.042 それ 0.207 近未来 0.293 7 転生 0.041 ます 0.202 シリアス 0.272 8 追放 0.040 ある 0.198 IF戦記 0.235 9 幼馴染 0.037 この 0.190 私小説 0.220 10 物語 0.035 って 0.182 婚約 0.203
BERTモデル・スパンモデル追加 • BERTモデル単独では性能が低いものの、特徴量化でスコア改善 (性能が低い割にスコア上昇に貢献、CV:0.9-1.1程度) • スパンモデルも、メインモデルより性能はやや劣るものの、 特徴量化でスコア改善 (訓練データ不足を0パディングで対応、LB:0.642-0.648程度)
CatBoost • モデル変更のみで大幅にスコア改善 【特徴】 • カテゴリカル変数に強い • 過学習を減少させる 【個人的感想】 •
パラメータチューニングが困難
最後に • 特徴量を増やしてスコアを上げていくやり方は効率的 (性能の低いモデルも無駄にはならない) • コードの整理と再現のコストが大きいのが課題 • どうもありがとうございました