Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[Nishika] Narou_z Animal_2nd Solution
Search
Nishika-Inc
January 24, 2022
Technology
0
250
[Nishika] Narou_z Animal_2nd Solution
Nishika 小説家になろうコンペ
z Animal
2位ソリューション
Nishika-Inc
January 24, 2022
Tweet
Share
More Decks by Nishika-Inc
See All by Nishika-Inc
Nishika_テックチーム_ご紹介資料 / Nishika_TechTeam_Introduction
nishikainc
0
1.1k
Nishika_Bussei_大好きオフトゥン_1st_solution.pdf
nishikainc
0
210
Nishika_Bussei_mi-solution_3rd_solution.pdf
nishikainc
0
410
Nishika_Sleep_TYS_1st_Solution.pdf
nishikainc
0
250
Nishika_Sleep_Condor_3rd_Solution.pdf
nishikainc
0
210
[Nishika] Patent_tmsbir_1st Solution
nishikainc
0
500
[Nishika] Patent_TDX_3rd Solution
nishikainc
0
390
[Nishika] Narou_Hi F_1st Solution
nishikainc
0
310
202010_Nishika_サービス紹介 / Nishika_Service_Introduction
nishikainc
0
240
Other Decks in Technology
See All in Technology
AIエージェント開発と活用を加速するワークフロー自動生成への挑戦
shibuiwilliam
5
870
フルカイテン株式会社 エンジニア向け採用資料
fullkaiten
0
9.9k
Amazon Bedrock Knowledge Bases × メタデータ活用で実現する検証可能な RAG 設計
tomoaki25
6
2.4k
2025-12-27 Claude CodeでPRレビュー対応を効率化する@機械学習社会実装勉強会第54回
nakamasato
4
1.1k
Strands Agents × インタリーブ思考 で変わるAIエージェント設計 / Strands Agents x Interleaved Thinking AI Agents
takanorig
5
2.1k
半年で、AIゼロ知識から AI中心開発組織の変革担当に至るまで
rfdnxbro
0
150
ハッカソンから社内プロダクトへ AIエージェント「ko☆shi」開発で学んだ4つの重要要素
sonoda_mj
6
1.7k
AgentCore BrowserとClaude Codeスキルを活用した 『初手AI』を実現する業務自動化AIエージェント基盤
ruzia
7
1.6k
Snowflake Industry Days 2025 Nowcast
takumimukaiyama
0
120
Oracle Database@AWS:サービス概要のご紹介
oracle4engineer
PRO
1
410
20251203_AIxIoTビジネス共創ラボ_第4回勉強会_BP山崎.pdf
iotcomjpadmin
0
140
AWS運用を効率化する!AWS Organizationsを軸にした一元管理の実践/nikkei-tech-talk-202512
nikkei_engineer_recruiting
0
170
Featured
See All Featured
Unlocking the hidden potential of vector embeddings in international SEO
frankvandijk
0
130
VelocityConf: Rendering Performance Case Studies
addyosmani
333
24k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
249
1.3M
Producing Creativity
orderedlist
PRO
348
40k
Statistics for Hackers
jakevdp
799
230k
Ruling the World: When Life Gets Gamed
codingconduct
0
100
brightonSEO & MeasureFest 2025 - Christian Goodrich - Winning strategies for Black Friday CRO & PPC
cargoodrich
2
66
Music & Morning Musume
bryan
46
7k
The Pragmatic Product Professional
lauravandoore
37
7.1k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
162
16k
Writing Fast Ruby
sferik
630
62k
Applied NLP in the Age of Generative AI
inesmontani
PRO
3
2k
Transcript
小説家になろう ブクマ数予測 〜”伸びる”タイトルとは?〜 ソリューション 最終スコア2位: Animal z
改善プロセス CV 暫定スコア 最終スコア 実質スコア 変化幅 トップトークン特徴量など (モデル:LoghtGBM) 0.7822 0.6885
0.6856 0.6870 BERTモデル特徴量 (whole,v2) 0.7661 0.6772 0.6652 0.6712 -0.0158 スパンモデル特徴量(1,2年) 0.7625 0.6677 0.6549 0.6613 -0.0099 Optunaチューニング(LGBM) 0.7516 0.6648 0.6508 0.6578 -0.0035 CatBoost(メインモデル) 0.7059 0.6347 0.6301 0.6324 -0.0254 ミス修正・再現確認など (スパンモデルCBに変更) 0.7059 0.6375 0.6358 0.6366 +0.0042 スパンモデルLGBM(1,2年) 0.7039 0.6335 0.6310 0.6322 -0.0044 (logloss)
改善効果が大きかったもの • トップトークン特徴量(後述:CV-0.02超) • CatBoost(-0.0254)
トップトークン評価(CV) LightGBM 変化幅 CatBoost 変化幅 トップトークン特徴量なし 0.8068 0.743 トップトークン特徴量あり 0.7781
-0.0287 0.7214 -0.0216
トップトークン抽出方法 • ブックマーク度1以上のトップトークンを抽出 【手順】 ① ブックマーク度ごとに各行の title, story, keyword からユニークトークンを抽出
② ブックマーク度ごとにトップトークンを抽出 (title: top200, story: top500, keyword: top200) ③ ユニーク化(title, story, keyword ごとにまとめる)
ブックマーク度別トークン抽出データ • ブックマーク度が高いほど抽出率が上昇 title story keyword トークン数 抽出率 トークン数 抽出率
トークン数 抽出率 1 53,877 0.62% 441,495 0.15% 96,903 0.32% 2 25,446 1.32% 215,279 0.32% 41,270 0.74% 3 14,607 2.22% 112,229 0.62% 20,358 1.47% 4 6,397 4.83% 56,164 1.23% 9,287 2.99% 抽出数 339 695 310
重要度上位トークン(CatBoost) • keyword > story > title で重要度が高い傾向 Rank title
重要度 story 重要度 keyword 重要度 1 ので 0.086 婚約 0.303 冬童話2021 1.072 2 ない 0.057 令嬢 0.301 R15 0.536 3 たち 0.047 ...... 0.273 日常 0.452 4 VS 0.047 する 0.269 ざまぁ 0.371 5 たら 0.044 参加 0.224 異能力バトル 0.345 6 令嬢 0.042 それ 0.207 近未来 0.293 7 転生 0.041 ます 0.202 シリアス 0.272 8 追放 0.040 ある 0.198 IF戦記 0.235 9 幼馴染 0.037 この 0.190 私小説 0.220 10 物語 0.035 って 0.182 婚約 0.203
BERTモデル・スパンモデル追加 • BERTモデル単独では性能が低いものの、特徴量化でスコア改善 (性能が低い割にスコア上昇に貢献、CV:0.9-1.1程度) • スパンモデルも、メインモデルより性能はやや劣るものの、 特徴量化でスコア改善 (訓練データ不足を0パディングで対応、LB:0.642-0.648程度)
CatBoost • モデル変更のみで大幅にスコア改善 【特徴】 • カテゴリカル変数に強い • 過学習を減少させる 【個人的感想】 •
パラメータチューニングが困難
最後に • 特徴量を増やしてスコアを上げていくやり方は効率的 (性能の低いモデルも無駄にはならない) • コードの整理と再現のコストが大きいのが課題 • どうもありがとうございました