Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Nishika] Narou_z Animal_2nd Solution

Nishika-Inc
January 24, 2022

[Nishika] Narou_z Animal_2nd Solution

Nishika 小説家になろうコンペ
z Animal
2位ソリューション

Nishika-Inc

January 24, 2022
Tweet

More Decks by Nishika-Inc

Other Decks in Technology

Transcript

  1. 改善プロセス CV 暫定スコア 最終スコア 実質スコア 変化幅 トップトークン特徴量など (モデル:LoghtGBM) 0.7822 0.6885

    0.6856 0.6870 BERTモデル特徴量 (whole,v2) 0.7661 0.6772 0.6652 0.6712 -0.0158 スパンモデル特徴量(1,2年) 0.7625 0.6677 0.6549 0.6613 -0.0099 Optunaチューニング(LGBM) 0.7516 0.6648 0.6508 0.6578 -0.0035 CatBoost(メインモデル) 0.7059 0.6347 0.6301 0.6324 -0.0254 ミス修正・再現確認など (スパンモデルCBに変更) 0.7059 0.6375 0.6358 0.6366 +0.0042 スパンモデルLGBM(1,2年) 0.7039 0.6335 0.6310 0.6322 -0.0044 (logloss)
  2. トップトークン抽出方法 • ブックマーク度1以上のトップトークンを抽出 【手順】 ① ブックマーク度ごとに各行の title, story, keyword  からユニークトークンを抽出

    ② ブックマーク度ごとにトップトークンを抽出  (title: top200, story: top500, keyword: top200) ③ ユニーク化(title, story, keyword ごとにまとめる)
  3. ブックマーク度別トークン抽出データ • ブックマーク度が高いほど抽出率が上昇 title story keyword トークン数 抽出率 トークン数 抽出率

    トークン数 抽出率 1 53,877 0.62% 441,495 0.15% 96,903 0.32% 2 25,446 1.32% 215,279 0.32% 41,270 0.74% 3 14,607 2.22% 112,229 0.62% 20,358 1.47% 4 6,397 4.83% 56,164 1.23% 9,287 2.99% 抽出数 339 695 310
  4. 重要度上位トークン(CatBoost) • keyword > story > title で重要度が高い傾向 Rank title

    重要度 story 重要度 keyword 重要度 1 ので 0.086 婚約 0.303 冬童話2021 1.072 2 ない 0.057 令嬢 0.301 R15 0.536 3 たち 0.047 ...... 0.273 日常 0.452 4 VS 0.047 する 0.269 ざまぁ 0.371 5 たら 0.044 参加 0.224 異能力バトル 0.345 6 令嬢 0.042 それ 0.207 近未来 0.293 7 転生 0.041 ます 0.202 シリアス 0.272 8 追放 0.040 ある 0.198 IF戦記 0.235 9 幼馴染 0.037 この 0.190 私小説 0.220 10 物語 0.035 って 0.182 婚約 0.203