Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Speaker Deck
PRO
Sign in
Sign up for free
atmacup8 振り返り会登壇資料
Sekine Hiroto
February 25, 2021
Science
0
210
atmacup8 振り返り会登壇資料
Sekine Hiroto
February 25, 2021
Tweet
Share
More Decks by Sekine Hiroto
See All by Sekine Hiroto
推薦システムと多目的最適化
hiroto0227
2
2.1k
WWW2020 online報告会
hiroto0227
0
410
Other Decks in Science
See All in Science
Open Software for Astrophysics, AAS241
dfm
2
190
最適輸送入門
joisino
2
1.3k
「俯瞰」可視化が情報探索・分析を変える
hayataka88
4
970
iPhoneと一緒なら 一人でも頑張れる 野外調査の3次元記録
ishiijunpei
0
570
Retrofitting Concurrency -- Lessons from the engine room
kayceesrk
1
1.5k
統計的因果推論の理論と実装「潜在的結果変数の枠組み」
s1ok69oo
3
1.7k
crossGLAM
mprove
0
140
データ初公開!Ruby/Rails 学習者の動向 / Ruby and Rails data in Japan
yasslab
PRO
0
2.6k
La Station Biologique de Roscoff et ses coopérations : une approche géographique
marionmai
0
180
Successful social norms with ternary reputation for indirect reciprocity
yohm
0
130
Pearl「入門統計的因果推論」の概要と活用イメージ
s1ok69oo
2
530
The ACM Web Conference 2022 国際会議報告
ynakano
1
200
Featured
See All Featured
4 Signs Your Business is Dying
shpigford
171
20k
Designing for humans not robots
tammielis
245
24k
Bash Introduction
62gerente
601
210k
Debugging Ruby Performance
tmm1
67
11k
Building Adaptive Systems
keathley
27
1.3k
Practical Orchestrator
shlominoach
178
8.9k
Agile that works and the tools we love
rasmusluckow
320
20k
Happy Clients
brianwarren
90
5.8k
Principles of Awesome APIs and How to Build Them.
keavy
117
15k
Facilitating Awesome Meetings
lara
33
4.6k
Adopting Sorbet at Scale
ufuk
65
7.8k
Imperfection Machines: The Place of Print at Facebook
scottboms
254
12k
Transcript
atmacup 8 振り返り会 Sekine Hiroto
• Sekine Hiroto • twitter: @ndnto • github: @hiroto0227 •
大学では自然言語処理を研究 • 20卒でWantedly, inc.にJoin。(推薦やデータサイエンス) 趣味 • ビール (特に海外ビール) 自己紹介
目次 • 今回のコンペの進め方 • 作成した特徴量 • 今回できなかったこと
• データ分析コンペを始めるのには最適! • 1週間という短い期間で集中して取り組む! • ディスカッションに知りたかったことやアイディアが丁寧に書かれている! atmacupへの印象 今回も多くのディスカッションを参考にさせていただきました - RMSLEを最適化する小技
- シリーズ名ごとにGroup KFold
進め方 • @hakubishin3 と @yu-ya4 とチームを組んで進めた。 ◦ チームを組んだ目的としては、 @hakubishin3 から知見を共有してもらう。
◦ 初日の夜に効きそうな特徴量を聞いて、そこからは個人でガンガン。 • まず始めにSubmit! ◦ 初心者にとってはここが難関 -> 1日集中してサブミットまでできる仕組みを作成。 ◦ Data Load, Preprocessor, Model, Training, Predict, Submit • 特徴量を自由に追加できる形にしておく。 ◦ 1つの関数で1つの処理を行う。 ◦ 関数の入力、出力を合わせておくことで、 for文で回せるようにする。 • そこからは、アイディアと面倒くさがらずにできるかの勝負! ◦ 効きそうな特徴量から作っていく。
作成した特徴量 • Aggregation Feature ◦ カテゴリ変数(PublisherやDeveloper, Nameを含む)ごとに、Year_of_ReleaseやCritic_Scoreなど に対し集計処理 • Diff
Feature ◦ Aggregation Featureの集計した平均値と各レコードの平均値の差をとる。 • Target Encoding ◦ カテゴリ変数ごとに、 xx_Salesに対し集計処理 ◦ DeveloperやPublisherを入れたらリークした。 • LDAによる分散表現 ◦ 分散表現にすることで、 Aggregation Featureでは与えられないような角度からの特徴を得たい。 • Rank Feature
PublisherとDeveloperについて • TrainとTestの分け方がPublisherによって分割されていると想定 • Publisherを直接使用したところ、CVの値は劇的に上がったが、LBの値が下がると いう現象が起きた。 • 「Nintendo」というPublisherを使用できる特徴量で表現したい。 ◦ UserScoreの平均が高く、幅広いジャンルのゲームを作成している
◦ ここでGlobal_Salesが多いという情報を使用してしまうと、それを TestデータのPublisherで再 現することはできない。 • Publisherごとに特徴量の平均、分散、パーセンタイル値、Countなどの集計値をと る。
データをざっと見る。 • PlatformやGenreやPlatformはユニーク数も少なくTrainとTestに満遍なく入ってい たため、そのまま使用することができた。 ◦ Target EncodingもPlatformごとやGenreごとなどで使用できた。 • Critic_ScoreやUser_Scoreなどは50%程度欠損値である。 •
DeveloperやRatingについても欠損値が多かった。 • このNull値を補えるように特徴量を作成したい。
力を入れたところ (Series Nameの名寄せ) • どこまでをシリーズとみなすかがゲームによって異なる。 ◦ LEGO Batman を LEGOとするか?
LEGO Batmanとするか? 方法 • Nameの最初から5gramを見る。 ◦ 3回以上出現した5gramがあれば、辞書に追加 • Nameの最初から4gramを見る。 ... • Nameと辞書にマッチするもののうち、最も単語数の 多いものをそのシリーズ名とする。
RankFeature • 各カテゴリごとにYear_of_Releaseを並べたもの • AggregateFeatureばかりを作成していたため、同じカテゴリのものは同じ特徴量と なってしまうことを変えたかった。 • Year_of_Releaseが同じ場合は登場順でランク付けを行う。 • Genre_Year_of_Releaseのカテゴリでランク付けを行った。
• リークにつながり、Public Scoreが0.78から0.69に上がった。 最も効いた特徴量
None
Feature Importance
今後に向けて必要だと感じたところ • Preporcessingのクラス ◦ 特徴量が多くなってくると、各特徴量の依存関係の整合性が合わなくなりそう。 • 特徴量のNaming ◦ Aggregation Featureなどは、何のカラムを
Group Byして、何のカラムに対しての平均なのか?と いうのをルールとして決めておくことで、理解度や Namingの迷いがなくなる。 • 何の特徴量がなぜ効いてるか? ◦ 初めは特徴量を作成して学習させて、後からなぜそれが効いたのか、効かなかったかを考えようと したが、後半はスコアを伸ばしたい気持ちが強くて、なぜ効いたかを考えられなかった。 • 特徴量作成のネタ切れ
ありがとうございました! 楽しかったです!!