Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
atmacup8 振り返り会登壇資料
Search
Sekine Hiroto
February 25, 2021
Science
440
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
atmacup8 振り返り会登壇資料
Sekine Hiroto
February 25, 2021
More Decks by Sekine Hiroto
See All by Sekine Hiroto
推薦システムと多目的最適化
hiroto0227
2
2.7k
WWW2020 online報告会
hiroto0227
0
650
Other Decks in Science
See All in Science
1. CPC理論の展開と集合的知能モデル(JSAI2026 KS-27 集合的予測符号化と新たな知性の時代)
hayashiyus884
1
180
機械学習 - ニューラルネットワーク入門
trycycle
PRO
0
1k
共生概念の整理と AIアライメントの構想
hiroakihamada
0
220
機械学習 - pandas入門
trycycle
PRO
0
610
見上公一.pdf
genomethica
0
150
アクシズを探せ! 各勢力の位置関係についての考察
miu_crescent
PRO
1
350
白金鉱業Meetup_Vol.20 効果検証ことはじめ / Introduction to Impact Evaluation
brainpadpr
2
1.9k
生成AIの現状と展望
tagtag
PRO
0
130
俺たちは本当に分かり合えるのか? ~ PdMとスクラムチームの “ずれ” を科学する
bonotake
2
2.4k
イロレーティングを活用した関東大学サッカーの定量的実力評価 / A quantitative performance evaluation of Kanto University Football Association using Elo rating
konakalab
0
270
How we plan to publish 1,000 bio-logging datasets to GBIF and OBIS
peterdesmet
0
100
因果推論と機械学習
sshimizu2006
1
1.2k
Featured
See All Featured
Building the Perfect Custom Keyboard
takai
2
790
The agentic SEO stack - context over prompts
schlessera
0
800
Tell your own story through comics
letsgokoyo
1
950
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
コードの90%をAIが書く世界で何が待っているのか / What awaits us in a world where 90% of the code is written by AI
rkaga
62
44k
Utilizing Notion as your number one productivity tool
mfonobong
4
320
Prompt Engineering for Job Search
mfonobong
0
340
Embracing the Ebb and Flow
colly
88
5.1k
30 Presentation Tips
portentint
PRO
1
320
Six Lessons from altMBA
skipperchong
29
4.3k
Measuring Dark Social's Impact On Conversion and Attribution
stephenakadiri
2
210
Optimising Largest Contentful Paint
csswizardry
37
3.7k
Transcript
atmacup 8 振り返り会 Sekine Hiroto
• Sekine Hiroto • twitter: @ndnto • github: @hiroto0227 •
大学では自然言語処理を研究 • 20卒でWantedly, inc.にJoin。(推薦やデータサイエンス) 趣味 • ビール (特に海外ビール) 自己紹介
目次 • 今回のコンペの進め方 • 作成した特徴量 • 今回できなかったこと
• データ分析コンペを始めるのには最適! • 1週間という短い期間で集中して取り組む! • ディスカッションに知りたかったことやアイディアが丁寧に書かれている! atmacupへの印象 今回も多くのディスカッションを参考にさせていただきました - RMSLEを最適化する小技
- シリーズ名ごとにGroup KFold
進め方 • @hakubishin3 と @yu-ya4 とチームを組んで進めた。 ◦ チームを組んだ目的としては、 @hakubishin3 から知見を共有してもらう。
◦ 初日の夜に効きそうな特徴量を聞いて、そこからは個人でガンガン。 • まず始めにSubmit! ◦ 初心者にとってはここが難関 -> 1日集中してサブミットまでできる仕組みを作成。 ◦ Data Load, Preprocessor, Model, Training, Predict, Submit • 特徴量を自由に追加できる形にしておく。 ◦ 1つの関数で1つの処理を行う。 ◦ 関数の入力、出力を合わせておくことで、 for文で回せるようにする。 • そこからは、アイディアと面倒くさがらずにできるかの勝負! ◦ 効きそうな特徴量から作っていく。
作成した特徴量 • Aggregation Feature ◦ カテゴリ変数(PublisherやDeveloper, Nameを含む)ごとに、Year_of_ReleaseやCritic_Scoreなど に対し集計処理 • Diff
Feature ◦ Aggregation Featureの集計した平均値と各レコードの平均値の差をとる。 • Target Encoding ◦ カテゴリ変数ごとに、 xx_Salesに対し集計処理 ◦ DeveloperやPublisherを入れたらリークした。 • LDAによる分散表現 ◦ 分散表現にすることで、 Aggregation Featureでは与えられないような角度からの特徴を得たい。 • Rank Feature
PublisherとDeveloperについて • TrainとTestの分け方がPublisherによって分割されていると想定 • Publisherを直接使用したところ、CVの値は劇的に上がったが、LBの値が下がると いう現象が起きた。 • 「Nintendo」というPublisherを使用できる特徴量で表現したい。 ◦ UserScoreの平均が高く、幅広いジャンルのゲームを作成している
◦ ここでGlobal_Salesが多いという情報を使用してしまうと、それを TestデータのPublisherで再 現することはできない。 • Publisherごとに特徴量の平均、分散、パーセンタイル値、Countなどの集計値をと る。
データをざっと見る。 • PlatformやGenreやPlatformはユニーク数も少なくTrainとTestに満遍なく入ってい たため、そのまま使用することができた。 ◦ Target EncodingもPlatformごとやGenreごとなどで使用できた。 • Critic_ScoreやUser_Scoreなどは50%程度欠損値である。 •
DeveloperやRatingについても欠損値が多かった。 • このNull値を補えるように特徴量を作成したい。
力を入れたところ (Series Nameの名寄せ) • どこまでをシリーズとみなすかがゲームによって異なる。 ◦ LEGO Batman を LEGOとするか?
LEGO Batmanとするか? 方法 • Nameの最初から5gramを見る。 ◦ 3回以上出現した5gramがあれば、辞書に追加 • Nameの最初から4gramを見る。 ... • Nameと辞書にマッチするもののうち、最も単語数の 多いものをそのシリーズ名とする。
RankFeature • 各カテゴリごとにYear_of_Releaseを並べたもの • AggregateFeatureばかりを作成していたため、同じカテゴリのものは同じ特徴量と なってしまうことを変えたかった。 • Year_of_Releaseが同じ場合は登場順でランク付けを行う。 • Genre_Year_of_Releaseのカテゴリでランク付けを行った。
• リークにつながり、Public Scoreが0.78から0.69に上がった。 最も効いた特徴量
None
Feature Importance
今後に向けて必要だと感じたところ • Preporcessingのクラス ◦ 特徴量が多くなってくると、各特徴量の依存関係の整合性が合わなくなりそう。 • 特徴量のNaming ◦ Aggregation Featureなどは、何のカラムを
Group Byして、何のカラムに対しての平均なのか?と いうのをルールとして決めておくことで、理解度や Namingの迷いがなくなる。 • 何の特徴量がなぜ効いてるか? ◦ 初めは特徴量を作成して学習させて、後からなぜそれが効いたのか、効かなかったかを考えようと したが、後半はスコアを伸ばしたい気持ちが強くて、なぜ効いたかを考えられなかった。 • 特徴量作成のネタ切れ
ありがとうございました! 楽しかったです!!