Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Kaggle上位者解法紹介.pdf
Search
Keio Computer Society
November 10, 2021
0
42
Kaggle上位者解法紹介.pdf
Keio Computer Society
November 10, 2021
Tweet
Share
More Decks by Keio Computer Society
See All by Keio Computer Society
20211208.pdf
kcs
0
12
自然言語処理~Primer
kcs
0
94
Residual Network.pdf
kcs
0
120
Graph Neural Network
kcs
0
27
Scaling Laws for NL Models
kcs
0
44
音声合成の精度比較.pdf
kcs
0
150
ブロックチェーンによる自律AIのための遺伝的アルゴリズムの検討
kcs
0
25
Featured
See All Featured
Rebuilding a faster, lazier Slack
samanthasiow
82
9.1k
The Art of Programming - Codeland 2020
erikaheidi
54
13k
YesSQL, Process and Tooling at Scale
rocio
173
14k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
8
670
Speed Design
sergeychernyshev
32
1k
Music & Morning Musume
bryan
46
6.6k
How to Think Like a Performance Engineer
csswizardry
24
1.7k
Building Applications with DynamoDB
mza
95
6.5k
Building an army of robots
kneath
306
45k
Designing Experiences People Love
moore
142
24k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
7
700
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
357
30k
Transcript
Google Brain - Ventilator Pressure Prediction 上位者解法紹介
Kaggleとは ・Kaggleとは機械学習コンペティションサイトのこと ・コンペティション上位者には賞金も与えられる ・扱うデータはテーブルデータ、画像データ、音声デー タ、テキストデータ、ゲームAIなどさまざまなものが存 在する
本日紹介するコンペティションについて ・「Google Brain - Ventilator Pressure Prediction」と いうテーブルデータ形式で与えられるデータを解析する ・本コンペでは人工肺の気道内圧を予測する
与えられるパラメーターについて ・与えられるデータのパラメーターとしては以下がある 観測データを表すid、呼吸セットを表すbreath_id、呼吸開始から の時間経過を表すtime_step、肺の性質をあらわすパラメーターR、 C、肺が空気をどの程度取り入れているかを表すu_in、肺が空気を 吐き出しているかを表すu_out ・呼吸セットとは連続した約3秒間の1呼吸分のデータの ことである
評価方法について ・約400万件のテストデータに対して、約600万件の訓練 データの先述のパラメーターから人工肺の内圧を予測し て、それを実際に測定した内圧(cmH2O)と比較を行い、 誤差の絶対値の平均(Mean Absolute Error)が得点となる (得点が小さい方が良い) ・コンペ期間中はテストデータの19%のみによって得点 が計算され、最終順位は残りの81%のみによって得点が
計算される
最終順位表
順位表について ・コンペ終盤になってスコアの極端に高いチームが登場 した ・提出〆切1週間前の段階では最も高いチームのスコアは 0.12程度であったが、そこから1週間で0.05程度まで上昇 した ・これについてはdiscussionにてmagicと呼ばれていた
1位解法 ・人工肺がPID制御によって動いていることに気づき、 それを元に肺の圧力を計算した (論文 https://arxiv.org/pdf/2102.06779.pdf) ・実際にこの方法で66%のデータに関しては測定値と予 測値を一致させることができたらしい ・この方法で上位に入っているチームは多い(2位、4位の チームはこの解法を利用)
3位解法 ・PID制御を利用せずに上位に入っているチームもある ・特徴量エンジニアリング(ラグ特徴量)の作成、データ の水増し(元データを交叉させる)、時系列データの順番 の入れ替え、データの隠蔽(過学習防止)などを行った後 に、1次元の畳み込みとLSTMを組み合わせたモデルを使 用
None
その他の解法 ・LSTMを使用しているところが多かったがtransformer を使用しているところもあった(5位、13位など) ・予測値のアンサンブルはmedianアンサンブルを用いて いるところが多かった。 ・予測圧力のパターンは機械の分解能によって950種類し かないので、回帰タスクとしてではなく分類タスクとし て解いているチームも存在した(5位など)
URL https://www.kaggle.com/group16/1-solution-pid- controller-matching-v1 (1位解法) https://www.kaggle.com/c/ventilator-pressure- prediction/discussion/285330 (3位解法) https://www.kaggle.com/c/ventilator-pressure- prediction/overview (コンペサイト)
https://www.kaggle.com/c/ventilator-pressure- prediction/discussion/285402 (5位解法) (2021/11/10閲覧)