Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Kaggle上位者解法紹介.pdf
Search
Keio Computer Society
November 10, 2021
0
42
Kaggle上位者解法紹介.pdf
Keio Computer Society
November 10, 2021
Tweet
Share
More Decks by Keio Computer Society
See All by Keio Computer Society
20211208.pdf
kcs
0
13
自然言語処理~Primer
kcs
0
94
Residual Network.pdf
kcs
0
130
Graph Neural Network
kcs
0
27
Scaling Laws for NL Models
kcs
0
44
音声合成の精度比較.pdf
kcs
0
160
ブロックチェーンによる自律AIのための遺伝的アルゴリズムの検討
kcs
0
25
Featured
See All Featured
Raft: Consensus for Rubyists
vanstee
140
7.1k
Thoughts on Productivity
jonyablonski
70
4.8k
[RailsConf 2023] Rails as a piece of cake
palkan
57
5.8k
We Have a Design System, Now What?
morganepeng
53
7.8k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
9
810
Gamification - CAS2011
davidbonilla
81
5.4k
Optimizing for Happiness
mojombo
379
70k
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.1k
The Pragmatic Product Professional
lauravandoore
36
6.9k
Building an army of robots
kneath
306
46k
Six Lessons from altMBA
skipperchong
28
4k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
30
9.7k
Transcript
Google Brain - Ventilator Pressure Prediction 上位者解法紹介
Kaggleとは ・Kaggleとは機械学習コンペティションサイトのこと ・コンペティション上位者には賞金も与えられる ・扱うデータはテーブルデータ、画像データ、音声デー タ、テキストデータ、ゲームAIなどさまざまなものが存 在する
本日紹介するコンペティションについて ・「Google Brain - Ventilator Pressure Prediction」と いうテーブルデータ形式で与えられるデータを解析する ・本コンペでは人工肺の気道内圧を予測する
与えられるパラメーターについて ・与えられるデータのパラメーターとしては以下がある 観測データを表すid、呼吸セットを表すbreath_id、呼吸開始から の時間経過を表すtime_step、肺の性質をあらわすパラメーターR、 C、肺が空気をどの程度取り入れているかを表すu_in、肺が空気を 吐き出しているかを表すu_out ・呼吸セットとは連続した約3秒間の1呼吸分のデータの ことである
評価方法について ・約400万件のテストデータに対して、約600万件の訓練 データの先述のパラメーターから人工肺の内圧を予測し て、それを実際に測定した内圧(cmH2O)と比較を行い、 誤差の絶対値の平均(Mean Absolute Error)が得点となる (得点が小さい方が良い) ・コンペ期間中はテストデータの19%のみによって得点 が計算され、最終順位は残りの81%のみによって得点が
計算される
最終順位表
順位表について ・コンペ終盤になってスコアの極端に高いチームが登場 した ・提出〆切1週間前の段階では最も高いチームのスコアは 0.12程度であったが、そこから1週間で0.05程度まで上昇 した ・これについてはdiscussionにてmagicと呼ばれていた
1位解法 ・人工肺がPID制御によって動いていることに気づき、 それを元に肺の圧力を計算した (論文 https://arxiv.org/pdf/2102.06779.pdf) ・実際にこの方法で66%のデータに関しては測定値と予 測値を一致させることができたらしい ・この方法で上位に入っているチームは多い(2位、4位の チームはこの解法を利用)
3位解法 ・PID制御を利用せずに上位に入っているチームもある ・特徴量エンジニアリング(ラグ特徴量)の作成、データ の水増し(元データを交叉させる)、時系列データの順番 の入れ替え、データの隠蔽(過学習防止)などを行った後 に、1次元の畳み込みとLSTMを組み合わせたモデルを使 用
None
その他の解法 ・LSTMを使用しているところが多かったがtransformer を使用しているところもあった(5位、13位など) ・予測値のアンサンブルはmedianアンサンブルを用いて いるところが多かった。 ・予測圧力のパターンは機械の分解能によって950種類し かないので、回帰タスクとしてではなく分類タスクとし て解いているチームも存在した(5位など)
URL https://www.kaggle.com/group16/1-solution-pid- controller-matching-v1 (1位解法) https://www.kaggle.com/c/ventilator-pressure- prediction/discussion/285330 (3位解法) https://www.kaggle.com/c/ventilator-pressure- prediction/overview (コンペサイト)
https://www.kaggle.com/c/ventilator-pressure- prediction/discussion/285402 (5位解法) (2021/11/10閲覧)