$30 off During Our Annual Pro Sale. View Details »
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Kaggle上位者解法紹介.pdf
Search
Keio Computer Society
November 10, 2021
0
43
Kaggle上位者解法紹介.pdf
Keio Computer Society
November 10, 2021
Tweet
Share
More Decks by Keio Computer Society
See All by Keio Computer Society
20211208.pdf
kcs
0
14
自然言語処理~Primer
kcs
0
96
Residual Network.pdf
kcs
0
140
Graph Neural Network
kcs
0
28
Scaling Laws for NL Models
kcs
0
47
音声合成の精度比較.pdf
kcs
0
160
ブロックチェーンによる自律AIのための遺伝的アルゴリズムの検討
kcs
0
26
Featured
See All Featured
GitHub's CSS Performance
jonrohan
1032
470k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
508
140k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
32
2.7k
Raft: Consensus for Rubyists
vanstee
141
7.2k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
35
2.3k
Facilitating Awesome Meetings
lara
57
6.7k
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.5k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
231
22k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
35
3.3k
Building Better People: How to give real-time feedback that sticks.
wjessup
370
20k
Agile that works and the tools we love
rasmusluckow
331
21k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
Transcript
Google Brain - Ventilator Pressure Prediction 上位者解法紹介
Kaggleとは ・Kaggleとは機械学習コンペティションサイトのこと ・コンペティション上位者には賞金も与えられる ・扱うデータはテーブルデータ、画像データ、音声デー タ、テキストデータ、ゲームAIなどさまざまなものが存 在する
本日紹介するコンペティションについて ・「Google Brain - Ventilator Pressure Prediction」と いうテーブルデータ形式で与えられるデータを解析する ・本コンペでは人工肺の気道内圧を予測する
与えられるパラメーターについて ・与えられるデータのパラメーターとしては以下がある 観測データを表すid、呼吸セットを表すbreath_id、呼吸開始から の時間経過を表すtime_step、肺の性質をあらわすパラメーターR、 C、肺が空気をどの程度取り入れているかを表すu_in、肺が空気を 吐き出しているかを表すu_out ・呼吸セットとは連続した約3秒間の1呼吸分のデータの ことである
評価方法について ・約400万件のテストデータに対して、約600万件の訓練 データの先述のパラメーターから人工肺の内圧を予測し て、それを実際に測定した内圧(cmH2O)と比較を行い、 誤差の絶対値の平均(Mean Absolute Error)が得点となる (得点が小さい方が良い) ・コンペ期間中はテストデータの19%のみによって得点 が計算され、最終順位は残りの81%のみによって得点が
計算される
最終順位表
順位表について ・コンペ終盤になってスコアの極端に高いチームが登場 した ・提出〆切1週間前の段階では最も高いチームのスコアは 0.12程度であったが、そこから1週間で0.05程度まで上昇 した ・これについてはdiscussionにてmagicと呼ばれていた
1位解法 ・人工肺がPID制御によって動いていることに気づき、 それを元に肺の圧力を計算した (論文 https://arxiv.org/pdf/2102.06779.pdf) ・実際にこの方法で66%のデータに関しては測定値と予 測値を一致させることができたらしい ・この方法で上位に入っているチームは多い(2位、4位の チームはこの解法を利用)
3位解法 ・PID制御を利用せずに上位に入っているチームもある ・特徴量エンジニアリング(ラグ特徴量)の作成、データ の水増し(元データを交叉させる)、時系列データの順番 の入れ替え、データの隠蔽(過学習防止)などを行った後 に、1次元の畳み込みとLSTMを組み合わせたモデルを使 用
None
その他の解法 ・LSTMを使用しているところが多かったがtransformer を使用しているところもあった(5位、13位など) ・予測値のアンサンブルはmedianアンサンブルを用いて いるところが多かった。 ・予測圧力のパターンは機械の分解能によって950種類し かないので、回帰タスクとしてではなく分類タスクとし て解いているチームも存在した(5位など)
URL https://www.kaggle.com/group16/1-solution-pid- controller-matching-v1 (1位解法) https://www.kaggle.com/c/ventilator-pressure- prediction/discussion/285330 (3位解法) https://www.kaggle.com/c/ventilator-pressure- prediction/overview (コンペサイト)
https://www.kaggle.com/c/ventilator-pressure- prediction/discussion/285402 (5位解法) (2021/11/10閲覧)