Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Personalized Medicine Redefining Cancer Treatment Solution

tosh
October 29, 2017
880

Personalized Medicine Redefining Cancer Treatment Solution

tosh

October 29, 2017
Tweet

Transcript

  1. Overview-Personalized Medicine: Redefining Cancer Treatment 癌細胞の突然変異した細胞の中で腫瘍の増⼤につながるものを予測するコンペティション。 現在は、テキストの診断結果を病理診断医が⼿作業で分析し、 MSKCC分析により分類を⾏なってい ます。この作業を機械学習により算出し、その精度を競います。 1.

    テストデータ: ü学習データ:3,322件 üテストデータ Phase1データ: 5669件 Phase2(最終評価)データ: 987件 ü内容: ü Gene:突然変異した細胞の場所 ü Variation:アミノ酸変化種別 ü Text:テキスト形式の臨床的エビデンス(約50,000⽂字) ü Class:病理診断の結果 2. 評価⽅法: 2 ID Gene Variation Text Class 0 FAM5 8A Truncatin g Mutation s Cyclin-dependent kinases (CDKs) regulate... 1 1 CBL W802* cell lung canc... 2
  2. Step 1.教師データ Step 2.特徴量抽出 Step 3.学習 model 3 Text基本情報 ⽂字数

    単語数 加重平均(Weighted Average) (Light GBM : All 1/9)=(6:4) Light GBM 教師データ -Gene -Variation -Text All1/9 Text内 Keyword出現頻度 (Gene, Variation) 予測結果(Output) Textベクトル化 (Count Vectorizer (TF-IDF)) 次元圧縮 (Truncated SVD)
  3. üLead boardの結果(76%データによる評価)からpublicのleakの件数を算出したところ、640件( 367件を超えている)となってしまい、publicが76%データでない可能性がある。 mlogloss = -{(750-X)log(1/9)+X*log(1)}/750 Improvements-モデル性能評価 8 0.14012 =

    -(750-X)/750 * log(1/9) 750-X private leak(X) mlogloss = -(750-X)log(1/9)/750 X = 640!!! Leakのものは損失が0になり、 他のものはlog(1/9)になる。 Publicが750件ならば、publicの 中にleakは640件必要
  4. Improvements-モデル性能評価 ü仮にleak367件全てがpublicに⼊ってもpublicのデータは最⼤でも430件であり、leakを除くと、 publicは最⼤63件(986件中)のみで評価されていることになる。 9 0.14012*Y/-log(1/9) = Y-367 6.5%(public63) private 37%(leak367)

    mlogloss = -(Y-367)log(1/9)/Y mlogloss = -{(Y-367)log(1/9)+367*log(1)}/Y Publicでleak以外のデータ件数は最大でも63件(986件中)….. Publicをyとして、leak367が publicに入った場合のpublic データの件数を求める。 Y = 430
  5. Improvements- model selection 12 # Model Leak データの 利用 All1fill

    Model predict Public Score 1 Standard Model - - ✓ 0.414 2 Leak and All1fill Model ✓ ✓ - 0.140 3 Leak and Model Predict ✓ - ✓ 0.215 4 Leak and Weighted Average ✓ ✓ ✓ 0.1367