Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AI構築入門(演習)/ NoCode AI Introduction with CatData

5c09f662722aedce68b28ccdb048e7f9?s=47 HumanomeLab
September 28, 2021

AI構築入門(演習)/ NoCode AI Introduction with CatData

2021年9月23日に実施した、慶応大学医学部の講義スライドの一部です。概論は除き、講義内で行ったAI構築入門のハンズオン部分を抜粋しています。演習には、Humanome CatDataを利用しました。
また、利用した乳がん細胞の良性悪性データはこちらのURLにあります。

5c09f662722aedce68b28ccdb048e7f9?s=128

HumanomeLab

September 28, 2021
Tweet

Transcript

  1. ˜)VNBOPNF-BC *OD © 2021 Humanome Lab., Inc. ਓ޻஌ೳɾػցֶशΛཧղ͢Δ )VNBOPNF $BU%BUB

    Λ༻͍ͨɺػցֶशϞσϧߏங ܚԠେֶҩֶ෦ .$#ߨٛ 2021/9/27 ώϡʔϚϊʔϜݚڀॴɾ੉ʑ ५ TFTFKVO!IVNBOPNFKQ
  2. © 2021 Humanome Lab., Inc. 機械学習モデルの構築を実施 2

  3. © 2021 Humanome Lab., Inc. ϓϩάϥϛϯάແ͠Ͱ"*ߏஙͰ͖ΔπʔϧΛ༻͍ɺ"*ߏஙΛ࣮ࢪ͍͖ͯ͠·͢ 3 <Ԡ༻> υϝΠϯͷ஌ࣝ <ߏங>

    ϓϩάϥϛϯά ɾ؀ڥߏங ɾ਺ֶ <ධՁ> ػցֶशɾ౷ܭ ͷ஌ࣝ https://humanome.jp/activities/catdata/
  4. © 2021 Humanome Lab., Inc. ҰൠతͳσʔλղੳͷྲྀΕɿ໨ඪઃఆ͕ॏཁͰ͢ 4 ① 仮説設定 ②

    目標設定 ⑦ 活用・運用 ③ データ収集・前処理 ④ 可視化 ⑤ モデル構築 ⑥ 評価 "*ߏங ↓ 予測対象を決める ・故障の有無 ・性別 ・需要 など ݕূΛߦ͍ɺϑΟʔυόοΫ͢Δ σʔλղੳ
  5. © 2021 Humanome Lab., Inc. ೕ͕Μͷࡉ๔਍ը૾ͷܭଌσʔλ͔Βɺजᙾ͕ྑੑ͔ѱੑ͔Λ൑அ͢ΔػցֶशϞσϧΛߏங͠·͢ l ໰୊ઃఆͱར༻͢Δσʔλ • #SFBTU

    $BODFS8JTDPOTJO %JBHOPTUJD %BUB4FUɿ௨শ8%#$ • ࠓճ͸ɺ͜ͷσʔλΛ੔ܗͨ͠ ͪ͜Β ͷΤΫηϧϑΝΠϧΛར༻͠·͢ɻ l ໨ඪɿͲΜͳղੳ΋໨ඪઃఆ͕ॏཁͰ͢ • ໨ඪɿೕ๪ͷࡉ๔਍ͰಘΒΕΔը૾͔Βɺ֤जᙾ͕ɺѱੑ .NBMJHOBOU ͔ྑੑ #CFOJHO ͷ͍ͣΕ ͔Λ༧ଌ͢ΔػցֶशϞσϧΛߏங͍ͨ͠ɻ • ը૾͔Β֩ͷঢ়ଶΛܭଌͨ͠਺஋σʔλʢ࣍ϖʔδʹΠϝʔδਤʣΛར༻͠·͢ • ҎԼͷ߲໨ʹؔ͠ɺ֤जᙾͷฏۉ NFBO ɺඪ४ޡࠩ TF ɺ࠷େ஋ XPSTU ͕ܭଌ͞Ε͍ͯ·͢ • ߲໨͇छʹछྨͷม਺ 5 項目名 内容 radius 半径 texture 輝度のばらつき perimeter 周囲の長さ area 面積 smoothness なめらかさ 項目名 内容 compactness 細胞群の凝集度 concavity 細胞群の凸凹度 concave points 細胞群の突起の数 symmetry 対称度 fractal dimension 自己相同性(入れ子度合い)
  6. © 2021 Humanome Lab., Inc. ࡉ๔਍ը૾Λ਺஋σʔλʹม׵͢ΔΠϝʔδ l ֤ը૾಺ͷ֩Λܭଌͯ͠ɺ਺஋৘ใͱͯ͠औΓग़͍ͯ͠Δ • 最近は画像から直接予測も行われているが、ここでは一旦数値に変換したデータを利用する

    • 画像からも良性悪性で、細胞の凝集傾向が異なる可能性が示唆される 6 http://pages.cs.wisc.edu/~olvi/uwmp/cancer.html Benign Malignant
  7. © 2021 Humanome Lab., Inc. $BU%BUBͷΞΧ΢ϯτͷ࡞੒ l $BU%BUBͷ੡඼ϖʔδ IUUQTIVNBOPNFKQBDUJWJUJFTDBUEBUB ͷӈ্ɺʮແྉͰ৽نొ࿥ʯ͔ΒɺΞΧ΢ϯτͷ

    ࡞੒Λ͓ئ͍͠·͢ɻ 7 ϝʔϧͷ֬ೝϝʔϧ͕ඈͿͷͰΫϦοΫͯ͠ϩάΠϯը໘ʹҠಈͯ͘͠ ͍ͩ͞ɻ ໎࿭ϝʔϧʹೖΔ͜ͱ΋͋ΔͷͰɺؾΛ͚͍ͭͯͩ͘͞ɻ
  8. © 2021 Humanome Lab., Inc. ϩάΠϯ l ϩάΠϯ͢ΔͱɺϗʔϜը໘ʹҠಈ͠·͢ɻ·ͩɺԿͷσʔλ΋Ξοϓϩʔυ͍ͯ͠ͳ͍ͷͰɺۭͷϖʔδʹͳΓ·͢ɻ l ͜ͷը໘ʹ͸ɺࠨ্ͷz)VNBOPNF$BU%BUBzͷϩΰΛΫϦοΫ͢Δͱɺ͍ͭͰ΋໭Ε·͢ɻ

    8
  9. © 2021 Humanome Lab., Inc. 機械学習モデルの構築 9

  10. © 2021 Humanome Lab., Inc. 機械学習モデルの構築 01 | 02 |

    03| 機械学習のモデル構築の実施 データのアップロード 前処理の実施 04| モデルの評価
  11. © 2021 Humanome Lab., Inc. ϑΝΠϧΛΞοϓϩʔυ͠·͢ l ೕ͕Μͷσʔλ͸ɺҎԼͷ63-ʹ͋Γ·͢ͷͰɺμ΢ϯϩʔυ͍ͯͩ͘͠͞ɻ • https://humanome-public.s3.amazonaws.com/downloads/catdata/wdbc.xlsx

    l ςʔϒϧͷ৽ن࡞੒ΛΫϦοΫ͠ɺϑΝΠϧΛΞοϓϩʔυ͠·͢ɻ • ドラッグ・アンド・ドロップしても、クリックしてファイルを選択しても大丈夫です。 11
  12. © 2021 Humanome Lab., Inc. σʔλͷ֬ೝͱɺςʔϒϧͷར༻໨తΛઃఆ l Ξοϓϩʔυ͢Δͱɺ಺༰͕දࣔ͞ΕΔͷͰɺσʔλ͕ਖ਼͍͔֬͠ೝΛ͍ͯͩ͘͠͞ɻྑ͚Ε͹ʮอଘʯΛΫϦο Ϋ͠·͢ɻ l

    ࣍ʹɺςʔϒϧ࡞੒ͷ໨తΛฉ͔Ε·͢ɻ͜͜Ͱ͸ɺػցֶशϞσϧΛ࡞੒͍ͨ͠ͷͰʮֶशʯΛબͼɺʮอଘʯ ΛΫϦοΫ͠·͢ɻ 12
  13. © 2021 Humanome Lab., Inc. 機械学習モデルの構築 01 | 02 |

    03| 機械学習のモデル構築の実施 データのアップロード 前処理の実施 04| モデルの評価
  14. © 2021 Humanome Lab., Inc. σʔλͷ෼෍ͷ֬ೝͱɺςʔϒϧ໊ͷมߋ l lXECDzʢϑΝΠϧ໊͕ςʔϒϧ໊ʹͳ͍ͬͯ·͢ʣΛΫϦοΫ͠ɺϞσϧͷ࡞੒Λ։࢝͠·͢ɻ l ςʔϒϧͷৄࡉ͕֬ೝͰ͖·͢ɻҙਤͨ͠σʔλ͔Ͳ͏͔ɺ֬ೝΛ͍ͯͩ͘͠͞ɻ

    • アップロードしたテーブルが、モデル学習のためであることが分かるよう、テーブル名を変えると 良いでしょう
  15. © 2021 Humanome Lab., Inc. σʔλͷ֬ೝ ʢΩϟϓνϟ͸ɺϑΝΠϧ໊มߋޙͷը໘Ͱ͢ʣ l σʔλͷ෼෍Λ֬ೝ͠·͢ɻ •

    特に外れ値(大きく外れた値)や欠損値(抜けている値)の有無を確認します。 • 無駄に感じるかもしれませんが、生物・医学実験同様、すべてのステップで状況を確認することは、大切です。 l ֬ೝͨ͠ΒɺલॲཧͷͨΊʹʮΞΫγϣϯηοτͷฤूʯʹҠಈ͠·͢ɻ 15
  16. © 2021 Humanome Lab., Inc. લॲཧɿΞΫγϣϯʢલॲཧํ๏ʣͷฤू l ͢΂ͯͷσʔλ͕ɺֶशʹద͍ͯ͠ΔΘ͚Ͱ͸ͳ͍ͷͰɺֶशલʹσʔλͷબ୒ͱमਖ਼Λߦ͍·͢ɻ l σʔλΛݟΔͱɺྻ໨͕ʮ*%ʯʹͳ͍ͬͯ·͢ɻ*%൪߸͸ɺजᙾͷঢ়ଶͷ༧ଌʹ͸ؔ܎͠ͳ͍ͷͰɺ

    ͜͜Ͱ࡟আ͠·͢ɻ • IDの右の三本線①をクリックするとポップアップ②が出ます。 • 「列の削除」③を選択します(次ページに続く) ᶃ ᶄ ᶅ
  17. © 2021 Humanome Lab., Inc. લॲཧɿ࡞੒ͨ͠ΞΫγϣϯʢલॲཧํ๏ʣͷ࣮ࢪ l *%ྻͷ࡟আΛ֬ఆ͠·͢ɻӈԼͷద༻ᶃΛΫϦοΫ͠·͢ɻ l *%ྻ͕ফ͍͑ͯΔͷΛ֬ೝ͍ͯͩ͘͠͞ʢᶄʣɻऴΘͬͨΒɺ֬ೝϘλϯᶅΛԡͯ͠ɺ࣍ʹਐΈ·͢ɻ

    • 他に、数値の範囲指定なども、同様の操作で可能です 17 ᶃ ᶄ ᶅ
  18. © 2021 Humanome Lab., Inc. લॲཧɿલॲཧऴྃޙͷσʔλͷ֬ೝ l ࠶౓σʔλͷ֬ೝ͕ݱΕΔͷͰɺσʔλʹҟৗ͕ͳ͍͔֬ೝ͍ͯͩ͘͠͞ l ʮֶशʯϘλϯΛԡ͢ͱɺલॲཧํ๏ͷมߋ͕ɺ͜ΕҎ߱ऴྃͰ͖ͳ͍ࢫͷϙοϓ

    Ξοϓ͕ݱΕ·͢ͷͰɺʮ͸͍ʯΛԡͯ͠ਐΜͰ͍ͩ͘͞ɻ 18
  19. © 2021 Humanome Lab., Inc. 機械学習モデルの構築 01 | 02 |

    03| 機械学習のモデル構築の実施 データのアップロード 前処理の実施 04| モデルの評価
  20. © 2021 Humanome Lab., Inc. ػցֶशͷ࣮ࢪ l ʮϞσϧͷ৽ن࡞੒ʯϘλϯΛԡ͢ͱɺϞσϧ࡞੒ʹ ؔ࿈ͨ͠ϙοϓΞοϓ͕ݱΕ·͢ɻ 20

    予測に利用する データの設定 機械学習モデルに 関する設定 モデル作成時の評価に 関する設定
  21. © 2021 Humanome Lab., Inc. ػցֶशͷ࣮ࢪɿ༧ଌର৅ྻͷࢦఆ l ʮ༧ଌର৅ͷྻʯͰɺEJBHOPTJTΛબͼ·͢ɻ • 今まで、計算機には「何を」予測するかを指定していなかったので、ここで

    はじめて指定しています。 • 選択した列の情報が右に現れます。 21
  22. © 2021 Humanome Lab., Inc. ػցֶशͷ࣮ࢪɿػցֶशϞσϧͷઃఆͱϞσϧͷ৽ن࡞੒ l ʮख๏ʯΛબ୒͠·͢ɻࠓճ͸ 3BOEPN'PSFTUΛબ୒͠·͢ɻ •

    機械学習のモデルには、それぞれ特徴がありますので、用途に合わせて選択します。 l ͠͹Β͘͢Δͱɺܭࢉ͕ऴΘΓɺධՁ݁Ռ͕ӾཡՄೳʹͳ͍ͬͯ·͢ɻ 22
  23. © 2021 Humanome Lab., Inc. 機械学習モデルの構築 01 | 02 |

    03| 機械学習のモデル構築の実施 データのアップロード 前処理の実施 04| モデルの評価
  24. © 2021 Humanome Lab., Inc. ֶशσʔλͱςετσʔλ l શ෦ͷσʔλΛϞσϧͷֶशʹར༻͢ΔͱɺϞσϧͷධՁ͕Ͱ͖ͳ͘ͳΔ l σʔλͷҰ෦ʢ͘Β͍ʣΛϞσϧͷֶशʹར༻͠ɺ࢒Γͷσʔλʢ͘Β͍ʣͰධՁΛ࣮ࢪ͢Δɻ

    l લऀΛֶशσʔλʢ܇࿅σʔλʣɺޙऀΛςετσʔλͱݺͿ 24 学習データ テストデータ モデル構築 評価
  25. © 2021 Humanome Lab., Inc. ػցֶशͷධՁɿࠞಉߦྻ l ධՁ݁Ռ͸ɺࠞಉߦྻɺ30$Χʔϒɺม਺ ͷॏཁ౓ͷ͕ͭදࣔ͞Ε͍ͯ·͢ɻ •

    機械学習の手法や、予測対象列の型 により変化します l ਫ਼౓ "DDVSBDZ • 正答数/全数の値 l ࠞಉߦྻ $POGVTJPO.BUSJY • 予測結果が、どのように間違ったか (正解したか)のパターンを示す表 • テストデータの方では、M(Malignant) である全55検体のうち、4検体が B(Benign)に間違っていることが分か る。 25
  26. © 2021 Humanome Lab., Inc. ػցֶशͷධՁɿ30$Χʔϒɺม਺ͷॏཁ౓ l 30$Χʔϒ • 混同行列とは異なった視点の精度評価

    • カーブが左上に凸であるほど、精度が高 いことを示す • AUCはROCカーブの下の面積。大きいほ ど、精度が良い。最大1。 l ม਺ͷॏཁ౓ • 予測に寄与した割合が大きい変数の表示 • Random Forest および LASSOで表示が 可能 26
  27. © 2021 Humanome Lab., Inc. Ϟσϧߏஙͷ·ͱΊ l ͜͜·ͰͰɺࡉ๔ͷྑੑͱѱੑΛ൑ఆ͢ΔػցֶशϞσϧͷߏஙΛߦ͍·ͨ͠ɻ • 前処理として、予測時に利用できない(してはいけない)ID番号を削除しました。

    • 機械学習モデルとしてRandom Forest と呼ばれるモデルを利用しました。 • 高精度で、良性・悪性の予測ができそうなことがわかりました。 l Ұ࿈ͷྲྀΕΛॏཁࢹͨͨ͠ΊɺػցֶशͷϞσϧͷৄࡉ΍ɺධՁํ๏ͷৄࡉ͸৮ΕΔఔ౓ʹͳͬ ͍ͯ·͢ɻڵຯ͕͋Δํ͸ɺจݙ౳Λௐ΂ͯΈ͍ͯͩ͘͞ɻ l ࣍ʹɺྑੑͱѱੑͷࡉ๔͸ɺຊ౰ʹਫ਼౓ߴ͘༧ଌͰ͖ͦ͏ͳͷ͔ɺσʔλͷৄࡉΛՄࢹԽ͠·͢ 27
  28. © 2021 Humanome Lab., Inc. データの可視化 28

  29. © 2021 Humanome Lab., Inc. ՄࢹԽͷ໨త l ྑੑͱѱੑͷࡉ๔͸ɺຊ౰ʹਫ਼౓ߴ͘༧ଌͰ͖ͦ͏ͳͷ͔ɺσʔλͷৄ ࡉΛՄࢹԽ͠·͢ l

    ࣮ࡍͷσʔλղੳͰ͸ɺϞσϧֶशલʹՄࢹԽΛߦͬͯɺʮ͋ͨΓʯΛ ͚ͭΔ͜ͱ΋ଟ͍Ͱ͢ɻ l ·ͨɺࠓճͷσʔλͷ༷ʹʮ੔ܗ͞ΕͨʯΩϨΠͳσʔλ͹͔ΓͰ͸ͳ ͍ͷͰɺσʔλͷΫϨϯδϯάΛߦ͏ͨΊʹ΋ɺՄࢹԽ͸༗༻Ͱ͢ɻ l ͜͜Ͱ͸ɺ$BU%BUBͰɺՄࢹԽΛ࣮ࢪ͢ΔखॱΛࣔ͠·͢ɻ • エクセルのグラフの描画を、データ解析向けにチューニングした ものと思ってもらえれば良いと思います。 29
  30. © 2021 Humanome Lab., Inc. σʔλͷΞοϓϩʔυ l ֶश࣌ͱಉ༷ʹɺσʔλͷΞοϓϩʔυΛߦ͍·͢ l ϑΝΠϧ͸ɺϞσϧֶश࣌ͱɺಉ͡΋ͷΛར༻͠·͢ɻ

    30
  31. © 2021 Humanome Lab., Inc. ςʔϒϧͷ໨తͱͯ͠ՄࢹԽΛબ୒ l Ξοϓϩʔυͨ͠ςʔϒϧ͕ɺਖ਼͍͠΋ͷͰ͋Δ͜ͱΛ֬ೝͨ͠ΒɺʮอଘʯΛબ ୒ͯ͠ɺςʔϒϧͷར༻໨తબ୒ը໘ʹҠΓ·͢ɻ l

    ͜͜Ͱ͸ʮՄࢹԽʯΛબ୒ͯ͠ਐΈ·͢ɻ 31
  32. © 2021 Humanome Lab., Inc. ςʔϒϧͷબ୒ l ઌఔΞοϓϩʔυͨ͠ςʔϒϧΛબ୒͠·͢ɻத਎͕ਖ਼͍͔֬͠ೝ͠ɺϞσϧֶश ಉ༷ʹʮΞΫγϣϯηοτͷฤूʯʹҠಈ͠·͢ɻ 32

  33. © 2021 Humanome Lab., Inc. લॲཧɿࠓճ͸ɺಛஈͷॲཧ͸ߦ͍·ͤΜ l Ϟσϧֶश࣌͸ɺ*%ྻͷ࡟আΛߦ͍·͕ͨ͠ɺࠓճ͸Կ΋ߦΘͣʮՄࢹԽʯ΁ͱਐΈ·͢ɻ 33

  34. © 2021 Humanome Lab., Inc. ՄࢹԽͷ࣮ࢪ l ՄࢹԽը໘ʹҠಈ͢Δͱɺॳظ͸*%ͷώετάϥϜʹͳ͍ͬͯ·͢ɻ l ྻɺྻɺ৭ͳͲΛมߋ͠ɺม਺ͱ༧ଌͷؔ܎Λ֬ೝͯ͠Έ͍ͯͩ͘͞ɻ

    • 特に、学習したモデルの「変数の重要度」が大きい変数と、diagnosis の列を比べると、 確かにそれらの変数を用いて良性悪性判定が可能そうなことがわかります。
  35. © 2021 Humanome Lab., Inc. Ϩϙʔτ՝୊  ຊߨٛͷϨϙʔτͷ՝୊͸ɺֶ಺ͷࢿྉΛޚཡ͍ͩ͘͞ɻ 35

  36. © 2021 Humanome Lab., Inc. )VNBOPNF&ZFT$BU%BUB 36 ը૾ɾಈըσʔλ޲͚෺ମݕ஌"*ߏஙπʔϧ Humanome Eyes

    දσʔλ޲͚σʔλղੳɾ"*ߏஙπʔϧ Humanome CatData ୭ʹͰ΋༏͘͠ɺ࢖͍΍͍͢ϊʔίʔυπʔϧΛ։ൃ͍ͯ͠·͢ ͸͡Ίͯͷσʔλղੳʹ഑ྀͨ͠6* Θ͔Γ΍͍͢6*ͱɺ਌͠Έ΍͘͢༏͍͠৭࢖͍ɻ ϒϥ΢βʴϚ΢ε͚ͩͰ"*ղੳ͕͸͡ΊΒΕ·͢ɻ ४උ͔Β"*༧ଌ·ͰΦʔϧΠϯϫϯ σʔλͷࣄલ४උ͔Β"*Ϟσϧߏஙɾ༧ଌ·Ͱ શͯγεςϜ಺Ͱ׬݁ɻଞγεςϜͷซ༻͸ෆཁͰ͢ɻ ਺ֶ΍ϓϩάϥϛϯάͷ஌ࣝ͸ෆཁ ઐ໳஌͕ࣝͳͯ͘΋ɺͻͱΓͰ"*ߏஙɾ༧ଌ·ͰՄೳɻ ࡉ͔͍ઃఆ͸γεςϜʹ͓·͔ͤɻ