Upgrade to Pro — share decks privately, control downloads, hide ads and more …

COVID19の症状を視覚化

 COVID19の症状を視覚化

akinorisaito

May 22, 2020
Tweet

More Decks by akinorisaito

Other Decks in Science

Transcript

  1. データ • SIGNATE COVID-19 Case Dataset(2020/05/22時点) https://drive.google.com/drive/folders/1EcVW5JQKMB6zoyfHm8_zLVj---t_hccF • シート「罹患者」 •

    列「ステータス」、「症状・経過」を使用 • 「ステータス」を目的変数とする • 「症状・経過」に自然言語処理を行い、単語行列を作成し説明変数とする • 「ステータス」が「重症」、「死亡」の場合、「1」 • 216件 • 「症状・経過」に「死亡」、「逝去」等、死亡を表す語が含まれていた場合、 「ステータス: 死亡」へ変換 • 「ステータス」が「無症状」、「軽症」、「中等症」の場合、「0」 • 2,385件
  2. 使用したツール、アルゴリズム等 プロセス ツール、アルゴリズム等 プログラミング環境 Python3 (Google Coraboratory) R version 3.6.1

    形態素解析辞書 MeCab + NEologd Manbyo (医療用語辞書: http://sociocom.jp/~data/2018-manbyo/index.html) Vectrizer Count Vectrizer 特徴量選択 SelectKBest (sklearn.feature_selection) 視覚化 wordcloud2 (R package) DecisionTreeClassifier (sklearn.tree)
  3. Train : Confusion Matrix Train : AUC Train : F1

    score [1783 7] [ 145 15] 0.54 0.15 決定木 Test : Confusion Matrix Test : AUC Test : F1 score [595 0] [ 50 6] 0.55 0.19