Upgrade to Pro — share decks privately, control downloads, hide ads and more …

190821 製造現場のデータをAIへ BBさん

190821 製造現場のデータをAIへ BBさん

RPACommunity

August 21, 2019
Tweet

More Decks by RPACommunity

Other Decks in Technology

Transcript

  1. 扱いやすいデータ=読み込みやすいデータ  データ中にコメントを入れない  あると取り除かなければいけない…  半角カナを入れない  あると変換しなければいけない… 

    ヘッダーはシンプルに(1行がベスト!)  複数情報あるとヘッダーに対する処理が必要に…  データを手編集しない  属人的な操作はフロー化できない…
  2. 同じ意味を持つパラメータがないか 重複する値はないか まずは可視化(工程データの前処理) ~ 可視化データ概要を調査 ~ 欠損値はないか 欠損値をどのように扱うか 量的データか質的データか パラメータの分布はどのように

    なっているか 外れ値はいないか Lot No. 機器名 機器コード Process 1 Process2 Process3 状態 検査結果 0001 M1 1000 1.1 1 10.4 A OK 0002 M1 1000 1.2 2 1.5 B NG 0003 M1 1000 NA NA NA NA NA 0004 M2 2000 1.2 3 2.3 A OK 0005 M2 2000 1.2 4 6.1 C OK 0006 M2 2000 1.1 5 8.7 C OK AIの判断結果として使用して良いか Process1 Process2 Process3
  3. Lot No. 機器名 機器コード Process 1 Process2 Process3 状態 検査結果

    0001 M1 1000 1.1 1 10.4 001 0 0002 M1 1000 1.2 2 1.5 010 1 0003 M1 1000 NA NA NA NA NA 0004 M2 2000 1.2 3 2.3 001 0 0005 M2 2000 1.2 4 6.1 100 0 0006 M2 2000 1.1 5 8.7 100 0 Process3 欠損値除去/補間 One-hot Encoding 散らばりのある工程の分析 外れ値の調査 意味が重複する値の除去 目的変数として使用 意味あるデータの抽出(工程データの前処理) ~ 可視化結果をもとに余分なデータを除去・変換 ~
  4. Lot No. 機器コード Process3 状態 検査結果 0001 1000 10.4 001

    0 0002 1000 1.5 010 1 0004 2000 2.3 001 0 0005 2000 6.1 100 0 0006 2000 8.7 100 0 • 可読性が高い • データを全て数値として扱える • データが軽い • 分析結果に異常値のバイアスがかからない • 要素アクセスが簡単(ヘッダーがシンプル) 分析/AIモデリングへ ~ 前処理を行うメリット ~
  5. センサデータのデータセット Time CH1 CH2 CH3 CH4 08211931 392 44 3

    46 08211932 275 -194 57 -44 08211933 68 -157 55 6 08211934 72 137 21 -17 08211935 215 -79 37 -104 Time CH1 CH2 CH3 CH4 08211931 392 44 3 46 08211932 275 -194 57 -44 08211933 68 -157 55 6 08211934 72 137 21 -17 08211935 215 -79 37 -104 Time CH1 CH2 CH3 CH4 08211931 392 44 3 46 08211932 275 -194 57 -44 08211933 68 -157 55 6 08211934 72 137 21 -17 08211935 215 -79 37 -104 Time CH1 CH2 CH3 CH4 08211931 392 44 3 46 08211932 275 -194 57 -44 08211933 68 -157 55 6 08211934 72 137 21 -17 08211935 215 -79 37 -104 正常 異常A 異常B Data_OK_1.csv Data_OK_2.csv Data_OK_3.csv Data_OK_4.csv ・ ・ ・ センサデータは1データのまとまりが1ファイルになっていることが多い ▶ つまり、1フォルダが1データセット
  6. センサデータの前処理 ~ Tidydata∗1の考え方でデータ変換する ~ *1 ) “TidyData”(2014) by Hadly Wickham

    : https://vita.had.co.nz/papers/tidy-data.pdf Filename Label Time CH1 CH2 CH3 CH4 Data_OK_1 OK 08211931 392 44 3 46 Data_OK_1 OK 08211932 275 -194 57 -44 ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ Data_OK_2 OK 09021224 131 114 155 -162 Data_OK_2 OK 09021225 521 64 -15 -2 ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ DATA_NG_A_1 NG_A 08301110 -418 97 34 -52 DATA_NG_A_1 NG_A 08301111 -288 234 35 -49 ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ DATA_NG_B_1 NG_B 08250932 62 103 40 113 ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ DATA_NG_B_n NG_B mmddhhmm 50 -304 33 -77 • ディレクトリ構造の意味を残した まま構造だけを排除できる • 工程データと同じように使用可能