Slide 1

Slide 1 text

製造現場のデータを AIへ! BB@マクニカ

Slide 2

Slide 2 text

トピックス 製造現場のデータとは 製造現場のデータ前処理 話さないこと ・プログラミング ・分析/モデリング ・画像データ

Slide 3

Slide 3 text

製造現場のデータとは センサーデータ 振動、音など 1ファイル1データ 画像データ 検査装置、カメラ 1ファイル1データ 工程データ 稼働状態、PLC、 検査結果など 1ファイル1データ セット ご紹介します 詳しくはWebへ! (記事がたくさんあり ます)

Slide 4

Slide 4 text

製造現場のデータとは データの値が不自然 何故か読み込めない 文字エンコード 半角・全角 異なる型のデータ Excelでファイルが開けない 何がどこに書いてあるかわからない データが重い 特徴的なデータが分かりにくい どのデータを使えばいいか分からない 前処理でデータを整理して使いやすくしましょう ディレクトリ構造 データの次元

Slide 5

Slide 5 text

前処理する前に…

Slide 6

Slide 6 text

扱いやすいデータ=読み込みやすいデータ  データ中にコメントを入れない  あると取り除かなければいけない…  半角カナを入れない  あると変換しなければいけない…  ヘッダーはシンプルに(1行がベスト!)  複数情報あるとヘッダーに対する処理が必要に…  データを手編集しない  属人的な操作はフロー化できない…

Slide 7

Slide 7 text

いざ、前処理 (工程データ編)

Slide 8

Slide 8 text

同じ意味を持つパラメータがないか 重複する値はないか まずは可視化(工程データの前処理) ~ 可視化データ概要を調査 ~ 欠損値はないか 欠損値をどのように扱うか 量的データか質的データか パラメータの分布はどのように なっているか 外れ値はいないか Lot No. 機器名 機器コード Process 1 Process2 Process3 状態 検査結果 0001 M1 1000 1.1 1 10.4 A OK 0002 M1 1000 1.2 2 1.5 B NG 0003 M1 1000 NA NA NA NA NA 0004 M2 2000 1.2 3 2.3 A OK 0005 M2 2000 1.2 4 6.1 C OK 0006 M2 2000 1.1 5 8.7 C OK AIの判断結果として使用して良いか Process1 Process2 Process3

Slide 9

Slide 9 text

Lot No. 機器名 機器コード Process 1 Process2 Process3 状態 検査結果 0001 M1 1000 1.1 1 10.4 001 0 0002 M1 1000 1.2 2 1.5 010 1 0003 M1 1000 NA NA NA NA NA 0004 M2 2000 1.2 3 2.3 001 0 0005 M2 2000 1.2 4 6.1 100 0 0006 M2 2000 1.1 5 8.7 100 0 Process3 欠損値除去/補間 One-hot Encoding 散らばりのある工程の分析 外れ値の調査 意味が重複する値の除去 目的変数として使用 意味あるデータの抽出(工程データの前処理) ~ 可視化結果をもとに余分なデータを除去・変換 ~

Slide 10

Slide 10 text

Lot No. 機器コード Process3 状態 検査結果 0001 1000 10.4 001 0 0002 1000 1.5 010 1 0004 2000 2.3 001 0 0005 2000 6.1 100 0 0006 2000 8.7 100 0 • 可読性が高い • データを全て数値として扱える • データが軽い • 分析結果に異常値のバイアスがかからない • 要素アクセスが簡単(ヘッダーがシンプル) 分析/AIモデリングへ ~ 前処理を行うメリット ~

Slide 11

Slide 11 text

前処理 (センサデータ編)

Slide 12

Slide 12 text

センサデータのデータセット Time CH1 CH2 CH3 CH4 08211931 392 44 3 46 08211932 275 -194 57 -44 08211933 68 -157 55 6 08211934 72 137 21 -17 08211935 215 -79 37 -104 Time CH1 CH2 CH3 CH4 08211931 392 44 3 46 08211932 275 -194 57 -44 08211933 68 -157 55 6 08211934 72 137 21 -17 08211935 215 -79 37 -104 Time CH1 CH2 CH3 CH4 08211931 392 44 3 46 08211932 275 -194 57 -44 08211933 68 -157 55 6 08211934 72 137 21 -17 08211935 215 -79 37 -104 Time CH1 CH2 CH3 CH4 08211931 392 44 3 46 08211932 275 -194 57 -44 08211933 68 -157 55 6 08211934 72 137 21 -17 08211935 215 -79 37 -104 正常 異常A 異常B Data_OK_1.csv Data_OK_2.csv Data_OK_3.csv Data_OK_4.csv ・ ・ ・ センサデータは1データのまとまりが1ファイルになっていることが多い ▶ つまり、1フォルダが1データセット

Slide 13

Slide 13 text

センサデータの前処理 ~ Tidydata∗1の考え方でデータ変換する ~ *1 ) “TidyData”(2014) by Hadly Wickham : https://vita.had.co.nz/papers/tidy-data.pdf Filename Label Time CH1 CH2 CH3 CH4 Data_OK_1 OK 08211931 392 44 3 46 Data_OK_1 OK 08211932 275 -194 57 -44 ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ Data_OK_2 OK 09021224 131 114 155 -162 Data_OK_2 OK 09021225 521 64 -15 -2 ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ DATA_NG_A_1 NG_A 08301110 -418 97 34 -52 DATA_NG_A_1 NG_A 08301111 -288 234 35 -49 ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ DATA_NG_B_1 NG_B 08250932 62 103 40 113 ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ DATA_NG_B_n NG_B mmddhhmm 50 -304 33 -77 • ディレクトリ構造の意味を残した まま構造だけを排除できる • 工程データと同じように使用可能

Slide 14

Slide 14 text

まとめ

Slide 15

Slide 15 text

まとめ  1ファイル1データ/1ファイル1データセットの2種類のデータがあり、前処理の方法が異なる  前処理では1度データを可視化し、余分なものを除去/補間する  1ファイル1データはTidydata化して使う  良いデータとは読込が簡単なデータ 15

Slide 16

Slide 16 text

ご清聴ありがとうございました