企業内スモールデータでのデータ解析

企業内スモールデータでのデータ解析 2022-7-30 濱川　普紀

自己紹介大阪在住職業：某繊維メーカーで自社のスマートファクトリー化に従事しています Python歴：4年趣味：電子音楽制作、ライブ活動 Name : 濱川普紀 Hamakawa Hirotoshi
　 @hamage9

経歴 2000年8月某産業機械メーカーに就職電気設計を従事 2016年7月某産業機械メーカーで IoT開発に従事 2020年3月某繊維メーカーに就職スマートファクトリー化に従事
1997年4月大学を卒業して電子部品を扱う某商社に就職。その後転々と転職。。。

１．ビッグデータからスモールデータへ２．ディープラーニングの弱点３．企業内DX担当者の悩み４．スモールデータ解析事例 Agenda

ビッグデータからスモールデータへビッグデータ解析の代表としてディープラーニングが注目されてきたが、その背景にはインターネットから大量のラベル付きデータが得られることが挙げられる。

ビッグデータからスモールデータへしかし、企業にとって必要なデータもインターネットから得られるか？　　　 No！！企業（特に製造業）にとって必要なデータは下記のようなスモールデータである • 装置故障などの異常データやメンテナンス記録 • 抜き取り検査の結果をプロセスデータと結合したデータ •
実験にて収集されたデータ • 顧客の購入履歴

ビッグデータからスモールデータへスモールデータは最近、注目されている。

ディープラーニングの弱点 AIの代表的な手法であるディープラーニングにも、下記のような弱点がある。 1. 大量にデータが必要 →スモールデータだと解析できない。。。 2. 計算コストが高い →自社内のデータ解析の為にクラウドの GPU積んだVM使うの？？ 3.
解釈性が低い →XAI分野は日々進歩しているが、工場の人たちを納得させるには物理化学的に辻褄が合っていることが重要。。。。じゃあ、どんな手法を使おうか？？

企業内DX担当者の悩み・A：定数・B：定数・z : 外生変数(exogenous variable) AIやIoT、DXのようなバズワードが流行り出すと、企業の偉いさんからは、、 • 当社もAIやディープラーニングを使ってDXをしてくれ！
→（ぼやき）いや、AIとかDLとかは手段だから、それを使って何をするのか、　　どのような目的なのかが重要でしょ。。。 DLするにはデータが大量に必要ですけど。。。 • データが必要？ではIoT基盤を導入するぞ！ →（ぼやき）いやいや、だから導入するのはいいけど、導入して何に使うの？　それによって、どんなデータをどのような頻度で収集するのか決まら　ないんですけど。。。 • 当社もIoT基盤を導入したので安泰だな！ →（ぼやき）いやいやいや、そのデータ誰が解析するのよ。オレ一人じゃ　無理よ。。。社内教育を進めないといけないんですけど。。。

企業内DX担当者の悩み・A：定数・B：定数・z : 外生変数(exogenous variable) • 前処理にどれだけ時間がかかってるんだ！ →（ぼやき）いやいやいやいや、解析の
80%は前処理って言われてて、一番時間がかかる作業だし、　ここで間違ったことをするとちゃんと解析できないので、重要なんですけど。。。 • Auto MLというのがあるそうじゃないか、誰でも解析できるな！ →（ぼやき）いやいやいやいやいや、例えば欠損処理でも何故欠損したかというような　背景を理解したり、他のデータも欠損しているかどうかなどを調査しない　と、どう処理したらいいか決められないでしょ。。。

企業内DX担当者の悩み・A：定数・B：定数・z : 外生変数(exogenous variable) 工場の担当者からは、、 • 異常データを検知したいんじゃなくて、異常を無くしたいんだよ
→ディープラーニングは不向き。決定木や線形回帰など解釈性が高い手法で解析必要。　　 • AIでちゃちゃっとできるんでしょ？ →いや、皆さんのドメイン知識が重要になります。 • 要は相関が高いやつ見つければいいんでしょ？ →相関が高いのは、あくまで線形的な関係性が高いというだけなんで、　必ずしもそのようなことはないですよね。。。

スモールデータ解析事例 PLS（部分的最小二乗法）通常の線形回帰だと、、、 • 多重共線性の問題 • 説明変数と同じかそれ以上のデータが必要（バーニーおじさんのルールだと 10倍必要？）

スモールデータ解析事例 PLS（部分的最小二乗法）主成分回帰（PCR）だと、、、 • 多重共線性？ →説明変数どうしが独立なので問題なし • 説明変数と同じかそれ以上のデータが必要？ →線形回帰と同様に必要 •
次元削減したデータは目的変数との相関関係は考慮されていない

スモールデータ解析事例 PLS（部分的最小二乗法） PLSだと、、、 • 多重共線性？ →説明変数どうしが独立なので問題なし • 説明変数と同じかそれ以上のデータが必要？ →データの方が少なくても計算可能 •
次元削減したデータは目的変数との相関関係は考慮されていない？ →次元削減の時に目的変数との相関関係も考慮されている！！

スモールデータ解析事例 PLS（部分的最小二乗法） PLSの概要 • 線形の回帰分析手法の１つ • 説明変数(記述子)の数がサンプルの数より多くても計算可能 • 回帰式を作るときにノイズの影響を受けにくい •
説明変数の間の相関が高くても対応可能 • 主成分分析をしたあとの主成分と目的変数との間で最小二乗法を行うのは主成分回帰 (PCR) であり、PLSとは異なるので注意 https://datachemeng.com/partialleastsquares/

スモールデータ解析事例 PLS（部分的最小二乗法） PLSの概要 https://datachemeng.com/partialleastsquares/

スモールデータ解析事例 PLS（部分的最小二乗法） PLSはいろんな書籍で紹介されています

スモールデータ解析事例 PLS（部分的最小二乗法） PLSを使用した論文も多数あります。

スモールデータ解析事例 PLS（部分的最小二乗法）詳しくは、先ほど紹介した書籍以外に、下記も参考になります。部分的最小二乗回帰 (Partial Least Squares Regression, PLS)～回帰分析は最初にこれ！～https://datachemeng.com/partialleastsquares/
【徹底解説】PLS（部分的最小二乗法）とは https://academ-aid.com/ml/pls 06. PLS（部分的最小二乗法） http://manabukano.brilliant-future.net/lecture/dataanalysis/doc06_PLS.pdf

スモールデータ解析事例 MIC（Maximum Information Coefficient）独立と無相関の違いについて独立データ円形データ相関データ上凸データ相関係数：0
相関係数：0 相関係数：1 相関係数：0 独立独立でない (当然)独立でない独立でない

スモールデータ解析事例 MIC（Maximum Information Coefficient）独立と無相関の違いについて独立データ円形データ相関データ上凸データ相関係数：0
相関係数：0 相関係数：1 相関係数：0 独立独立でない (当然)独立でない独立でない物性試験データとプロセスデータの関係がこのようになることは考えられませんか？相関だけでは有用なデータを見つけられない

スモールデータ解析事例 MIC（Maximum Information Coefficient）独立と無相関の違いについて無相関独立直感的な意味合い直線的な関係が無い何の関係性も無い
イメージ散布図を4つに分けた場合に右上及び左下、もしくは右下及び左上にデータが集まっていない散布図をグリッドで分けた場合に、データが全体的に点在している定義式 E[XY} = E[X]E[Y] P(x,y) = P(x)P(y) https://manabitimes.jp/math/934

スモールデータ解析事例 MIC（Maximum Information Coefficient）独立と無相関の違いについて無相関独立直感的な意味合い直線的な関係が無い何の関係性も無い
イメージ散布図を4つに分けた場合に右上及び左下、もしくは右下及び左上にデータが集まっていない散布図をグリッドで分けた場合に、データが全体的に点在している定義式 E[XY} = E[X]E[Y] P(x,y) = P(x)P(y) https://manabitimes.jp/math/934 ・独立なら無相関・無相関でも独立とは限らない

スモールデータ解析事例 MIC（Maximum Information Coefficient） MIC→新しい相関係数 https://www.slideshare.net/logics-of-blue/mic-31810194

スモールデータ解析事例 MIC（Maximum Information Coefficient） MIC→新しい相関係数相互情報量 MICは相互情報量を・0～1にスケーリングし、・分割する数を最適化したもの
独立の定義式P(x,y) = P(x)P(y) より、独立の場合にlogの中身が1になり、log1=0より、独立の場合にMICは0 になる。

スモールデータ解析事例 MIC（Maximum Information Coefficient） MIC→新しい相関係数独立データ円形データ相関データ上凸データ相関係数：0
相関係数：0 相関係数：1 相関係数：0 独立独立でない (当然)独立でない独立でない MIC：0 MIC：0.17 MIC：1.00 MIC：0.68

スモールデータ解析事例 MIC（Maximum Information Coefficient） MIC→新しい相関係数独立データ円形データ相関データ上凸データ相関係数：0
相関係数：0 相関係数：1 相関係数：0 独立独立でない (当然)独立でない独立でない MIC：0 MIC：0.17 MIC：1.00 MIC：0.68 上凸データの場合、相関係数は 0だが、MICは円形データよりもかなり大きい！！

ご静聴ありがとうございました濱川　普紀 28

企業内スモールデータでのデータ解析

企業内スモールデータでのデータ解析

hamage

More Decks by hamage

Other Decks in Programming

Featured

Transcript