深層学習技術の今と印刷産業への挑戦 (日本印刷学会 秋期セミナー)

深層学習技術の今と印刷産業への挑戦 (日本印刷学会 秋期セミナー)

「深層学習技術の今と印刷産業への挑戦」というタイトルで日本印刷学会秋期セミナーにて講演した資料です。深層学習の基礎から印刷検査画像に適用する際の重要な点についてまとめました。

2019/10/11 9:45~17:00
2019年 日本印刷学会 秋期セミナー
令和時代のビジネス新プラットホームを成長の力に
~ SDGs、セキュリティ、デジタル、人工知能 ~
@株式会社小森コーポレーション 本社
http://www.jspst.org/event/191011.html

4a8d16c35a4d9b2f6630cb4bdaa7ad35?s=128

Taktpixel Co., Ltd.

October 11, 2019
Tweet

Transcript

  1. タクトピクセル株式会社 代表取締役 CEO/CTO 玉城哲平 2019年日本印刷学会 秋期セミナー 2019/10/11 深層学習技術の今と印刷産業への挑戦

  2. 発表内容 • AI・深層学習技術について • 印刷現場への適用例 • データの準備 • モデル •

    解析 • 最近の研究トレンド • 当社の取り組みの紹介
  3. 3 玉城哲平 たまき てっぺい 代表取締役 CEO/CTO 分子構造計算、最適化問題の数値解析手法 科学技術計算ソフトウェア開発企業で半導体シミュレー ターや数値計算ライブラリの開発 ナビタスビジョン株式会社

    画像検査ソフトウェアAsmil Vision 新規開発 タクトピクセルを辻谷と共同創業 横浜国立大学博士課程(社会人)所属 趣味 クラシック音楽(バイオリン、ビオラ)、 読書、マラソン O O O O O O O O O O O O O O O O O C H3 CH3 CH3 CH3 C H3 C H3 固定相 移動相 Flow
  4. 人工知能とは? 4 知性を感じるような高度な情報処理システム 深層学習(ディープラーニング) = エキスパートシステム、データ予測、ロボット 人工知能研究分野の特定技術 広義 狭義 =

    データマイニング、機械学習、ニューラルネットワーク = ゲーム、画像、音声、自然言語への適用 人工知能? 様々な文脈で使用されており定義が定まらない
  5. Googleトレンド https://trends.google.co.jp/trends/ 0 10 20 30 40 50 60 70

    80 90 100 Jan-08 Jan-09 Jan-10 Jan-11 Jan-12 Jan-13 Jan-14 Jan-15 Jan-16 Jan-17 Jan-18 日本 世界 人気度 深層学習の躍進 5 Googleトレンド「人工知能」
  6. CONFIDENITIAL 6 第1次AIブーム(1960年代) 自然言語 マシンビジョン 第2次AIブーム(1980年代) エキスパートシステム ニューラルネットワーク https://ja.wikipedia.org/wiki/人工知能の歴史 第3次AIブーム(2000年代以降)

    演算装置(CPU, GPU)の進化 ビッグデータ 情報技術の進化 深層学習(ディープラーニング)、強化学習 インターネット IoT • 囲碁・将棋 • 画像分類コンペティション • 翻訳 • クイズ ある領域では人間を超えている
  7. CONFIDENITIAL 7 1980 2010 第2次AIブーム 第3次AIブーム 河島 茂生,新聞記事に見る人工知能やロボットの言説の変化, 人工知能学会誌 Vol.32(2017),

    No.6, 935-942 第1次AIブーム
  8. “人工知能”と”深層学習”という言葉 人工知能 ※ この表示は手法からの分類について述べたものであり、そのほかにも応用的なアプリケーションや数学的な視点が必要です。また、この図は主観的なもので、 一般化することはできません。研究分野、立場によって見解が異なることに注意が必要です。 ※ 図上は領域が分かれている場合でも相互に関連しあっている場合があります。 ※ 将来的にこの分類が明らかな誤りとされる可能性もあります。 機械学習

    データマイニング ベイジアンネットワーク 人工無脳 ニューラルネットワーク(NN) 決定木モデル クラスタリング 強化学習 畳み込みNN 再帰型NN 深層学習
  9. “人工知能”と”深層学習”という言葉 人工知能、AI 深層学習 「検査業務に人工知能を使うと………。」 「検査装置の結果画像を学習データとし、深層学習技術を 適用した学習済みモデルを作成して、良否判定の自動分類 システム構築すると………。」 人工知能技術、AI技術 深層学習技術 曖昧なので最近はあまり使われない傾向にある。

    「深層」でないニューラルネットワークや周辺技術も含めた言い方。
  10. 深層学習 (ディープラーニング, DL) 10 ディープラーニングまたは深層学習(英: deep learning)とは、(狭義には4層以上の)多層の ニューラルネットワーク(ディープニューラルネットワーク、英: deep neural

    network)による機械 学習手法である https://ja.wikipedia.org/wiki/ディープラーニング 入力層 中間層 出力層 この辺が”ディープ(深い)”の由来 ねこ
  11. 何が起こっているの? ねこ

  12. 2 5 5 11 3.5 8 10 21 演算装置 何かを入力したら、何かを出力する

  13. その関係を調べたい 2 5 5 11 3.5 8 10 21 演

    算 装 置 = 2 + 1 2 5 10 21 5 11 3.5 8
  14. = () すごく単純

  15. 0 , 1 , 2 , … 0 = ()

    1 2 3 複数の入力 形式ニューロン、人工ニューロン
  16. =ℎ(Σ + ) 1 2 3 パーセプトロン 1 2 3

    ・ ・ ・
  17. 多層パーセプトロン

  18. MNIST • 0~9の10種類の手書き数字画像が格納されたデータセット • アメリカ国立標準技術研究所(NIST)のデータセットを修正 (modified)したもの • 28x28ピクセルのサイズ • グレースケール

    https://en.wikipedia.org/wiki/MNIST_database https://www.nist.gov/sites/default/files/documents/srd/nistsd19.pdf
  19. ・ ・ ・ 28 28 0 1 2 3 4

    5 6 7 8 9 28x28=784 入力 出力 ニューラルネットワークによる分類 0.0 0.0 0.0 0.0 0.0 0.1 0.1 0.1 0.2 0.3 0.4 0.6 1.0 1.0 0.9 1.0 1.0 1.0 1.0 1.0 1.0 0.7 0.9 1.0 1.0 1.0 1.0 0.5 0.0 0.1 0.0 0.5 1.0 0.4 0.0 0.0 0.0 0.0 0.4 1.0 0.3 0.0 0.4 0.6 0.4 1.0 1.0 0.8 0.2
  20. 畳み込みニューラルネットワーク 3 3 畳み込み(convolution)層& プーリング(pooling)層 特徴マップ 畳み込み(convolution)層& プーリング(pooling)層 全結合層

  21. Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). Imagenet

    classification with deep convolutional neural networks. In Advances in neural information processing systems (pp. 1097-1105).
  22. 印刷画像分類の精度とパラメータ数 モデルは大きいほうがより良い? VGG16, 96.4% VGG19, 95.2% ResNet50, 90.1% ResNet101, 88.5%

    ResNet152, 93.5% InceptionV3, 97.5% 88.0% 89.0% 90.0% 91.0% 92.0% 93.0% 94.0% 95.0% 96.0% 97.0% 98.0% 20,000,000 30,000,000 40,000,000 50,000,000 60,000,000 70,000,000
  23. ImageNet 巨大データセット • 1400万枚を超える画像 • 1000クラスを抽出して分類課題 を与えられる http://www.image-net.org/ 画像認識のコンペ ILSVRC

  24. ILSVRC(Classificaiton top-5) • 2012年 AlexNet: 15.3 % • 2014年 GoogLeNet

    6.67% • 2015年 ResNet 3.57% 人間:5.1% http://karpathy.github.io/2014/09/02/what-i-learned-from-competing-against-a- convnet-on-imagenet/ https://github.com/starpentagon/python_scripts/blob/master/dataset/ILSVRC201 2_class_name/ILSVRC2012_class_name.csv 1400万枚を超える画像 1000クラスを抽出して分類課題を与えられる
  25. Simonyan, K., & Zisserman, A. (2014). Very deep convolutional networks

    for large-scale image recognition. arXiv preprint arXiv:1409.1556. He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 770-778).
  26. 深層学習モデルの設計 入力層 中間層 中間層 出力層 [b, x, y, c] b:

    バッチサイズ x: 画像サイズ幅 y: 画像サイズ高さ c: 画像チャンネル数 画像チャンネル数を4 チャンネル以上にする 適切な前処理を行う 適切な規模のネット ワーク構造とする (大きすぎるのも良 くない) 全結合層(Fully Connected)層 より Global Average Pooling 層 学習条件 ・ImageNet等からの転移学習は行わない。 ランダム初期値で学習を開始する。 ・StepwiseでLearning Rateを設定する。 ・Optimizerはあまり精度に影響しない。 Dropout層よりBatch Normalize層が重要 Residual層も取り入れる 11,283,478 26,073,878 23,593,174 50,474,518 134,360,598 55,784,214 139,670,294 21,818,390 54,313,942 0 20,000,000 40,000,000 60,000,000 80,000,000 100,000,000 120,000,000 140,000,000 160,000,000 Parameter size 定性的な分類問題 に落とし込む 精度と計算量の バランスがいい 印刷画像向け深層学習画像分類エンジン
  27. モデルのサイズと計算時間 VGG16, 7.5 VGG19, 10.48 ResNet50, 33.55 ResNet101, 47.43 ResNet152,

    114.85 InceptionV3, 46.45 0 20 40 60 80 100 120 140 20,000,000 30,000,000 40,000,000 50,000,000 60,000,000 70,000,000 1エポック当たりの計算時間とパラメータ数 • 印刷画像の欠陥分類 • Geforce GTX 1080
  28. 791.54 97.42 74.36 0 100 200 300 400 500 600

    700 800 900 CPU(i5-2400S 2.5GHz) GPU(Geforce GTX 1080) GPU(Tesla V100) CPUとGPUの計算速度の違い 画像数:4760 モデル:inception-resnet-v2 入力サイズ:112x112 バッチサイズ:32 x 10.6 1エポック当たりの時間[秒]
  29. GPU メーカー ・NVIDIA ・AMD NVIDIA製 ・Geforceシリーズ ・Teslaシリーズ 型番 発売時期 発売時価格

    Geforce GTX 1080 2018.5 64,000円 GeForce GTX 1070 2018.6 40,000円 GeForce GTX 1660 Ti 2019.2 40,000円 Tesla P100 2016.6 Tesla V100 2017.6 100万円
  30. 発売価格: $399,000 (≒4,300万円) https://www.nvidia.com/en-us/data-center/dgx-2/

  31. 東京リージョン p3.16xlarge:33.552USD/時間 https://aws.amazon.com/jp/ec2/instance-types/p3/

  32. 深層学習の何がすごい? • これまで難しかった判別能力が飛躍的に上がった • 特徴抽出を人が行わなくて良くなった(帰納的) ・耳があってひげがあって… ・毛並みのテクスチャは… ・耳の形状は三角で… ・目の色は…

  33. 深層学習以外の発展 • 強化学習 • 自然言語処理 • ベイズ推論 • 囲碁・将棋 •

    チャットボット • 故障予知、異常検知 人工知能技術は色々な研究・技術の集積
  34. 分類 敵対的生成ネットワーク 画像の生成に用いられる 強化学習 強化学習 評価関数に用い たり、探索の絞 り込みに深層学 習を用いること で性能の向上が

    見込める 自己符号化器 特徴量抽出 MATLABの事例より 類似コンテンツの検索、異常検知 領域分割 Classification Semantic Segentation GAN Reinforcement Learning Autoencoder Feature Engineering https://jp.mathworks.com/discovery/anomaly-detection.html http://host.robots.ox.ac.uk/pascal/VOC/voc2012/segexamples/index.html https://www.kdnuggets.com/2016/07/mnist- generative-adversarial-model-keras.html
  35. 印刷画像向けの特徴 技術課題 ・定量的な問題が多い ・複数画像を入力 ・背景絵柄が変化する 犬や猫などの写真(3チャ ンネルカラー画像)分類は ノウハウが一般化してき ている 検査

    ・自動検査装置の結果の精度 をさらに向上させたい ・結果を解析して生産管理に 生かしたい → 問題設定の見直し → モデルの工夫 → 大規模データ学習
  36. 画像の例 良品/不良品分類 欠陥品種分類 画像と分類項目の例 × 不良品 × 不良品 × 不良品

    良品 良品 毛ごみ インキカス 汚れ 異物 見当ズレ 毛ごみの付着は不良品として処置する インキカスは不良品として処置する 汚れは不良品として処置する 払ったら落ちる異物は良品扱い 微細な見当ズレは良品扱い
  37. 画像検査装置 仕上げ工程 ベリファイ工程 (データ検品) 画像自動分類 アプリケーション 事前判別 確実に良品と思われる ものを排除してベリ ファイ工程の負担を削

    減する。 事後判別 確実に致命的な欠陥と なりそうなものを強制 的に欠陥指定して流出 事故を防止する。 1 2 3 学習済みモデル データ収集 システム化 ベリファイ工程の効率化
  38. データ収集と分類項目のポイント • 様々なバリエーション • 画像特徴から推測できる推論結果 • 適切な分類項目数とデータ量 • 定性的な分類項目 •

    データの増幅方法 • アノテーションノイズ 多品種 クライアント属性は含まない 1分類項目当たり1000画像 大小ではなく欠陥品種 画像特徴を失わない方法 一貫した方針
  39. 画像のバリエーション 単一の品種(絵柄)ではなく、できるだけ多くの種類の画像を 集める。画像枚数よりも画像の多様性が重要。

  40. アノテーション作業 • 1項目当たり1,000画像(組)以上 (印刷画像) • 一貫したルール • ある程度溜まってきたら省力化可能 例えば… ・10分類の場合

    最低3万件 ・3,000件/日/人 ・10日人 ※ 知識のある現場の方が良い
  41. アノテーションの省力化 • 半教師あり学習 • アクティブラーニング 推論 ラベル無しデータ モデル 1 :

    50% 効率的なアノテーション 追加する教師データ モデル2 : 60% 抽出 教師データ
  42. 外注する場合 10万円~100万円(初回) ・精度 ・納期 ・難易度

  43. 画像特徴から推測できる推論結果 • 通常であれば良品とするところだが、この製品のクライアン トの要求精度が厳しいため、多少歩留まりを犠牲にしても不 良品とする。(良品/不良品分類) • 画像からは判別できないが、使用している紙の種類から、浮 遊異物ではなく夾雑物だと判断できる。(欠陥品種分類) 相応しくない例)

  44. 定性的な分類項目 × 重大欠陥、中欠陥、小欠陥 → 深層学習ではなく領域サイズからルールベースで判定 するべき △ 良品、不良品 → ノイズが多いが精度を求めないのであれば可能

    〇 欠陥の品種 → 明確な指標に基づいて区別するのであれば可能
  45. 最近の研究トレンド

  46. 注目領域の可視化 (Saliency map) Interpretable Explanations of Black Boxes by Meaningful

    Perturbation : http://openaccess.thecvf.com/content_ICCV_2017/papers/Fong_Interpretable_Explanations_of_ICCV_2017_paper.pdf [1610.02391] Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization : https://arxiv.org/abs/1610.02391 [1710.11063] Grad-CAM++: Improved Visual Explanations for Deep Convolutional Networks : https://arxiv.org/abs/1710.11063 深層学習モデルによって推測された結果は途中の計算 結果を理解することが困難であるため、説明できる深 層学習(Interpretable DL)の研究が盛んに行われている。 分類処理を行った後に「なぜその判断を行ったか?」 を可視化することにより、そのモデルが汎化能力を獲 得しているかを間接的に分析することができる。 ニューラルネットワーク構造に制約されない、より安 定的に利用できるmask法で実装した。 $ dlc-titan predict-ss --model-network ${SOURCE}/network.json --model-weight ${SOURCE}/trained.h5 --image-input-model ${F1} ${F2} -- cam-type Grad-CAM --image-masking-stride 1,1 --grid 16,16 --image-target-size 112,112,3 --last-conv-layer prediction --output- dir ./predict-ss/output/ --output-heatmap ./predict-ss/heatmap/${F2##*/} --verbose DLC-Titanに実装済み
  47. 説明可能AI https://www.ai-gakkai.or.jp/my-bookmark_vol34-no4/ https://www.darpa.mil/program/explainable-artificial- intelligence

  48. Encoder-Decoder による良品学習と欠陥検出 良品データの準備 (100枚) データの前処理 ノイズ付加 入力層 圧縮 特徴 出力層

    Encoder Decoder ハイパーパラメータ、ネットワークモデル の構造、ノイズの与え方については、印刷 の特徴に合わせた調整が必要。
  49. Encoder-Decoder による良品学習と欠陥検出 • 不良品画像の収集が不要であ る。(従来手法と同じ) • 基準画像との差分ではないの で、あいまいな検知ができる • 位置決め無しで欠陥を検出す

    ることができる • 検査領域の枠を引いたりなど の細かい設定が不要になる 未知のデータ 予測された良品 比較検査アルゴリズム
  50. 近年の学術界の変化 CONFIDENITIAL 50 • 既存の研究を調べる • 仮説を立てる • 実験する •

    先行発表する • 論文を書く AIブーム。資金調達が容易。 企業との共同研究など。 AI関連(特に深層学習)の 画像認識コンペティション ・ILSVRC Challenge (ImageNet) ・Cityscapes 大規模な国際会議 ・NIPS ・IJCAI アーカイブ(arXiv)の存在 ・査読なし ・フリーアクセス フレームワーク ・TensorFlow ・Caffe 産業と先進技術の垣根が低くなってきている
  51. MNIST • 0~9の10種類の手書き数字画像が格納されたデータセット • アメリカ国立標準技術研究所(NIST)のデータセットを修正 (modified)したもの • 28x28ピクセルのサイズ • グレースケール

    https://en.wikipedia.org/wiki/MNIST_database https://www.nist.gov/sites/default/files/documents/srd/nistsd19.pdf
  52. ImageNet 巨大データセット • 1400万枚を超える画像 • 1000クラスを抽出して分類課題 を与えられる http://www.image-net.org/ 画像認識のコンペ ILSVRC

  53. CIFAR-10 dataset • ベンチマークとして非常によく使 われる • 1分類当たり6,000枚 • 10分類 60,000枚

  54. Ver. 1.0 10月公開予定 疑似印刷検査 画像のデータ セット ・黒点ゴミ 。毛ゴミ ・カスレ ・ピンホール欠陥

  55. None
  56. AI技術に期待されること • 自動化、省力化によるコスト削減 • 新人教育のコスト • 生産コスト • 人的ミスの防止 •

    リードタイムの短縮 ➢安定稼働と生産予測の容易化 ➢人材の配置転換のリスク低減 56 コスト削減 だけじゃない!
  57. 57

  58. プ ー ド ル デザインや原稿を 手軽にバージョン管理 DLA-Mercury 印刷工場のための 深層学習モデル作成ツール 深層学習・画像処理技術

    独自ライブラリ
  59. 59 /ˈpuː.dəl/ プードル 印刷工場のための画像認識クラウドプラットフォーム POODL proofrog technology

  60. 基本機能 • ストレージ • 画像をアップロードしデータセット単位で保管する • データセットの分割・結合・編集作業が行える • アノテーション •

    分類作業に集中できるシンプルな画面設計 • 権限機能によって安全に作業依頼ができる • データの前処理 • 検査画像の特長を失わないようなデータの増幅を行う • 学習 • 専門知識無しで学習処理の実行が可能 • 解析 • 学習済みモデルの精度を分析する • 適切な学習済みモデルをダウンロードできる • 推論 • 検査装置などに組み込んでオフラインで高速処理ができる POODL proofrog technology
  61. AI製品とサブスクリプション 61 そのAI製品をいつ利用するか(頻度と時期)がポイント 利用開始 AI製品を継続的に利用して自社製品 を生産する場合は、安定した稼働の ために工場内に配置するべき 再学習 学習済みモデルの作成時期が不定期 で、自社製品の生産時にはAI製品を

    工場内に配置する必要がない 1 2 3
  62. POODL proofrog technology

  63. 販売形態・価格 • POODLプラットフォーム(SaaS/クラウド版) • 15万円/月 (年単位契約 180万円~) • 学習処理の量に合わせた従量課金 •

    PoCサポート • “使える”学習済みモデル作成を個別支援 • 1か月間 300万円~ • POODLプラットフォーム使用料含む ※ オンプレミス版や特注カスタマイズは個別相談 POODL proofrog technology
  64. 2019/5/20 Taktpixel Co., Ltd. 64 契約書 パッケージ 広告 チラシ 書類

    書籍 プレゼン資料 デザインや原稿を手軽にバージョン管理 POODL proofrog technology
  65. 2019/5/20 Taktpixel Co., Ltd. 65 POODL proofrog technology

  66. 2019/5/20 Taktpixel Co., Ltd. 66 POODL proofrog technology

  67. 67 タクトピクセル株式会社 / Taktpixel Co., Ltd. / TPX タクト (takt)

    …指揮棒 ピクチャー(picture) …画像 エレメント (element) …要素 pixel … 画素
  68. お問い合わせ 玉城哲平 (たまきてっぺい) contact@taktpixel.co.jp https://taktpixel.co.jp/ 共同研究パートナー企業を募集しています ・データセットの提供 ・課題検討 ・技術交流