複数の入力の深層学習ネットワークの作成について

Slide 1

Slide 1 text

Deep Network Designerを利用した複数画像をインプットとする深層学習ネットワークの作成方法について ImVisionLabs株式会社

Slide 2

Slide 2 text

深層学習による画像処理 2 バックパック型スキャナー iPhone12 LiDAR  物体検出やセグメンテーションなど、様々な目的に対して利用されている [動画] 画像出典：Mask R-CNN (He et al, 2017) URL:https://arxiv.org/abs/1703.06870

Slide 3

Slide 3 text

深層学習ネットワークの構造について  インプット→特徴抽出→分類などのタスク  基本的にインプットは1枚の画像

Slide 4

Slide 4 text

複数の画像をインプットとした例 [a] ScanX2.0  複数の画像をインプットとして使用することで、成果が上がることが報告されている • 2種類の画像による虫歯診断 • 2種類の画像によるダイズの品質判断画像出典：Using Multimodal Learning Model for Earthquake Damage Detection Based on Optical Satellite Imagery and Structural Attributes(Miyamoto et al,2021) URL:https://xplorestaging.ieee.org/document/9324464 画像出典：Dental Caries Detection Using Score-Based Multi-Input Deep Convolutional Neural Network (Imak et al,2022) URL:https://ieeexplore.ieee.org/abstract/document/9709265

Slide 5

Slide 5 text

今回行いたいこと [a] ScanX2.0  2枚の画像をインプットとするネットワーク構造を作成する • MATLABのディープネットワークデザイナーを使用する  MNISTの手書きデータセットで精度を検証する • 画像を半分に分割し、それぞれを入力として使用画像出典:Gradient-based learning applied to document recognition（Lecun et a,1998） URL:https://ieeexplore.ieee.org/document/726791/references#references 文字の上半分文字の下半分

Slide 6

Slide 6 text

ネットワークの作成① [a] ScanX2.0  畳み込みなどのネットワークの各層をドラッグアンドドロップ  コピーアンドペーストで、2つの入力層を作成

Slide 7

Slide 7 text

ネットワークの作成② [a] ScanX2.0  2つの出力を結合する層を作成  最終的なタスクに合うように、各層の次元を調整

Slide 8

Slide 8 text

学習に使用したコマンドの一例 [a] ScanX2.0  引数として、UpperとBottomの2つを使用した • 学習データと、検証データのロスを計算 • 学習データのロス計算に使用するサポート関数

Slide 9

Slide 9 text

結果 [a] ScanX2.0  損失（ロス）が減少し、うまく学習が進んでいることがわかる

Slide 10

Slide 10 text

結果 [a] ScanX2.0  2インプットのネットワークを利用することで精度が上昇した  画像全体の情報を利用することで、下半分/上半分よりも高精度になった 80 82 84 86 88 90 92 94 96 98 画像全体下半分のみ上半分のみ分類精度 (%)

Slide 11

Slide 11 text

まとめ [a]  複数の画像をインプットとするネットワークの作成方法を紹介しました  ディープネットワークデザイナーを使うことで比較的簡単にできることがわかりました • 直感的にネットワークの構造を作成することができました  今後は、テキストや画像などの異なるデータをインプットとするネットワークの作成に挑戦したいです