”良い”データセット構築を考える

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

Slide 7

Slide 7 text

Slide 8

Slide 8 text

Slide 9

Slide 9 text

Slide 10

Slide 10 text

Slide 11

Slide 11 text

Slide 12

Slide 12 text

Slide 13

Slide 13 text

Slide 14

Slide 14 text

Slide 15

Slide 15 text

Slide 16

Slide 16 text

Slide 17

Slide 17 text

17 © 2019 Kentaro Yoshioka データセット構築事例 • 悪い例 ◦ よく見る“ディープラーニングで日経平均を予測してみた” ◦ → 精度80%達成 ◦ ほんと？（本当なら大金持ち）問題点： X+10日間のデータを使い、X+11日目の結果を予測するタスクで精度を導出している。単に移動平均を出力するだけでそれっぽい結果が得られてしまう。本来ならば90日間を学習、次の90日を予測とデータセットを分けないといけない。

Slide 18

Slide 18 text

18 © 2019 Kentaro Yoshioka データセット構築事例 • 産総研 “深層学習による赤外線画像のカラー化技術を開発” ◦ プレスリリース https://www.aist.go.jp/aist_j/press_release/pr2020/pr20200206/pr20200206.html 赤外モノクロ画像からカラー化可能なモデルを開発！精度高い。 →赤外光は輝度情報しかないため原理的にはカラー化できないはずだが。。？

Slide 19

Slide 19 text

19 © 2019 Kentaro Yoshioka データセット構築事例 • 産総研 “深層学習による赤外線画像のカラー化技術を開発” ◦ プレスリリース (https://www.aist.go.jp/aist_j/press_release/pr2020/pr20200206/pr20200206.html ) 疑問点：学習、評価において可視光カラー画像と赤外画像の対象物が同一 →つまり学習/評価データは同一学習対象物をたまたまきれいにマッピングできる表現をモデルが学習してしまった？対象物が未知であるとカラー化精度は悪化する？ →このような評価が必要

Slide 20

Slide 20 text

Slide 21

Slide 21 text

21 © 2019 Kentaro Yoshioka データセット構築事例 • Kaggle “Bengali Handwritten Grapheme Classification” ◦ https://www.kaggle.com/c/bengaliai-cv19 ベンガル語の手書き文字判別コンテストベンガル語は三種類の部首の組み合わせ合計組み合わせは13000通りあるが、全部をデータセット化するのは困難。チャレンジ：未知の組み合わせに対応できるモデルを構築できるか？

Slide 22

Slide 22 text

22 © 2019 Kentaro Yoshioka データセット構築事例 • Kaggle “Bengali Handwritten Grapheme Classification” ◦ https://www.kaggle.com/c/bengaliai-cv19 ベンガル語の手書き文字判別コンテスト学習データ：全ての部首を含むが、組み合わせは数千通りのみ。評価データ：未知なる組み合わせのもので評価優勝者：文字データから手書き風データをGANで生成し、学習データを拡充しモデルを学習。 →GANのデータ水増しは有効！

Slide 23

Slide 23 text

23 © 2019 Kentaro Yoshioka データセット構築事例 • Kaggle “Global Wheat Detection” ◦ https://www.kaggle.com/c/global-wheat-detection 小麦(wheat head)検出。学習データヨーロッパ、アメリカのデータ評価データアジア（中国、日本、オーストラリア）のデータチャレンジ：未知の地域の小麦も検出できるモデルを作成できるか？

Slide 24

Slide 24 text