反省_kaggle_時系列データ_202305_手話コンペ

Slide 1

Slide 1 text

Platform Technology Division Copyright 2020 Sony Semiconductor Solutions Corporation DATE 1/xx サマリ（概要に解法リンクあり） • 参加コンペ： – Google - Isolated Sign Language Recognition | Kaggle • 概要： – Media Pipeにより、取得されたキーポイント情報から250種類の手話を分類する。 – データについて • データの撮影者は、データ収集のスマホアプリで動画を自撮りで撮影している。 • ２１人のコントリビューターによってデータセットが構築されている。 – データの特徴 • 時間の長さが不均一、認識が失敗しNaNになっていることがある、 • 手話の前後に余計な動きが入っていることがある、個性が強い • 同じ手話でも、左手のみ、右手のみの場合がある – ルール・制約： • 提出はTFLite形式のモデルのみ、モデルサイズは40MB以下（ここが結構ムズイ） • 順位： – 53位/1179チーム（シルバー）（チームマージ直前にコード共有したことが原因で剥奪と推測） • 反省して次はすぐにマージして始めます。。。（マージ予定の人でもNGとはルールに明記されてなかった、、、、） • アプローチ概要： – Transformerブロックx2のシンプルなモデル – 入力データ： • 体、口、手の座標 • 上記を変換した情報 – 座標、相対位置、角度、座標移動速度、座標移動加速度 – 角度速度、座標ベクトル、形情報 • メンバ構成 – 会社の勉強会メンバ（全員で実装、仮説検討、ディスカッションを実施。） • 所感： – 全体： • 画像コンペかと思って始めたら時系列データのコンペだった。。。 • Transfomerの基礎勉強にもなりやってよかった。 • 中盤での動き、仮説の立て方がシルバーに入れる分かれ道になったと思う。 • 特徴量の設計は、手話の特性から検討。 – 手話は、手形状、手の向き、動作、手の位置、表情、の5要素で構築 – コンペでムズイと感じたところ： • 何をしたら性能が上がるかが全く分からなかったトコロ。 • Discussionを見て複数の実験をしたところ、結果的に「特徴量の追加」がキモっぽさがありそこを深く実験。 – メンバのhatakeeが、死ぬほどモデル部分改造の実験をして性能改善したいことを確認。Thank you – 今後の課題： • 金メダルを取るには、①根本的なMLに対する知識、②サーベイの方法、③突飛な発想、が必要なんだろう。と実感。 • 経験を積み重ねて、過去の知見をうまく組み合わせられるようにしていきたい。コンペ概要顔、体、手の543点の関節情報から250種類の手話を判定結果（メダルはく奪。チームマージ直前にコード共有したことが原因と推測） x N frames APPLE!

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

Slide 7

Slide 7 text

Slide 8

Slide 8 text

Slide 9

Slide 9 text

Slide 10

Slide 10 text

Slide 11

Slide 11 text

Slide 12

Slide 12 text

Slide 13

Slide 13 text

Slide 14

Slide 14 text

Slide 15

Slide 15 text

Slide 16

Slide 16 text

Slide 17

Slide 17 text

Slide 18

Slide 18 text

Slide 19

Slide 19 text

Slide 20

Slide 20 text

Slide 21

Slide 21 text