Slide 1

Slide 1 text

www.albert2005.co.jp/ 本社 〒169-0074 東京都新宿区北新宿2-21-1 新宿フロントタワー15F TEL: 03-5937-1610 FAX: 03-5937-1612 東海⽀社 〒451-6008 愛知県名古屋市⻄区⽜島町6-1 名古屋ルーセントタワー8F TEL: 052-433-3701 FAX: 052-433-3702 TossingBot: Learning to Throw Arbitrary Objects With Residual Physics 2021/09/21 ALBERT リサーチャ 中嶋晃聖 DataScienceCafe@新宿

Slide 2

Slide 2 text

2 © 2021 ALBERT Inc. 紹介論⽂(概略) n TossingBot: Learning to Throw Arbitrary Objects with Residual Physics Ø Robotics: Science and Systems (RSS) 2019 Best Systems Paper Award Ø Andy Zeng*1,*2, Shuran Song*1,*2,*3, Johnny Lee*2, Alberto Rodriguez*4, Thomas Funkhouser*1,*2 p *1: Princeton University、*2: Google、*3: Columbia University、*4: MIT

Slide 3

Slide 3 text

3 © 2021 ALBERT Inc. 投擲ロボットの課題 n 物理現象を近似して定式化したモデル Ø 投擲に対して重要度の⾼い要素を扱うため、変化に強い Ø 定式化に含まれていない要素の影響に弱い p 空気抵抗や慣性などを含めた精緻なモデル化が難しく精度が出ない n 物理現象の観測結果に対して学習したモデル Ø 定式化が難しい要素を暗に扱えるため、⾼い精度のモデル作成が可能 Ø 学習したタスクのみに特化しており、アームや物体の変更に弱い

Slide 4

Slide 4 text

4 © 2021 ALBERT Inc. TossingBotにおける⼯夫点 n 把持と投擲を同時に扱うモデルの提案 Ø 右下図のように把持位置によって、投擲に必要な要件は変化 n 理論モデルの結果に対して学習モデルで差分を修正 Ø 理論モデルがベースのため、未学習項⽬に対しても⾼い成功率を達成 Ø モデルに含まれていない外乱を学習モデルで補正するため、実機でも成功率が低下しない

Slide 5

Slide 5 text

5 © 2021 ALBERT Inc. モデル構造 n RGB-D画像を⼊⼒とし、把持位置・⾓度と投擲速度を出⼒する Ø 画像は⼊⼒前に22.5°回転ずつさせた16パターンを⼊⼒ Ø 各回転パターンに対して把持スコアQg 、投擲速度Qt を推論 p 把持位置として、最も把持スコアの⾼い位置・⾓度のペアを出⼒ p 投擲速度として、把持位置と対応するピクセルの投擲速度を出⼒

Slide 6

Slide 6 text

6 © 2021 ALBERT Inc. モデル構造︓把持-投擲の共同学習 n 把持・投擲に対してそれぞれモデルは学習 Ø 把持モデルは、把持の成功に対してCross-Entropyを計算 Ø 投擲モデルは、投擲速度の差分に対してHuborロスを計算

Slide 7

Slide 7 text

7 © 2021 ALBERT Inc. モデル構造︓数理モデルと学習モデルの併⽤ n 数理モデルの結果を学習モデルで補正 Ø 斜⽅投射の数式からベースの速度 ̅ 𝑣!,# を予測 Ø 投擲モデルから速度の差分𝛿$ を予測 Ø 到達地点 ̂ 𝑝から斜⽅投射の数式を使って||' 𝑣!,# || ̂ & を計算 Ø 正解差分を計算し、ロスを計算

Slide 8

Slide 8 text

8 © 2021 ALBERT Inc. 実験概略 n 提案⼿法の性能評価として下記の5項⽬について検証 Ø 実験1︓精度調査(シミュレータ) Ø 実験2︓精度調査(実機) Ø 実験3︓把持、投擲の共同学習の影響調査 Ø 実験4︓投擲先の変化に対する汎化性能調査 Ø 実験5︓投擲タスクの学習による物体認識性能の調査 n 評価項⽬ Ø 把持成功率(Grasping Performance)︓把持後に物体がグリッパー内に残っている割合 Ø 投擲成功率(Throwing Performance)︓投擲後に物体がターゲットボックスに着地した割合

Slide 9

Slide 9 text

9 © 2021 ALBERT Inc. 実験設定 n シミュレータ環境 Ø 対象物体を載せたトレーと離れた位置にある12個の箱、投擲動作を⾏うロボットをシミュレート Ø ロボットはトレー上の物体を種類によらず各箱に同数⼊れた状態を⽬指す Ø 学習では、性質の異なる物体をそれぞれ4種ずつ学習/テストに利⽤する p 各物体の⾊はランダムに決定する n モデル Ø 提案モデルに加え、3種のモデルに対して精度を⽐較する p Regression: 投擲モデルで速度をそのまま予測する p Regression-PoP: 事前に斜⽅投射の計算結果を学習させたのちに投擲モデル速度をそのまま予測する p Physics-only: 斜⽅投射の計算結果をそのまま利⽤する 実験1︓シミュレータ

Slide 10

Slide 10 text

10 © 2021 ALBERT Inc. 実験結果 n 投擲では、提案モデルのResidual-physicsが⼤幅に⾼い精度を⽰す Ø 特に把持位置の影響を受けやすいRods/Hammerでは斜⽅投射モデルの有無が精度に⼤きく影響 Ø 斜⽅投射を事前に学習させたRegression-PoPでは、初めから学習させるRegressionよりも⾼精度 n 把持では投擲と⽐べて⼤きな精度差は⾒られない 実験1︓シミュレータ

Slide 11

Slide 11 text

11 © 2021 ALBERT Inc. 実験設定 n 実機環境 Ø Universal Robots社製の6軸ロボットUR5を利⽤ Ø シミュレータ同様にトレーと投擲先の箱を設置 Ø ロボットはトレー上の物体を種類によらず各箱に同数⼊れた状態を⽬指す Ø 実機では80以上の物体をそれぞれ学習/テストに利⽤ n モデル Ø 実験1からRegressionを除いた3種のモデルとヒトの投擲結果を⽐較 p Human-baseline: 15⼈の未訓練者による80個の投擲結果 p Regression-PoP: 事前に斜⽅投射の計算結果を学習させたのちに投擲モデル速度をそのまま予測する p Physics-only: 斜⽅投射の計算結果をそのまま利⽤する 実験2︓実機

Slide 12

Slide 12 text

12 © 2021 ALBERT Inc. 実験結果 n 実験1と⽐べ、Physics-onlyとResidual-physicsで⼤きな差を確認 n Residual-physicsはヒトの結果と同程度の精度 n シミュレータと⽐べ空気抵抗など多くの外乱が発⽣するため、 Physics-onlyと差が発⽣した可能性 Ø Residual-physicsモデルは外乱の影響をモデル精度の向上や把持位置の調整で回避が可能 実験2︓実機

Slide 13

Slide 13 text

13 © 2021 ALBERT Inc. 実験設定/結果 n 投擲の精度による把持学習の影響を調査 n 3つの条件で把持/投擲成功率と成功把持のヒストグラムを確認 Ø 把持学習: グリッパーの幅で把持成功を学習するモデル Ø 投擲学習: 投擲の成功を把持成功として学習するモデル Ø 投擲学習(斜⽅投射利⽤): 投擲の成功を把持成功として学習する かつ、投擲モデルを利⽤せずに斜⽅投射の結果を利⽤するモデル n 右上図は把持学習/投擲学習モデルの学習過程における成功率の変遷 Ø 投擲の学習は投擲精度だけでなく僅かではあるが把持精度も向上している n 右下図は、学習過程で把持が成功した時のグリッパー座標の2Dヒストグラム Ø 把持学習(左)に⽐べ、投擲学習(中)では安定した把持を学習する傾向 Ø 残差を⽤いない場合(右)、投擲学習と⽐べ重⼼による傾向 実験3︓把持、投擲の共同学習の影響調査

Slide 14

Slide 14 text

14 © 2021 ALBERT Inc. 実験設定/結果 実験4︓投擲先の変化に対する汎化性能調査 n シミュレータ、実機で投擲先の箱の位置を学習/テストで変更 n モデル︓実験1からRegressionを除いた3種のモデルで⽐較 Ø Regression-PoP: 事前に斜⽅投射の計算結果を学習させたのちに投擲モデル速度をそのまま予測する Ø Physics-only: 斜⽅投射の計算結果をそのまま利⽤する n 斜⽅投射をモデルが模倣したRegression-PoPに⽐べ、式を利⽤しているモデルは成功率がほぼ変化していない

Slide 15

Slide 15 text

15 © 2021 ALBERT Inc. 実験設定/結果 実験5︓投擲タスクの学習による物体認識性能の調査 n 学習済みモデルの中間層で各物体の特徴量表現を⽐較 Ø 学習済みResidual-physicsの中間出⼒𝜇の表現の類似度をヒートマップ化(右下図(c)) p ピンポン⽟同⼠は類似した表現を獲得 p ⼀⽅で、橙/⾚のブロックは分離した表現を確認 Ø ImageNet(画像分類)で学習したモデル(右下図(d)) p 類似度が低いピンポン⽟が存在 p ブロックの類似度が⾼い傾向を確認

Slide 16

Slide 16 text

16 © 2021 ALBERT Inc. まとめ n より実践的な投擲タスクを実現するモデルの提案 Ø 把持と投擲を同時に扱うモデル n 物体/初期位置などに対して存在した強い制約を⼤きく緩和 Ø 投擲タスクにおいて物体間で共通したタスクとなる斜⽅投射を定式モデルで活⽤ Ø モデル化が難しい空気抵抗/重⼼の位置など物体ごとに多くのバリエーションが存在する要素を強化学習で 暗にモデル化 n 数理モデルと学習モデルを併⽤することで汎⽤性、成功率の⾼い把持/投擲モデルを作成 n 投擲を通じて、物体の特性をネットワーク内に獲得

Slide 17

Slide 17 text

17 © 2021 ALBERT Inc. 参考⽂献 n 論⽂ Ø ZENG, Andy, et al. Tossingbot: Learning to throw arbitrary objects with residual physics. IEEE Transactions on Robotics, 2020, 36.4: 1307-1319. n プロジェクトページ Ø https://tossingbot.cs.princeton.edu/ n 参考記事 Ø [DL輪読会]TossingBot: Learning to Throw Arbitrary Objects with Residual Physics https://www.slideshare.net/DeepLearningJP2016/dltossingbot-learning-to-throw-arbitrary- objects-with-residual-physics

Slide 18

Slide 18 text

No content