Visual Reasoning Without Training (CVPR) ③ の⽂字列を解析 { ”kwargs”: { ”boxes”: ”物体1 ” }, ”function”: ”count”, ”output”: ”個数1 ” } 物体1 = localize ( img=画像in , query=“ヒト” ) 物体2 = localize ( img=画像in , query=“ラクダ” ) 個数1 = count ( boxes=物体1 ) ① ② ③ GPT-3 が⽣成したプログラムを逐次実⾏ 実⾏結果を保存 ”物体1 ”: , ”物体2 ”: , program.state key = kwargs[“boxes”] boxes = program.state[key] program.state[output] = len(boxes) ③ を実⾏ ③ の結果を保存