Slide 7
Slide 7 text
P.6
プログラム ⽣成・実⾏ による 構成的推論
Gupta+'23 - Visual Programming: Compositional Visual Reasoning Without Training (CVPR)
③ の⽂字列を解析
{
”kwargs”: { ”boxes”: ”物体1
” },
”function”: ”count”,
”output”: ”個数1
”
}
物体1
= localize ( img=画像in
, query=“ヒト” )
物体2
= localize ( img=画像in
, query=“ラクダ” )
個数1
= count ( boxes=物体1
)
①
②
③
GPT-3 が⽣成したプログラムを逐次実⾏ 実⾏結果を保存
”物体1
”: ,
”物体2
”: ,
program.state
key = kwargs[“boxes”]
boxes = program.state[key]
program.state[output] = len(boxes)
③ を実⾏
③ の結果を保存