Slide 34
Slide 34 text
アプローチ①:Geminiへの置き換え
Gemini 1.5 Proへの期待
・マルチモーダル理解能力が高い
・BoundingBox(セリフの位置座標)が出力できる
34
そ
う
な
の
?
"text":"そうなの?",
"coords": [
{ "x": 100, "y": 200 },
{ "x": 300, "y": 200 },
{ "x": 300, "y": 250 },
{ "x": 100, "y": 250 }
]
出力例:
× 位置座標が不正確 × オノマトペ(※)が検出できない
(※)擬音語や擬態語
結果 →素のGeminiでは難しい