画像認識や画像生成の能力を持つQwen VLモデルの実力について、日本語のベンチマークにより計測されたリーダーボードで確認した。
ありがたいことに、第三者機関により、中立にVLMのベンチマーク評価がされてます。 VLMのリーダーボードは、LLMのリーダーボードと比較すると、まだ少ないです。私は、個人的に日本語能力の高いモデルに興味があるので、日本語能力を測るベンチマークで計測したHeron VLM Leaderboardについて、具体的に紹介。Heron VLMリーダーボードは、VLモデルの評価を、2つのデータセットにより行なっている。Turing社のJapanese Heron BenchとLlava Benchの2つ。それぞれのベンチマークについて解説した上で、Qwen VLの評価結果について解説を行なった。結論として、Qwen VLモデルはOSSのVLモデルの中で、ダントツでトップの性能。
今回は、MeltingHackさんとAliEaterさんのコラボイベントのため、英語と日本語で発表。スライドは英語で作成。