大規模視覚言語モデルを用いた「似合う」の自動評価法
Aug 1, 2024·
,,,,,,·
0 min read
Yuki Hirakawa
Takashi Wada
Kazuya Morishita
Ryotaro Shimizu
Takuya Furusawa
Sai Htaung Kham
Yuki Saito
Abstract
本研究では,似合う度の評価における,大規模視覚言語モデル(Large-scale Vision Language Models, LVLMs)のゼロショット推論と人間による評価の整合度について検証する.クラウドソーシングを利用して検証用データセットを構築し,人間による評価と主要な大規模視覚言語モデルの評価との間に一定の相関が存在することを確認した.本実験結果は,LVLMsに埋め込まれた世界知識と視覚認識能力の,画像を元にした似合う度の自動評価における有効性を示唆するものである.
Type
Publication
第27回 画像の認識・理解シンポジウム