大規模視覚言語モデルを用いた「似合う」の自動評価法

Aug 1, 2024·

Yuki Hirakawa

Takashi Wada

Kazuya Morishita

Ryotaro Shimizu

Takuya Furusawa

Sai Htaung Kham

Yuki Saito

· 0 min read

Abstract

本研究では，似合う度の評価における，大規模視覚言語モデル（Large-scale Vision Language Models, LVLMs）のゼロショット推論と人間による評価の整合度について検証する．クラウドソーシングを利用して検証用データセットを構築し，人間による評価と主要な大規模視覚言語モデルの評価との間に一定の相関が存在することを確認した．本実験結果は，LVLMsに埋め込まれた世界知識と視覚認識能力の，画像を元にした似合う度の自動評価における有効性を示唆するものである．

Type

Domestic Conference (Non-Refereed)

Publication

第27回画像の認識・理解シンポジウム

Last updated on Aug 1, 2024

Multi-Modal Llm Fashion

Authors

Yuki Hirakawa

Research Scientist

← From Snap to Score: A Comprehensive Resource for Predicting Fashion Preferences Using Competitive-Based Ranking Aug 1, 2024

On permutation-invariant neural networks Mar 26, 2024 →