Evaluation Agent: Efficient and Promptable Evaluation Framework for Visual Generative Models

Evaluation Agent
Efficient and Promptable Evaluation Framework for Visual Generative Models

(* equal contributions, † corresponding authors)

¹ Shanghai Artificial Intelligence Laboratory ² S-Lab, Nanyang Technological University

Abstract

Recent advancements in visual generative models have enabled high-quality image and video generation, opening diverse applications. However, evaluating these models often demands sampling hundreds or thousands of images or videos, making the process computationally expensive, especially for diffusion-based models with inherently slow sampling. Moreover, existing evaluation methods rely on rigid pipelines that overlook specific user needs and provide numerical results without clear explanations. In contrast, humans can quickly form impressions of a model's capabilities by observing only a few samples. To mimic this, we propose the Evaluation Agent framework, which employs human-like strategies for efficient, dynamic, multi-round evaluations using only a few samples per round, while offering detailed, user-tailored analyses. It offers four key advantages: 1) efficiency, 2) promptable evaluation tailored to diverse user needs, 3) explainability beyond single numerical scores, and 4) scalability across various models and tools. Experiments show that Evaluation Agent reduces evaluation time to 10% of traditional methods while delivering comparable results. The Evaluation Agent framework is fully open-sourced to advance research in visual generative models and their efficient evaluation.

Benchmark	Analysis	Customized Queries	Supported Models	# Required Samples	Open Evaluation Request Support	Dynamic Evaluation	Open Tool-Use
FID / FVD	❌	❌	T2I / T2V	2,048	❌ (Fixed-Form)	❌	❌
T2I-CompBench	❌	❌	T2I	18,000	❌ (Pre-Defined)	❌	❌
VBench	❌	❌	T2V	4,730	❌ (Pre-Defined)	❌	❌
Evaluation Agent (Ours)	✔	✔	T2I & T2V	400	✔ (Open-Ended)	✔	✔

Benchmark

Analysis

Customized Queries

Supported Models

# Required Samples

Open Evaluation Request Support

Dynamic Evaluation

Open Tool-Use

FID / FVD

❌

T2I / T2V

2,048

❌ (Fixed-Form)

❌

T2I-CompBench

❌

T2I

18,000

❌ (Pre-Defined)

❌

VBench

❌

T2V

4,730

❌ (Pre-Defined)

❌

Evaluation Agent (Ours)

✔

T2I & T2V

400

✔ (Open-Ended)

✔

Models	VBench (Total Cost) ↓	VBench (Avg. Cost per Dimension) ↓	Evaluation Agent (Ours) ↓
Latte-1	2557 min, 4355 samples	170 min, 290 samples	15 min, 25 samples
ModelScope	1160 min, 4355 samples	77 min, 290 samples	6 min, 23 samples
VideoCrafter-0.9	1459 min, 4355 samples	97 min, 290 samples	8 min, 24 samples
VideoCrafter-2	4261 min, 4355 samples	284 min, 290 samples	23 min, 23 samples

Models

VBench (Total Cost) ↓

VBench (Avg. Cost per Dimension) ↓

Evaluation Agent (Ours) ↓

Latte-1

2557 min, 4355 samples

170 min, 290 samples

15 min, 25 samples

ModelScope

1160 min, 4355 samples

77 min, 290 samples

6 min, 23 samples

VideoCrafter-0.9

1459 min, 4355 samples

97 min, 290 samples

8 min, 24 samples

VideoCrafter-2

4261 min, 4355 samples

284 min, 290 samples

23 min, 23 samples

Models	T2I-Comp (Total Cost) ↓	T2I-Comp (Avg. Cost per Dimension) ↓	Evaluation Agent (Ours) ↓
SD-1.4	563 min, 12000 samples	141 min, 3000 samples	5 min, 26 samples
SD-2.1	782 min, 12000 samples	195 min, 3000 samples	5 min, 26 samples
SDXL	1543 min, 12000 samples	386 min, 3000 samples	8 min, 26 samples
SD-3.0	1410 min, 12000 samples	352 min, 3000 samples	7 min, 25 samples

Models

T2I-Comp (Total Cost) ↓

T2I-Comp (Avg. Cost per Dimension) ↓

Evaluation Agent (Ours) ↓

SD-1.4

563 min, 12000 samples

141 min, 3000 samples

5 min, 26 samples

SD-2.1

782 min, 12000 samples

195 min, 3000 samples

5 min, 26 samples

SDXL

1543 min, 12000 samples

386 min, 3000 samples

8 min, 26 samples

SD-3.0

1410 min, 12000 samples

352 min, 3000 samples

7 min, 25 samples

BibTeX

If you find our work useful, please consider citing our paper:

@article{zhang2024evaluationagent, title = {Evaluation Agent: Efficient and Promptable Evaluation Framework for Visual Generative Models}, author = {Zhang, Fan and Tian, Shulin and Huang, Ziqi and Qiao, Yu and Liu, Ziwei}, journal={arXiv preprint arXiv:2412.09645}, year = {2024} }

Evaluation Agent
Efficient and Promptable Evaluation Framework for Visual Generative Models

Video

Abstract

Pipeline of Evaluation Agent Framework

Comparing with Other T2I/T2V Benchmarks

Experimental Results of the Evaluation Agent

Compare Time Consumption on the VBench

Compare Time Consumption on the T2I-CompBench

Performance across VBench Dimensions with Different Base Models

Statistics of the Open-Ended User Query Dataset

Evaluation Cases for Open-Ended User Queries

(Display of Comprehensive Evaluation Results for Open-Ended User Queries)

BibTeX

Evaluation Agent Efficient and Promptable Evaluation Framework for Visual Generative Models

Video

Abstract

Pipeline of Evaluation Agent Framework

Comparing with Other T2I/T2V Benchmarks

Experimental Results of the Evaluation Agent

Compare Time Consumption on the VBench

Compare Time Consumption on the T2I-CompBench

Performance across VBench Dimensions with Different Base Models

Statistics of the Open-Ended User Query Dataset

Evaluation Cases for Open-Ended User Queries

(Display of Comprehensive Evaluation Results for Open-Ended User Queries)

BibTeX

Evaluation Agent
Efficient and Promptable Evaluation Framework for Visual Generative Models