Vision Language General - a ZhangYuanhan Collection

ZhangYuanhan 's Collections

Vision Language General

Vision Language General

updated Jan 13

Vision Language General

MEGA-Bench: Scaling Multimodal Evaluation to over 500 Real-World Tasks

Paper • 2410.10563 • Published Oct 14, 2024 • 39
Latent Action Pretraining from Videos

Paper • 2410.11758 • Published Oct 15, 2024 • 2
TVBench: Redesigning Video-Language Evaluation

Paper • 2410.07752 • Published Oct 10, 2024 • 6
Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation

Paper • 2501.03225 • Published Jan 6 • 7
Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains

Paper • 2501.05707 • Published Jan 10 • 20