Rui Zhao's picture

Rui Zhao

ruizhaocv

·

https://ruizhaocv.github.io/

AI & ML interests

Multimodal and GenAI

Recent Activity

upvoted a paper 1 day ago

PhotoDoodle: Learning Artistic Image Editing from Few-Shot Pairwise Data

liked a model 3 days ago

Comfy-Org/HunyuanVideo_repackaged

upvoted a paper 5 days ago

Dynamic Concepts Personalization from Single Videos

View all activity

Organizations

ruizhaocv's activity

upvoted a paper 1 day ago

PhotoDoodle: Learning Artistic Image Editing from Few-Shot Pairwise Data

Paper • 2502.14397 • Published 6 days ago • 33

liked a model 3 days ago

Comfy-Org/HunyuanVideo_repackaged

Updated Dec 17, 2024 • 118

upvoted a paper 5 days ago

Dynamic Concepts Personalization from Single Videos

Paper • 2502.14844 • Published 5 days ago • 13

upvoted 2 papers 6 days ago

AdaptiveStep: Automatically Dividing Reasoning Step through Model Confidence

Paper • 2502.13943 • Published 6 days ago • 7

Qwen2.5-VL Technical Report

Paper • 2502.13923 • Published 6 days ago • 143

upvoted 2 papers 7 days ago

Phantom: Subject-consistent video generation via cross-modal alignment

Paper • 2502.11079 • Published 10 days ago • 50

I Think, Therefore I Diffuse: Enabling Multimodal In-Context Reasoning in Diffusion Models

Paper • 2502.10458 • Published 14 days ago • 27

liked a model 7 days ago

Skywork/SkyReels-A1

Image-to-Video • Updated 1 day ago • 495 • 40

upvoted 2 papers 7 days ago

HermesFlow: Seamlessly Closing the Gap in Multimodal Understanding and Generation

Paper • 2502.12148 • Published 8 days ago • 16

ReLearn: Unlearning via Learning for Large Language Models

Paper • 2502.11190 • Published 9 days ago • 28

upvoted 2 papers 8 days ago

Learning Getting-Up Policies for Real-World Humanoid Robots

Paper • 2502.12152 • Published 8 days ago • 36

Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model

Paper • 2502.10248 • Published 11 days ago • 50

upvoted 4 papers 13 days ago

Light-A-Video: Training-free Video Relighting via Progressive Light Fusion

Paper • 2502.08590 • Published 13 days ago • 38

CineMaster: A 3D-Aware and Controllable Framework for Cinematic Text-to-Video Generation

Paper • 2502.08639 • Published 13 days ago • 36

WorldGUI: Dynamic Testing for Comprehensive Desktop GUI Automation

Paper • 2502.08047 • Published 14 days ago • 25

TextAtlas5M: A Large-scale Dataset for Dense Text Image Generation

Paper • 2502.07870 • Published 14 days ago • 42

upvoted 3 papers 14 days ago

History-Guided Video Diffusion

Paper • 2502.06764 • Published 15 days ago • 10

CustomVideoX: 3D Reference Attention Driven Dynamic Adaptation for Zero-Shot Customized Video Diffusion Transformers

Paper • 2502.06527 • Published 15 days ago • 9

LM2: Large Memory Models

Paper • 2502.06049 • Published 16 days ago • 29

upvoted a paper 16 days ago

Goku: Flow Based Video Generative Foundation Models

Paper • 2502.04896 • Published 18 days ago • 88