Models
Datasets
Spaces
Posts
Docs
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2407.10759

Papers I want to read

Papers in my to-read list

RLHF Workflow: From Reward Modeling to Online RLHF

Paper • 2405.07863 • Published May 13 • 67
Chameleon: Mixed-Modal Early-Fusion Foundation Models

Paper • 2405.09818 • Published May 16 • 126
Meteor: Mamba-based Traversal of Rationale for Large Language and Vision Models

Paper • 2405.15574 • Published May 24 • 53
An Introduction to Vision-Language Modeling

Paper • 2405.17247 • Published May 27 • 85

audio-language-model-architecture

Qwen2-Audio Technical Report

Paper • 2407.10759 • Published Jul 15 • 55
Audio Mamba: Bidirectional State Space Model for Audio Representation Learning

Paper • 2406.03344 • Published Jun 5 • 18

Audio-language model series based on Qwen2

Running

138

🌍

Qwen2 Audio Instruct Demo
Qwen2-Audio Technical Report

Paper • 2407.10759 • Published Jul 15 • 55
Qwen/Qwen2-Audio-7B

Text2Text Generation • Updated Aug 9 • 9.95k • 65
Qwen/Qwen2-Audio-7B-Instruct

Text2Text Generation • Updated Aug 9 • 26.9k • 221

Qwen2-Audio Technical Report

Paper • 2407.10759 • Published Jul 15 • 55

Stable Audio Open

Paper • 2407.14358 • Published Jul 19 • 23
Qwen2-Audio Technical Report

Paper • 2407.10759 • Published Jul 15 • 55
kyutai/moshiko-pytorch-bf16

Updated Sep 18 • 41.2k • 148
Presto! Distilling Steps and Layers for Accelerating Music Generation

Paper • 2410.05167 • Published Oct 7 • 15

Qwen2 Technical Report

Paper • 2407.10671 • Published Jul 15 • 155
Qwen2-Audio Technical Report

Paper • 2407.10759 • Published Jul 15 • 55
Running on CPU Upgrade

11.7k

🏆

Open LLM Leaderboard 2

Track, rank and evaluate open LLMs and chatbots

Qwen2-Audio Technical Report

Paper • 2407.10759 • Published Jul 15 • 55
Qwen2 Technical Report

Paper • 2407.10671 • Published Jul 15 • 155
Gemma 2: Improving Open Language Models at a Practical Size

Paper • 2408.00118 • Published Jul 31 • 73
EXAONE 3.0 7.8B Instruction Tuned Language Model

Paper • 2408.03541 • Published Aug 7 • 34

Autoregressive Speech Synthesis without Vector Quantization

Paper • 2407.08551 • Published Jul 11 • 14
Qwen2-Audio Technical Report

Paper • 2407.10759 • Published Jul 15 • 55

SoundCTM: Uniting Score-based and Consistency Models for Text-to-Sound Generation

Paper • 2405.18503 • Published May 28 • 9
DITTO-2: Distilled Diffusion Inference-Time T-Optimization for Music Generation

Paper • 2405.20289 • Published May 30 • 10
LiveSpeech: Low-Latency Zero-shot Text-to-Speech via Autoregressive Modeling of Audio Discrete Codes

Paper • 2406.02897 • Published Jun 5 • 13
Audio Mamba: Bidirectional State Space Model for Audio Representation Learning

Paper • 2406.03344 • Published Jun 5 • 18

MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training

Paper • 2311.17049 • Published Nov 28, 2023
DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

Paper • 2405.04434 • Published May 7 • 13
A Study of Autoregressive Decoders for Multi-Tasking in Computer Vision

Paper • 2303.17376 • Published Mar 30, 2023
Sigmoid Loss for Language Image Pre-Training

Paper • 2303.15343 • Published Mar 27, 2023 • 4

Previous
1
2
Next

Company

© Hugging Face

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs