seruva19's picture

seruva19

seruva19

·

seruva19

AI & ML interests

None yet

Organizations

None yet

seruva19's activity

upvoted 3 papers about 2 months ago

CogVLM2: Visual Language Models for Image and Video Understanding

Paper • 2408.16500 • Published Aug 29 • 56

WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling

Paper • 2408.16532 • Published Aug 29 • 46

Seed-Music: A Unified Framework for High Quality and Controlled Music Generation

Paper • 2409.09214 • Published Sep 13 • 46

upvoted a paper 3 months ago

Transformer Explainer: Interactive Learning of Text-Generative Models

Paper • 2408.04619 • Published Aug 8 • 154

upvoted 3 papers 4 months ago

Audio Conditioning for Music Generation via Discrete Bottleneck Features

Paper • 2407.12563 • Published Jul 17 • 5

PicoAudio: Enabling Precise Timestamp and Frequency Controllability of Audio Events in Text-to-audio Generation

Paper • 2407.02869 • Published Jul 3 • 18

Audio Mamba: Bidirectional State Space Model for Audio Representation Learning

Paper • 2406.03344 • Published Jun 5 • 18

upvoted 3 papers 5 months ago

Instruct-MusicGen: Unlocking Text-to-Music Editing for Music Language Models via Instruction Tuning

Paper • 2405.18386 • Published May 28 • 20

SoundCTM: Uniting Score-based and Consistency Models for Text-to-Sound Generation

Paper • 2405.18503 • Published May 28 • 9

DITTO-2: Distilled Diffusion Inference-Time T-Optimization for Music Generation

Paper • 2405.20289 • Published May 30 • 10

upvoted 6 papers 6 months ago

Your Transformer is Secretly Linear

Paper • 2405.12250 • Published May 19 • 150

Naturalistic Music Decoding from EEG Data via Latent Diffusion Models

Paper • 2405.09062 • Published May 15 • 9

Fast Timing-Conditioned Latent Audio Diffusion

Paper • 2402.04825 • Published Feb 7 • 7

Long-form music generation with latent diffusion

Paper • 2404.10301 • Published Apr 16 • 24

Music Consistency Models

Paper • 2404.13358 • Published Apr 20 • 12

Octopus v4: Graph of language models

Paper • 2404.19296 • Published Apr 30 • 117

upvoted 3 papers 7 months ago

Tango 2: Aligning Diffusion-based Text-to-Audio Generations through Direct Preference Optimization

Paper • 2404.09956 • Published Apr 15 • 11

MuPT: A Generative Symbolic Music Pretrained Transformer

Paper • 2404.06393 • Published Apr 9 • 14

OmniFusion Technical Report

Paper • 2404.06212 • Published Apr 9 • 74

upvoted a paper 8 months ago

MusicHiFi: Fast High-Fidelity Stereo Vocoding

Paper • 2403.10493 • Published Mar 15 • 16