Models
Datasets
Spaces
Posts
Docs
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:1909.08593

Papers - Reward Model

Fine-Tuning Language Models from Human Preferences

Paper • 1909.08593 • Published Sep 18, 2019 • 3
Transforming and Combining Rewards for Aligning Large Language Models

Paper • 2402.00742 • Published Feb 1 • 11
Leverage the Average: an Analysis of KL Regularization in RL

Paper • 2003.14089 • Published Mar 31, 2020 • 2
Direct Preference Optimization of Video Large Multimodal Models from Language Model Reward

Paper • 2404.01258 • Published Apr 1 • 10

Papers - Fine-tuning - DPO - Reward Model Training

Fine-Tuning Language Models from Human Preferences

Paper • 1909.08593 • Published Sep 18, 2019 • 3
Leverage the Average: an Analysis of KL Regularization in RL

Paper • 2003.14089 • Published Mar 31, 2020 • 2
Learn Your Reference Model for Real Good Alignment

Paper • 2404.09656 • Published Apr 15 • 82

Papers - OpenAI

The Unreasonable Effectiveness of Deep Features as a Perceptual Metric

Paper • 1801.03924 • Published Jan 11, 2018 • 2
Fine-Tuning Language Models from Human Preferences

Paper • 1909.08593 • Published Sep 18, 2019 • 3
Training Verifiers to Solve Math Word Problems

Paper • 2110.14168 • Published Oct 27, 2021 • 4
Learning Transferable Visual Models From Natural Language Supervision

Paper • 2103.00020 • Published Feb 26, 2021 • 11

Papers - Fine-tuning - DPO

Refer to additional papers: https://link.springer.com/article/10.1007/s10994-014-5458-8 and https://link.springer.com/article/10.1007/BF00992696

Direct Preference Optimization: Your Language Model is Secretly a Reward Model

Paper • 2305.18290 • Published May 29, 2023 • 48
ICDPO: Effectively Borrowing Alignment Capability of Others via In-context Direct Preference Optimization

Paper • 2402.09320 • Published Feb 14 • 6
sDPO: Don't Use Your Data All at Once

Paper • 2403.19270 • Published Mar 28 • 39
Dueling RL: Reinforcement Learning with Trajectory Preferences

Paper • 2111.04850 • Published Nov 8, 2021 • 2

Papers - Training - Reward Model

PERL: Parameter Efficient Reinforcement Learning from Human Feedback

Paper • 2403.10704 • Published Mar 15 • 57
WARM: On the Benefits of Weight Averaged Reward Models

Paper • 2401.12187 • Published Jan 22 • 17
RewardBench: Evaluating Reward Models for Language Modeling

Paper • 2403.13787 • Published Mar 20 • 21
DreamReward: Text-to-3D Generation with Human Preference

Paper • 2403.14613 • Published Mar 21 • 35

Fine-Tuning Language Models from Human Preferences

Paper • 1909.08593 • Published Sep 18, 2019 • 3

Company

© Hugging Face

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs