RLHFlow

university

RLHFlow

RLHFlow

AI & ML interests

Workflow of Reinforcement Learning from Human Feedback (RLHF). Blog: https://rlhflow.github.io/

Recent Activity

weqweasdas updated a dataset 7 days ago

RLHFlow/self_rewarding_turn2_example

weqweasdas published a dataset 7 days ago

RLHFlow/self_rewarding_turn2_example

weqweasdas updated a dataset 7 days ago

RLHFlow/self_rewarding_turn1_with_rewards_example

View all activity

Collections 10

models 27

RLHFlow/Qwen2.5-7B-SFT

Updated 21 days ago • 16

RLHFlow/Qwen2.5-7B-RAFT-Zero

Updated 21 days ago • 43

RLHFlow/Qwen2.5-7B-DPO-NLL-Zero

Updated 21 days ago • 31

RLHFlow/Qwen2.5-7B-DPO-Zero

Updated 21 days ago • 47

RLHFlow/Qwen2.5-7B-DPO

Updated 21 days ago • 29

RLHFlow/Qwen2.5-7B-PPO-Zero

Updated 21 days ago • 130 • 2

RLHFlow/Decision-Tree-Reward-Gemma-2-27B

Text Classification • Updated Jan 24 • 92 • 4

RLHFlow/Decision-Tree-Reward-Llama-3.1-8B

Text Classification • Updated Jan 24 • 288 • 5

RLHFlow/Llama3.1-8B-PRM-Mistral-Data

Text Generation • Updated Nov 9, 2024 • 396 • 8

RLHFlow/Llama3.1-8B-PRM-Deepseek-Data

Text Generation • Updated Nov 9, 2024 • 16.6k • 32

datasets 83

RLHFlow/self_rewarding_turn2_example

Updated 7 days ago • 17

RLHFlow/self_rewarding_turn1_with_rewards_example

Updated 7 days ago • 21

RLHFlow/self_rewarding_rl_prompt

Updated 7 days ago • 13

RLHFlow/self_rewarding_sft_prompt

Viewer • Updated 7 days ago • 40k • 26

RLHFlow/self_rewarding_ift_example_raw_data1

Viewer • Updated 12 days ago • 16.3k • 32

RLHFlow/self_rewarding_ift_example

Viewer • Updated 12 days ago • 32k • 59

RLHFlow/qwq_gen_sft_15k

Viewer • Updated 21 days ago • 15k • 70

RLHFlow/numia_prompt_ppo

Viewer • Updated 24 days ago • 404k • 204 • 1

RLHFlow/numia_prompt_dpo_test

Viewer • Updated 27 days ago • 1.02k • 68

RLHFlow/numia_prompt_dpo9

Viewer • Updated 27 days ago • 20k • 60