RLHF-And-Friends

community

AI & ML interests

None defined yet.

Collections 2

models 9

RLHF-And-Friends/Llama-3.2-3B-Instruct-DPO-Math

Text Generation • Updated 8 days ago • 279

RLHF-And-Friends/Llama-3.2-3B-Instruct-BnB-4bit-DPO-Math-SF

Text Generation • Updated 8 days ago • 5

RLHF-And-Friends/Llama-3.2-3B-Instruct

Text Generation • Updated 8 days ago • 394

RLHF-And-Friends/Llama-3.2-3B-Instruct-BnB-4bit-DPO-Math

Updated 8 days ago • 49

RLHF-And-Friends/Llama-3.2-3B-Instruct-BnB-4bit

Updated 8 days ago • 43

RLHF-And-Friends/Llama3.1-8B

Updated 15 days ago • 28

RLHF-And-Friends/Llama3.1-8B-DPO-0.05

Updated 15 days ago • 47

RLHF-And-Friends/Zephyr-7B-DPO-0.05

Updated 16 days ago • 48

RLHF-And-Friends/Zephyr-SFT-7B

Updated 17 days ago • 44

datasets

None public yet