RLHF-And-Friends
/

Llama-3.2-1B-Instruct-Reward-ultrafeedback_binarized-max_length-1024-LoRA-8r

Generated from Trainer

Inference Endpoints

Model card Files Files and versions Community

Llama-3.2-1B-Instruct-Reward-ultrafeedback_binarized-max_length-1024-LoRA-8r

Commit History

End of training

10ddd0a
verified

evgurov commited on 17 days ago

End of training

7d3d51e
verified

evgurov commited on 18 days ago

End of training

725703f
verified

evgurov commited on 19 days ago

End of training

c6a586b
verified

evgurov commited on 19 days ago

Training in progress, step 12

8433cee
verified

evgurov commited on 19 days ago

initial commit

2870cba
verified

evgurov commited on 19 days ago