qgallouedec
/

Qwen2-0.5B-GRPO

Generated from Trainer

Inference Endpoints

Model card Files Files and versions Metrics Training metrics Community

Qwen2-0.5B-GRPO / README.md

Commit History

End of training

9182695
verified

qgallouedec HF staff commited on 5 days ago

trl-lib/tldr

d2fb9f1
verified

qgallouedec HF staff commited on 5 days ago