niklasm222
/

Qwen-0.5B-GRPO

Generated from Trainer

Inference Endpoints

Model card Files Files and versions Community

Qwen-0.5B-GRPO / adapter_config.json

Commit History

niklasm222/llama-3.2-1b-it-GRPO-gsm8k-prolog

e40347b
verified

niklasm222 commited on 6 days ago