Dongwei
/

DeepSeek-R1-Distill-Qwen-7B-GRPO_Math

Text Generation

Generated from Trainer

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

DeepSeek-R1-Distill-Qwen-7B-GRPO_Math / trainer_state.json

Commit History

Model save

a73762d
verified

Dongwei commited on about 8 hours ago

Model save

6c50d3f
verified

Dongwei commited on about 13 hours ago