冒昧的问一句,能否开源微调和PPO的实现代码吗?

#1
by xiao111 - opened
  1. 你好, 冒昧的问一句,能否开源微调和PPO的实现代码吗?

计划主模型300❤开源

感谢作者,我想多咨询一下,实现 ppo 是用 chatglm 自己单独训练了奖励模型吗?

不全是,是叠加自己训练的rm模型

不全是,是叠加自己训练的rm模型

那么最后的 ppo,是主要是 trl 库还是其他库实现的呀。

peft

Sign up or log in to comment