计划主模型300❤开源
感谢作者,我想多咨询一下,实现 ppo 是用 chatglm 自己单独训练了奖励模型吗?
不全是,是叠加自己训练的rm模型
那么最后的 ppo,是主要是 trl 库还是其他库实现的呀。
peft
· Sign up or log in to comment