ChatGPT 論文で説明されている 3 つのステップ (SFT、RM、PPO) をトレーニングするかどうか

by aguang - opened May 12, 2023

aguang

May 12, 2023

モデルを共有していただきありがとうございます。このモデルは、openai の論文で言及されている SFT モデルだと思います。OpenAIの論文で言及されている RM と PPO トレーニングは行いましたか?

inu-ai

Owner May 13, 2023

モデルカード以外のことはやれていないです。

モデルは公開していただいた方々のデータセットに依存しています。
databricks-dolly-15k
databricks-dolly-15k-ja
oasst1
oasst1-89k-ja

今StabilityAI社が実施しているこちらがRMとPPO トレーニングに当たるのかもしれません。
https://huggingface.co/spaces/leemeng/stablelm-jp-alpha

aguang

May 15, 2023

ご回答ありがとうございます。 PPOを試してみましたが、rewardが非常に不安定です。質問を閉じさせてください。

aguang changed discussion status to closed May 15, 2023

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment