File size: 3,703 Bytes

6c50d3f
 
 
 
 
 
 
 
 
 
 
a73762d
6c50d3f
a73762d
 
6c50d3f
a73762d
 
 
 
6c50d3f
 
 
 
a73762d
6c50d3f
a73762d
 
6c50d3f
 
a73762d
 
 
6c50d3f
 
 
 
a73762d
6c50d3f
a73762d
 
6c50d3f
a73762d
 
 
 
6c50d3f
 
 
 
a73762d
6c50d3f
a73762d
 
6c50d3f
 
a73762d
 
 
6c50d3f
 
 
 
a73762d
6c50d3f
a73762d
 
6c50d3f
a73762d
 
 
 
6c50d3f
 
 
 
a73762d
6c50d3f
a73762d
 
6c50d3f
a73762d
 
 
 
6c50d3f
 
 
 
a73762d
6c50d3f
a73762d
 
 
 
6c50d3f
 
 
a73762d
 
 
6c50d3f

{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 100,
  "global_step": 67,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "completion_length": 708.9171075820923,
      "epoch": 0.14925373134328357,
      "grad_norm": 0.06562932580709457,
      "kl": 0.005872213840484619,
      "learning_rate": 1.9876883405951378e-05,
      "loss": 0.0002,
      "reward": 0.603348241513595,
      "reward_std": 0.16946082445792854,
      "rewards/accuracy_reward": 0.603348241513595,
      "rewards/format_reward": 0.0,
      "step": 10
    },
    {
      "completion_length": 682.0505897521973,
      "epoch": 0.29850746268656714,
      "grad_norm": 0.05642814189195633,
      "kl": 0.024619293212890626,
      "learning_rate": 1.777145961456971e-05,
      "loss": 0.001,
      "reward": 0.7039062824100256,
      "reward_std": 0.162486822437495,
      "rewards/accuracy_reward": 0.7039062824100256,
      "rewards/format_reward": 0.0,
      "step": 20
    },
    {
      "completion_length": 680.5775978088379,
      "epoch": 0.44776119402985076,
      "grad_norm": 0.07271964848041534,
      "kl": 0.029143524169921876,
      "learning_rate": 1.3583679495453e-05,
      "loss": 0.0012,
      "reward": 0.6966518176719546,
      "reward_std": 0.15723272264003754,
      "rewards/accuracy_reward": 0.6966518176719546,
      "rewards/format_reward": 0.0,
      "step": 30
    },
    {
      "completion_length": 678.4286026000976,
      "epoch": 0.5970149253731343,
      "grad_norm": 0.06629566103219986,
      "kl": 0.029315948486328125,
      "learning_rate": 8.43565534959769e-06,
      "loss": 0.0012,
      "reward": 0.6925223540514708,
      "reward_std": 0.1698813715018332,
      "rewards/accuracy_reward": 0.6925223540514708,
      "rewards/format_reward": 0.0,
      "step": 40
    },
    {
      "completion_length": 678.2587354660034,
      "epoch": 0.746268656716418,
      "grad_norm": 0.07359491288661957,
      "kl": 0.03377456665039062,
      "learning_rate": 3.7067960895016277e-06,
      "loss": 0.0014,
      "reward": 0.6977678883820773,
      "reward_std": 0.1756029822397977,
      "rewards/accuracy_reward": 0.6977678883820773,
      "rewards/format_reward": 0.0,
      "step": 50
    },
    {
      "completion_length": 676.1143146514893,
      "epoch": 0.8955223880597015,
      "grad_norm": 0.07282646745443344,
      "kl": 0.03675537109375,
      "learning_rate": 6.641957350279838e-07,
      "loss": 0.0015,
      "reward": 0.6957589590921998,
      "reward_std": 0.167550537455827,
      "rewards/accuracy_reward": 0.6957589590921998,
      "rewards/format_reward": 0.0,
      "step": 60
    },
    {
      "completion_length": 673.9289711543491,
      "epoch": 1.0,
      "kl": 0.03508213588169643,
      "reward": 0.7025404186653239,
      "reward_std": 0.1512090131374342,
      "rewards/accuracy_reward": 0.7025404186653239,
      "rewards/format_reward": 0.0,
      "step": 67,
      "total_flos": 0.0,
      "train_loss": 0.001102253468012187,
      "train_runtime": 12358.4402,
      "train_samples_per_second": 0.607,
      "train_steps_per_second": 0.005
    }
  ],
  "logging_steps": 10,
  "max_steps": 67,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": false,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}