{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.02566982191561046,
  "eval_steps": 500,
  "global_step": 400,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "completion_length": 89.1796875,
      "epoch": 6.417455478902615e-05,
      "grad_norm": 6.457693642993236,
      "kl": 0.0,
      "learning_rate": 9.99967911692979e-07,
      "loss": 0.0,
      "reward": 2.8125,
      "reward_std": 0.5811586081981659,
      "rewards/accuracy_reward": 0.65625,
      "rewards/format_count_numbers": 1.2265625,
      "rewards/format_reward": 0.9296875,
      "step": 1
    },
    {
      "completion_length": 100.859375,
      "epoch": 0.0001283491095780523,
      "grad_norm": 3.7199479867427576,
      "kl": 0.0006103515625,
      "learning_rate": 9.999358233859582e-07,
      "loss": 0.0,
      "reward": 2.95703125,
      "reward_std": 0.9970237612724304,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_count_numbers": 1.53515625,
      "rewards/format_reward": 0.921875,
      "step": 2
    },
    {
      "completion_length": 99.9609375,
      "epoch": 0.00019252366436707844,
      "grad_norm": 4.667048062421479,
      "kl": 0.000865936279296875,
      "learning_rate": 9.999037350789372e-07,
      "loss": 0.0,
      "reward": 2.75,
      "reward_std": 0.6299314796924591,
      "rewards/accuracy_reward": 0.3984375,
      "rewards/format_count_numbers": 1.40625,
      "rewards/format_reward": 0.9453125,
      "step": 3
    },
    {
      "completion_length": 105.375,
      "epoch": 0.0002566982191561046,
      "grad_norm": 6.61841287599563,
      "kl": 0.000850677490234375,
      "learning_rate": 9.998716467719162e-07,
      "loss": 0.0,
      "reward": 2.6484375,
      "reward_std": 0.6614057421684265,
      "rewards/accuracy_reward": 0.4453125,
      "rewards/format_count_numbers": 1.2890625,
      "rewards/format_reward": 0.9140625,
      "step": 4
    },
    {
      "completion_length": 98.4921875,
      "epoch": 0.00032087277394513073,
      "grad_norm": 10.226707577648735,
      "kl": 0.001094818115234375,
      "learning_rate": 9.998395584648954e-07,
      "loss": 0.0,
      "reward": 2.7734375,
      "reward_std": 0.684965580701828,
      "rewards/accuracy_reward": 0.53125,
      "rewards/format_count_numbers": 1.3125,
      "rewards/format_reward": 0.9296875,
      "step": 5
    },
    {
      "completion_length": 105.0078125,
      "epoch": 0.0003850473287341569,
      "grad_norm": 16.540801471606787,
      "kl": 0.00214385986328125,
      "learning_rate": 9.998074701578744e-07,
      "loss": 0.0001,
      "reward": 2.38671875,
      "reward_std": 0.6537165194749832,
      "rewards/accuracy_reward": 0.4140625,
      "rewards/format_count_numbers": 1.08984375,
      "rewards/format_reward": 0.8828125,
      "step": 6
    },
    {
      "completion_length": 96.6484375,
      "epoch": 0.0004492218835231831,
      "grad_norm": 4.007831804571436,
      "kl": 0.003238677978515625,
      "learning_rate": 9.997753818508536e-07,
      "loss": 0.0001,
      "reward": 2.85546875,
      "reward_std": 0.5957659184932709,
      "rewards/accuracy_reward": 0.6640625,
      "rewards/format_count_numbers": 1.23828125,
      "rewards/format_reward": 0.953125,
      "step": 7
    },
    {
      "completion_length": 94.6328125,
      "epoch": 0.0005133964383122092,
      "grad_norm": 3.3765246174936343,
      "kl": 0.00238037109375,
      "learning_rate": 9.997432935438326e-07,
      "loss": 0.0001,
      "reward": 3.05078125,
      "reward_std": 0.5704643428325653,
      "rewards/accuracy_reward": 0.515625,
      "rewards/format_count_numbers": 1.58203125,
      "rewards/format_reward": 0.953125,
      "step": 8
    },
    {
      "completion_length": 95.71875,
      "epoch": 0.0005775709931012354,
      "grad_norm": 3.445754640313553,
      "kl": 0.0037994384765625,
      "learning_rate": 9.997112052368116e-07,
      "loss": 0.0002,
      "reward": 2.921875,
      "reward_std": 0.7348538041114807,
      "rewards/accuracy_reward": 0.53125,
      "rewards/format_count_numbers": 1.4453125,
      "rewards/format_reward": 0.9453125,
      "step": 9
    },
    {
      "completion_length": 81.859375,
      "epoch": 0.0006417455478902615,
      "grad_norm": 13.788009049584414,
      "kl": 0.00360870361328125,
      "learning_rate": 9.996791169297908e-07,
      "loss": 0.0001,
      "reward": 2.41015625,
      "reward_std": 0.3873346596956253,
      "rewards/accuracy_reward": 0.46875,
      "rewards/format_count_numbers": 0.97265625,
      "rewards/format_reward": 0.96875,
      "step": 10
    },
    {
      "completion_length": 95.3515625,
      "epoch": 0.0007059201026792877,
      "grad_norm": 3.802264533705271,
      "kl": 0.007354736328125,
      "learning_rate": 9.996470286227698e-07,
      "loss": 0.0003,
      "reward": 3.0703125,
      "reward_std": 0.5251666307449341,
      "rewards/accuracy_reward": 0.5234375,
      "rewards/format_count_numbers": 1.5546875,
      "rewards/format_reward": 0.9921875,
      "step": 11
    },
    {
      "completion_length": 91.515625,
      "epoch": 0.0007700946574683138,
      "grad_norm": 7.025555072435911,
      "kl": 0.0046234130859375,
      "learning_rate": 9.996149403157488e-07,
      "loss": 0.0002,
      "reward": 3.0,
      "reward_std": 0.433403342962265,
      "rewards/accuracy_reward": 0.4765625,
      "rewards/format_count_numbers": 1.5390625,
      "rewards/format_reward": 0.984375,
      "step": 12
    },
    {
      "completion_length": 82.625,
      "epoch": 0.00083426921225734,
      "grad_norm": 8.089653038056108,
      "kl": 0.0070648193359375,
      "learning_rate": 9.99582852008728e-07,
      "loss": 0.0003,
      "reward": 3.3828125,
      "reward_std": 0.47115227580070496,
      "rewards/accuracy_reward": 0.6796875,
      "rewards/format_count_numbers": 1.7109375,
      "rewards/format_reward": 0.9921875,
      "step": 13
    },
    {
      "completion_length": 82.984375,
      "epoch": 0.0008984437670463662,
      "grad_norm": 2.6921754114824137,
      "kl": 0.00640869140625,
      "learning_rate": 9.99550763701707e-07,
      "loss": 0.0003,
      "reward": 3.25390625,
      "reward_std": 0.37268710136413574,
      "rewards/accuracy_reward": 0.734375,
      "rewards/format_count_numbers": 1.53515625,
      "rewards/format_reward": 0.984375,
      "step": 14
    },
    {
      "completion_length": 86.34375,
      "epoch": 0.0009626183218353923,
      "grad_norm": 5.3694361415616685,
      "kl": 0.014495849609375,
      "learning_rate": 9.995186753946862e-07,
      "loss": 0.0006,
      "reward": 2.9453125,
      "reward_std": 0.3975609838962555,
      "rewards/accuracy_reward": 0.71875,
      "rewards/format_count_numbers": 1.234375,
      "rewards/format_reward": 0.9921875,
      "step": 15
    },
    {
      "completion_length": 73.1171875,
      "epoch": 0.0010267928766244184,
      "grad_norm": 3.920415856048503,
      "kl": 0.011138916015625,
      "learning_rate": 9.994865870876652e-07,
      "loss": 0.0004,
      "reward": 3.05859375,
      "reward_std": 0.3202301412820816,
      "rewards/accuracy_reward": 0.640625,
      "rewards/format_count_numbers": 1.42578125,
      "rewards/format_reward": 0.9921875,
      "step": 16
    },
    {
      "completion_length": 77.875,
      "epoch": 0.0010909674314134447,
      "grad_norm": 4.105012934454526,
      "kl": 0.007293701171875,
      "learning_rate": 9.994544987806442e-07,
      "loss": 0.0003,
      "reward": 2.80859375,
      "reward_std": 0.36826513707637787,
      "rewards/accuracy_reward": 0.5390625,
      "rewards/format_count_numbers": 1.26953125,
      "rewards/format_reward": 1.0,
      "step": 17
    },
    {
      "completion_length": 74.1640625,
      "epoch": 0.0011551419862024708,
      "grad_norm": 3.025079315189922,
      "kl": 0.009002685546875,
      "learning_rate": 9.994224104736234e-07,
      "loss": 0.0004,
      "reward": 2.72265625,
      "reward_std": 0.3272075057029724,
      "rewards/accuracy_reward": 0.5625,
      "rewards/format_count_numbers": 1.16015625,
      "rewards/format_reward": 1.0,
      "step": 18
    },
    {
      "completion_length": 75.703125,
      "epoch": 0.0012193165409914968,
      "grad_norm": 2.702032953911433,
      "kl": 0.0196685791015625,
      "learning_rate": 9.993903221666024e-07,
      "loss": 0.0008,
      "reward": 2.99609375,
      "reward_std": 0.35988467931747437,
      "rewards/accuracy_reward": 0.6171875,
      "rewards/format_count_numbers": 1.39453125,
      "rewards/format_reward": 0.984375,
      "step": 19
    },
    {
      "completion_length": 72.75,
      "epoch": 0.001283491095780523,
      "grad_norm": 6.672377706898142,
      "kl": 0.00946044921875,
      "learning_rate": 9.993582338595814e-07,
      "loss": 0.0004,
      "reward": 2.78515625,
      "reward_std": 0.3711431473493576,
      "rewards/accuracy_reward": 0.6484375,
      "rewards/format_count_numbers": 1.14453125,
      "rewards/format_reward": 0.9921875,
      "step": 20
    },
    {
      "completion_length": 72.234375,
      "epoch": 0.0013476656505695492,
      "grad_norm": 3.21648017083967,
      "kl": 0.01513671875,
      "learning_rate": 9.993261455525607e-07,
      "loss": 0.0006,
      "reward": 3.3046875,
      "reward_std": 0.3110102415084839,
      "rewards/accuracy_reward": 0.6796875,
      "rewards/format_count_numbers": 1.6484375,
      "rewards/format_reward": 0.9765625,
      "step": 21
    },
    {
      "completion_length": 81.3203125,
      "epoch": 0.0014118402053585753,
      "grad_norm": 5.2036438638538405,
      "kl": 0.020416259765625,
      "learning_rate": 9.992940572455397e-07,
      "loss": 0.0008,
      "reward": 2.83203125,
      "reward_std": 0.3504672795534134,
      "rewards/accuracy_reward": 0.5390625,
      "rewards/format_count_numbers": 1.30078125,
      "rewards/format_reward": 0.9921875,
      "step": 22
    },
    {
      "completion_length": 77.3515625,
      "epoch": 0.0014760147601476014,
      "grad_norm": 4.546185134633502,
      "kl": 0.013824462890625,
      "learning_rate": 9.992619689385189e-07,
      "loss": 0.0006,
      "reward": 3.34375,
      "reward_std": 0.3390200138092041,
      "rewards/accuracy_reward": 0.7109375,
      "rewards/format_count_numbers": 1.6328125,
      "rewards/format_reward": 1.0,
      "step": 23
    },
    {
      "completion_length": 78.234375,
      "epoch": 0.0015401893149366275,
      "grad_norm": 3.663495400021626,
      "kl": 0.015289306640625,
      "learning_rate": 9.992298806314979e-07,
      "loss": 0.0006,
      "reward": 3.02734375,
      "reward_std": 0.3106808215379715,
      "rewards/accuracy_reward": 0.6171875,
      "rewards/format_count_numbers": 1.41015625,
      "rewards/format_reward": 1.0,
      "step": 24
    },
    {
      "completion_length": 85.5078125,
      "epoch": 0.0016043638697256538,
      "grad_norm": 4.017477734738997,
      "kl": 0.009735107421875,
      "learning_rate": 9.991977923244769e-07,
      "loss": 0.0004,
      "reward": 3.02734375,
      "reward_std": 0.3911897838115692,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_count_numbers": 1.55078125,
      "rewards/format_reward": 0.9765625,
      "step": 25
    },
    {
      "completion_length": 70.953125,
      "epoch": 0.00166853842451468,
      "grad_norm": 131.7420509388314,
      "kl": 0.01788330078125,
      "learning_rate": 9.99165704017456e-07,
      "loss": 0.0007,
      "reward": 3.32421875,
      "reward_std": 0.3377445787191391,
      "rewards/accuracy_reward": 0.8125,
      "rewards/format_count_numbers": 1.51953125,
      "rewards/format_reward": 0.9921875,
      "step": 26
    },
    {
      "completion_length": 83.9140625,
      "epoch": 0.001732712979303706,
      "grad_norm": 8.203637941977545,
      "kl": 0.012908935546875,
      "learning_rate": 9.99133615710435e-07,
      "loss": 0.0005,
      "reward": 3.140625,
      "reward_std": 0.31107497215270996,
      "rewards/accuracy_reward": 0.609375,
      "rewards/format_count_numbers": 1.53125,
      "rewards/format_reward": 1.0,
      "step": 27
    },
    {
      "completion_length": 87.546875,
      "epoch": 0.0017968875340927323,
      "grad_norm": 3.074634047919227,
      "kl": 0.01849365234375,
      "learning_rate": 9.99101527403414e-07,
      "loss": 0.0007,
      "reward": 3.26171875,
      "reward_std": 0.3248459994792938,
      "rewards/accuracy_reward": 0.65625,
      "rewards/format_count_numbers": 1.62109375,
      "rewards/format_reward": 0.984375,
      "step": 28
    },
    {
      "completion_length": 83.1015625,
      "epoch": 0.0018610620888817584,
      "grad_norm": 1.7996263974927855,
      "kl": 0.01739501953125,
      "learning_rate": 9.990694390963933e-07,
      "loss": 0.0007,
      "reward": 3.36328125,
      "reward_std": 0.34072481095790863,
      "rewards/accuracy_reward": 0.703125,
      "rewards/format_count_numbers": 1.67578125,
      "rewards/format_reward": 0.984375,
      "step": 29
    },
    {
      "completion_length": 82.0390625,
      "epoch": 0.0019252366436707845,
      "grad_norm": 5.044487990967384,
      "kl": 0.01666259765625,
      "learning_rate": 9.990373507893723e-07,
      "loss": 0.0007,
      "reward": 3.1328125,
      "reward_std": 0.3294168561697006,
      "rewards/accuracy_reward": 0.59375,
      "rewards/format_count_numbers": 1.546875,
      "rewards/format_reward": 0.9921875,
      "step": 30
    },
    {
      "completion_length": 75.6640625,
      "epoch": 0.0019894111984598106,
      "grad_norm": 4.303535913004868,
      "kl": 0.02020263671875,
      "learning_rate": 9.990052624823513e-07,
      "loss": 0.0008,
      "reward": 3.14453125,
      "reward_std": 0.3391089290380478,
      "rewards/accuracy_reward": 0.71875,
      "rewards/format_count_numbers": 1.43359375,
      "rewards/format_reward": 0.9921875,
      "step": 31
    },
    {
      "completion_length": 91.375,
      "epoch": 0.0020535857532488367,
      "grad_norm": 3.867777936702832,
      "kl": 0.0233154296875,
      "learning_rate": 9.989731741753305e-07,
      "loss": 0.0009,
      "reward": 3.17578125,
      "reward_std": 0.3817155063152313,
      "rewards/accuracy_reward": 0.53125,
      "rewards/format_count_numbers": 1.65234375,
      "rewards/format_reward": 0.9921875,
      "step": 32
    },
    {
      "completion_length": 80.0859375,
      "epoch": 0.002117760308037863,
      "grad_norm": 5.660841872987584,
      "kl": 0.0257568359375,
      "learning_rate": 9.989410858683095e-07,
      "loss": 0.001,
      "reward": 3.13671875,
      "reward_std": 0.3630076050758362,
      "rewards/accuracy_reward": 0.6640625,
      "rewards/format_count_numbers": 1.48046875,
      "rewards/format_reward": 0.9921875,
      "step": 33
    },
    {
      "completion_length": 72.8828125,
      "epoch": 0.0021819348628268893,
      "grad_norm": 4.882900614418831,
      "kl": 0.02276611328125,
      "learning_rate": 9.989089975612887e-07,
      "loss": 0.0009,
      "reward": 2.640625,
      "reward_std": 0.44960109889507294,
      "rewards/accuracy_reward": 0.484375,
      "rewards/format_count_numbers": 1.1640625,
      "rewards/format_reward": 0.9921875,
      "step": 34
    },
    {
      "completion_length": 80.9296875,
      "epoch": 0.0022461094176159154,
      "grad_norm": 4.3133118366946475,
      "kl": 0.02490234375,
      "learning_rate": 9.988769092542677e-07,
      "loss": 0.001,
      "reward": 3.453125,
      "reward_std": 0.3391571342945099,
      "rewards/accuracy_reward": 0.6796875,
      "rewards/format_count_numbers": 1.7734375,
      "rewards/format_reward": 1.0,
      "step": 35
    },
    {
      "completion_length": 89.9609375,
      "epoch": 0.0023102839724049415,
      "grad_norm": 6.955721387397482,
      "kl": 0.01922607421875,
      "learning_rate": 9.988448209472467e-07,
      "loss": 0.0008,
      "reward": 2.87890625,
      "reward_std": 0.2806504964828491,
      "rewards/accuracy_reward": 0.4765625,
      "rewards/format_count_numbers": 1.40234375,
      "rewards/format_reward": 1.0,
      "step": 36
    },
    {
      "completion_length": 74.5390625,
      "epoch": 0.0023744585271939676,
      "grad_norm": 4.861590830565515,
      "kl": 0.02423095703125,
      "learning_rate": 9.988127326402257e-07,
      "loss": 0.001,
      "reward": 3.06640625,
      "reward_std": 0.2550649642944336,
      "rewards/accuracy_reward": 0.6328125,
      "rewards/format_count_numbers": 1.43359375,
      "rewards/format_reward": 1.0,
      "step": 37
    },
    {
      "completion_length": 73.921875,
      "epoch": 0.0024386330819829937,
      "grad_norm": 2.854709944808263,
      "kl": 0.02410888671875,
      "learning_rate": 9.98780644333205e-07,
      "loss": 0.001,
      "reward": 2.8984375,
      "reward_std": 0.3886113613843918,
      "rewards/accuracy_reward": 0.6171875,
      "rewards/format_count_numbers": 1.296875,
      "rewards/format_reward": 0.984375,
      "step": 38
    },
    {
      "completion_length": 70.9609375,
      "epoch": 0.00250280763677202,
      "grad_norm": 3.5923630444215755,
      "kl": 0.0277099609375,
      "learning_rate": 9.98748556026184e-07,
      "loss": 0.0011,
      "reward": 3.2265625,
      "reward_std": 0.2659813463687897,
      "rewards/accuracy_reward": 0.765625,
      "rewards/format_count_numbers": 1.4609375,
      "rewards/format_reward": 1.0,
      "step": 39
    },
    {
      "completion_length": 66.390625,
      "epoch": 0.002566982191561046,
      "grad_norm": 3.041742830092947,
      "kl": 0.02459716796875,
      "learning_rate": 9.987164677191631e-07,
      "loss": 0.001,
      "reward": 3.296875,
      "reward_std": 0.2199605107307434,
      "rewards/accuracy_reward": 0.7109375,
      "rewards/format_count_numbers": 1.59375,
      "rewards/format_reward": 0.9921875,
      "step": 40
    },
    {
      "completion_length": 74.828125,
      "epoch": 0.0026311567463500724,
      "grad_norm": 3.3807511168475717,
      "kl": 0.0289306640625,
      "learning_rate": 9.986843794121421e-07,
      "loss": 0.0012,
      "reward": 3.30078125,
      "reward_std": 0.34865450859069824,
      "rewards/accuracy_reward": 0.6015625,
      "rewards/format_count_numbers": 1.69921875,
      "rewards/format_reward": 1.0,
      "step": 41
    },
    {
      "completion_length": 89.6953125,
      "epoch": 0.0026953313011390985,
      "grad_norm": 1.9360780618011337,
      "kl": 0.02545166015625,
      "learning_rate": 9.986522911051214e-07,
      "loss": 0.001,
      "reward": 3.07421875,
      "reward_std": 0.24038218706846237,
      "rewards/accuracy_reward": 0.546875,
      "rewards/format_count_numbers": 1.52734375,
      "rewards/format_reward": 1.0,
      "step": 42
    },
    {
      "completion_length": 71.140625,
      "epoch": 0.0027595058559281246,
      "grad_norm": 2.522942068290189,
      "kl": 0.033447265625,
      "learning_rate": 9.986202027981004e-07,
      "loss": 0.0013,
      "reward": 3.234375,
      "reward_std": 0.30629581212997437,
      "rewards/accuracy_reward": 0.5234375,
      "rewards/format_count_numbers": 1.7109375,
      "rewards/format_reward": 1.0,
      "step": 43
    },
    {
      "completion_length": 76.5703125,
      "epoch": 0.0028236804107171507,
      "grad_norm": 2.7470688462972572,
      "kl": 0.026123046875,
      "learning_rate": 9.985881144910794e-07,
      "loss": 0.001,
      "reward": 3.25,
      "reward_std": 0.30682672560214996,
      "rewards/accuracy_reward": 0.5625,
      "rewards/format_count_numbers": 1.7109375,
      "rewards/format_reward": 0.9765625,
      "step": 44
    },
    {
      "completion_length": 83.8046875,
      "epoch": 0.0028878549655061768,
      "grad_norm": 2.4739700610037985,
      "kl": 0.02978515625,
      "learning_rate": 9.985560261840584e-07,
      "loss": 0.0012,
      "reward": 3.05078125,
      "reward_std": 0.29518504440784454,
      "rewards/accuracy_reward": 0.578125,
      "rewards/format_count_numbers": 1.48046875,
      "rewards/format_reward": 0.9921875,
      "step": 45
    },
    {
      "completion_length": 65.40625,
      "epoch": 0.002952029520295203,
      "grad_norm": 3.690551370084788,
      "kl": 0.0428466796875,
      "learning_rate": 9.985239378770376e-07,
      "loss": 0.0017,
      "reward": 3.17578125,
      "reward_std": 0.30267418175935745,
      "rewards/accuracy_reward": 0.859375,
      "rewards/format_count_numbers": 1.32421875,
      "rewards/format_reward": 0.9921875,
      "step": 46
    },
    {
      "completion_length": 69.03125,
      "epoch": 0.003016204075084229,
      "grad_norm": 4.382403144838998,
      "kl": 0.0341796875,
      "learning_rate": 9.984918495700166e-07,
      "loss": 0.0014,
      "reward": 3.484375,
      "reward_std": 0.23816770315170288,
      "rewards/accuracy_reward": 0.78125,
      "rewards/format_count_numbers": 1.703125,
      "rewards/format_reward": 1.0,
      "step": 47
    },
    {
      "completion_length": 68.015625,
      "epoch": 0.003080378629873255,
      "grad_norm": 3.452349900499519,
      "kl": 0.0255126953125,
      "learning_rate": 9.984597612629958e-07,
      "loss": 0.001,
      "reward": 2.97265625,
      "reward_std": 0.32505670189857483,
      "rewards/accuracy_reward": 0.6328125,
      "rewards/format_count_numbers": 1.33984375,
      "rewards/format_reward": 1.0,
      "step": 48
    },
    {
      "completion_length": 75.1953125,
      "epoch": 0.0031445531846622816,
      "grad_norm": 3.392241748989927,
      "kl": 0.03125,
      "learning_rate": 9.984276729559748e-07,
      "loss": 0.0012,
      "reward": 3.10546875,
      "reward_std": 0.39815399050712585,
      "rewards/accuracy_reward": 0.6796875,
      "rewards/format_count_numbers": 1.42578125,
      "rewards/format_reward": 1.0,
      "step": 49
    },
    {
      "completion_length": 67.9765625,
      "epoch": 0.0032087277394513077,
      "grad_norm": 2.177945178884684,
      "kl": 0.047607421875,
      "learning_rate": 9.98395584648954e-07,
      "loss": 0.0019,
      "reward": 2.953125,
      "reward_std": 0.2759072184562683,
      "rewards/accuracy_reward": 0.609375,
      "rewards/format_count_numbers": 1.34375,
      "rewards/format_reward": 1.0,
      "step": 50
    },
    {
      "completion_length": 78.390625,
      "epoch": 0.0032729022942403338,
      "grad_norm": 3.0857042332441456,
      "kl": 0.0269775390625,
      "learning_rate": 9.98363496341933e-07,
      "loss": 0.0011,
      "reward": 2.890625,
      "reward_std": 0.27773458510637283,
      "rewards/accuracy_reward": 0.4296875,
      "rewards/format_count_numbers": 1.4609375,
      "rewards/format_reward": 1.0,
      "step": 51
    },
    {
      "completion_length": 67.046875,
      "epoch": 0.00333707684902936,
      "grad_norm": 5.440745248958781,
      "kl": 0.13043212890625,
      "learning_rate": 9.98331408034912e-07,
      "loss": 0.0052,
      "reward": 2.921875,
      "reward_std": 0.3226177394390106,
      "rewards/accuracy_reward": 0.6015625,
      "rewards/format_count_numbers": 1.3359375,
      "rewards/format_reward": 0.984375,
      "step": 52
    },
    {
      "completion_length": 66.4375,
      "epoch": 0.003401251403818386,
      "grad_norm": 4.657297519762943,
      "kl": 0.041259765625,
      "learning_rate": 9.982993197278912e-07,
      "loss": 0.0017,
      "reward": 3.25,
      "reward_std": 0.3035288602113724,
      "rewards/accuracy_reward": 0.578125,
      "rewards/format_count_numbers": 1.671875,
      "rewards/format_reward": 1.0,
      "step": 53
    },
    {
      "completion_length": 70.2265625,
      "epoch": 0.003465425958607412,
      "grad_norm": 2.3261413114277727,
      "kl": 0.048583984375,
      "learning_rate": 9.982672314208702e-07,
      "loss": 0.0019,
      "reward": 3.48046875,
      "reward_std": 0.2077426016330719,
      "rewards/accuracy_reward": 0.65625,
      "rewards/format_count_numbers": 1.82421875,
      "rewards/format_reward": 1.0,
      "step": 54
    },
    {
      "completion_length": 69.4765625,
      "epoch": 0.003529600513396438,
      "grad_norm": 12.890917932396162,
      "kl": 0.045166015625,
      "learning_rate": 9.982351431138492e-07,
      "loss": 0.0018,
      "reward": 3.34765625,
      "reward_std": 0.25980181246995926,
      "rewards/accuracy_reward": 0.640625,
      "rewards/format_count_numbers": 1.70703125,
      "rewards/format_reward": 1.0,
      "step": 55
    },
    {
      "completion_length": 70.75,
      "epoch": 0.0035937750681854647,
      "grad_norm": 2.3924995403034814,
      "kl": 0.0390625,
      "learning_rate": 9.982030548068284e-07,
      "loss": 0.0016,
      "reward": 2.83203125,
      "reward_std": 0.2434411644935608,
      "rewards/accuracy_reward": 0.6484375,
      "rewards/format_count_numbers": 1.18359375,
      "rewards/format_reward": 1.0,
      "step": 56
    },
    {
      "completion_length": 78.265625,
      "epoch": 0.0036579496229744908,
      "grad_norm": 4.097074998616903,
      "kl": 0.0467529296875,
      "learning_rate": 9.981709664998074e-07,
      "loss": 0.0019,
      "reward": 3.16796875,
      "reward_std": 0.323630690574646,
      "rewards/accuracy_reward": 0.625,
      "rewards/format_count_numbers": 1.54296875,
      "rewards/format_reward": 1.0,
      "step": 57
    },
    {
      "completion_length": 64.4453125,
      "epoch": 0.003722124177763517,
      "grad_norm": 2.8596095528212815,
      "kl": 0.045166015625,
      "learning_rate": 9.981388781927866e-07,
      "loss": 0.0018,
      "reward": 2.99609375,
      "reward_std": 0.3102172762155533,
      "rewards/accuracy_reward": 0.5390625,
      "rewards/format_count_numbers": 1.45703125,
      "rewards/format_reward": 1.0,
      "step": 58
    },
    {
      "completion_length": 64.9375,
      "epoch": 0.003786298732552543,
      "grad_norm": 2.728196990192836,
      "kl": 0.0457763671875,
      "learning_rate": 9.981067898857656e-07,
      "loss": 0.0018,
      "reward": 2.9609375,
      "reward_std": 0.2459762617945671,
      "rewards/accuracy_reward": 0.609375,
      "rewards/format_count_numbers": 1.3515625,
      "rewards/format_reward": 1.0,
      "step": 59
    },
    {
      "completion_length": 69.0625,
      "epoch": 0.003850473287341569,
      "grad_norm": 3.4406926961923587,
      "kl": 0.03759765625,
      "learning_rate": 9.980747015787446e-07,
      "loss": 0.0015,
      "reward": 2.87109375,
      "reward_std": 0.34723127633333206,
      "rewards/accuracy_reward": 0.6640625,
      "rewards/format_count_numbers": 1.21484375,
      "rewards/format_reward": 0.9921875,
      "step": 60
    },
    {
      "completion_length": 66.5390625,
      "epoch": 0.0039146478421305956,
      "grad_norm": 3.057262479255094,
      "kl": 0.043212890625,
      "learning_rate": 9.980426132717238e-07,
      "loss": 0.0017,
      "reward": 3.38671875,
      "reward_std": 0.22124166041612625,
      "rewards/accuracy_reward": 0.671875,
      "rewards/format_count_numbers": 1.71484375,
      "rewards/format_reward": 1.0,
      "step": 61
    },
    {
      "completion_length": 84.8125,
      "epoch": 0.003978822396919621,
      "grad_norm": 6.416434548752605,
      "kl": 0.0321044921875,
      "learning_rate": 9.980105249647028e-07,
      "loss": 0.0013,
      "reward": 3.08984375,
      "reward_std": 0.32453496754169464,
      "rewards/accuracy_reward": 0.4453125,
      "rewards/format_count_numbers": 1.64453125,
      "rewards/format_reward": 1.0,
      "step": 62
    },
    {
      "completion_length": 77.1953125,
      "epoch": 0.004042996951708648,
      "grad_norm": 3.732769709996209,
      "kl": 0.037841796875,
      "learning_rate": 9.979784366576818e-07,
      "loss": 0.0015,
      "reward": 3.1015625,
      "reward_std": 0.35314419865608215,
      "rewards/accuracy_reward": 0.53125,
      "rewards/format_count_numbers": 1.5703125,
      "rewards/format_reward": 1.0,
      "step": 63
    },
    {
      "completion_length": 77.5,
      "epoch": 0.004107171506497673,
      "grad_norm": 2.5167684293651877,
      "kl": 0.0311279296875,
      "learning_rate": 9.979463483506608e-07,
      "loss": 0.0012,
      "reward": 3.10546875,
      "reward_std": 0.2587262690067291,
      "rewards/accuracy_reward": 0.5078125,
      "rewards/format_count_numbers": 1.60546875,
      "rewards/format_reward": 0.9921875,
      "step": 64
    },
    {
      "completion_length": 70.609375,
      "epoch": 0.0041713460612867,
      "grad_norm": 7.497854848230895,
      "kl": 0.03466796875,
      "learning_rate": 9.9791426004364e-07,
      "loss": 0.0014,
      "reward": 3.12109375,
      "reward_std": 0.35663464665412903,
      "rewards/accuracy_reward": 0.6640625,
      "rewards/format_count_numbers": 1.45703125,
      "rewards/format_reward": 1.0,
      "step": 65
    },
    {
      "completion_length": 67.3359375,
      "epoch": 0.004235520616075726,
      "grad_norm": 12.830822241443972,
      "kl": 0.118408203125,
      "learning_rate": 9.97882171736619e-07,
      "loss": 0.0047,
      "reward": 3.08984375,
      "reward_std": 0.2815767228603363,
      "rewards/accuracy_reward": 0.7265625,
      "rewards/format_count_numbers": 1.36328125,
      "rewards/format_reward": 1.0,
      "step": 66
    },
    {
      "completion_length": 80.15625,
      "epoch": 0.004299695170864752,
      "grad_norm": 6.252660074852895,
      "kl": 0.03729248046875,
      "learning_rate": 9.978500834295983e-07,
      "loss": 0.0015,
      "reward": 3.5703125,
      "reward_std": 0.21104412525892258,
      "rewards/accuracy_reward": 0.609375,
      "rewards/format_count_numbers": 1.9609375,
      "rewards/format_reward": 1.0,
      "step": 67
    },
    {
      "completion_length": 72.375,
      "epoch": 0.004363869725653779,
      "grad_norm": 2.346394602052095,
      "kl": 0.025146484375,
      "learning_rate": 9.978179951225773e-07,
      "loss": 0.001,
      "reward": 3.26171875,
      "reward_std": 0.2549284026026726,
      "rewards/accuracy_reward": 0.7734375,
      "rewards/format_count_numbers": 1.48828125,
      "rewards/format_reward": 1.0,
      "step": 68
    },
    {
      "completion_length": 80.0078125,
      "epoch": 0.004428044280442804,
      "grad_norm": 6.9747477147107775,
      "kl": 0.053955078125,
      "learning_rate": 9.977859068155565e-07,
      "loss": 0.0022,
      "reward": 3.1171875,
      "reward_std": 0.23806139826774597,
      "rewards/accuracy_reward": 0.5625,
      "rewards/format_count_numbers": 1.5546875,
      "rewards/format_reward": 1.0,
      "step": 69
    },
    {
      "completion_length": 76.78125,
      "epoch": 0.004492218835231831,
      "grad_norm": 4.378472876328936,
      "kl": 0.029541015625,
      "learning_rate": 9.977538185085355e-07,
      "loss": 0.0012,
      "reward": 2.93359375,
      "reward_std": 0.19287973642349243,
      "rewards/accuracy_reward": 0.609375,
      "rewards/format_count_numbers": 1.33984375,
      "rewards/format_reward": 0.984375,
      "step": 70
    },
    {
      "completion_length": 74.171875,
      "epoch": 0.0045563933900208565,
      "grad_norm": 2.358606331460238,
      "kl": 0.0230712890625,
      "learning_rate": 9.977217302015145e-07,
      "loss": 0.0009,
      "reward": 3.54296875,
      "reward_std": 0.26491738110780716,
      "rewards/accuracy_reward": 0.8046875,
      "rewards/format_count_numbers": 1.73828125,
      "rewards/format_reward": 1.0,
      "step": 71
    },
    {
      "completion_length": 75.34375,
      "epoch": 0.004620567944809883,
      "grad_norm": 65.47310912953631,
      "kl": 0.03179931640625,
      "learning_rate": 9.976896418944935e-07,
      "loss": 0.0013,
      "reward": 2.78125,
      "reward_std": 0.29492397606372833,
      "rewards/accuracy_reward": 0.546875,
      "rewards/format_count_numbers": 1.234375,
      "rewards/format_reward": 1.0,
      "step": 72
    },
    {
      "completion_length": 76.921875,
      "epoch": 0.004684742499598909,
      "grad_norm": 3.27041300953387,
      "kl": 0.0367431640625,
      "learning_rate": 9.976575535874727e-07,
      "loss": 0.0015,
      "reward": 3.33203125,
      "reward_std": 0.2555892765522003,
      "rewards/accuracy_reward": 0.734375,
      "rewards/format_count_numbers": 1.59765625,
      "rewards/format_reward": 1.0,
      "step": 73
    },
    {
      "completion_length": 67.484375,
      "epoch": 0.004748917054387935,
      "grad_norm": 5.812215039650067,
      "kl": 0.03240966796875,
      "learning_rate": 9.976254652804517e-07,
      "loss": 0.0013,
      "reward": 3.43359375,
      "reward_std": 0.20885366201400757,
      "rewards/accuracy_reward": 0.8125,
      "rewards/format_count_numbers": 1.62109375,
      "rewards/format_reward": 1.0,
      "step": 74
    },
    {
      "completion_length": 82.4921875,
      "epoch": 0.004813091609176962,
      "grad_norm": 4.4277516048263506,
      "kl": 0.0313720703125,
      "learning_rate": 9.97593376973431e-07,
      "loss": 0.0013,
      "reward": 3.2734375,
      "reward_std": 0.19161942601203918,
      "rewards/accuracy_reward": 0.7109375,
      "rewards/format_count_numbers": 1.5625,
      "rewards/format_reward": 1.0,
      "step": 75
    },
    {
      "completion_length": 67.109375,
      "epoch": 0.004877266163965987,
      "grad_norm": 3.0595066417538415,
      "kl": 0.04052734375,
      "learning_rate": 9.9756128866641e-07,
      "loss": 0.0016,
      "reward": 3.5625,
      "reward_std": 0.32848016172647476,
      "rewards/accuracy_reward": 0.71875,
      "rewards/format_count_numbers": 1.84375,
      "rewards/format_reward": 1.0,
      "step": 76
    },
    {
      "completion_length": 82.9921875,
      "epoch": 0.004941440718755014,
      "grad_norm": 3.999806146457781,
      "kl": 0.0372314453125,
      "learning_rate": 9.975292003593891e-07,
      "loss": 0.0015,
      "reward": 3.0546875,
      "reward_std": 0.2797150984406471,
      "rewards/accuracy_reward": 0.4921875,
      "rewards/format_count_numbers": 1.5703125,
      "rewards/format_reward": 0.9921875,
      "step": 77
    },
    {
      "completion_length": 75.265625,
      "epoch": 0.00500561527354404,
      "grad_norm": 2.4007654591592953,
      "kl": 0.02508544921875,
      "learning_rate": 9.974971120523681e-07,
      "loss": 0.001,
      "reward": 3.30859375,
      "reward_std": 0.21722427010536194,
      "rewards/accuracy_reward": 0.7109375,
      "rewards/format_count_numbers": 1.59765625,
      "rewards/format_reward": 1.0,
      "step": 78
    },
    {
      "completion_length": 69.8671875,
      "epoch": 0.005069789828333066,
      "grad_norm": 4.413870539754506,
      "kl": 0.0401611328125,
      "learning_rate": 9.974650237453471e-07,
      "loss": 0.0016,
      "reward": 3.09765625,
      "reward_std": 0.24370676279067993,
      "rewards/accuracy_reward": 0.640625,
      "rewards/format_count_numbers": 1.46484375,
      "rewards/format_reward": 0.9921875,
      "step": 79
    },
    {
      "completion_length": 71.3828125,
      "epoch": 0.005133964383122092,
      "grad_norm": 2.7469356159448375,
      "kl": 0.03594970703125,
      "learning_rate": 9.974329354383261e-07,
      "loss": 0.0014,
      "reward": 3.359375,
      "reward_std": 0.28942976146936417,
      "rewards/accuracy_reward": 0.765625,
      "rewards/format_count_numbers": 1.59375,
      "rewards/format_reward": 1.0,
      "step": 80
    },
    {
      "completion_length": 71.6875,
      "epoch": 0.005198138937911118,
      "grad_norm": 4.694669178987162,
      "kl": 0.04248046875,
      "learning_rate": 9.974008471313053e-07,
      "loss": 0.0017,
      "reward": 3.09765625,
      "reward_std": 0.3313465863466263,
      "rewards/accuracy_reward": 0.640625,
      "rewards/format_count_numbers": 1.46484375,
      "rewards/format_reward": 0.9921875,
      "step": 81
    },
    {
      "completion_length": 71.9375,
      "epoch": 0.005262313492700145,
      "grad_norm": 5.239839542228686,
      "kl": 0.0465087890625,
      "learning_rate": 9.973687588242843e-07,
      "loss": 0.0019,
      "reward": 3.40234375,
      "reward_std": 0.2555918022990227,
      "rewards/accuracy_reward": 0.5625,
      "rewards/format_count_numbers": 1.84765625,
      "rewards/format_reward": 0.9921875,
      "step": 82
    },
    {
      "completion_length": 66.59375,
      "epoch": 0.0053264880474891705,
      "grad_norm": 9.58228205262393,
      "kl": 0.03302001953125,
      "learning_rate": 9.973366705172635e-07,
      "loss": 0.0013,
      "reward": 3.328125,
      "reward_std": 0.27802956849336624,
      "rewards/accuracy_reward": 0.7109375,
      "rewards/format_count_numbers": 1.6171875,
      "rewards/format_reward": 1.0,
      "step": 83
    },
    {
      "completion_length": 73.7734375,
      "epoch": 0.005390662602278197,
      "grad_norm": 5.487582516234903,
      "kl": 0.0311279296875,
      "learning_rate": 9.973045822102425e-07,
      "loss": 0.0012,
      "reward": 3.28515625,
      "reward_std": 0.24403482675552368,
      "rewards/accuracy_reward": 0.5625,
      "rewards/format_count_numbers": 1.72265625,
      "rewards/format_reward": 1.0,
      "step": 84
    },
    {
      "completion_length": 77.0859375,
      "epoch": 0.005454837157067223,
      "grad_norm": 2.8797110234241217,
      "kl": 0.03607177734375,
      "learning_rate": 9.972724939032218e-07,
      "loss": 0.0014,
      "reward": 3.4296875,
      "reward_std": 0.3189963102340698,
      "rewards/accuracy_reward": 0.7109375,
      "rewards/format_count_numbers": 1.734375,
      "rewards/format_reward": 0.984375,
      "step": 85
    },
    {
      "completion_length": 71.2734375,
      "epoch": 0.005519011711856249,
      "grad_norm": 3.495421949980677,
      "kl": 0.043212890625,
      "learning_rate": 9.972404055962008e-07,
      "loss": 0.0017,
      "reward": 3.0625,
      "reward_std": 0.30399875342845917,
      "rewards/accuracy_reward": 0.5859375,
      "rewards/format_count_numbers": 1.484375,
      "rewards/format_reward": 0.9921875,
      "step": 86
    },
    {
      "completion_length": 67.015625,
      "epoch": 0.005583186266645275,
      "grad_norm": 6.764316503209916,
      "kl": 0.0382080078125,
      "learning_rate": 9.972083172891798e-07,
      "loss": 0.0015,
      "reward": 2.8671875,
      "reward_std": 0.3235751837491989,
      "rewards/accuracy_reward": 0.546875,
      "rewards/format_count_numbers": 1.3359375,
      "rewards/format_reward": 0.984375,
      "step": 87
    },
    {
      "completion_length": 77.1796875,
      "epoch": 0.005647360821434301,
      "grad_norm": 2.0348391619602713,
      "kl": 0.046142578125,
      "learning_rate": 9.971762289821588e-07,
      "loss": 0.0018,
      "reward": 3.046875,
      "reward_std": 0.26907191798090935,
      "rewards/accuracy_reward": 0.609375,
      "rewards/format_count_numbers": 1.4375,
      "rewards/format_reward": 1.0,
      "step": 88
    },
    {
      "completion_length": 69.859375,
      "epoch": 0.005711535376223327,
      "grad_norm": 2.4510593826235993,
      "kl": 0.044677734375,
      "learning_rate": 9.97144140675138e-07,
      "loss": 0.0018,
      "reward": 3.40625,
      "reward_std": 0.3325708657503128,
      "rewards/accuracy_reward": 0.6953125,
      "rewards/format_count_numbers": 1.7109375,
      "rewards/format_reward": 1.0,
      "step": 89
    },
    {
      "completion_length": 69.421875,
      "epoch": 0.0057757099310123535,
      "grad_norm": 7.386556285996494,
      "kl": 0.0384521484375,
      "learning_rate": 9.97112052368117e-07,
      "loss": 0.0015,
      "reward": 3.45703125,
      "reward_std": 0.18665644526481628,
      "rewards/accuracy_reward": 0.609375,
      "rewards/format_count_numbers": 1.84765625,
      "rewards/format_reward": 1.0,
      "step": 90
    },
    {
      "completion_length": 76.546875,
      "epoch": 0.00583988448580138,
      "grad_norm": 10.07527340286235,
      "kl": 0.03741455078125,
      "learning_rate": 9.97079964061096e-07,
      "loss": 0.0015,
      "reward": 3.4765625,
      "reward_std": 0.17688900232315063,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_count_numbers": 1.7265625,
      "rewards/format_reward": 1.0,
      "step": 91
    },
    {
      "completion_length": 67.1015625,
      "epoch": 0.005904059040590406,
      "grad_norm": 6.961725253066966,
      "kl": 0.0450439453125,
      "learning_rate": 9.970478757540752e-07,
      "loss": 0.0018,
      "reward": 3.15234375,
      "reward_std": 0.18702887743711472,
      "rewards/accuracy_reward": 0.8046875,
      "rewards/format_count_numbers": 1.34765625,
      "rewards/format_reward": 1.0,
      "step": 92
    },
    {
      "completion_length": 67.75,
      "epoch": 0.005968233595379432,
      "grad_norm": 4.665158893240586,
      "kl": 0.0504150390625,
      "learning_rate": 9.970157874470542e-07,
      "loss": 0.002,
      "reward": 3.32421875,
      "reward_std": 0.17975258082151413,
      "rewards/accuracy_reward": 0.71875,
      "rewards/format_count_numbers": 1.61328125,
      "rewards/format_reward": 0.9921875,
      "step": 93
    },
    {
      "completion_length": 62.765625,
      "epoch": 0.006032408150168458,
      "grad_norm": 6.052438787803174,
      "kl": 0.0577392578125,
      "learning_rate": 9.969836991400334e-07,
      "loss": 0.0023,
      "reward": 2.96484375,
      "reward_std": 0.17256294190883636,
      "rewards/accuracy_reward": 0.6171875,
      "rewards/format_count_numbers": 1.35546875,
      "rewards/format_reward": 0.9921875,
      "step": 94
    },
    {
      "completion_length": 67.546875,
      "epoch": 0.0060965827049574844,
      "grad_norm": 3.8543628664738248,
      "kl": 0.1171875,
      "learning_rate": 9.969516108330124e-07,
      "loss": 0.0047,
      "reward": 2.75,
      "reward_std": 0.25491149723529816,
      "rewards/accuracy_reward": 0.5390625,
      "rewards/format_count_numbers": 1.21875,
      "rewards/format_reward": 0.9921875,
      "step": 95
    },
    {
      "completion_length": 57.5234375,
      "epoch": 0.00616075725974651,
      "grad_norm": 10.068717750488322,
      "kl": 0.050048828125,
      "learning_rate": 9.969195225259914e-07,
      "loss": 0.002,
      "reward": 3.34765625,
      "reward_std": 0.15529648214578629,
      "rewards/accuracy_reward": 0.859375,
      "rewards/format_count_numbers": 1.49609375,
      "rewards/format_reward": 0.9921875,
      "step": 96
    },
    {
      "completion_length": 77.4140625,
      "epoch": 0.006224931814535537,
      "grad_norm": 76.26414395404969,
      "kl": 0.0400390625,
      "learning_rate": 9.968874342189706e-07,
      "loss": 0.0016,
      "reward": 3.3046875,
      "reward_std": 0.18849123269319534,
      "rewards/accuracy_reward": 0.6015625,
      "rewards/format_count_numbers": 1.7109375,
      "rewards/format_reward": 0.9921875,
      "step": 97
    },
    {
      "completion_length": 64.359375,
      "epoch": 0.006289106369324563,
      "grad_norm": 6.324698594548965,
      "kl": 0.05126953125,
      "learning_rate": 9.968553459119496e-07,
      "loss": 0.0021,
      "reward": 3.09765625,
      "reward_std": 0.16071559116244316,
      "rewards/accuracy_reward": 0.7578125,
      "rewards/format_count_numbers": 1.34765625,
      "rewards/format_reward": 0.9921875,
      "step": 98
    },
    {
      "completion_length": 69.578125,
      "epoch": 0.006353280924113589,
      "grad_norm": 2.6642177820540494,
      "kl": 0.05078125,
      "learning_rate": 9.968232576049286e-07,
      "loss": 0.002,
      "reward": 3.20703125,
      "reward_std": 0.19081907719373703,
      "rewards/accuracy_reward": 0.6328125,
      "rewards/format_count_numbers": 1.57421875,
      "rewards/format_reward": 1.0,
      "step": 99
    },
    {
      "completion_length": 69.6171875,
      "epoch": 0.006417455478902615,
      "grad_norm": 3.1800877639787006,
      "kl": 0.04925537109375,
      "learning_rate": 9.967911692979078e-07,
      "loss": 0.002,
      "reward": 3.15625,
      "reward_std": 0.25464994460344315,
      "rewards/accuracy_reward": 0.6875,
      "rewards/format_count_numbers": 1.46875,
      "rewards/format_reward": 1.0,
      "step": 100
    },
    {
      "completion_length": 69.296875,
      "epoch": 0.006481630033691641,
      "grad_norm": 5.47896444311625,
      "kl": 0.04052734375,
      "learning_rate": 9.967590809908868e-07,
      "loss": 0.0016,
      "reward": 3.16796875,
      "reward_std": 0.15877367183566093,
      "rewards/accuracy_reward": 0.6875,
      "rewards/format_count_numbers": 1.48046875,
      "rewards/format_reward": 1.0,
      "step": 101
    },
    {
      "completion_length": 66.703125,
      "epoch": 0.0065458045884806675,
      "grad_norm": 6.581183385830175,
      "kl": 0.0469970703125,
      "learning_rate": 9.96726992683866e-07,
      "loss": 0.0019,
      "reward": 3.359375,
      "reward_std": 0.2588741034269333,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_count_numbers": 1.609375,
      "rewards/format_reward": 1.0,
      "step": 102
    },
    {
      "completion_length": 76.7109375,
      "epoch": 0.006609979143269693,
      "grad_norm": 5.79571682079651,
      "kl": 0.0438232421875,
      "learning_rate": 9.96694904376845e-07,
      "loss": 0.0018,
      "reward": 3.125,
      "reward_std": 0.23913496732711792,
      "rewards/accuracy_reward": 0.546875,
      "rewards/format_count_numbers": 1.5859375,
      "rewards/format_reward": 0.9921875,
      "step": 103
    },
    {
      "completion_length": 79.7578125,
      "epoch": 0.00667415369805872,
      "grad_norm": 3.1092072916938407,
      "kl": 0.0345458984375,
      "learning_rate": 9.966628160698242e-07,
      "loss": 0.0014,
      "reward": 3.2578125,
      "reward_std": 0.24152958393096924,
      "rewards/accuracy_reward": 0.671875,
      "rewards/format_count_numbers": 1.5859375,
      "rewards/format_reward": 1.0,
      "step": 104
    },
    {
      "completion_length": 71.3046875,
      "epoch": 0.006738328252847746,
      "grad_norm": 8.094574176465539,
      "kl": 0.037841796875,
      "learning_rate": 9.966307277628032e-07,
      "loss": 0.0015,
      "reward": 3.24609375,
      "reward_std": 0.37829458713531494,
      "rewards/accuracy_reward": 0.6484375,
      "rewards/format_count_numbers": 1.59765625,
      "rewards/format_reward": 1.0,
      "step": 105
    },
    {
      "completion_length": 80.2578125,
      "epoch": 0.006802502807636772,
      "grad_norm": 7.53058354344353,
      "kl": 0.03106689453125,
      "learning_rate": 9.965986394557822e-07,
      "loss": 0.0012,
      "reward": 3.19921875,
      "reward_std": 0.15539800375699997,
      "rewards/accuracy_reward": 0.6484375,
      "rewards/format_count_numbers": 1.56640625,
      "rewards/format_reward": 0.984375,
      "step": 106
    },
    {
      "completion_length": 75.828125,
      "epoch": 0.006866677362425798,
      "grad_norm": 10.101290133760061,
      "kl": 0.0355224609375,
      "learning_rate": 9.965665511487612e-07,
      "loss": 0.0014,
      "reward": 3.59765625,
      "reward_std": 0.2908743619918823,
      "rewards/accuracy_reward": 0.640625,
      "rewards/format_count_numbers": 1.95703125,
      "rewards/format_reward": 1.0,
      "step": 107
    },
    {
      "completion_length": 70.15625,
      "epoch": 0.006930851917214824,
      "grad_norm": 2.667528641039127,
      "kl": 0.02984619140625,
      "learning_rate": 9.965344628417405e-07,
      "loss": 0.0012,
      "reward": 3.109375,
      "reward_std": 0.21665052324533463,
      "rewards/accuracy_reward": 0.625,
      "rewards/format_count_numbers": 1.484375,
      "rewards/format_reward": 1.0,
      "step": 108
    },
    {
      "completion_length": 67.7265625,
      "epoch": 0.006995026472003851,
      "grad_norm": 1.7942554364390482,
      "kl": 0.03582763671875,
      "learning_rate": 9.965023745347195e-07,
      "loss": 0.0014,
      "reward": 3.16796875,
      "reward_std": 0.20552908629179,
      "rewards/accuracy_reward": 0.8125,
      "rewards/format_count_numbers": 1.35546875,
      "rewards/format_reward": 1.0,
      "step": 109
    },
    {
      "completion_length": 69.875,
      "epoch": 0.007059201026792876,
      "grad_norm": 3.9047862888632094,
      "kl": 0.035888671875,
      "learning_rate": 9.964702862276987e-07,
      "loss": 0.0014,
      "reward": 2.9296875,
      "reward_std": 0.21844128519296646,
      "rewards/accuracy_reward": 0.59375,
      "rewards/format_count_numbers": 1.3359375,
      "rewards/format_reward": 1.0,
      "step": 110
    },
    {
      "completion_length": 73.9296875,
      "epoch": 0.007123375581581903,
      "grad_norm": 1.9901205037970706,
      "kl": 0.0367431640625,
      "learning_rate": 9.964381979206777e-07,
      "loss": 0.0015,
      "reward": 3.80078125,
      "reward_std": 0.12836876511573792,
      "rewards/accuracy_reward": 0.8203125,
      "rewards/format_count_numbers": 1.98046875,
      "rewards/format_reward": 1.0,
      "step": 111
    },
    {
      "completion_length": 70.2265625,
      "epoch": 0.007187550136370929,
      "grad_norm": 2.6629757273994272,
      "kl": 0.029296875,
      "learning_rate": 9.964061096136569e-07,
      "loss": 0.0012,
      "reward": 2.9765625,
      "reward_std": 0.192819744348526,
      "rewards/accuracy_reward": 0.7421875,
      "rewards/format_count_numbers": 1.2421875,
      "rewards/format_reward": 0.9921875,
      "step": 112
    },
    {
      "completion_length": 89.484375,
      "epoch": 0.007251724691159955,
      "grad_norm": 2.966985281450592,
      "kl": 0.0301513671875,
      "learning_rate": 9.963740213066359e-07,
      "loss": 0.0012,
      "reward": 3.60546875,
      "reward_std": 0.2533341944217682,
      "rewards/accuracy_reward": 0.6640625,
      "rewards/format_count_numbers": 1.95703125,
      "rewards/format_reward": 0.984375,
      "step": 113
    },
    {
      "completion_length": 70.59375,
      "epoch": 0.0073158992459489815,
      "grad_norm": 2.7125397233136437,
      "kl": 0.02899169921875,
      "learning_rate": 9.963419329996149e-07,
      "loss": 0.0012,
      "reward": 3.4453125,
      "reward_std": 0.18551141023635864,
      "rewards/accuracy_reward": 0.8359375,
      "rewards/format_count_numbers": 1.609375,
      "rewards/format_reward": 1.0,
      "step": 114
    },
    {
      "completion_length": 70.8515625,
      "epoch": 0.007380073800738007,
      "grad_norm": 3.8788221946660197,
      "kl": 0.044189453125,
      "learning_rate": 9.963098446925939e-07,
      "loss": 0.0018,
      "reward": 3.2265625,
      "reward_std": 0.4408875107765198,
      "rewards/accuracy_reward": 0.5234375,
      "rewards/format_count_numbers": 1.7109375,
      "rewards/format_reward": 0.9921875,
      "step": 115
    },
    {
      "completion_length": 71.4375,
      "epoch": 0.007444248355527034,
      "grad_norm": 2.4238411680755836,
      "kl": 0.0294189453125,
      "learning_rate": 9.96277756385573e-07,
      "loss": 0.0012,
      "reward": 2.98046875,
      "reward_std": 0.3246304541826248,
      "rewards/accuracy_reward": 0.6328125,
      "rewards/format_count_numbers": 1.35546875,
      "rewards/format_reward": 0.9921875,
      "step": 116
    },
    {
      "completion_length": 75.3671875,
      "epoch": 0.007508422910316059,
      "grad_norm": 2.1672853496708027,
      "kl": 0.03167724609375,
      "learning_rate": 9.96245668078552e-07,
      "loss": 0.0013,
      "reward": 3.28515625,
      "reward_std": 0.16477391123771667,
      "rewards/accuracy_reward": 0.6796875,
      "rewards/format_count_numbers": 1.61328125,
      "rewards/format_reward": 0.9921875,
      "step": 117
    },
    {
      "completion_length": 72.8125,
      "epoch": 0.007572597465105086,
      "grad_norm": 4.153439569042706,
      "kl": 0.0335693359375,
      "learning_rate": 9.962135797715313e-07,
      "loss": 0.0013,
      "reward": 3.45703125,
      "reward_std": 0.1774558126926422,
      "rewards/accuracy_reward": 0.7265625,
      "rewards/format_count_numbers": 1.73046875,
      "rewards/format_reward": 1.0,
      "step": 118
    },
    {
      "completion_length": 71.96875,
      "epoch": 0.007636772019894112,
      "grad_norm": 4.332907387044588,
      "kl": 0.0391845703125,
      "learning_rate": 9.961814914645103e-07,
      "loss": 0.0016,
      "reward": 2.921875,
      "reward_std": 0.26686903089284897,
      "rewards/accuracy_reward": 0.7109375,
      "rewards/format_count_numbers": 1.2109375,
      "rewards/format_reward": 1.0,
      "step": 119
    },
    {
      "completion_length": 80.3671875,
      "epoch": 0.007700946574683138,
      "grad_norm": 8.242677153517718,
      "kl": 0.0345458984375,
      "learning_rate": 9.961494031574895e-07,
      "loss": 0.0014,
      "reward": 3.37890625,
      "reward_std": 0.2326306775212288,
      "rewards/accuracy_reward": 0.6640625,
      "rewards/format_count_numbers": 1.72265625,
      "rewards/format_reward": 0.9921875,
      "step": 120
    },
    {
      "completion_length": 77.03125,
      "epoch": 0.007765121129472165,
      "grad_norm": 5.62963310635079,
      "kl": 0.0301513671875,
      "learning_rate": 9.961173148504685e-07,
      "loss": 0.0012,
      "reward": 3.38671875,
      "reward_std": 0.25540195405483246,
      "rewards/accuracy_reward": 0.640625,
      "rewards/format_count_numbers": 1.74609375,
      "rewards/format_reward": 1.0,
      "step": 121
    },
    {
      "completion_length": 72.515625,
      "epoch": 0.007829295684261191,
      "grad_norm": 5.019156549606577,
      "kl": 0.0352783203125,
      "learning_rate": 9.960852265434475e-07,
      "loss": 0.0014,
      "reward": 3.07421875,
      "reward_std": 0.17285499721765518,
      "rewards/accuracy_reward": 0.734375,
      "rewards/format_count_numbers": 1.33984375,
      "rewards/format_reward": 1.0,
      "step": 122
    },
    {
      "completion_length": 72.046875,
      "epoch": 0.007893470239050217,
      "grad_norm": 172.86521654796587,
      "kl": 0.03363037109375,
      "learning_rate": 9.960531382364265e-07,
      "loss": 0.0013,
      "reward": 3.49609375,
      "reward_std": 0.18784459680318832,
      "rewards/accuracy_reward": 0.7578125,
      "rewards/format_count_numbers": 1.74609375,
      "rewards/format_reward": 0.9921875,
      "step": 123
    },
    {
      "completion_length": 81.546875,
      "epoch": 0.007957644793839242,
      "grad_norm": 2.980011330259798,
      "kl": 0.0408935546875,
      "learning_rate": 9.960210499294057e-07,
      "loss": 0.0016,
      "reward": 3.41015625,
      "reward_std": 0.26077425479888916,
      "rewards/accuracy_reward": 0.6875,
      "rewards/format_count_numbers": 1.72265625,
      "rewards/format_reward": 1.0,
      "step": 124
    },
    {
      "completion_length": 76.75,
      "epoch": 0.008021819348628268,
      "grad_norm": 11.648469118233269,
      "kl": 0.03179931640625,
      "learning_rate": 9.959889616223847e-07,
      "loss": 0.0013,
      "reward": 3.47265625,
      "reward_std": 0.2088487520813942,
      "rewards/accuracy_reward": 0.6015625,
      "rewards/format_count_numbers": 1.87109375,
      "rewards/format_reward": 1.0,
      "step": 125
    },
    {
      "completion_length": 73.171875,
      "epoch": 0.008085993903417295,
      "grad_norm": 8.91710759838637,
      "kl": 0.03350830078125,
      "learning_rate": 9.959568733153637e-07,
      "loss": 0.0013,
      "reward": 3.13671875,
      "reward_std": 0.2274910733103752,
      "rewards/accuracy_reward": 0.78125,
      "rewards/format_count_numbers": 1.35546875,
      "rewards/format_reward": 1.0,
      "step": 126
    },
    {
      "completion_length": 85.359375,
      "epoch": 0.008150168458206321,
      "grad_norm": 1.741816818144556,
      "kl": 0.0216064453125,
      "learning_rate": 9.95924785008343e-07,
      "loss": 0.0009,
      "reward": 2.6328125,
      "reward_std": 0.1547919102013111,
      "rewards/accuracy_reward": 0.6484375,
      "rewards/format_count_numbers": 0.984375,
      "rewards/format_reward": 1.0,
      "step": 127
    },
    {
      "completion_length": 74.5625,
      "epoch": 0.008214343012995347,
      "grad_norm": 2.6793007127892614,
      "kl": 0.0460205078125,
      "learning_rate": 9.95892696701322e-07,
      "loss": 0.0018,
      "reward": 3.48046875,
      "reward_std": 0.188736230134964,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_count_numbers": 1.73828125,
      "rewards/format_reward": 0.9921875,
      "step": 128
    },
    {
      "completion_length": 80.5390625,
      "epoch": 0.008278517567784374,
      "grad_norm": 8.14669625843878,
      "kl": 0.03326416015625,
      "learning_rate": 9.958606083943011e-07,
      "loss": 0.0013,
      "reward": 3.59765625,
      "reward_std": 0.23143374174833298,
      "rewards/accuracy_reward": 0.7421875,
      "rewards/format_count_numbers": 1.86328125,
      "rewards/format_reward": 0.9921875,
      "step": 129
    },
    {
      "completion_length": 82.234375,
      "epoch": 0.0083426921225734,
      "grad_norm": 2.7245691995074965,
      "kl": 0.02880859375,
      "learning_rate": 9.958285200872801e-07,
      "loss": 0.0012,
      "reward": 3.0703125,
      "reward_std": 0.28687404096126556,
      "rewards/accuracy_reward": 0.5078125,
      "rewards/format_count_numbers": 1.5703125,
      "rewards/format_reward": 0.9921875,
      "step": 130
    },
    {
      "completion_length": 73.1328125,
      "epoch": 0.008406866677362426,
      "grad_norm": 5.3208068953625345,
      "kl": 0.03204345703125,
      "learning_rate": 9.957964317802592e-07,
      "loss": 0.0013,
      "reward": 3.03125,
      "reward_std": 0.19568345695734024,
      "rewards/accuracy_reward": 0.78125,
      "rewards/format_count_numbers": 1.25,
      "rewards/format_reward": 1.0,
      "step": 131
    },
    {
      "completion_length": 73.2734375,
      "epoch": 0.008471041232151451,
      "grad_norm": 2.684705369760692,
      "kl": 0.03472900390625,
      "learning_rate": 9.957643434732384e-07,
      "loss": 0.0014,
      "reward": 3.34375,
      "reward_std": 0.1942191794514656,
      "rewards/accuracy_reward": 0.78125,
      "rewards/format_count_numbers": 1.5625,
      "rewards/format_reward": 1.0,
      "step": 132
    },
    {
      "completion_length": 79.359375,
      "epoch": 0.008535215786940479,
      "grad_norm": 4.770259276932602,
      "kl": 0.03912353515625,
      "learning_rate": 9.957322551662174e-07,
      "loss": 0.0016,
      "reward": 3.38671875,
      "reward_std": 0.28095004707574844,
      "rewards/accuracy_reward": 0.671875,
      "rewards/format_count_numbers": 1.72265625,
      "rewards/format_reward": 0.9921875,
      "step": 133
    },
    {
      "completion_length": 77.875,
      "epoch": 0.008599390341729504,
      "grad_norm": 2.007034772347311,
      "kl": 0.0369873046875,
      "learning_rate": 9.957001668591964e-07,
      "loss": 0.0015,
      "reward": 3.41796875,
      "reward_std": 0.15443194285035133,
      "rewards/accuracy_reward": 0.8046875,
      "rewards/format_count_numbers": 1.61328125,
      "rewards/format_reward": 1.0,
      "step": 134
    },
    {
      "completion_length": 76.3671875,
      "epoch": 0.00866356489651853,
      "grad_norm": 5.867057502447185,
      "kl": 0.03289794921875,
      "learning_rate": 9.956680785521756e-07,
      "loss": 0.0013,
      "reward": 3.31640625,
      "reward_std": 0.260734885931015,
      "rewards/accuracy_reward": 0.578125,
      "rewards/format_count_numbers": 1.73828125,
      "rewards/format_reward": 1.0,
      "step": 135
    },
    {
      "completion_length": 91.40625,
      "epoch": 0.008727739451307557,
      "grad_norm": 3.3264591723301042,
      "kl": 0.037841796875,
      "learning_rate": 9.956359902451546e-07,
      "loss": 0.0015,
      "reward": 3.01171875,
      "reward_std": 0.2456851825118065,
      "rewards/accuracy_reward": 0.421875,
      "rewards/format_count_numbers": 1.58984375,
      "rewards/format_reward": 1.0,
      "step": 136
    },
    {
      "completion_length": 73.9609375,
      "epoch": 0.008791914006096583,
      "grad_norm": 1.8525091716102906,
      "kl": 0.02886962890625,
      "learning_rate": 9.956039019381338e-07,
      "loss": 0.0012,
      "reward": 3.16796875,
      "reward_std": 0.054446361027657986,
      "rewards/accuracy_reward": 0.8046875,
      "rewards/format_count_numbers": 1.36328125,
      "rewards/format_reward": 1.0,
      "step": 137
    },
    {
      "completion_length": 82.421875,
      "epoch": 0.008856088560885609,
      "grad_norm": 3.221242319181372,
      "kl": 0.0504150390625,
      "learning_rate": 9.955718136311128e-07,
      "loss": 0.002,
      "reward": 3.38671875,
      "reward_std": 0.24750632792711258,
      "rewards/accuracy_reward": 0.671875,
      "rewards/format_count_numbers": 1.72265625,
      "rewards/format_reward": 0.9921875,
      "step": 138
    },
    {
      "completion_length": 78.4296875,
      "epoch": 0.008920263115674634,
      "grad_norm": 2.908425383296693,
      "kl": 0.02789306640625,
      "learning_rate": 9.955397253240918e-07,
      "loss": 0.0011,
      "reward": 3.140625,
      "reward_std": 0.22043407708406448,
      "rewards/accuracy_reward": 0.6484375,
      "rewards/format_count_numbers": 1.5,
      "rewards/format_reward": 0.9921875,
      "step": 139
    },
    {
      "completion_length": 76.2734375,
      "epoch": 0.008984437670463662,
      "grad_norm": 69.81281381804405,
      "kl": 0.037353515625,
      "learning_rate": 9.95507637017071e-07,
      "loss": 0.0015,
      "reward": 3.2265625,
      "reward_std": 0.25224410742521286,
      "rewards/accuracy_reward": 0.6328125,
      "rewards/format_count_numbers": 1.6015625,
      "rewards/format_reward": 0.9921875,
      "step": 140
    },
    {
      "completion_length": 84.6953125,
      "epoch": 0.009048612225252687,
      "grad_norm": 5.582225121353137,
      "kl": 0.0328369140625,
      "learning_rate": 9.9547554871005e-07,
      "loss": 0.0013,
      "reward": 3.0546875,
      "reward_std": 0.24409383535385132,
      "rewards/accuracy_reward": 0.578125,
      "rewards/format_count_numbers": 1.4765625,
      "rewards/format_reward": 1.0,
      "step": 141
    },
    {
      "completion_length": 86.4921875,
      "epoch": 0.009112786780041713,
      "grad_norm": 6.841154880421374,
      "kl": 0.1744384765625,
      "learning_rate": 9.95443460403029e-07,
      "loss": 0.007,
      "reward": 3.17578125,
      "reward_std": 0.16243606060743332,
      "rewards/accuracy_reward": 0.6875,
      "rewards/format_count_numbers": 1.48828125,
      "rewards/format_reward": 1.0,
      "step": 142
    },
    {
      "completion_length": 84.5703125,
      "epoch": 0.00917696133483074,
      "grad_norm": 3.638970858152364,
      "kl": 0.0343017578125,
      "learning_rate": 9.954113720960082e-07,
      "loss": 0.0014,
      "reward": 3.23828125,
      "reward_std": 0.27304429560899734,
      "rewards/accuracy_reward": 0.515625,
      "rewards/format_count_numbers": 1.72265625,
      "rewards/format_reward": 1.0,
      "step": 143
    },
    {
      "completion_length": 83.40625,
      "epoch": 0.009241135889619766,
      "grad_norm": 4.522345160206695,
      "kl": 0.0487060546875,
      "learning_rate": 9.953792837889872e-07,
      "loss": 0.0019,
      "reward": 3.37109375,
      "reward_std": 0.2966039180755615,
      "rewards/accuracy_reward": 0.640625,
      "rewards/format_count_numbers": 1.73046875,
      "rewards/format_reward": 1.0,
      "step": 144
    },
    {
      "completion_length": 83.421875,
      "epoch": 0.009305310444408792,
      "grad_norm": 7.380300919018527,
      "kl": 0.02728271484375,
      "learning_rate": 9.953471954819664e-07,
      "loss": 0.0011,
      "reward": 3.1875,
      "reward_std": 0.21595831215381622,
      "rewards/accuracy_reward": 0.5625,
      "rewards/format_count_numbers": 1.625,
      "rewards/format_reward": 1.0,
      "step": 145
    },
    {
      "completion_length": 87.9140625,
      "epoch": 0.009369484999197817,
      "grad_norm": 5.3843936760731435,
      "kl": 0.0396728515625,
      "learning_rate": 9.953151071749454e-07,
      "loss": 0.0016,
      "reward": 3.48828125,
      "reward_std": 0.29947739839553833,
      "rewards/accuracy_reward": 0.6640625,
      "rewards/format_count_numbers": 1.82421875,
      "rewards/format_reward": 1.0,
      "step": 146
    },
    {
      "completion_length": 84.15625,
      "epoch": 0.009433659553986845,
      "grad_norm": 2.10354290562444,
      "kl": 0.035400390625,
      "learning_rate": 9.952830188679244e-07,
      "loss": 0.0014,
      "reward": 3.2421875,
      "reward_std": 0.13888052850961685,
      "rewards/accuracy_reward": 0.625,
      "rewards/format_count_numbers": 1.6171875,
      "rewards/format_reward": 1.0,
      "step": 147
    },
    {
      "completion_length": 85.2265625,
      "epoch": 0.00949783410877587,
      "grad_norm": 26.198299549627695,
      "kl": 0.0377197265625,
      "learning_rate": 9.952509305609036e-07,
      "loss": 0.0015,
      "reward": 3.19921875,
      "reward_std": 0.3435995280742645,
      "rewards/accuracy_reward": 0.484375,
      "rewards/format_count_numbers": 1.71484375,
      "rewards/format_reward": 1.0,
      "step": 148
    },
    {
      "completion_length": 77.6875,
      "epoch": 0.009562008663564896,
      "grad_norm": 2.2014767998798597,
      "kl": 0.04052734375,
      "learning_rate": 9.952188422538826e-07,
      "loss": 0.0016,
      "reward": 3.109375,
      "reward_std": 0.18990949541330338,
      "rewards/accuracy_reward": 0.609375,
      "rewards/format_count_numbers": 1.5,
      "rewards/format_reward": 1.0,
      "step": 149
    },
    {
      "completion_length": 86.5234375,
      "epoch": 0.009626183218353923,
      "grad_norm": 3.7167303088615733,
      "kl": 0.02752685546875,
      "learning_rate": 9.951867539468616e-07,
      "loss": 0.0011,
      "reward": 3.0703125,
      "reward_std": 0.3137922137975693,
      "rewards/accuracy_reward": 0.6015625,
      "rewards/format_count_numbers": 1.4765625,
      "rewards/format_reward": 0.9921875,
      "step": 150
    },
    {
      "completion_length": 85.1640625,
      "epoch": 0.009690357773142949,
      "grad_norm": 4.175840708663256,
      "kl": 0.0296630859375,
      "learning_rate": 9.951546656398408e-07,
      "loss": 0.0012,
      "reward": 3.41015625,
      "reward_std": 0.18387350719422102,
      "rewards/accuracy_reward": 0.6875,
      "rewards/format_count_numbers": 1.73046875,
      "rewards/format_reward": 0.9921875,
      "step": 151
    },
    {
      "completion_length": 78.6015625,
      "epoch": 0.009754532327931975,
      "grad_norm": 1.9822559184582953,
      "kl": 0.0369873046875,
      "learning_rate": 9.951225773328198e-07,
      "loss": 0.0015,
      "reward": 3.30078125,
      "reward_std": 0.22633200883865356,
      "rewards/accuracy_reward": 0.5703125,
      "rewards/format_count_numbers": 1.73046875,
      "rewards/format_reward": 1.0,
      "step": 152
    },
    {
      "completion_length": 100.1953125,
      "epoch": 0.009818706882721,
      "grad_norm": 6.95505305805243,
      "kl": 0.0323486328125,
      "learning_rate": 9.950904890257988e-07,
      "loss": 0.0013,
      "reward": 3.3828125,
      "reward_std": 0.27803826332092285,
      "rewards/accuracy_reward": 0.5703125,
      "rewards/format_count_numbers": 1.8359375,
      "rewards/format_reward": 0.9765625,
      "step": 153
    },
    {
      "completion_length": 96.5703125,
      "epoch": 0.009882881437510028,
      "grad_norm": 3.906970922010899,
      "kl": 0.04315185546875,
      "learning_rate": 9.95058400718778e-07,
      "loss": 0.0017,
      "reward": 3.19140625,
      "reward_std": 0.4169163405895233,
      "rewards/accuracy_reward": 0.640625,
      "rewards/format_count_numbers": 1.58984375,
      "rewards/format_reward": 0.9609375,
      "step": 154
    },
    {
      "completion_length": 80.3359375,
      "epoch": 0.009947055992299053,
      "grad_norm": 3.628791735089063,
      "kl": 0.02752685546875,
      "learning_rate": 9.95026312411757e-07,
      "loss": 0.0011,
      "reward": 2.9140625,
      "reward_std": 0.29985813796520233,
      "rewards/accuracy_reward": 0.671875,
      "rewards/format_count_numbers": 1.25,
      "rewards/format_reward": 0.9921875,
      "step": 155
    },
    {
      "completion_length": 89.8046875,
      "epoch": 0.01001123054708808,
      "grad_norm": 2.993371763950907,
      "kl": 0.02532958984375,
      "learning_rate": 9.949942241047363e-07,
      "loss": 0.001,
      "reward": 3.5703125,
      "reward_std": 0.34663237631320953,
      "rewards/accuracy_reward": 0.625,
      "rewards/format_count_numbers": 1.9609375,
      "rewards/format_reward": 0.984375,
      "step": 156
    },
    {
      "completion_length": 82.5,
      "epoch": 0.010075405101877107,
      "grad_norm": 3.4536790618347486,
      "kl": 0.03021240234375,
      "learning_rate": 9.949621357977153e-07,
      "loss": 0.0012,
      "reward": 3.48828125,
      "reward_std": 0.2875918447971344,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_count_numbers": 1.74609375,
      "rewards/format_reward": 0.9921875,
      "step": 157
    },
    {
      "completion_length": 84.484375,
      "epoch": 0.010139579656666132,
      "grad_norm": 9.831040603261537,
      "kl": 0.220703125,
      "learning_rate": 9.949300474906943e-07,
      "loss": 0.0088,
      "reward": 3.58203125,
      "reward_std": 0.11652141809463501,
      "rewards/accuracy_reward": 0.7109375,
      "rewards/format_count_numbers": 1.87109375,
      "rewards/format_reward": 1.0,
      "step": 158
    },
    {
      "completion_length": 85.0859375,
      "epoch": 0.010203754211455158,
      "grad_norm": 38.92993687592298,
      "kl": 0.0340576171875,
      "learning_rate": 9.948979591836735e-07,
      "loss": 0.0014,
      "reward": 3.5625,
      "reward_std": 0.15991678088903427,
      "rewards/accuracy_reward": 0.8203125,
      "rewards/format_count_numbers": 1.7421875,
      "rewards/format_reward": 1.0,
      "step": 159
    },
    {
      "completion_length": 79.046875,
      "epoch": 0.010267928766244184,
      "grad_norm": 4.0346708620650835,
      "kl": 0.02191162109375,
      "learning_rate": 9.948658708766525e-07,
      "loss": 0.0009,
      "reward": 2.9921875,
      "reward_std": 0.2673698216676712,
      "rewards/accuracy_reward": 0.78125,
      "rewards/format_count_numbers": 1.2265625,
      "rewards/format_reward": 0.984375,
      "step": 160
    },
    {
      "completion_length": 93.453125,
      "epoch": 0.010332103321033211,
      "grad_norm": 1.8562842308505547,
      "kl": 0.037353515625,
      "learning_rate": 9.948337825696315e-07,
      "loss": 0.0015,
      "reward": 3.1875,
      "reward_std": 0.19912117719650269,
      "rewards/accuracy_reward": 0.6015625,
      "rewards/format_count_numbers": 1.5859375,
      "rewards/format_reward": 1.0,
      "step": 161
    },
    {
      "completion_length": 83.734375,
      "epoch": 0.010396277875822237,
      "grad_norm": 6.323565148375347,
      "kl": 0.02825927734375,
      "learning_rate": 9.948016942626107e-07,
      "loss": 0.0011,
      "reward": 3.34375,
      "reward_std": 0.21071936190128326,
      "rewards/accuracy_reward": 0.7421875,
      "rewards/format_count_numbers": 1.6171875,
      "rewards/format_reward": 0.984375,
      "step": 162
    },
    {
      "completion_length": 81.3046875,
      "epoch": 0.010460452430611262,
      "grad_norm": 4.139572905745001,
      "kl": 0.029052734375,
      "learning_rate": 9.947696059555897e-07,
      "loss": 0.0012,
      "reward": 3.04296875,
      "reward_std": 0.29703205823898315,
      "rewards/accuracy_reward": 0.5625,
      "rewards/format_count_numbers": 1.48046875,
      "rewards/format_reward": 1.0,
      "step": 163
    },
    {
      "completion_length": 76.125,
      "epoch": 0.01052462698540029,
      "grad_norm": 2.7648686464439822,
      "kl": 0.0252685546875,
      "learning_rate": 9.94737517648569e-07,
      "loss": 0.001,
      "reward": 3.390625,
      "reward_std": 0.17688900232315063,
      "rewards/accuracy_reward": 0.78125,
      "rewards/format_count_numbers": 1.609375,
      "rewards/format_reward": 1.0,
      "step": 164
    },
    {
      "completion_length": 80.359375,
      "epoch": 0.010588801540189315,
      "grad_norm": 8.517375820803469,
      "kl": 0.03009033203125,
      "learning_rate": 9.94705429341548e-07,
      "loss": 0.0012,
      "reward": 3.12109375,
      "reward_std": 0.33453139662742615,
      "rewards/accuracy_reward": 0.671875,
      "rewards/format_count_numbers": 1.46484375,
      "rewards/format_reward": 0.984375,
      "step": 165
    },
    {
      "completion_length": 74.140625,
      "epoch": 0.010652976094978341,
      "grad_norm": 13.798127005048082,
      "kl": 0.03436279296875,
      "learning_rate": 9.94673341034527e-07,
      "loss": 0.0014,
      "reward": 3.32421875,
      "reward_std": 0.1938636675477028,
      "rewards/accuracy_reward": 0.8515625,
      "rewards/format_count_numbers": 1.47265625,
      "rewards/format_reward": 1.0,
      "step": 166
    },
    {
      "completion_length": 89.6875,
      "epoch": 0.010717150649767367,
      "grad_norm": 1.4991333191981464,
      "kl": 0.031005859375,
      "learning_rate": 9.946412527275061e-07,
      "loss": 0.0012,
      "reward": 3.08984375,
      "reward_std": 0.256519578397274,
      "rewards/accuracy_reward": 0.53125,
      "rewards/format_count_numbers": 1.56640625,
      "rewards/format_reward": 0.9921875,
      "step": 167
    },
    {
      "completion_length": 75.0703125,
      "epoch": 0.010781325204556394,
      "grad_norm": 3.45279085370487,
      "kl": 0.0384521484375,
      "learning_rate": 9.946091644204851e-07,
      "loss": 0.0015,
      "reward": 3.671875,
      "reward_std": 0.25596361607313156,
      "rewards/accuracy_reward": 0.8046875,
      "rewards/format_count_numbers": 1.8671875,
      "rewards/format_reward": 1.0,
      "step": 168
    },
    {
      "completion_length": 83.171875,
      "epoch": 0.01084549975934542,
      "grad_norm": 3.2484122379759017,
      "kl": 0.03173828125,
      "learning_rate": 9.945770761134641e-07,
      "loss": 0.0013,
      "reward": 3.234375,
      "reward_std": 0.20317253470420837,
      "rewards/accuracy_reward": 0.78125,
      "rewards/format_count_numbers": 1.453125,
      "rewards/format_reward": 1.0,
      "step": 169
    },
    {
      "completion_length": 82.7734375,
      "epoch": 0.010909674314134445,
      "grad_norm": 6.212774921649588,
      "kl": 0.0299072265625,
      "learning_rate": 9.945449878064433e-07,
      "loss": 0.0012,
      "reward": 3.49609375,
      "reward_std": 0.12981030344963074,
      "rewards/accuracy_reward": 0.765625,
      "rewards/format_count_numbers": 1.73046875,
      "rewards/format_reward": 1.0,
      "step": 170
    },
    {
      "completion_length": 73.2578125,
      "epoch": 0.010973848868923473,
      "grad_norm": 2.7189307025534237,
      "kl": 0.03564453125,
      "learning_rate": 9.945128994994223e-07,
      "loss": 0.0014,
      "reward": 3.0546875,
      "reward_std": 0.10720711201429367,
      "rewards/accuracy_reward": 0.8203125,
      "rewards/format_count_numbers": 1.234375,
      "rewards/format_reward": 1.0,
      "step": 171
    },
    {
      "completion_length": 76.7578125,
      "epoch": 0.011038023423712498,
      "grad_norm": 2.9999929786732147,
      "kl": 0.03466796875,
      "learning_rate": 9.944808111924015e-07,
      "loss": 0.0014,
      "reward": 3.20703125,
      "reward_std": 0.2519870027899742,
      "rewards/accuracy_reward": 0.7109375,
      "rewards/format_count_numbers": 1.49609375,
      "rewards/format_reward": 1.0,
      "step": 172
    },
    {
      "completion_length": 76.9375,
      "epoch": 0.011102197978501524,
      "grad_norm": 2.873932479263256,
      "kl": 0.037109375,
      "learning_rate": 9.944487228853805e-07,
      "loss": 0.0015,
      "reward": 3.3046875,
      "reward_std": 0.2227931022644043,
      "rewards/accuracy_reward": 0.6796875,
      "rewards/format_count_numbers": 1.625,
      "rewards/format_reward": 1.0,
      "step": 173
    },
    {
      "completion_length": 69.9296875,
      "epoch": 0.01116637253329055,
      "grad_norm": 6.091517398086225,
      "kl": 0.03564453125,
      "learning_rate": 9.944166345783595e-07,
      "loss": 0.0014,
      "reward": 3.5078125,
      "reward_std": 0.18962866812944412,
      "rewards/accuracy_reward": 0.7734375,
      "rewards/format_count_numbers": 1.734375,
      "rewards/format_reward": 1.0,
      "step": 174
    },
    {
      "completion_length": 80.5625,
      "epoch": 0.011230547088079577,
      "grad_norm": 2.820888222245219,
      "kl": 0.044189453125,
      "learning_rate": 9.943845462713388e-07,
      "loss": 0.0018,
      "reward": 2.97265625,
      "reward_std": 0.1426027175039053,
      "rewards/accuracy_reward": 0.6328125,
      "rewards/format_count_numbers": 1.33984375,
      "rewards/format_reward": 1.0,
      "step": 175
    },
    {
      "completion_length": 80.125,
      "epoch": 0.011294721642868603,
      "grad_norm": 2.2693076636170884,
      "kl": 0.05224609375,
      "learning_rate": 9.943524579643178e-07,
      "loss": 0.0021,
      "reward": 3.0703125,
      "reward_std": 0.27271443605422974,
      "rewards/accuracy_reward": 0.34375,
      "rewards/format_count_numbers": 1.7265625,
      "rewards/format_reward": 1.0,
      "step": 176
    },
    {
      "completion_length": 71.1640625,
      "epoch": 0.011358896197657628,
      "grad_norm": 5.291209352425651,
      "kl": 0.03515625,
      "learning_rate": 9.943203696572968e-07,
      "loss": 0.0014,
      "reward": 2.99609375,
      "reward_std": 0.3106383979320526,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_count_numbers": 1.49609375,
      "rewards/format_reward": 1.0,
      "step": 177
    },
    {
      "completion_length": 73.984375,
      "epoch": 0.011423070752446654,
      "grad_norm": 5.5675141265794945,
      "kl": 0.039306640625,
      "learning_rate": 9.94288281350276e-07,
      "loss": 0.0016,
      "reward": 3.31640625,
      "reward_std": 0.2747081220149994,
      "rewards/accuracy_reward": 0.71875,
      "rewards/format_count_numbers": 1.60546875,
      "rewards/format_reward": 0.9921875,
      "step": 178
    },
    {
      "completion_length": 70.0703125,
      "epoch": 0.011487245307235681,
      "grad_norm": 6.985645753951893,
      "kl": 0.0343017578125,
      "learning_rate": 9.94256193043255e-07,
      "loss": 0.0014,
      "reward": 3.15234375,
      "reward_std": 0.17097023129463196,
      "rewards/accuracy_reward": 0.65625,
      "rewards/format_count_numbers": 1.49609375,
      "rewards/format_reward": 1.0,
      "step": 179
    },
    {
      "completion_length": 71.8203125,
      "epoch": 0.011551419862024707,
      "grad_norm": 7.739954317659845,
      "kl": 0.041259765625,
      "learning_rate": 9.942241047362342e-07,
      "loss": 0.0017,
      "reward": 3.19140625,
      "reward_std": 0.16861121356487274,
      "rewards/accuracy_reward": 0.8203125,
      "rewards/format_count_numbers": 1.37109375,
      "rewards/format_reward": 1.0,
      "step": 180
    },
    {
      "completion_length": 84.7265625,
      "epoch": 0.011615594416813733,
      "grad_norm": 9.13554190308794,
      "kl": 0.04150390625,
      "learning_rate": 9.941920164292132e-07,
      "loss": 0.0017,
      "reward": 3.16015625,
      "reward_std": 0.18764331191778183,
      "rewards/accuracy_reward": 0.4453125,
      "rewards/format_count_numbers": 1.72265625,
      "rewards/format_reward": 0.9921875,
      "step": 181
    },
    {
      "completion_length": 68.8125,
      "epoch": 0.01167976897160276,
      "grad_norm": 6.684857907458709,
      "kl": 0.037109375,
      "learning_rate": 9.941599281221922e-07,
      "loss": 0.0015,
      "reward": 3.42578125,
      "reward_std": 0.10340797528624535,
      "rewards/accuracy_reward": 0.8046875,
      "rewards/format_count_numbers": 1.62109375,
      "rewards/format_reward": 1.0,
      "step": 182
    },
    {
      "completion_length": 62.53125,
      "epoch": 0.011743943526391786,
      "grad_norm": 20.276682439562684,
      "kl": 0.0408935546875,
      "learning_rate": 9.941278398151714e-07,
      "loss": 0.0016,
      "reward": 2.91796875,
      "reward_std": 0.2412276715040207,
      "rewards/accuracy_reward": 0.796875,
      "rewards/format_count_numbers": 1.12109375,
      "rewards/format_reward": 1.0,
      "step": 183
    },
    {
      "completion_length": 73.6484375,
      "epoch": 0.011808118081180811,
      "grad_norm": 1.2059821012195944,
      "kl": 0.036376953125,
      "learning_rate": 9.940957515081504e-07,
      "loss": 0.0015,
      "reward": 3.296875,
      "reward_std": 0.11225596815347672,
      "rewards/accuracy_reward": 0.6875,
      "rewards/format_count_numbers": 1.609375,
      "rewards/format_reward": 1.0,
      "step": 184
    },
    {
      "completion_length": 63.8671875,
      "epoch": 0.011872292635969837,
      "grad_norm": 3.6775666032489127,
      "kl": 0.035888671875,
      "learning_rate": 9.940636632011294e-07,
      "loss": 0.0014,
      "reward": 3.5390625,
      "reward_std": 0.18884866684675217,
      "rewards/accuracy_reward": 0.7890625,
      "rewards/format_count_numbers": 1.75,
      "rewards/format_reward": 1.0,
      "step": 185
    },
    {
      "completion_length": 72.78125,
      "epoch": 0.011936467190758865,
      "grad_norm": 4.4157184419582975,
      "kl": 0.041015625,
      "learning_rate": 9.940315748941084e-07,
      "loss": 0.0016,
      "reward": 3.25,
      "reward_std": 0.23224648088216782,
      "rewards/accuracy_reward": 0.7890625,
      "rewards/format_count_numbers": 1.4765625,
      "rewards/format_reward": 0.984375,
      "step": 186
    },
    {
      "completion_length": 71.859375,
      "epoch": 0.01200064174554789,
      "grad_norm": 9.668761760285799,
      "kl": 0.0509033203125,
      "learning_rate": 9.939994865870876e-07,
      "loss": 0.002,
      "reward": 3.3203125,
      "reward_std": 0.23759140819311142,
      "rewards/accuracy_reward": 0.703125,
      "rewards/format_count_numbers": 1.6171875,
      "rewards/format_reward": 1.0,
      "step": 187
    },
    {
      "completion_length": 80.5859375,
      "epoch": 0.012064816300336916,
      "grad_norm": 3.460844463396569,
      "kl": 0.0325927734375,
      "learning_rate": 9.939673982800666e-07,
      "loss": 0.0013,
      "reward": 2.9921875,
      "reward_std": 0.24632348865270615,
      "rewards/accuracy_reward": 0.6328125,
      "rewards/format_count_numbers": 1.3671875,
      "rewards/format_reward": 0.9921875,
      "step": 188
    },
    {
      "completion_length": 73.109375,
      "epoch": 0.012128990855125943,
      "grad_norm": 6.373996408717781,
      "kl": 0.03350830078125,
      "learning_rate": 9.939353099730458e-07,
      "loss": 0.0013,
      "reward": 3.39453125,
      "reward_std": 0.1775766797363758,
      "rewards/accuracy_reward": 0.65625,
      "rewards/format_count_numbers": 1.73828125,
      "rewards/format_reward": 1.0,
      "step": 189
    },
    {
      "completion_length": 70.765625,
      "epoch": 0.012193165409914969,
      "grad_norm": 10.07291127206197,
      "kl": 0.0396728515625,
      "learning_rate": 9.939032216660248e-07,
      "loss": 0.0016,
      "reward": 3.1953125,
      "reward_std": 0.14389308914542198,
      "rewards/accuracy_reward": 0.7109375,
      "rewards/format_count_numbers": 1.484375,
      "rewards/format_reward": 1.0,
      "step": 190
    },
    {
      "completion_length": 87.0390625,
      "epoch": 0.012257339964703995,
      "grad_norm": 4.055183447098594,
      "kl": 0.0389404296875,
      "learning_rate": 9.93871133359004e-07,
      "loss": 0.0016,
      "reward": 3.34765625,
      "reward_std": 0.20216327160596848,
      "rewards/accuracy_reward": 0.625,
      "rewards/format_count_numbers": 1.72265625,
      "rewards/format_reward": 1.0,
      "step": 191
    },
    {
      "completion_length": 72.328125,
      "epoch": 0.01232151451949302,
      "grad_norm": 2.64817332710522,
      "kl": 0.056396484375,
      "learning_rate": 9.93839045051983e-07,
      "loss": 0.0023,
      "reward": 3.703125,
      "reward_std": 0.17855798825621605,
      "rewards/accuracy_reward": 0.8359375,
      "rewards/format_count_numbers": 1.8671875,
      "rewards/format_reward": 1.0,
      "step": 192
    },
    {
      "completion_length": 71.125,
      "epoch": 0.012385689074282048,
      "grad_norm": 2.216725629073317,
      "kl": 0.0364990234375,
      "learning_rate": 9.93806956744962e-07,
      "loss": 0.0015,
      "reward": 3.11328125,
      "reward_std": 0.20756448060274124,
      "rewards/accuracy_reward": 0.625,
      "rewards/format_count_numbers": 1.48828125,
      "rewards/format_reward": 1.0,
      "step": 193
    },
    {
      "completion_length": 75.53125,
      "epoch": 0.012449863629071073,
      "grad_norm": 11.231387091604994,
      "kl": 0.0382080078125,
      "learning_rate": 9.93774868437941e-07,
      "loss": 0.0015,
      "reward": 2.97265625,
      "reward_std": 0.2857213169336319,
      "rewards/accuracy_reward": 0.734375,
      "rewards/format_count_numbers": 1.23828125,
      "rewards/format_reward": 1.0,
      "step": 194
    },
    {
      "completion_length": 81.8046875,
      "epoch": 0.012514038183860099,
      "grad_norm": 2.6049661013831455,
      "kl": 0.03643798828125,
      "learning_rate": 9.937427801309202e-07,
      "loss": 0.0015,
      "reward": 3.37890625,
      "reward_std": 0.3019161969423294,
      "rewards/accuracy_reward": 0.5546875,
      "rewards/format_count_numbers": 1.83984375,
      "rewards/format_reward": 0.984375,
      "step": 195
    },
    {
      "completion_length": 79.828125,
      "epoch": 0.012578212738649126,
      "grad_norm": 5.08982880552597,
      "kl": 0.044189453125,
      "learning_rate": 9.937106918238992e-07,
      "loss": 0.0018,
      "reward": 3.02734375,
      "reward_std": 0.26120351254940033,
      "rewards/accuracy_reward": 0.546875,
      "rewards/format_count_numbers": 1.48046875,
      "rewards/format_reward": 1.0,
      "step": 196
    },
    {
      "completion_length": 87.5625,
      "epoch": 0.012642387293438152,
      "grad_norm": 2.5047610674660783,
      "kl": 0.02960205078125,
      "learning_rate": 9.936786035168785e-07,
      "loss": 0.0012,
      "reward": 3.0859375,
      "reward_std": 0.252044215798378,
      "rewards/accuracy_reward": 0.59375,
      "rewards/format_count_numbers": 1.4921875,
      "rewards/format_reward": 1.0,
      "step": 197
    },
    {
      "completion_length": 89.09375,
      "epoch": 0.012706561848227178,
      "grad_norm": 3.913485159688576,
      "kl": 0.0316162109375,
      "learning_rate": 9.936465152098575e-07,
      "loss": 0.0013,
      "reward": 3.2265625,
      "reward_std": 0.2882782071828842,
      "rewards/accuracy_reward": 0.6328125,
      "rewards/format_count_numbers": 1.59375,
      "rewards/format_reward": 1.0,
      "step": 198
    },
    {
      "completion_length": 96.53125,
      "epoch": 0.012770736403016203,
      "grad_norm": 3.69506908248979,
      "kl": 0.0374755859375,
      "learning_rate": 9.936144269028367e-07,
      "loss": 0.0015,
      "reward": 3.234375,
      "reward_std": 0.2950380742549896,
      "rewards/accuracy_reward": 0.5234375,
      "rewards/format_count_numbers": 1.7109375,
      "rewards/format_reward": 1.0,
      "step": 199
    },
    {
      "completion_length": 78.390625,
      "epoch": 0.01283491095780523,
      "grad_norm": 5.212393233018134,
      "kl": 0.0321044921875,
      "learning_rate": 9.935823385958157e-07,
      "loss": 0.0013,
      "reward": 3.40234375,
      "reward_std": 0.20039305090904236,
      "rewards/accuracy_reward": 0.65625,
      "rewards/format_count_numbers": 1.74609375,
      "rewards/format_reward": 1.0,
      "step": 200
    },
    {
      "completion_length": 83.125,
      "epoch": 0.012899085512594256,
      "grad_norm": 3.0260540550479265,
      "kl": 0.03851318359375,
      "learning_rate": 9.935502502887947e-07,
      "loss": 0.0015,
      "reward": 3.0625,
      "reward_std": 0.18484792113304138,
      "rewards/accuracy_reward": 0.609375,
      "rewards/format_count_numbers": 1.453125,
      "rewards/format_reward": 1.0,
      "step": 201
    },
    {
      "completion_length": 81.5390625,
      "epoch": 0.012963260067383282,
      "grad_norm": 2.089500151762205,
      "kl": 0.034423828125,
      "learning_rate": 9.935181619817739e-07,
      "loss": 0.0014,
      "reward": 3.6171875,
      "reward_std": 0.18465957045555115,
      "rewards/accuracy_reward": 0.7421875,
      "rewards/format_count_numbers": 1.875,
      "rewards/format_reward": 1.0,
      "step": 202
    },
    {
      "completion_length": 90.375,
      "epoch": 0.01302743462217231,
      "grad_norm": 18.632411583304346,
      "kl": 0.0343017578125,
      "learning_rate": 9.934860736747529e-07,
      "loss": 0.0014,
      "reward": 3.25390625,
      "reward_std": 0.36827754974365234,
      "rewards/accuracy_reward": 0.53125,
      "rewards/format_count_numbers": 1.73046875,
      "rewards/format_reward": 0.9921875,
      "step": 203
    },
    {
      "completion_length": 86.1328125,
      "epoch": 0.013091609176961335,
      "grad_norm": 5.396951218544426,
      "kl": 0.0369873046875,
      "learning_rate": 9.934539853677319e-07,
      "loss": 0.0015,
      "reward": 3.75390625,
      "reward_std": 0.23330486565828323,
      "rewards/accuracy_reward": 0.7578125,
      "rewards/format_count_numbers": 1.99609375,
      "rewards/format_reward": 1.0,
      "step": 204
    },
    {
      "completion_length": 91.9453125,
      "epoch": 0.01315578373175036,
      "grad_norm": 3.7175516651631333,
      "kl": 0.02880859375,
      "learning_rate": 9.93421897060711e-07,
      "loss": 0.0012,
      "reward": 2.97265625,
      "reward_std": 0.3149999529123306,
      "rewards/accuracy_reward": 0.5234375,
      "rewards/format_count_numbers": 1.45703125,
      "rewards/format_reward": 0.9921875,
      "step": 205
    },
    {
      "completion_length": 85.7578125,
      "epoch": 0.013219958286539386,
      "grad_norm": 3.488289812379485,
      "kl": 0.02825927734375,
      "learning_rate": 9.9338980875369e-07,
      "loss": 0.0011,
      "reward": 3.15625,
      "reward_std": 0.27411776781082153,
      "rewards/accuracy_reward": 0.671875,
      "rewards/format_count_numbers": 1.484375,
      "rewards/format_reward": 1.0,
      "step": 206
    },
    {
      "completion_length": 73.015625,
      "epoch": 0.013284132841328414,
      "grad_norm": 2.2992155883271175,
      "kl": 0.03314208984375,
      "learning_rate": 9.933577204466693e-07,
      "loss": 0.0013,
      "reward": 2.78515625,
      "reward_std": 0.22006277740001678,
      "rewards/accuracy_reward": 0.6953125,
      "rewards/format_count_numbers": 1.08984375,
      "rewards/format_reward": 1.0,
      "step": 207
    },
    {
      "completion_length": 79.1796875,
      "epoch": 0.01334830739611744,
      "grad_norm": 1.7475216813790706,
      "kl": 0.028564453125,
      "learning_rate": 9.933256321396483e-07,
      "loss": 0.0011,
      "reward": 3.2265625,
      "reward_std": 0.21897923946380615,
      "rewards/accuracy_reward": 0.765625,
      "rewards/format_count_numbers": 1.4765625,
      "rewards/format_reward": 0.984375,
      "step": 208
    },
    {
      "completion_length": 75.984375,
      "epoch": 0.013412481950906465,
      "grad_norm": 1.9614565866853593,
      "kl": 0.03759765625,
      "learning_rate": 9.932935438326273e-07,
      "loss": 0.0015,
      "reward": 3.4453125,
      "reward_std": 0.1165238693356514,
      "rewards/accuracy_reward": 0.828125,
      "rewards/format_count_numbers": 1.6171875,
      "rewards/format_reward": 1.0,
      "step": 209
    },
    {
      "completion_length": 81.4765625,
      "epoch": 0.013476656505695492,
      "grad_norm": 4.738512185607158,
      "kl": 0.07666015625,
      "learning_rate": 9.932614555256065e-07,
      "loss": 0.0031,
      "reward": 3.15234375,
      "reward_std": 0.25880295783281326,
      "rewards/accuracy_reward": 0.546875,
      "rewards/format_count_numbers": 1.60546875,
      "rewards/format_reward": 1.0,
      "step": 210
    },
    {
      "completion_length": 78.6796875,
      "epoch": 0.013540831060484518,
      "grad_norm": 2.816917770812569,
      "kl": 0.0322265625,
      "learning_rate": 9.932293672185855e-07,
      "loss": 0.0013,
      "reward": 3.33984375,
      "reward_std": 0.1813633181154728,
      "rewards/accuracy_reward": 0.734375,
      "rewards/format_count_numbers": 1.60546875,
      "rewards/format_reward": 1.0,
      "step": 211
    },
    {
      "completion_length": 81.6171875,
      "epoch": 0.013605005615273544,
      "grad_norm": 2.299619557346593,
      "kl": 0.0479736328125,
      "learning_rate": 9.931972789115645e-07,
      "loss": 0.0019,
      "reward": 3.390625,
      "reward_std": 0.22563035786151886,
      "rewards/accuracy_reward": 0.6796875,
      "rewards/format_count_numbers": 1.7109375,
      "rewards/format_reward": 1.0,
      "step": 212
    },
    {
      "completion_length": 88.0,
      "epoch": 0.01366918017006257,
      "grad_norm": 2.6745631224068496,
      "kl": 0.0445556640625,
      "learning_rate": 9.931651906045435e-07,
      "loss": 0.0018,
      "reward": 3.19140625,
      "reward_std": 0.22151628136634827,
      "rewards/accuracy_reward": 0.6328125,
      "rewards/format_count_numbers": 1.55859375,
      "rewards/format_reward": 1.0,
      "step": 213
    },
    {
      "completion_length": 70.015625,
      "epoch": 0.013733354724851597,
      "grad_norm": 1.983832594429385,
      "kl": 0.0406494140625,
      "learning_rate": 9.931331022975227e-07,
      "loss": 0.0016,
      "reward": 3.359375,
      "reward_std": 0.15474097058176994,
      "rewards/accuracy_reward": 0.7734375,
      "rewards/format_count_numbers": 1.59375,
      "rewards/format_reward": 0.9921875,
      "step": 214
    },
    {
      "completion_length": 80.859375,
      "epoch": 0.013797529279640623,
      "grad_norm": 4.209250220360455,
      "kl": 0.035888671875,
      "learning_rate": 9.931010139905017e-07,
      "loss": 0.0014,
      "reward": 3.296875,
      "reward_std": 0.11562084779143333,
      "rewards/accuracy_reward": 0.6875,
      "rewards/format_count_numbers": 1.6171875,
      "rewards/format_reward": 0.9921875,
      "step": 215
    },
    {
      "completion_length": 90.9296875,
      "epoch": 0.013861703834429648,
      "grad_norm": 2.0324317831990673,
      "kl": 0.02642822265625,
      "learning_rate": 9.93068925683481e-07,
      "loss": 0.0011,
      "reward": 2.953125,
      "reward_std": 0.3179033100605011,
      "rewards/accuracy_reward": 0.5390625,
      "rewards/format_count_numbers": 1.4296875,
      "rewards/format_reward": 0.984375,
      "step": 216
    },
    {
      "completion_length": 71.28125,
      "epoch": 0.013925878389218676,
      "grad_norm": 2.7208204189033838,
      "kl": 0.0528564453125,
      "learning_rate": 9.9303683737646e-07,
      "loss": 0.0021,
      "reward": 3.1875,
      "reward_std": 0.18702642619609833,
      "rewards/accuracy_reward": 0.7109375,
      "rewards/format_count_numbers": 1.4765625,
      "rewards/format_reward": 1.0,
      "step": 217
    },
    {
      "completion_length": 74.203125,
      "epoch": 0.013990052944007701,
      "grad_norm": 2.020383449795589,
      "kl": 0.0452880859375,
      "learning_rate": 9.930047490694392e-07,
      "loss": 0.0018,
      "reward": 3.20703125,
      "reward_std": 0.19173656404018402,
      "rewards/accuracy_reward": 0.7421875,
      "rewards/format_count_numbers": 1.46484375,
      "rewards/format_reward": 1.0,
      "step": 218
    },
    {
      "completion_length": 74.890625,
      "epoch": 0.014054227498796727,
      "grad_norm": 2.1452041970682263,
      "kl": 0.03125,
      "learning_rate": 9.929726607624182e-07,
      "loss": 0.0012,
      "reward": 3.16796875,
      "reward_std": 0.22886022925376892,
      "rewards/accuracy_reward": 0.546875,
      "rewards/format_count_numbers": 1.62109375,
      "rewards/format_reward": 1.0,
      "step": 219
    },
    {
      "completion_length": 82.90625,
      "epoch": 0.014118402053585753,
      "grad_norm": 2.2108964131799747,
      "kl": 0.0322265625,
      "learning_rate": 9.929405724553972e-07,
      "loss": 0.0013,
      "reward": 3.21875,
      "reward_std": 0.1173202209174633,
      "rewards/accuracy_reward": 0.6171875,
      "rewards/format_count_numbers": 1.6015625,
      "rewards/format_reward": 1.0,
      "step": 220
    },
    {
      "completion_length": 87.4140625,
      "epoch": 0.01418257660837478,
      "grad_norm": 2.37234676215025,
      "kl": 0.041748046875,
      "learning_rate": 9.929084841483762e-07,
      "loss": 0.0017,
      "reward": 3.34765625,
      "reward_std": 0.24297630041837692,
      "rewards/accuracy_reward": 0.609375,
      "rewards/format_count_numbers": 1.73828125,
      "rewards/format_reward": 1.0,
      "step": 221
    },
    {
      "completion_length": 76.984375,
      "epoch": 0.014246751163163806,
      "grad_norm": 2.5509896311868525,
      "kl": 0.0364990234375,
      "learning_rate": 9.928763958413554e-07,
      "loss": 0.0015,
      "reward": 3.234375,
      "reward_std": 0.16097762063145638,
      "rewards/accuracy_reward": 0.7421875,
      "rewards/format_count_numbers": 1.4921875,
      "rewards/format_reward": 1.0,
      "step": 222
    },
    {
      "completion_length": 86.2109375,
      "epoch": 0.014310925717952831,
      "grad_norm": 13.342157254950608,
      "kl": 0.03802490234375,
      "learning_rate": 9.928443075343344e-07,
      "loss": 0.0015,
      "reward": 3.3203125,
      "reward_std": 0.29596562683582306,
      "rewards/accuracy_reward": 0.546875,
      "rewards/format_count_numbers": 1.7734375,
      "rewards/format_reward": 1.0,
      "step": 223
    },
    {
      "completion_length": 85.5546875,
      "epoch": 0.014375100272741859,
      "grad_norm": 5.121984918167353,
      "kl": 0.0318603515625,
      "learning_rate": 9.928122192273136e-07,
      "loss": 0.0013,
      "reward": 3.17578125,
      "reward_std": 0.20372388511896133,
      "rewards/accuracy_reward": 0.453125,
      "rewards/format_count_numbers": 1.72265625,
      "rewards/format_reward": 1.0,
      "step": 224
    },
    {
      "completion_length": 76.015625,
      "epoch": 0.014439274827530884,
      "grad_norm": 5.388234340493652,
      "kl": 0.0399169921875,
      "learning_rate": 9.927801309202926e-07,
      "loss": 0.0016,
      "reward": 3.265625,
      "reward_std": 0.2496304288506508,
      "rewards/accuracy_reward": 0.6484375,
      "rewards/format_count_numbers": 1.6171875,
      "rewards/format_reward": 1.0,
      "step": 225
    },
    {
      "completion_length": 82.5390625,
      "epoch": 0.01450344938231991,
      "grad_norm": 2.230338889600805,
      "kl": 0.0885009765625,
      "learning_rate": 9.927480426132718e-07,
      "loss": 0.0035,
      "reward": 3.46484375,
      "reward_std": 0.15862105041742325,
      "rewards/accuracy_reward": 0.6328125,
      "rewards/format_count_numbers": 1.84765625,
      "rewards/format_reward": 0.984375,
      "step": 226
    },
    {
      "completion_length": 90.671875,
      "epoch": 0.014567623937108936,
      "grad_norm": 4.9625544558308405,
      "kl": 0.0323486328125,
      "learning_rate": 9.927159543062508e-07,
      "loss": 0.0013,
      "reward": 2.8671875,
      "reward_std": 0.2549026757478714,
      "rewards/accuracy_reward": 0.65625,
      "rewards/format_count_numbers": 1.2109375,
      "rewards/format_reward": 1.0,
      "step": 227
    },
    {
      "completion_length": 77.640625,
      "epoch": 0.014631798491897963,
      "grad_norm": 2.218697853355151,
      "kl": 0.03369140625,
      "learning_rate": 9.926838659992298e-07,
      "loss": 0.0013,
      "reward": 3.04296875,
      "reward_std": 0.14651413541287184,
      "rewards/accuracy_reward": 0.671875,
      "rewards/format_count_numbers": 1.37109375,
      "rewards/format_reward": 1.0,
      "step": 228
    },
    {
      "completion_length": 83.7109375,
      "epoch": 0.014695973046686989,
      "grad_norm": 49.572074016222096,
      "kl": 0.03509521484375,
      "learning_rate": 9.926517776922088e-07,
      "loss": 0.0014,
      "reward": 2.734375,
      "reward_std": 0.33995233476161957,
      "rewards/accuracy_reward": 0.515625,
      "rewards/format_count_numbers": 1.21875,
      "rewards/format_reward": 1.0,
      "step": 229
    },
    {
      "completion_length": 81.796875,
      "epoch": 0.014760147601476014,
      "grad_norm": 7.643260460877982,
      "kl": 0.03240966796875,
      "learning_rate": 9.92619689385188e-07,
      "loss": 0.0013,
      "reward": 3.15234375,
      "reward_std": 0.33026222884655,
      "rewards/accuracy_reward": 0.6875,
      "rewards/format_count_numbers": 1.47265625,
      "rewards/format_reward": 0.9921875,
      "step": 230
    },
    {
      "completion_length": 82.21875,
      "epoch": 0.014824322156265042,
      "grad_norm": 2.0228822011293968,
      "kl": 0.0330810546875,
      "learning_rate": 9.92587601078167e-07,
      "loss": 0.0013,
      "reward": 3.19140625,
      "reward_std": 0.19648226350545883,
      "rewards/accuracy_reward": 0.7109375,
      "rewards/format_count_numbers": 1.48828125,
      "rewards/format_reward": 0.9921875,
      "step": 231
    },
    {
      "completion_length": 78.6015625,
      "epoch": 0.014888496711054067,
      "grad_norm": 2.4279472390130254,
      "kl": 0.048095703125,
      "learning_rate": 9.925555127711462e-07,
      "loss": 0.0019,
      "reward": 3.078125,
      "reward_std": 0.2356146201491356,
      "rewards/accuracy_reward": 0.4765625,
      "rewards/format_count_numbers": 1.6015625,
      "rewards/format_reward": 1.0,
      "step": 232
    },
    {
      "completion_length": 82.0546875,
      "epoch": 0.014952671265843093,
      "grad_norm": 2.9152584134250503,
      "kl": 0.0286865234375,
      "learning_rate": 9.925234244641252e-07,
      "loss": 0.0011,
      "reward": 3.57421875,
      "reward_std": 0.1608278937637806,
      "rewards/accuracy_reward": 0.7265625,
      "rewards/format_count_numbers": 1.84765625,
      "rewards/format_reward": 1.0,
      "step": 233
    },
    {
      "completion_length": 77.2578125,
      "epoch": 0.015016845820632119,
      "grad_norm": 3.700958614512502,
      "kl": 0.031494140625,
      "learning_rate": 9.924913361571044e-07,
      "loss": 0.0013,
      "reward": 3.24609375,
      "reward_std": 0.20149482041597366,
      "rewards/accuracy_reward": 0.7578125,
      "rewards/format_count_numbers": 1.48828125,
      "rewards/format_reward": 1.0,
      "step": 234
    },
    {
      "completion_length": 79.9765625,
      "epoch": 0.015081020375421146,
      "grad_norm": 2.386057971853338,
      "kl": 0.03155517578125,
      "learning_rate": 9.924592478500834e-07,
      "loss": 0.0013,
      "reward": 2.9765625,
      "reward_std": 0.3054931163787842,
      "rewards/accuracy_reward": 0.5234375,
      "rewards/format_count_numbers": 1.4609375,
      "rewards/format_reward": 0.9921875,
      "step": 235
    },
    {
      "completion_length": 79.421875,
      "epoch": 0.015145194930210172,
      "grad_norm": 4.06565517625868,
      "kl": 0.03485107421875,
      "learning_rate": 9.924271595430624e-07,
      "loss": 0.0014,
      "reward": 3.4375,
      "reward_std": 0.2096475586295128,
      "rewards/accuracy_reward": 0.8203125,
      "rewards/format_count_numbers": 1.6171875,
      "rewards/format_reward": 1.0,
      "step": 236
    },
    {
      "completion_length": 72.25,
      "epoch": 0.015209369484999197,
      "grad_norm": 3.1291867431846403,
      "kl": 0.02685546875,
      "learning_rate": 9.923950712360414e-07,
      "loss": 0.0011,
      "reward": 3.24609375,
      "reward_std": 0.1646866761147976,
      "rewards/accuracy_reward": 0.875,
      "rewards/format_count_numbers": 1.37109375,
      "rewards/format_reward": 1.0,
      "step": 237
    },
    {
      "completion_length": 90.9140625,
      "epoch": 0.015273544039788225,
      "grad_norm": 10.051824124049453,
      "kl": 0.03564453125,
      "learning_rate": 9.923629829290206e-07,
      "loss": 0.0014,
      "reward": 3.3046875,
      "reward_std": 0.25956378132104874,
      "rewards/accuracy_reward": 0.59375,
      "rewards/format_count_numbers": 1.71875,
      "rewards/format_reward": 0.9921875,
      "step": 238
    },
    {
      "completion_length": 94.875,
      "epoch": 0.01533771859457725,
      "grad_norm": 1.9650437289569813,
      "kl": 0.02923583984375,
      "learning_rate": 9.923308946219996e-07,
      "loss": 0.0012,
      "reward": 3.33984375,
      "reward_std": 0.2180376648902893,
      "rewards/accuracy_reward": 0.625,
      "rewards/format_count_numbers": 1.72265625,
      "rewards/format_reward": 0.9921875,
      "step": 239
    },
    {
      "completion_length": 85.671875,
      "epoch": 0.015401893149366276,
      "grad_norm": 2.45382583124142,
      "kl": 0.03118896484375,
      "learning_rate": 9.922988063149789e-07,
      "loss": 0.0012,
      "reward": 3.1015625,
      "reward_std": 0.2903960943222046,
      "rewards/accuracy_reward": 0.6484375,
      "rewards/format_count_numbers": 1.453125,
      "rewards/format_reward": 1.0,
      "step": 240
    },
    {
      "completion_length": 79.7734375,
      "epoch": 0.015466067704155302,
      "grad_norm": 2.9995776830960565,
      "kl": 0.09619140625,
      "learning_rate": 9.922667180079579e-07,
      "loss": 0.0039,
      "reward": 3.33984375,
      "reward_std": 0.14363106340169907,
      "rewards/accuracy_reward": 0.734375,
      "rewards/format_count_numbers": 1.60546875,
      "rewards/format_reward": 1.0,
      "step": 241
    },
    {
      "completion_length": 80.9765625,
      "epoch": 0.01553024225894433,
      "grad_norm": 4.94136969321472,
      "kl": 0.04486083984375,
      "learning_rate": 9.92234629700937e-07,
      "loss": 0.0018,
      "reward": 2.91796875,
      "reward_std": 0.16105157136917114,
      "rewards/accuracy_reward": 0.6875,
      "rewards/format_count_numbers": 1.23828125,
      "rewards/format_reward": 0.9921875,
      "step": 242
    },
    {
      "completion_length": 88.4140625,
      "epoch": 0.015594416813733355,
      "grad_norm": 2.0097180632107943,
      "kl": 0.03131103515625,
      "learning_rate": 9.92202541393916e-07,
      "loss": 0.0013,
      "reward": 3.20703125,
      "reward_std": 0.2625589966773987,
      "rewards/accuracy_reward": 0.6171875,
      "rewards/format_count_numbers": 1.59765625,
      "rewards/format_reward": 0.9921875,
      "step": 243
    },
    {
      "completion_length": 89.171875,
      "epoch": 0.015658591368522382,
      "grad_norm": 2.2364527490952644,
      "kl": 0.02789306640625,
      "learning_rate": 9.92170453086895e-07,
      "loss": 0.0011,
      "reward": 3.03125,
      "reward_std": 0.2627197951078415,
      "rewards/accuracy_reward": 0.453125,
      "rewards/format_count_numbers": 1.578125,
      "rewards/format_reward": 1.0,
      "step": 244
    },
    {
      "completion_length": 87.6796875,
      "epoch": 0.015722765923311406,
      "grad_norm": 4.431117597475641,
      "kl": 0.040283203125,
      "learning_rate": 9.92138364779874e-07,
      "loss": 0.0016,
      "reward": 3.36328125,
      "reward_std": 0.2981094866991043,
      "rewards/accuracy_reward": 0.6640625,
      "rewards/format_count_numbers": 1.69921875,
      "rewards/format_reward": 1.0,
      "step": 245
    },
    {
      "completion_length": 79.53125,
      "epoch": 0.015786940478100434,
      "grad_norm": 2.3922094802654787,
      "kl": 0.030029296875,
      "learning_rate": 9.921062764728533e-07,
      "loss": 0.0012,
      "reward": 3.22265625,
      "reward_std": 0.29023801535367966,
      "rewards/accuracy_reward": 0.7578125,
      "rewards/format_count_numbers": 1.46484375,
      "rewards/format_reward": 1.0,
      "step": 246
    },
    {
      "completion_length": 86.5546875,
      "epoch": 0.01585111503288946,
      "grad_norm": 4.076068596757619,
      "kl": 0.0361328125,
      "learning_rate": 9.920741881658323e-07,
      "loss": 0.0014,
      "reward": 3.515625,
      "reward_std": 0.4329284429550171,
      "rewards/accuracy_reward": 0.7890625,
      "rewards/format_count_numbers": 1.734375,
      "rewards/format_reward": 0.9921875,
      "step": 247
    },
    {
      "completion_length": 93.0859375,
      "epoch": 0.015915289587678485,
      "grad_norm": 5.220724437875426,
      "kl": 0.02685546875,
      "learning_rate": 9.920420998588113e-07,
      "loss": 0.0011,
      "reward": 3.390625,
      "reward_std": 0.3870125710964203,
      "rewards/accuracy_reward": 0.6484375,
      "rewards/format_count_numbers": 1.7578125,
      "rewards/format_reward": 0.984375,
      "step": 248
    },
    {
      "completion_length": 79.234375,
      "epoch": 0.015979464142467512,
      "grad_norm": 1.558563655652595,
      "kl": 0.035888671875,
      "learning_rate": 9.920100115517905e-07,
      "loss": 0.0014,
      "reward": 3.48828125,
      "reward_std": 0.15190556272864342,
      "rewards/accuracy_reward": 0.78125,
      "rewards/format_count_numbers": 1.70703125,
      "rewards/format_reward": 1.0,
      "step": 249
    },
    {
      "completion_length": 81.71875,
      "epoch": 0.016043638697256536,
      "grad_norm": 5.108727998481249,
      "kl": 0.035888671875,
      "learning_rate": 9.919779232447695e-07,
      "loss": 0.0014,
      "reward": 3.02734375,
      "reward_std": 0.39648038148880005,
      "rewards/accuracy_reward": 0.5703125,
      "rewards/format_count_numbers": 1.45703125,
      "rewards/format_reward": 1.0,
      "step": 250
    },
    {
      "completion_length": 85.9375,
      "epoch": 0.016107813252045564,
      "grad_norm": 5.481068408854277,
      "kl": 0.0577392578125,
      "learning_rate": 9.919458349377487e-07,
      "loss": 0.0023,
      "reward": 3.02734375,
      "reward_std": 0.3454916924238205,
      "rewards/accuracy_reward": 0.625,
      "rewards/format_count_numbers": 1.41015625,
      "rewards/format_reward": 0.9921875,
      "step": 251
    },
    {
      "completion_length": 79.96875,
      "epoch": 0.01617198780683459,
      "grad_norm": 4.841711572865715,
      "kl": 0.03436279296875,
      "learning_rate": 9.919137466307277e-07,
      "loss": 0.0014,
      "reward": 3.171875,
      "reward_std": 0.4203125834465027,
      "rewards/accuracy_reward": 0.6328125,
      "rewards/format_count_numbers": 1.546875,
      "rewards/format_reward": 0.9921875,
      "step": 252
    },
    {
      "completion_length": 80.4609375,
      "epoch": 0.016236162361623615,
      "grad_norm": 1.2390412140353957,
      "kl": 0.033935546875,
      "learning_rate": 9.91881658323707e-07,
      "loss": 0.0014,
      "reward": 3.1796875,
      "reward_std": 0.13098490238189697,
      "rewards/accuracy_reward": 0.6953125,
      "rewards/format_count_numbers": 1.484375,
      "rewards/format_reward": 1.0,
      "step": 253
    },
    {
      "completion_length": 79.234375,
      "epoch": 0.016300336916412642,
      "grad_norm": 1.7497812408626021,
      "kl": 0.0391845703125,
      "learning_rate": 9.91849570016686e-07,
      "loss": 0.0016,
      "reward": 2.9609375,
      "reward_std": 0.1687931790947914,
      "rewards/accuracy_reward": 0.609375,
      "rewards/format_count_numbers": 1.3515625,
      "rewards/format_reward": 1.0,
      "step": 254
    },
    {
      "completion_length": 74.65625,
      "epoch": 0.01636451147120167,
      "grad_norm": 2.837849244606871,
      "kl": 0.0318603515625,
      "learning_rate": 9.91817481709665e-07,
      "loss": 0.0013,
      "reward": 3.1328125,
      "reward_std": 0.24042697995901108,
      "rewards/accuracy_reward": 0.796875,
      "rewards/format_count_numbers": 1.3359375,
      "rewards/format_reward": 1.0,
      "step": 255
    },
    {
      "completion_length": 95.7109375,
      "epoch": 0.016428686025990694,
      "grad_norm": 4.590977335327697,
      "kl": 0.03216552734375,
      "learning_rate": 9.91785393402644e-07,
      "loss": 0.0013,
      "reward": 2.9375,
      "reward_std": 0.2701571136713028,
      "rewards/accuracy_reward": 0.5859375,
      "rewards/format_count_numbers": 1.359375,
      "rewards/format_reward": 0.9921875,
      "step": 256
    },
    {
      "completion_length": 74.4453125,
      "epoch": 0.01649286058077972,
      "grad_norm": 4.502151653886888,
      "kl": 0.03851318359375,
      "learning_rate": 9.917533050956231e-07,
      "loss": 0.0015,
      "reward": 3.56640625,
      "reward_std": 0.278650239109993,
      "rewards/accuracy_reward": 0.7265625,
      "rewards/format_count_numbers": 1.83984375,
      "rewards/format_reward": 1.0,
      "step": 257
    },
    {
      "completion_length": 83.6875,
      "epoch": 0.01655703513556875,
      "grad_norm": 3.651472762701162,
      "kl": 0.03314208984375,
      "learning_rate": 9.917212167886021e-07,
      "loss": 0.0013,
      "reward": 3.2578125,
      "reward_std": 0.16836363822221756,
      "rewards/accuracy_reward": 0.515625,
      "rewards/format_count_numbers": 1.7421875,
      "rewards/format_reward": 1.0,
      "step": 258
    },
    {
      "completion_length": 74.1953125,
      "epoch": 0.016621209690357772,
      "grad_norm": 2.91382750675099,
      "kl": 0.0406494140625,
      "learning_rate": 9.916891284815813e-07,
      "loss": 0.0016,
      "reward": 3.5546875,
      "reward_std": 0.35277700424194336,
      "rewards/accuracy_reward": 0.71875,
      "rewards/format_count_numbers": 1.84375,
      "rewards/format_reward": 0.9921875,
      "step": 259
    },
    {
      "completion_length": 67.125,
      "epoch": 0.0166853842451468,
      "grad_norm": 3.701653196043323,
      "kl": 0.0372314453125,
      "learning_rate": 9.916570401745603e-07,
      "loss": 0.0015,
      "reward": 3.42578125,
      "reward_std": 0.18747156858444214,
      "rewards/accuracy_reward": 0.8203125,
      "rewards/format_count_numbers": 1.62109375,
      "rewards/format_reward": 0.984375,
      "step": 260
    },
    {
      "completion_length": 79.96875,
      "epoch": 0.016749558799935827,
      "grad_norm": 67.79259570151449,
      "kl": 0.0269775390625,
      "learning_rate": 9.916249518675396e-07,
      "loss": 0.0011,
      "reward": 3.39453125,
      "reward_std": 0.16891109943389893,
      "rewards/accuracy_reward": 0.671875,
      "rewards/format_count_numbers": 1.72265625,
      "rewards/format_reward": 1.0,
      "step": 261
    },
    {
      "completion_length": 78.234375,
      "epoch": 0.01681373335472485,
      "grad_norm": 1.804760902692092,
      "kl": 0.041748046875,
      "learning_rate": 9.915928635605186e-07,
      "loss": 0.0017,
      "reward": 3.1171875,
      "reward_std": 0.3680955320596695,
      "rewards/accuracy_reward": 0.578125,
      "rewards/format_count_numbers": 1.546875,
      "rewards/format_reward": 0.9921875,
      "step": 262
    },
    {
      "completion_length": 85.1953125,
      "epoch": 0.01687790790951388,
      "grad_norm": 1.7245268837655756,
      "kl": 0.03857421875,
      "learning_rate": 9.915607752534976e-07,
      "loss": 0.0015,
      "reward": 3.3671875,
      "reward_std": 0.20511799305677414,
      "rewards/accuracy_reward": 0.65625,
      "rewards/format_count_numbers": 1.71875,
      "rewards/format_reward": 0.9921875,
      "step": 263
    },
    {
      "completion_length": 91.515625,
      "epoch": 0.016942082464302902,
      "grad_norm": 2.6735452027868036,
      "kl": 0.0347900390625,
      "learning_rate": 9.915286869464766e-07,
      "loss": 0.0014,
      "reward": 2.96875,
      "reward_std": 0.3016202747821808,
      "rewards/accuracy_reward": 0.5078125,
      "rewards/format_count_numbers": 1.46875,
      "rewards/format_reward": 0.9921875,
      "step": 264
    },
    {
      "completion_length": 78.8515625,
      "epoch": 0.01700625701909193,
      "grad_norm": 2.0634360763869863,
      "kl": 0.03857421875,
      "learning_rate": 9.914965986394558e-07,
      "loss": 0.0015,
      "reward": 3.46875,
      "reward_std": 0.3529767394065857,
      "rewards/accuracy_reward": 0.6328125,
      "rewards/format_count_numbers": 1.84375,
      "rewards/format_reward": 0.9921875,
      "step": 265
    },
    {
      "completion_length": 74.4375,
      "epoch": 0.017070431573880957,
      "grad_norm": 2.094251666175363,
      "kl": 0.03662109375,
      "learning_rate": 9.914645103324348e-07,
      "loss": 0.0015,
      "reward": 2.91015625,
      "reward_std": 0.19791889190673828,
      "rewards/accuracy_reward": 0.5546875,
      "rewards/format_count_numbers": 1.35546875,
      "rewards/format_reward": 1.0,
      "step": 266
    },
    {
      "completion_length": 73.2421875,
      "epoch": 0.01713460612866998,
      "grad_norm": 1.784234028672772,
      "kl": 0.0355224609375,
      "learning_rate": 9.91432422025414e-07,
      "loss": 0.0014,
      "reward": 3.4609375,
      "reward_std": 0.25816430151462555,
      "rewards/accuracy_reward": 0.609375,
      "rewards/format_count_numbers": 1.859375,
      "rewards/format_reward": 0.9921875,
      "step": 267
    },
    {
      "completion_length": 66.6171875,
      "epoch": 0.01719878068345901,
      "grad_norm": 3.4239141536582665,
      "kl": 0.0313720703125,
      "learning_rate": 9.91400333718393e-07,
      "loss": 0.0013,
      "reward": 3.1953125,
      "reward_std": 0.13941731303930283,
      "rewards/accuracy_reward": 0.8359375,
      "rewards/format_count_numbers": 1.359375,
      "rewards/format_reward": 1.0,
      "step": 268
    },
    {
      "completion_length": 69.0703125,
      "epoch": 0.017262955238248036,
      "grad_norm": 2.568629155554493,
      "kl": 0.03173828125,
      "learning_rate": 9.913682454113722e-07,
      "loss": 0.0013,
      "reward": 2.9921875,
      "reward_std": 0.24329257756471634,
      "rewards/accuracy_reward": 0.640625,
      "rewards/format_count_numbers": 1.359375,
      "rewards/format_reward": 0.9921875,
      "step": 269
    },
    {
      "completion_length": 72.1171875,
      "epoch": 0.01732712979303706,
      "grad_norm": 2.583715483632162,
      "kl": 0.0565185546875,
      "learning_rate": 9.913361571043512e-07,
      "loss": 0.0023,
      "reward": 3.25390625,
      "reward_std": 0.19358646124601364,
      "rewards/accuracy_reward": 0.6328125,
      "rewards/format_count_numbers": 1.62109375,
      "rewards/format_reward": 1.0,
      "step": 270
    },
    {
      "completion_length": 82.8359375,
      "epoch": 0.017391304347826087,
      "grad_norm": 2.173185685429927,
      "kl": 0.038818359375,
      "learning_rate": 9.913040687973302e-07,
      "loss": 0.0016,
      "reward": 3.16796875,
      "reward_std": 0.1250661350786686,
      "rewards/accuracy_reward": 0.6875,
      "rewards/format_count_numbers": 1.48046875,
      "rewards/format_reward": 1.0,
      "step": 271
    },
    {
      "completion_length": 68.9140625,
      "epoch": 0.017455478902615115,
      "grad_norm": 2.3212357799194114,
      "kl": 0.0390625,
      "learning_rate": 9.912719804903092e-07,
      "loss": 0.0016,
      "reward": 3.1640625,
      "reward_std": 0.17544355243444443,
      "rewards/accuracy_reward": 0.6875,
      "rewards/format_count_numbers": 1.4765625,
      "rewards/format_reward": 1.0,
      "step": 272
    },
    {
      "completion_length": 71.0,
      "epoch": 0.01751965345740414,
      "grad_norm": 2.6466961603040624,
      "kl": 0.03436279296875,
      "learning_rate": 9.912398921832884e-07,
      "loss": 0.0014,
      "reward": 3.390625,
      "reward_std": 0.16097761690616608,
      "rewards/accuracy_reward": 0.7734375,
      "rewards/format_count_numbers": 1.6171875,
      "rewards/format_reward": 1.0,
      "step": 273
    },
    {
      "completion_length": 75.8359375,
      "epoch": 0.017583828012193166,
      "grad_norm": 19.155007704535887,
      "kl": 0.07861328125,
      "learning_rate": 9.912078038762674e-07,
      "loss": 0.0031,
      "reward": 3.05859375,
      "reward_std": 0.2724815607070923,
      "rewards/accuracy_reward": 0.59375,
      "rewards/format_count_numbers": 1.47265625,
      "rewards/format_reward": 0.9921875,
      "step": 274
    },
    {
      "completion_length": 75.6171875,
      "epoch": 0.017648002566982193,
      "grad_norm": 11.84390115481588,
      "kl": 0.06732177734375,
      "learning_rate": 9.911757155692464e-07,
      "loss": 0.0027,
      "reward": 3.6796875,
      "reward_std": 0.14981039240956306,
      "rewards/accuracy_reward": 0.8203125,
      "rewards/format_count_numbers": 1.859375,
      "rewards/format_reward": 1.0,
      "step": 275
    },
    {
      "completion_length": 67.5,
      "epoch": 0.017712177121771217,
      "grad_norm": 2.3077736174179453,
      "kl": 0.0391845703125,
      "learning_rate": 9.911436272622256e-07,
      "loss": 0.0016,
      "reward": 2.91796875,
      "reward_std": 0.1896619200706482,
      "rewards/accuracy_reward": 0.796875,
      "rewards/format_count_numbers": 1.12109375,
      "rewards/format_reward": 1.0,
      "step": 276
    },
    {
      "completion_length": 71.5859375,
      "epoch": 0.017776351676560245,
      "grad_norm": 3.7589568241803297,
      "kl": 0.051025390625,
      "learning_rate": 9.911115389552046e-07,
      "loss": 0.002,
      "reward": 3.67578125,
      "reward_std": 0.21515949815511703,
      "rewards/accuracy_reward": 0.8125,
      "rewards/format_count_numbers": 1.87109375,
      "rewards/format_reward": 0.9921875,
      "step": 277
    },
    {
      "completion_length": 75.875,
      "epoch": 0.01784052623134927,
      "grad_norm": 3.6667770827072492,
      "kl": 0.0362548828125,
      "learning_rate": 9.910794506481838e-07,
      "loss": 0.0015,
      "reward": 2.96484375,
      "reward_std": 0.22461289167404175,
      "rewards/accuracy_reward": 0.6015625,
      "rewards/format_count_numbers": 1.36328125,
      "rewards/format_reward": 1.0,
      "step": 278
    },
    {
      "completion_length": 79.5703125,
      "epoch": 0.017904700786138296,
      "grad_norm": 18.18298150822486,
      "kl": 0.0372314453125,
      "learning_rate": 9.910473623411628e-07,
      "loss": 0.0015,
      "reward": 3.046875,
      "reward_std": 0.2908087372779846,
      "rewards/accuracy_reward": 0.5625,
      "rewards/format_count_numbers": 1.484375,
      "rewards/format_reward": 1.0,
      "step": 279
    },
    {
      "completion_length": 71.3359375,
      "epoch": 0.017968875340927323,
      "grad_norm": 5.2583988742664305,
      "kl": 0.0782470703125,
      "learning_rate": 9.910152740341418e-07,
      "loss": 0.0031,
      "reward": 3.40234375,
      "reward_std": 0.1862325295805931,
      "rewards/accuracy_reward": 0.796875,
      "rewards/format_count_numbers": 1.60546875,
      "rewards/format_reward": 1.0,
      "step": 280
    },
    {
      "completion_length": 73.5078125,
      "epoch": 0.018033049895716347,
      "grad_norm": 4.692130098876798,
      "kl": 0.0389404296875,
      "learning_rate": 9.90983185727121e-07,
      "loss": 0.0016,
      "reward": 3.37109375,
      "reward_std": 0.1851307675242424,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_count_numbers": 1.62109375,
      "rewards/format_reward": 1.0,
      "step": 281
    },
    {
      "completion_length": 73.890625,
      "epoch": 0.018097224450505375,
      "grad_norm": 3.0322910534734855,
      "kl": 0.037109375,
      "learning_rate": 9.909510974201e-07,
      "loss": 0.0015,
      "reward": 3.125,
      "reward_std": 0.15650184452533722,
      "rewards/accuracy_reward": 0.625,
      "rewards/format_count_numbers": 1.5,
      "rewards/format_reward": 1.0,
      "step": 282
    },
    {
      "completion_length": 79.234375,
      "epoch": 0.018161399005294402,
      "grad_norm": 3.5384331438688723,
      "kl": 0.1441650390625,
      "learning_rate": 9.90919009113079e-07,
      "loss": 0.0058,
      "reward": 3.5625,
      "reward_std": 0.17288463562726974,
      "rewards/accuracy_reward": 0.5859375,
      "rewards/format_count_numbers": 1.9765625,
      "rewards/format_reward": 1.0,
      "step": 283
    },
    {
      "completion_length": 68.46875,
      "epoch": 0.018225573560083426,
      "grad_norm": 1.969345915456077,
      "kl": 0.04248046875,
      "learning_rate": 9.908869208060583e-07,
      "loss": 0.0017,
      "reward": 3.0078125,
      "reward_std": 0.17282496392726898,
      "rewards/accuracy_reward": 0.765625,
      "rewards/format_count_numbers": 1.2421875,
      "rewards/format_reward": 1.0,
      "step": 284
    },
    {
      "completion_length": 73.328125,
      "epoch": 0.018289748114872453,
      "grad_norm": 6.895089542132447,
      "kl": 0.036376953125,
      "learning_rate": 9.908548324990373e-07,
      "loss": 0.0015,
      "reward": 3.34375,
      "reward_std": 0.2109457403421402,
      "rewards/accuracy_reward": 0.71875,
      "rewards/format_count_numbers": 1.625,
      "rewards/format_reward": 1.0,
      "step": 285
    },
    {
      "completion_length": 71.1953125,
      "epoch": 0.01835392266966148,
      "grad_norm": 3.167067371026583,
      "kl": 0.041015625,
      "learning_rate": 9.908227441920165e-07,
      "loss": 0.0016,
      "reward": 3.0390625,
      "reward_std": 0.21666546911001205,
      "rewards/accuracy_reward": 0.6796875,
      "rewards/format_count_numbers": 1.359375,
      "rewards/format_reward": 1.0,
      "step": 286
    },
    {
      "completion_length": 77.9453125,
      "epoch": 0.018418097224450505,
      "grad_norm": 4.140650419009445,
      "kl": 0.048583984375,
      "learning_rate": 9.907906558849955e-07,
      "loss": 0.0019,
      "reward": 3.53125,
      "reward_std": 0.18990949913859367,
      "rewards/accuracy_reward": 0.5390625,
      "rewards/format_count_numbers": 1.9921875,
      "rewards/format_reward": 1.0,
      "step": 287
    },
    {
      "completion_length": 70.9296875,
      "epoch": 0.018482271779239532,
      "grad_norm": 3.7880074419467253,
      "kl": 0.0570068359375,
      "learning_rate": 9.907585675779745e-07,
      "loss": 0.0023,
      "reward": 3.23828125,
      "reward_std": 0.20785115659236908,
      "rewards/accuracy_reward": 0.765625,
      "rewards/format_count_numbers": 1.47265625,
      "rewards/format_reward": 1.0,
      "step": 288
    },
    {
      "completion_length": 77.3125,
      "epoch": 0.018546446334028556,
      "grad_norm": 2.1786159083247503,
      "kl": 0.037109375,
      "learning_rate": 9.907264792709537e-07,
      "loss": 0.0015,
      "reward": 3.28125,
      "reward_std": 0.1378196980804205,
      "rewards/accuracy_reward": 0.78125,
      "rewards/format_count_numbers": 1.5,
      "rewards/format_reward": 1.0,
      "step": 289
    },
    {
      "completion_length": 71.4921875,
      "epoch": 0.018610620888817583,
      "grad_norm": 11.660900482778375,
      "kl": 0.0406494140625,
      "learning_rate": 9.906943909639327e-07,
      "loss": 0.0016,
      "reward": 3.06640625,
      "reward_std": 0.21359793841838837,
      "rewards/accuracy_reward": 0.5703125,
      "rewards/format_count_numbers": 1.49609375,
      "rewards/format_reward": 1.0,
      "step": 290
    },
    {
      "completion_length": 78.765625,
      "epoch": 0.01867479544360661,
      "grad_norm": 2.1412567237036115,
      "kl": 0.0399169921875,
      "learning_rate": 9.906623026569117e-07,
      "loss": 0.0016,
      "reward": 3.26953125,
      "reward_std": 0.1283687688410282,
      "rewards/accuracy_reward": 0.65625,
      "rewards/format_count_numbers": 1.61328125,
      "rewards/format_reward": 1.0,
      "step": 291
    },
    {
      "completion_length": 74.4296875,
      "epoch": 0.018738969998395635,
      "grad_norm": 1.8969635884090137,
      "kl": 0.0435791015625,
      "learning_rate": 9.906302143498909e-07,
      "loss": 0.0017,
      "reward": 3.45703125,
      "reward_std": 0.1144671943038702,
      "rewards/accuracy_reward": 0.59375,
      "rewards/format_count_numbers": 1.86328125,
      "rewards/format_reward": 1.0,
      "step": 292
    },
    {
      "completion_length": 71.3125,
      "epoch": 0.018803144553184662,
      "grad_norm": 2.7972660092804604,
      "kl": 0.03564453125,
      "learning_rate": 9.905981260428699e-07,
      "loss": 0.0014,
      "reward": 2.796875,
      "reward_std": 0.20517178624868393,
      "rewards/accuracy_reward": 0.6796875,
      "rewards/format_count_numbers": 1.125,
      "rewards/format_reward": 0.9921875,
      "step": 293
    },
    {
      "completion_length": 77.9453125,
      "epoch": 0.01886731910797369,
      "grad_norm": 3.529780530402686,
      "kl": 0.03955078125,
      "learning_rate": 9.90566037735849e-07,
      "loss": 0.0016,
      "reward": 3.515625,
      "reward_std": 0.1828427091240883,
      "rewards/accuracy_reward": 0.6484375,
      "rewards/format_count_numbers": 1.8671875,
      "rewards/format_reward": 1.0,
      "step": 294
    },
    {
      "completion_length": 72.5625,
      "epoch": 0.018931493662762713,
      "grad_norm": 6.7166067029824195,
      "kl": 0.0443115234375,
      "learning_rate": 9.905339494288281e-07,
      "loss": 0.0018,
      "reward": 3.41796875,
      "reward_std": 0.11230521276593208,
      "rewards/accuracy_reward": 0.6796875,
      "rewards/format_count_numbers": 1.73828125,
      "rewards/format_reward": 1.0,
      "step": 295
    },
    {
      "completion_length": 76.5546875,
      "epoch": 0.01899566821755174,
      "grad_norm": 4.592194015590574,
      "kl": 0.0384521484375,
      "learning_rate": 9.905018611218071e-07,
      "loss": 0.0015,
      "reward": 2.76953125,
      "reward_std": 0.1638985425233841,
      "rewards/accuracy_reward": 0.5234375,
      "rewards/format_count_numbers": 1.24609375,
      "rewards/format_reward": 1.0,
      "step": 296
    },
    {
      "completion_length": 71.859375,
      "epoch": 0.019059842772340768,
      "grad_norm": 5.5829816952478355,
      "kl": 0.0391845703125,
      "learning_rate": 9.904697728147863e-07,
      "loss": 0.0016,
      "reward": 3.12109375,
      "reward_std": 0.2509261667728424,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_count_numbers": 1.37109375,
      "rewards/format_reward": 1.0,
      "step": 297
    },
    {
      "completion_length": 73.234375,
      "epoch": 0.019124017327129792,
      "grad_norm": 2.9063205757140564,
      "kl": 0.0496826171875,
      "learning_rate": 9.904376845077653e-07,
      "loss": 0.002,
      "reward": 3.05859375,
      "reward_std": 0.24533042311668396,
      "rewards/accuracy_reward": 0.6953125,
      "rewards/format_count_numbers": 1.36328125,
      "rewards/format_reward": 1.0,
      "step": 298
    },
    {
      "completion_length": 67.03125,
      "epoch": 0.01918819188191882,
      "grad_norm": 2.2820361285373605,
      "kl": 0.047119140625,
      "learning_rate": 9.904055962007443e-07,
      "loss": 0.0019,
      "reward": 3.04296875,
      "reward_std": 0.1699405387043953,
      "rewards/accuracy_reward": 0.796875,
      "rewards/format_count_numbers": 1.24609375,
      "rewards/format_reward": 1.0,
      "step": 299
    },
    {
      "completion_length": 70.5546875,
      "epoch": 0.019252366436707847,
      "grad_norm": 1.8516320000684716,
      "kl": 0.0401611328125,
      "learning_rate": 9.903735078937235e-07,
      "loss": 0.0016,
      "reward": 3.26953125,
      "reward_std": 0.13094642385840416,
      "rewards/accuracy_reward": 0.78125,
      "rewards/format_count_numbers": 1.48828125,
      "rewards/format_reward": 1.0,
      "step": 300
    },
    {
      "completion_length": 82.03125,
      "epoch": 0.01931654099149687,
      "grad_norm": 2.918950923226392,
      "kl": 0.0537109375,
      "learning_rate": 9.903414195867025e-07,
      "loss": 0.0021,
      "reward": 3.49609375,
      "reward_std": 0.2231239750981331,
      "rewards/accuracy_reward": 0.640625,
      "rewards/format_count_numbers": 1.85546875,
      "rewards/format_reward": 1.0,
      "step": 301
    },
    {
      "completion_length": 78.53125,
      "epoch": 0.019380715546285898,
      "grad_norm": 6.320771871325963,
      "kl": 0.0513916015625,
      "learning_rate": 9.903093312796815e-07,
      "loss": 0.0021,
      "reward": 2.7890625,
      "reward_std": 0.26743485033512115,
      "rewards/accuracy_reward": 0.578125,
      "rewards/format_count_numbers": 1.21875,
      "rewards/format_reward": 0.9921875,
      "step": 302
    },
    {
      "completion_length": 71.625,
      "epoch": 0.019444890101074922,
      "grad_norm": 5.484442758286644,
      "kl": 0.0445556640625,
      "learning_rate": 9.902772429726607e-07,
      "loss": 0.0018,
      "reward": 3.26171875,
      "reward_std": 0.20738627761602402,
      "rewards/accuracy_reward": 0.6484375,
      "rewards/format_count_numbers": 1.61328125,
      "rewards/format_reward": 1.0,
      "step": 303
    },
    {
      "completion_length": 72.6875,
      "epoch": 0.01950906465586395,
      "grad_norm": 2.954327464777133,
      "kl": 0.0428466796875,
      "learning_rate": 9.902451546656397e-07,
      "loss": 0.0017,
      "reward": 3.08984375,
      "reward_std": 0.1720261573791504,
      "rewards/accuracy_reward": 0.71875,
      "rewards/format_count_numbers": 1.37109375,
      "rewards/format_reward": 1.0,
      "step": 304
    },
    {
      "completion_length": 71.5,
      "epoch": 0.019573239210652977,
      "grad_norm": 2.0547572244190926,
      "kl": 0.05615234375,
      "learning_rate": 9.90213066358619e-07,
      "loss": 0.0022,
      "reward": 3.5859375,
      "reward_std": 0.111396424472332,
      "rewards/accuracy_reward": 0.84375,
      "rewards/format_count_numbers": 1.7421875,
      "rewards/format_reward": 1.0,
      "step": 305
    },
    {
      "completion_length": 75.0859375,
      "epoch": 0.019637413765442,
      "grad_norm": 3.299057766310909,
      "kl": 0.03662109375,
      "learning_rate": 9.90180978051598e-07,
      "loss": 0.0015,
      "reward": 3.265625,
      "reward_std": 0.2430691346526146,
      "rewards/accuracy_reward": 0.5234375,
      "rewards/format_count_numbers": 1.7421875,
      "rewards/format_reward": 1.0,
      "step": 306
    },
    {
      "completion_length": 79.1875,
      "epoch": 0.019701588320231028,
      "grad_norm": 7.7664930098759255,
      "kl": 0.0433349609375,
      "learning_rate": 9.90148889744577e-07,
      "loss": 0.0017,
      "reward": 3.015625,
      "reward_std": 0.14887069165706635,
      "rewards/accuracy_reward": 0.5234375,
      "rewards/format_count_numbers": 1.4921875,
      "rewards/format_reward": 1.0,
      "step": 307
    },
    {
      "completion_length": 74.6015625,
      "epoch": 0.019765762875020056,
      "grad_norm": 2.6906879742300136,
      "kl": 0.0386962890625,
      "learning_rate": 9.901168014375562e-07,
      "loss": 0.0015,
      "reward": 3.1015625,
      "reward_std": 0.2590838298201561,
      "rewards/accuracy_reward": 0.6015625,
      "rewards/format_count_numbers": 1.5,
      "rewards/format_reward": 1.0,
      "step": 308
    },
    {
      "completion_length": 87.6171875,
      "epoch": 0.01982993742980908,
      "grad_norm": 4.127270571967414,
      "kl": 0.0447998046875,
      "learning_rate": 9.900847131305352e-07,
      "loss": 0.0018,
      "reward": 3.3359375,
      "reward_std": 0.28433138132095337,
      "rewards/accuracy_reward": 0.484375,
      "rewards/format_count_numbers": 1.8515625,
      "rewards/format_reward": 1.0,
      "step": 309
    },
    {
      "completion_length": 73.390625,
      "epoch": 0.019894111984598107,
      "grad_norm": 1.8553501914422261,
      "kl": 0.0362548828125,
      "learning_rate": 9.900526248235142e-07,
      "loss": 0.0015,
      "reward": 3.35546875,
      "reward_std": 0.08954200521111488,
      "rewards/accuracy_reward": 0.734375,
      "rewards/format_count_numbers": 1.62109375,
      "rewards/format_reward": 1.0,
      "step": 310
    },
    {
      "completion_length": 78.3828125,
      "epoch": 0.019958286539387134,
      "grad_norm": 2.3057394947293046,
      "kl": 0.040283203125,
      "learning_rate": 9.900205365164934e-07,
      "loss": 0.0016,
      "reward": 3.01953125,
      "reward_std": 0.25869518518447876,
      "rewards/accuracy_reward": 0.5703125,
      "rewards/format_count_numbers": 1.45703125,
      "rewards/format_reward": 0.9921875,
      "step": 311
    },
    {
      "completion_length": 72.5234375,
      "epoch": 0.02002246109417616,
      "grad_norm": 47.53406243743931,
      "kl": 0.04296875,
      "learning_rate": 9.899884482094724e-07,
      "loss": 0.0017,
      "reward": 3.375,
      "reward_std": 0.1820138692855835,
      "rewards/accuracy_reward": 0.765625,
      "rewards/format_count_numbers": 1.6171875,
      "rewards/format_reward": 0.9921875,
      "step": 312
    },
    {
      "completion_length": 76.515625,
      "epoch": 0.020086635648965186,
      "grad_norm": 8.454647844248559,
      "kl": 0.042236328125,
      "learning_rate": 9.899563599024516e-07,
      "loss": 0.0017,
      "reward": 3.16796875,
      "reward_std": 0.20472782850265503,
      "rewards/accuracy_reward": 0.6875,
      "rewards/format_count_numbers": 1.48046875,
      "rewards/format_reward": 1.0,
      "step": 313
    },
    {
      "completion_length": 74.796875,
      "epoch": 0.020150810203754213,
      "grad_norm": 4.909440694030945,
      "kl": 0.0462646484375,
      "learning_rate": 9.899242715954306e-07,
      "loss": 0.0018,
      "reward": 3.078125,
      "reward_std": 0.1832578182220459,
      "rewards/accuracy_reward": 0.7109375,
      "rewards/format_count_numbers": 1.3671875,
      "rewards/format_reward": 1.0,
      "step": 314
    },
    {
      "completion_length": 70.25,
      "epoch": 0.020214984758543237,
      "grad_norm": 1.958650952843981,
      "kl": 0.0413818359375,
      "learning_rate": 9.898921832884096e-07,
      "loss": 0.0017,
      "reward": 2.984375,
      "reward_std": 0.11230766773223877,
      "rewards/accuracy_reward": 0.609375,
      "rewards/format_count_numbers": 1.375,
      "rewards/format_reward": 1.0,
      "step": 315
    },
    {
      "completion_length": 72.515625,
      "epoch": 0.020279159313332264,
      "grad_norm": 3.7008919690258613,
      "kl": 0.0450439453125,
      "learning_rate": 9.898600949813888e-07,
      "loss": 0.0018,
      "reward": 3.23828125,
      "reward_std": 0.3325863182544708,
      "rewards/accuracy_reward": 0.6328125,
      "rewards/format_count_numbers": 1.61328125,
      "rewards/format_reward": 0.9921875,
      "step": 316
    },
    {
      "completion_length": 78.796875,
      "epoch": 0.02034333386812129,
      "grad_norm": 3.0016568315820926,
      "kl": 0.03271484375,
      "learning_rate": 9.898280066743678e-07,
      "loss": 0.0013,
      "reward": 3.3359375,
      "reward_std": 0.152285635471344,
      "rewards/accuracy_reward": 0.59375,
      "rewards/format_count_numbers": 1.7421875,
      "rewards/format_reward": 1.0,
      "step": 317
    },
    {
      "completion_length": 75.28125,
      "epoch": 0.020407508422910316,
      "grad_norm": 3.446637427977765,
      "kl": 0.0308837890625,
      "learning_rate": 9.897959183673468e-07,
      "loss": 0.0012,
      "reward": 3.6015625,
      "reward_std": 0.17806214094161987,
      "rewards/accuracy_reward": 0.7265625,
      "rewards/format_count_numbers": 1.875,
      "rewards/format_reward": 1.0,
      "step": 318
    },
    {
      "completion_length": 80.2734375,
      "epoch": 0.020471682977699343,
      "grad_norm": 5.527813715748061,
      "kl": 0.0364990234375,
      "learning_rate": 9.89763830060326e-07,
      "loss": 0.0015,
      "reward": 3.328125,
      "reward_std": 0.15570057928562164,
      "rewards/accuracy_reward": 0.7109375,
      "rewards/format_count_numbers": 1.6171875,
      "rewards/format_reward": 1.0,
      "step": 319
    },
    {
      "completion_length": 79.734375,
      "epoch": 0.020535857532488367,
      "grad_norm": 2.1859437733730425,
      "kl": 0.03387451171875,
      "learning_rate": 9.89731741753305e-07,
      "loss": 0.0014,
      "reward": 3.55078125,
      "reward_std": 0.16537447273731232,
      "rewards/accuracy_reward": 0.8125,
      "rewards/format_count_numbers": 1.74609375,
      "rewards/format_reward": 0.9921875,
      "step": 320
    },
    {
      "completion_length": 78.0859375,
      "epoch": 0.020600032087277394,
      "grad_norm": 1.6010612300372236,
      "kl": 0.032958984375,
      "learning_rate": 9.896996534462842e-07,
      "loss": 0.0013,
      "reward": 3.62109375,
      "reward_std": 0.12232652306556702,
      "rewards/accuracy_reward": 0.75,
      "rewards/format_count_numbers": 1.87109375,
      "rewards/format_reward": 1.0,
      "step": 321
    },
    {
      "completion_length": 82.875,
      "epoch": 0.020664206642066422,
      "grad_norm": 2.402566504373887,
      "kl": 0.0333251953125,
      "learning_rate": 9.896675651392632e-07,
      "loss": 0.0013,
      "reward": 3.10546875,
      "reward_std": 0.2916644662618637,
      "rewards/accuracy_reward": 0.7578125,
      "rewards/format_count_numbers": 1.35546875,
      "rewards/format_reward": 0.9921875,
      "step": 322
    },
    {
      "completion_length": 90.234375,
      "epoch": 0.020728381196855446,
      "grad_norm": 2.898048967418061,
      "kl": 0.0467529296875,
      "learning_rate": 9.896354768322422e-07,
      "loss": 0.0019,
      "reward": 3.4765625,
      "reward_std": 0.2870207577943802,
      "rewards/accuracy_reward": 0.6171875,
      "rewards/format_count_numbers": 1.859375,
      "rewards/format_reward": 1.0,
      "step": 323
    },
    {
      "completion_length": 81.3828125,
      "epoch": 0.020792555751644473,
      "grad_norm": 2.7658387064990797,
      "kl": 0.0355224609375,
      "learning_rate": 9.896033885252214e-07,
      "loss": 0.0014,
      "reward": 3.20703125,
      "reward_std": 0.11390282958745956,
      "rewards/accuracy_reward": 0.59375,
      "rewards/format_count_numbers": 1.61328125,
      "rewards/format_reward": 1.0,
      "step": 324
    },
    {
      "completion_length": 78.859375,
      "epoch": 0.0208567303064335,
      "grad_norm": 2.077719229595578,
      "kl": 0.037109375,
      "learning_rate": 9.895713002182004e-07,
      "loss": 0.0015,
      "reward": 3.57421875,
      "reward_std": 0.11655256152153015,
      "rewards/accuracy_reward": 0.703125,
      "rewards/format_count_numbers": 1.87109375,
      "rewards/format_reward": 1.0,
      "step": 325
    },
    {
      "completion_length": 77.9765625,
      "epoch": 0.020920904861222524,
      "grad_norm": 1.5075463905730007,
      "kl": 0.03253173828125,
      "learning_rate": 9.895392119111794e-07,
      "loss": 0.0013,
      "reward": 3.421875,
      "reward_std": 0.20593319833278656,
      "rewards/accuracy_reward": 0.8125,
      "rewards/format_count_numbers": 1.609375,
      "rewards/format_reward": 1.0,
      "step": 326
    },
    {
      "completion_length": 83.3515625,
      "epoch": 0.020985079416011552,
      "grad_norm": 2.6014959551754204,
      "kl": 0.05548095703125,
      "learning_rate": 9.895071236041587e-07,
      "loss": 0.0022,
      "reward": 3.33984375,
      "reward_std": 0.2452201023697853,
      "rewards/accuracy_reward": 0.734375,
      "rewards/format_count_numbers": 1.60546875,
      "rewards/format_reward": 1.0,
      "step": 327
    },
    {
      "completion_length": 92.3203125,
      "epoch": 0.02104925397080058,
      "grad_norm": 2.1798827092517357,
      "kl": 0.0347900390625,
      "learning_rate": 9.894750352971377e-07,
      "loss": 0.0014,
      "reward": 3.51953125,
      "reward_std": 0.19358646124601364,
      "rewards/accuracy_reward": 0.6484375,
      "rewards/format_count_numbers": 1.87109375,
      "rewards/format_reward": 1.0,
      "step": 328
    },
    {
      "completion_length": 80.703125,
      "epoch": 0.021113428525589603,
      "grad_norm": 2.2607423096277133,
      "kl": 0.0579833984375,
      "learning_rate": 9.894429469901169e-07,
      "loss": 0.0023,
      "reward": 3.58984375,
      "reward_std": 0.19753818958997726,
      "rewards/accuracy_reward": 0.7265625,
      "rewards/format_count_numbers": 1.86328125,
      "rewards/format_reward": 1.0,
      "step": 329
    },
    {
      "completion_length": 77.3671875,
      "epoch": 0.02117760308037863,
      "grad_norm": 26.08606556283715,
      "kl": 0.034423828125,
      "learning_rate": 9.894108586830959e-07,
      "loss": 0.0014,
      "reward": 3.3828125,
      "reward_std": 0.1830746978521347,
      "rewards/accuracy_reward": 0.765625,
      "rewards/format_count_numbers": 1.6171875,
      "rewards/format_reward": 1.0,
      "step": 330
    },
    {
      "completion_length": 72.3984375,
      "epoch": 0.021241777635167654,
      "grad_norm": 2.021538298088485,
      "kl": 0.0582275390625,
      "learning_rate": 9.893787703760749e-07,
      "loss": 0.0023,
      "reward": 2.8828125,
      "reward_std": 0.2369818240404129,
      "rewards/accuracy_reward": 0.765625,
      "rewards/format_count_numbers": 1.125,
      "rewards/format_reward": 0.9921875,
      "step": 331
    },
    {
      "completion_length": 89.0625,
      "epoch": 0.021305952189956682,
      "grad_norm": 3.891239005431301,
      "kl": 0.0777587890625,
      "learning_rate": 9.89346682069054e-07,
      "loss": 0.0031,
      "reward": 3.44140625,
      "reward_std": 0.23322894424200058,
      "rewards/accuracy_reward": 0.5078125,
      "rewards/format_count_numbers": 1.93359375,
      "rewards/format_reward": 1.0,
      "step": 332
    },
    {
      "completion_length": 80.984375,
      "epoch": 0.02137012674474571,
      "grad_norm": 6.047211157592112,
      "kl": 0.0244140625,
      "learning_rate": 9.89314593762033e-07,
      "loss": 0.001,
      "reward": 3.28125,
      "reward_std": 0.23934084922075272,
      "rewards/accuracy_reward": 0.78125,
      "rewards/format_count_numbers": 1.5,
      "rewards/format_reward": 1.0,
      "step": 333
    },
    {
      "completion_length": 84.9296875,
      "epoch": 0.021434301299534733,
      "grad_norm": 4.132828130614972,
      "kl": 0.034423828125,
      "learning_rate": 9.89282505455012e-07,
      "loss": 0.0014,
      "reward": 3.46484375,
      "reward_std": 0.15334401279687881,
      "rewards/accuracy_reward": 0.59375,
      "rewards/format_count_numbers": 1.87109375,
      "rewards/format_reward": 1.0,
      "step": 334
    },
    {
      "completion_length": 84.453125,
      "epoch": 0.02149847585432376,
      "grad_norm": 1.8729236163557068,
      "kl": 0.0316162109375,
      "learning_rate": 9.89250417147991e-07,
      "loss": 0.0013,
      "reward": 2.93359375,
      "reward_std": 0.16755038499832153,
      "rewards/accuracy_reward": 0.578125,
      "rewards/format_count_numbers": 1.35546875,
      "rewards/format_reward": 1.0,
      "step": 335
    },
    {
      "completion_length": 89.640625,
      "epoch": 0.021562650409112788,
      "grad_norm": 6.182621805508202,
      "kl": 0.03302001953125,
      "learning_rate": 9.892183288409703e-07,
      "loss": 0.0013,
      "reward": 3.19140625,
      "reward_std": 0.23702459782361984,
      "rewards/accuracy_reward": 0.578125,
      "rewards/format_count_numbers": 1.61328125,
      "rewards/format_reward": 1.0,
      "step": 336
    },
    {
      "completion_length": 85.0703125,
      "epoch": 0.021626824963901812,
      "grad_norm": 4.004387261278588,
      "kl": 0.0516357421875,
      "learning_rate": 9.891862405339493e-07,
      "loss": 0.0021,
      "reward": 3.46875,
      "reward_std": 0.2537073493003845,
      "rewards/accuracy_reward": 0.609375,
      "rewards/format_count_numbers": 1.859375,
      "rewards/format_reward": 1.0,
      "step": 337
    },
    {
      "completion_length": 77.015625,
      "epoch": 0.02169099951869084,
      "grad_norm": 5.7836392880636325,
      "kl": 0.052978515625,
      "learning_rate": 9.891541522269285e-07,
      "loss": 0.0021,
      "reward": 3.08984375,
      "reward_std": 0.1573006436228752,
      "rewards/accuracy_reward": 0.609375,
      "rewards/format_count_numbers": 1.48046875,
      "rewards/format_reward": 1.0,
      "step": 338
    },
    {
      "completion_length": 76.9453125,
      "epoch": 0.021755174073479867,
      "grad_norm": 1.8469791329610443,
      "kl": 0.0301513671875,
      "learning_rate": 9.891220639199075e-07,
      "loss": 0.0012,
      "reward": 2.91796875,
      "reward_std": 0.1454532966017723,
      "rewards/accuracy_reward": 0.671875,
      "rewards/format_count_numbers": 1.24609375,
      "rewards/format_reward": 1.0,
      "step": 339
    },
    {
      "completion_length": 86.71875,
      "epoch": 0.02181934862826889,
      "grad_norm": 2.768424291218591,
      "kl": 0.037353515625,
      "learning_rate": 9.890899756128867e-07,
      "loss": 0.0015,
      "reward": 3.546875,
      "reward_std": 0.2714823931455612,
      "rewards/accuracy_reward": 0.5703125,
      "rewards/format_count_numbers": 1.9765625,
      "rewards/format_reward": 1.0,
      "step": 340
    },
    {
      "completion_length": 75.578125,
      "epoch": 0.021883523183057918,
      "grad_norm": 6.769190335280211,
      "kl": 0.03369140625,
      "learning_rate": 9.890578873058657e-07,
      "loss": 0.0014,
      "reward": 2.875,
      "reward_std": 0.2525489032268524,
      "rewards/accuracy_reward": 0.65625,
      "rewards/format_count_numbers": 1.2265625,
      "rewards/format_reward": 0.9921875,
      "step": 341
    },
    {
      "completion_length": 87.953125,
      "epoch": 0.021947697737846945,
      "grad_norm": 5.022933322582836,
      "kl": 0.044189453125,
      "learning_rate": 9.890257989988447e-07,
      "loss": 0.0018,
      "reward": 3.3984375,
      "reward_std": 0.2860850542783737,
      "rewards/accuracy_reward": 0.71875,
      "rewards/format_count_numbers": 1.6875,
      "rewards/format_reward": 0.9921875,
      "step": 342
    },
    {
      "completion_length": 75.6796875,
      "epoch": 0.02201187229263597,
      "grad_norm": 2.065533615828042,
      "kl": 0.0367431640625,
      "learning_rate": 9.889937106918237e-07,
      "loss": 0.0015,
      "reward": 3.515625,
      "reward_std": 0.21914125978946686,
      "rewards/accuracy_reward": 0.7890625,
      "rewards/format_count_numbers": 1.7265625,
      "rewards/format_reward": 1.0,
      "step": 343
    },
    {
      "completion_length": 82.7578125,
      "epoch": 0.022076046847424997,
      "grad_norm": 5.073202282468144,
      "kl": 0.0523681640625,
      "learning_rate": 9.88961622384803e-07,
      "loss": 0.0021,
      "reward": 3.39453125,
      "reward_std": 0.267434298992157,
      "rewards/accuracy_reward": 0.6796875,
      "rewards/format_count_numbers": 1.71484375,
      "rewards/format_reward": 1.0,
      "step": 344
    },
    {
      "completion_length": 86.3203125,
      "epoch": 0.02214022140221402,
      "grad_norm": 6.389589774406354,
      "kl": 0.0360107421875,
      "learning_rate": 9.88929534077782e-07,
      "loss": 0.0014,
      "reward": 3.45703125,
      "reward_std": 0.175977885723114,
      "rewards/accuracy_reward": 0.71875,
      "rewards/format_count_numbers": 1.74609375,
      "rewards/format_reward": 0.9921875,
      "step": 345
    },
    {
      "completion_length": 93.5546875,
      "epoch": 0.022204395957003048,
      "grad_norm": 2.5643508129764534,
      "kl": 0.0343017578125,
      "learning_rate": 9.888974457707611e-07,
      "loss": 0.0014,
      "reward": 2.96875,
      "reward_std": 0.1921706572175026,
      "rewards/accuracy_reward": 0.6171875,
      "rewards/format_count_numbers": 1.3515625,
      "rewards/format_reward": 1.0,
      "step": 346
    },
    {
      "completion_length": 78.9140625,
      "epoch": 0.022268570511792075,
      "grad_norm": 3.961771698767157,
      "kl": 0.03070068359375,
      "learning_rate": 9.888653574637401e-07,
      "loss": 0.0012,
      "reward": 3.2578125,
      "reward_std": 0.17908401414752007,
      "rewards/accuracy_reward": 0.78125,
      "rewards/format_count_numbers": 1.484375,
      "rewards/format_reward": 0.9921875,
      "step": 347
    },
    {
      "completion_length": 85.109375,
      "epoch": 0.0223327450665811,
      "grad_norm": 4.3000744893240554,
      "kl": 0.03497314453125,
      "learning_rate": 9.888332691567194e-07,
      "loss": 0.0014,
      "reward": 3.41796875,
      "reward_std": 0.3060422018170357,
      "rewards/accuracy_reward": 0.7265625,
      "rewards/format_count_numbers": 1.69921875,
      "rewards/format_reward": 0.9921875,
      "step": 348
    },
    {
      "completion_length": 74.5703125,
      "epoch": 0.022396919621370127,
      "grad_norm": 1.0954007853308396,
      "kl": 0.0369873046875,
      "learning_rate": 9.888011808496984e-07,
      "loss": 0.0015,
      "reward": 3.08984375,
      "reward_std": 0.0706173200160265,
      "rewards/accuracy_reward": 0.609375,
      "rewards/format_count_numbers": 1.48046875,
      "rewards/format_reward": 1.0,
      "step": 349
    },
    {
      "completion_length": 80.265625,
      "epoch": 0.022461094176159154,
      "grad_norm": 3.195366913379474,
      "kl": 0.0369873046875,
      "learning_rate": 9.887690925426774e-07,
      "loss": 0.0015,
      "reward": 3.08984375,
      "reward_std": 0.2496279776096344,
      "rewards/accuracy_reward": 0.734375,
      "rewards/format_count_numbers": 1.35546875,
      "rewards/format_reward": 1.0,
      "step": 350
    },
    {
      "completion_length": 77.9765625,
      "epoch": 0.022525268730948178,
      "grad_norm": 2.435573538386913,
      "kl": 0.0467529296875,
      "learning_rate": 9.887370042356566e-07,
      "loss": 0.0019,
      "reward": 3.5390625,
      "reward_std": 0.13178616762161255,
      "rewards/accuracy_reward": 0.6796875,
      "rewards/format_count_numbers": 1.859375,
      "rewards/format_reward": 1.0,
      "step": 351
    },
    {
      "completion_length": 83.7890625,
      "epoch": 0.022589443285737205,
      "grad_norm": 5.382894502559734,
      "kl": 0.037109375,
      "learning_rate": 9.887049159286356e-07,
      "loss": 0.0015,
      "reward": 3.26171875,
      "reward_std": 0.18629190325737,
      "rewards/accuracy_reward": 0.6640625,
      "rewards/format_count_numbers": 1.59765625,
      "rewards/format_reward": 1.0,
      "step": 352
    },
    {
      "completion_length": 80.171875,
      "epoch": 0.022653617840526233,
      "grad_norm": 7.468233392690856,
      "kl": 0.0400390625,
      "learning_rate": 9.886728276216146e-07,
      "loss": 0.0016,
      "reward": 3.28125,
      "reward_std": 0.24748793244361877,
      "rewards/accuracy_reward": 0.671875,
      "rewards/format_count_numbers": 1.609375,
      "rewards/format_reward": 1.0,
      "step": 353
    },
    {
      "completion_length": 67.59375,
      "epoch": 0.022717792395315257,
      "grad_norm": 2.3704195087172204,
      "kl": 0.0640869140625,
      "learning_rate": 9.886407393145938e-07,
      "loss": 0.0026,
      "reward": 3.25390625,
      "reward_std": 0.2137848511338234,
      "rewards/accuracy_reward": 0.7890625,
      "rewards/format_count_numbers": 1.47265625,
      "rewards/format_reward": 0.9921875,
      "step": 354
    },
    {
      "completion_length": 68.390625,
      "epoch": 0.022781966950104284,
      "grad_norm": 2.0290582746739325,
      "kl": 0.0289306640625,
      "learning_rate": 9.886086510075728e-07,
      "loss": 0.0012,
      "reward": 3.40625,
      "reward_std": 0.05444390885531902,
      "rewards/accuracy_reward": 0.90625,
      "rewards/format_count_numbers": 1.5,
      "rewards/format_reward": 1.0,
      "step": 355
    },
    {
      "completion_length": 80.4140625,
      "epoch": 0.022846141504893308,
      "grad_norm": 4.008892753422357,
      "kl": 0.04443359375,
      "learning_rate": 9.88576562700552e-07,
      "loss": 0.0018,
      "reward": 3.2265625,
      "reward_std": 0.15082315355539322,
      "rewards/accuracy_reward": 0.7578125,
      "rewards/format_count_numbers": 1.46875,
      "rewards/format_reward": 1.0,
      "step": 356
    },
    {
      "completion_length": 77.3203125,
      "epoch": 0.022910316059682335,
      "grad_norm": 3.449518121825568,
      "kl": 0.0496826171875,
      "learning_rate": 9.88544474393531e-07,
      "loss": 0.002,
      "reward": 3.30078125,
      "reward_std": 0.21571563184261322,
      "rewards/accuracy_reward": 0.703125,
      "rewards/format_count_numbers": 1.59765625,
      "rewards/format_reward": 1.0,
      "step": 357
    },
    {
      "completion_length": 81.7109375,
      "epoch": 0.022974490614471363,
      "grad_norm": 2.7126927864486685,
      "kl": 0.030517578125,
      "learning_rate": 9.8851238608651e-07,
      "loss": 0.0012,
      "reward": 3.10546875,
      "reward_std": 0.14452779106795788,
      "rewards/accuracy_reward": 0.8828125,
      "rewards/format_count_numbers": 1.23046875,
      "rewards/format_reward": 0.9921875,
      "step": 358
    },
    {
      "completion_length": 71.4765625,
      "epoch": 0.023038665169260387,
      "grad_norm": 28.981994390279645,
      "kl": 0.04144287109375,
      "learning_rate": 9.884802977794892e-07,
      "loss": 0.0017,
      "reward": 3.4140625,
      "reward_std": 0.1526160091161728,
      "rewards/accuracy_reward": 0.8046875,
      "rewards/format_count_numbers": 1.609375,
      "rewards/format_reward": 1.0,
      "step": 359
    },
    {
      "completion_length": 81.1171875,
      "epoch": 0.023102839724049414,
      "grad_norm": 5.102804568294057,
      "kl": 0.040283203125,
      "learning_rate": 9.884482094724682e-07,
      "loss": 0.0016,
      "reward": 3.51953125,
      "reward_std": 0.1749495342373848,
      "rewards/accuracy_reward": 0.78125,
      "rewards/format_count_numbers": 1.73828125,
      "rewards/format_reward": 1.0,
      "step": 360
    },
    {
      "completion_length": 74.2578125,
      "epoch": 0.02316701427883844,
      "grad_norm": 1.872314059459667,
      "kl": 0.02880859375,
      "learning_rate": 9.884161211654472e-07,
      "loss": 0.0012,
      "reward": 3.6953125,
      "reward_std": 0.13838762417435646,
      "rewards/accuracy_reward": 0.84375,
      "rewards/format_count_numbers": 1.8515625,
      "rewards/format_reward": 1.0,
      "step": 361
    },
    {
      "completion_length": 81.640625,
      "epoch": 0.023231188833627466,
      "grad_norm": 2.836357396061621,
      "kl": 0.0380859375,
      "learning_rate": 9.883840328584262e-07,
      "loss": 0.0015,
      "reward": 3.3046875,
      "reward_std": 0.1952216997742653,
      "rewards/accuracy_reward": 0.59375,
      "rewards/format_count_numbers": 1.71875,
      "rewards/format_reward": 0.9921875,
      "step": 362
    },
    {
      "completion_length": 79.375,
      "epoch": 0.023295363388416493,
      "grad_norm": 5.632585133478851,
      "kl": 0.042724609375,
      "learning_rate": 9.883519445514054e-07,
      "loss": 0.0017,
      "reward": 3.41015625,
      "reward_std": 0.30673080682754517,
      "rewards/accuracy_reward": 0.5625,
      "rewards/format_count_numbers": 1.84765625,
      "rewards/format_reward": 1.0,
      "step": 363
    },
    {
      "completion_length": 81.734375,
      "epoch": 0.02335953794320552,
      "grad_norm": 5.785440511985008,
      "kl": 0.0400390625,
      "learning_rate": 9.883198562443844e-07,
      "loss": 0.0016,
      "reward": 3.33203125,
      "reward_std": 0.22772862017154694,
      "rewards/accuracy_reward": 0.734375,
      "rewards/format_count_numbers": 1.59765625,
      "rewards/format_reward": 1.0,
      "step": 364
    },
    {
      "completion_length": 75.8671875,
      "epoch": 0.023423712497994544,
      "grad_norm": 2.072342748914024,
      "kl": 0.0384521484375,
      "learning_rate": 9.882877679373636e-07,
      "loss": 0.0015,
      "reward": 3.140625,
      "reward_std": 0.24147523939609528,
      "rewards/accuracy_reward": 0.796875,
      "rewards/format_count_numbers": 1.3515625,
      "rewards/format_reward": 0.9921875,
      "step": 365
    },
    {
      "completion_length": 87.3046875,
      "epoch": 0.02348788705278357,
      "grad_norm": 8.429294656694106,
      "kl": 0.0458984375,
      "learning_rate": 9.882556796303426e-07,
      "loss": 0.0018,
      "reward": 3.60546875,
      "reward_std": 0.16242551058530807,
      "rewards/accuracy_reward": 0.7578125,
      "rewards/format_count_numbers": 1.85546875,
      "rewards/format_reward": 0.9921875,
      "step": 366
    },
    {
      "completion_length": 72.5078125,
      "epoch": 0.0235520616075726,
      "grad_norm": 1.7309448366047746,
      "kl": 0.048583984375,
      "learning_rate": 9.882235913233218e-07,
      "loss": 0.0019,
      "reward": 3.02734375,
      "reward_std": 0.150530144572258,
      "rewards/accuracy_reward": 0.671875,
      "rewards/format_count_numbers": 1.35546875,
      "rewards/format_reward": 1.0,
      "step": 367
    },
    {
      "completion_length": 80.2578125,
      "epoch": 0.023616236162361623,
      "grad_norm": 4.113255720949969,
      "kl": 0.03460693359375,
      "learning_rate": 9.881915030163008e-07,
      "loss": 0.0014,
      "reward": 3.3203125,
      "reward_std": 0.22647252678871155,
      "rewards/accuracy_reward": 0.71875,
      "rewards/format_count_numbers": 1.609375,
      "rewards/format_reward": 0.9921875,
      "step": 368
    },
    {
      "completion_length": 76.3515625,
      "epoch": 0.02368041071715065,
      "grad_norm": 2.068165117131359,
      "kl": 0.034423828125,
      "learning_rate": 9.881594147092798e-07,
      "loss": 0.0014,
      "reward": 3.53515625,
      "reward_std": 0.1454532966017723,
      "rewards/accuracy_reward": 0.921875,
      "rewards/format_count_numbers": 1.62109375,
      "rewards/format_reward": 0.9921875,
      "step": 369
    },
    {
      "completion_length": 79.4375,
      "epoch": 0.023744585271939674,
      "grad_norm": 2.068362319541115,
      "kl": 0.0377197265625,
      "learning_rate": 9.881273264022588e-07,
      "loss": 0.0015,
      "reward": 3.16015625,
      "reward_std": 0.14442361146211624,
      "rewards/accuracy_reward": 0.6640625,
      "rewards/format_count_numbers": 1.49609375,
      "rewards/format_reward": 1.0,
      "step": 370
    },
    {
      "completion_length": 80.5,
      "epoch": 0.0238087598267287,
      "grad_norm": 2.9625603898700557,
      "kl": 0.03759765625,
      "learning_rate": 9.88095238095238e-07,
      "loss": 0.0015,
      "reward": 3.38671875,
      "reward_std": 0.2820390909910202,
      "rewards/accuracy_reward": 0.65625,
      "rewards/format_count_numbers": 1.73046875,
      "rewards/format_reward": 1.0,
      "step": 371
    },
    {
      "completion_length": 85.7890625,
      "epoch": 0.02387293438151773,
      "grad_norm": 4.3856748965288705,
      "kl": 0.055908203125,
      "learning_rate": 9.88063149788217e-07,
      "loss": 0.0022,
      "reward": 3.05078125,
      "reward_std": 0.24741338193416595,
      "rewards/accuracy_reward": 0.578125,
      "rewards/format_count_numbers": 1.47265625,
      "rewards/format_reward": 1.0,
      "step": 372
    },
    {
      "completion_length": 80.484375,
      "epoch": 0.023937108936306753,
      "grad_norm": 3.719499126072363,
      "kl": 0.0572509765625,
      "learning_rate": 9.880310614811963e-07,
      "loss": 0.0023,
      "reward": 3.26953125,
      "reward_std": 0.1984347254037857,
      "rewards/accuracy_reward": 0.796875,
      "rewards/format_count_numbers": 1.47265625,
      "rewards/format_reward": 1.0,
      "step": 373
    },
    {
      "completion_length": 79.0,
      "epoch": 0.02400128349109578,
      "grad_norm": 1.69807131048397,
      "kl": 0.0361328125,
      "learning_rate": 9.879989731741753e-07,
      "loss": 0.0014,
      "reward": 3.70703125,
      "reward_std": 0.07769465446472168,
      "rewards/accuracy_reward": 0.8359375,
      "rewards/format_count_numbers": 1.87109375,
      "rewards/format_reward": 1.0,
      "step": 374
    },
    {
      "completion_length": 80.90625,
      "epoch": 0.024065458045884808,
      "grad_norm": 3.9666777840340584,
      "kl": 0.0440673828125,
      "learning_rate": 9.879668848671545e-07,
      "loss": 0.0018,
      "reward": 3.22265625,
      "reward_std": 0.1638985350728035,
      "rewards/accuracy_reward": 0.609375,
      "rewards/format_count_numbers": 1.61328125,
      "rewards/format_reward": 1.0,
      "step": 375
    },
    {
      "completion_length": 80.640625,
      "epoch": 0.02412963260067383,
      "grad_norm": 4.772780273588727,
      "kl": 0.03564453125,
      "learning_rate": 9.879347965601335e-07,
      "loss": 0.0014,
      "reward": 3.3984375,
      "reward_std": 0.2093481346964836,
      "rewards/accuracy_reward": 0.7734375,
      "rewards/format_count_numbers": 1.625,
      "rewards/format_reward": 1.0,
      "step": 376
    },
    {
      "completion_length": 80.6484375,
      "epoch": 0.02419380715546286,
      "grad_norm": 2.7684971107051197,
      "kl": 0.0345458984375,
      "learning_rate": 9.879027082531125e-07,
      "loss": 0.0014,
      "reward": 3.0,
      "reward_std": 0.13204573839902878,
      "rewards/accuracy_reward": 0.6328125,
      "rewards/format_count_numbers": 1.3671875,
      "rewards/format_reward": 1.0,
      "step": 377
    },
    {
      "completion_length": 80.25,
      "epoch": 0.024257981710251886,
      "grad_norm": 1.700211970948363,
      "kl": 0.044921875,
      "learning_rate": 9.878706199460915e-07,
      "loss": 0.0018,
      "reward": 3.58203125,
      "reward_std": 0.10627167671918869,
      "rewards/accuracy_reward": 0.8359375,
      "rewards/format_count_numbers": 1.74609375,
      "rewards/format_reward": 1.0,
      "step": 378
    },
    {
      "completion_length": 91.2109375,
      "epoch": 0.02432215626504091,
      "grad_norm": 3.9728263101272345,
      "kl": 0.040771484375,
      "learning_rate": 9.878385316390707e-07,
      "loss": 0.0016,
      "reward": 3.15625,
      "reward_std": 0.3403690755367279,
      "rewards/accuracy_reward": 0.5390625,
      "rewards/format_count_numbers": 1.6171875,
      "rewards/format_reward": 1.0,
      "step": 379
    },
    {
      "completion_length": 71.453125,
      "epoch": 0.024386330819829938,
      "grad_norm": 1.1064012126062157,
      "kl": 0.036376953125,
      "learning_rate": 9.878064433320497e-07,
      "loss": 0.0015,
      "reward": 3.58984375,
      "reward_std": 0.09566336870193481,
      "rewards/accuracy_reward": 0.84375,
      "rewards/format_count_numbers": 1.74609375,
      "rewards/format_reward": 1.0,
      "step": 380
    },
    {
      "completion_length": 75.6328125,
      "epoch": 0.024450505374618965,
      "grad_norm": 2.518562910866717,
      "kl": 0.0341796875,
      "learning_rate": 9.87774355025029e-07,
      "loss": 0.0014,
      "reward": 3.125,
      "reward_std": 0.2069891169667244,
      "rewards/accuracy_reward": 0.625,
      "rewards/format_count_numbers": 1.5,
      "rewards/format_reward": 1.0,
      "step": 381
    },
    {
      "completion_length": 75.484375,
      "epoch": 0.02451467992940799,
      "grad_norm": 2.4399820960454397,
      "kl": 0.0595703125,
      "learning_rate": 9.87742266718008e-07,
      "loss": 0.0024,
      "reward": 3.34765625,
      "reward_std": 0.13679246604442596,
      "rewards/accuracy_reward": 0.8671875,
      "rewards/format_count_numbers": 1.48828125,
      "rewards/format_reward": 0.9921875,
      "step": 382
    },
    {
      "completion_length": 89.203125,
      "epoch": 0.024578854484197016,
      "grad_norm": 2.9276613125514883,
      "kl": 0.053955078125,
      "learning_rate": 9.877101784109871e-07,
      "loss": 0.0021,
      "reward": 3.4296875,
      "reward_std": 0.18542881309986115,
      "rewards/accuracy_reward": 0.8203125,
      "rewards/format_count_numbers": 1.609375,
      "rewards/format_reward": 1.0,
      "step": 383
    },
    {
      "completion_length": 77.328125,
      "epoch": 0.02464302903898604,
      "grad_norm": 2.830245204545985,
      "kl": 0.0355224609375,
      "learning_rate": 9.876780901039661e-07,
      "loss": 0.0014,
      "reward": 3.32421875,
      "reward_std": 0.19252563267946243,
      "rewards/accuracy_reward": 0.703125,
      "rewards/format_count_numbers": 1.62109375,
      "rewards/format_reward": 1.0,
      "step": 384
    },
    {
      "completion_length": 83.5703125,
      "epoch": 0.024707203593775068,
      "grad_norm": 7.127123191676637,
      "kl": 0.0469970703125,
      "learning_rate": 9.876460017969451e-07,
      "loss": 0.0019,
      "reward": 2.8515625,
      "reward_std": 0.22753334045410156,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_count_numbers": 1.3671875,
      "rewards/format_reward": 0.984375,
      "step": 385
    },
    {
      "completion_length": 85.796875,
      "epoch": 0.024771378148564095,
      "grad_norm": 2.7550811760798566,
      "kl": 0.038818359375,
      "learning_rate": 9.876139134899241e-07,
      "loss": 0.0016,
      "reward": 3.37890625,
      "reward_std": 0.09077248722314835,
      "rewards/accuracy_reward": 0.7578125,
      "rewards/format_count_numbers": 1.62109375,
      "rewards/format_reward": 1.0,
      "step": 386
    },
    {
      "completion_length": 89.40625,
      "epoch": 0.02483555270335312,
      "grad_norm": 2.0396310060598433,
      "kl": 0.03131103515625,
      "learning_rate": 9.875818251829033e-07,
      "loss": 0.0013,
      "reward": 3.26953125,
      "reward_std": 0.22882908582687378,
      "rewards/accuracy_reward": 0.6640625,
      "rewards/format_count_numbers": 1.60546875,
      "rewards/format_reward": 1.0,
      "step": 387
    },
    {
      "completion_length": 89.2578125,
      "epoch": 0.024899727258142147,
      "grad_norm": 15.598148276516785,
      "kl": 0.0390625,
      "learning_rate": 9.875497368758823e-07,
      "loss": 0.0016,
      "reward": 3.63671875,
      "reward_std": 0.19242897629737854,
      "rewards/accuracy_reward": 0.7890625,
      "rewards/format_count_numbers": 1.84765625,
      "rewards/format_reward": 1.0,
      "step": 388
    },
    {
      "completion_length": 80.296875,
      "epoch": 0.024963901812931174,
      "grad_norm": 1.7362247625726366,
      "kl": 0.0408935546875,
      "learning_rate": 9.875176485688615e-07,
      "loss": 0.0016,
      "reward": 3.453125,
      "reward_std": 0.1357654631137848,
      "rewards/accuracy_reward": 0.8359375,
      "rewards/format_count_numbers": 1.6171875,
      "rewards/format_reward": 1.0,
      "step": 389
    },
    {
      "completion_length": 88.0703125,
      "epoch": 0.025028076367720198,
      "grad_norm": 4.395136245010878,
      "kl": 0.0577392578125,
      "learning_rate": 9.874855602618405e-07,
      "loss": 0.0023,
      "reward": 3.578125,
      "reward_std": 0.16841552406549454,
      "rewards/accuracy_reward": 0.765625,
      "rewards/format_count_numbers": 1.828125,
      "rewards/format_reward": 0.984375,
      "step": 390
    },
    {
      "completion_length": 88.546875,
      "epoch": 0.025092250922509225,
      "grad_norm": 12.85465482179912,
      "kl": 0.0374755859375,
      "learning_rate": 9.874534719548198e-07,
      "loss": 0.0015,
      "reward": 3.375,
      "reward_std": 0.22008295357227325,
      "rewards/accuracy_reward": 0.7578125,
      "rewards/format_count_numbers": 1.6171875,
      "rewards/format_reward": 1.0,
      "step": 391
    },
    {
      "completion_length": 91.46875,
      "epoch": 0.025156425477298253,
      "grad_norm": 2.36150273289245,
      "kl": 0.0423583984375,
      "learning_rate": 9.874213836477988e-07,
      "loss": 0.0017,
      "reward": 3.453125,
      "reward_std": 0.15650184452533722,
      "rewards/accuracy_reward": 0.7109375,
      "rewards/format_count_numbers": 1.75,
      "rewards/format_reward": 0.9921875,
      "step": 392
    },
    {
      "completion_length": 92.59375,
      "epoch": 0.025220600032087277,
      "grad_norm": 7.83656228688999,
      "kl": 0.0408935546875,
      "learning_rate": 9.873892953407778e-07,
      "loss": 0.0016,
      "reward": 3.23046875,
      "reward_std": 0.2951347902417183,
      "rewards/accuracy_reward": 0.625,
      "rewards/format_count_numbers": 1.60546875,
      "rewards/format_reward": 1.0,
      "step": 393
    },
    {
      "completion_length": 91.7734375,
      "epoch": 0.025284774586876304,
      "grad_norm": 2.5606651790718002,
      "kl": 0.044189453125,
      "learning_rate": 9.873572070337568e-07,
      "loss": 0.0018,
      "reward": 3.484375,
      "reward_std": 0.20617882907390594,
      "rewards/accuracy_reward": 0.6328125,
      "rewards/format_count_numbers": 1.859375,
      "rewards/format_reward": 0.9921875,
      "step": 394
    },
    {
      "completion_length": 89.65625,
      "epoch": 0.02534894914166533,
      "grad_norm": 3.4540044213852883,
      "kl": 0.0352783203125,
      "learning_rate": 9.87325118726736e-07,
      "loss": 0.0014,
      "reward": 3.1640625,
      "reward_std": 0.24595101922750473,
      "rewards/accuracy_reward": 0.6796875,
      "rewards/format_count_numbers": 1.484375,
      "rewards/format_reward": 1.0,
      "step": 395
    },
    {
      "completion_length": 93.421875,
      "epoch": 0.025413123696454355,
      "grad_norm": 2.5964730870490818,
      "kl": 0.0362548828125,
      "learning_rate": 9.87293030419715e-07,
      "loss": 0.0014,
      "reward": 3.27734375,
      "reward_std": 0.23519299179315567,
      "rewards/accuracy_reward": 0.6796875,
      "rewards/format_count_numbers": 1.59765625,
      "rewards/format_reward": 1.0,
      "step": 396
    },
    {
      "completion_length": 93.7734375,
      "epoch": 0.025477298251243383,
      "grad_norm": 28.22328884573873,
      "kl": 0.049072265625,
      "learning_rate": 9.87260942112694e-07,
      "loss": 0.002,
      "reward": 2.98046875,
      "reward_std": 0.27177654206752777,
      "rewards/accuracy_reward": 0.5234375,
      "rewards/format_count_numbers": 1.46484375,
      "rewards/format_reward": 0.9921875,
      "step": 397
    },
    {
      "completion_length": 85.09375,
      "epoch": 0.025541472806032407,
      "grad_norm": 2.3191135713676028,
      "kl": 0.060302734375,
      "learning_rate": 9.872288538056732e-07,
      "loss": 0.0024,
      "reward": 3.515625,
      "reward_std": 0.2294127270579338,
      "rewards/accuracy_reward": 0.6796875,
      "rewards/format_count_numbers": 1.84375,
      "rewards/format_reward": 0.9921875,
      "step": 398
    },
    {
      "completion_length": 81.3515625,
      "epoch": 0.025605647360821434,
      "grad_norm": 1.6905703769183331,
      "kl": 0.035400390625,
      "learning_rate": 9.871967654986522e-07,
      "loss": 0.0014,
      "reward": 3.44921875,
      "reward_std": 0.14091838151216507,
      "rewards/accuracy_reward": 0.828125,
      "rewards/format_count_numbers": 1.62109375,
      "rewards/format_reward": 1.0,
      "step": 399
    },
    {
      "completion_length": 87.5703125,
      "epoch": 0.02566982191561046,
      "grad_norm": 4.512482526660794,
      "kl": 0.0390625,
      "learning_rate": 9.871646771916314e-07,
      "loss": 0.0016,
      "reward": 3.25390625,
      "reward_std": 0.16978827118873596,
      "rewards/accuracy_reward": 0.65625,
      "rewards/format_count_numbers": 1.59765625,
      "rewards/format_reward": 1.0,
      "step": 400
    }
  ],
  "logging_steps": 1.0,
  "max_steps": 31164,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 100,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}