{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.44510385756676557,
  "eval_steps": 9,
  "global_step": 75,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.005934718100890208,
      "grad_norm": 9.381976127624512,
      "learning_rate": 1e-05,
      "loss": 1.1718,
      "step": 1
    },
    {
      "epoch": 0.005934718100890208,
      "eval_loss": 1.1031090021133423,
      "eval_runtime": 8.8727,
      "eval_samples_per_second": 64.017,
      "eval_steps_per_second": 2.029,
      "step": 1
    },
    {
      "epoch": 0.011869436201780416,
      "grad_norm": 7.268422603607178,
      "learning_rate": 2e-05,
      "loss": 1.0292,
      "step": 2
    },
    {
      "epoch": 0.017804154302670624,
      "grad_norm": 6.794739246368408,
      "learning_rate": 3e-05,
      "loss": 0.8998,
      "step": 3
    },
    {
      "epoch": 0.02373887240356083,
      "grad_norm": 2.2137513160705566,
      "learning_rate": 4e-05,
      "loss": 0.805,
      "step": 4
    },
    {
      "epoch": 0.02967359050445104,
      "grad_norm": 3.304053783416748,
      "learning_rate": 5e-05,
      "loss": 0.8423,
      "step": 5
    },
    {
      "epoch": 0.03560830860534125,
      "grad_norm": 2.8322229385375977,
      "learning_rate": 6e-05,
      "loss": 0.6573,
      "step": 6
    },
    {
      "epoch": 0.04154302670623145,
      "grad_norm": 2.5020737648010254,
      "learning_rate": 7e-05,
      "loss": 0.7127,
      "step": 7
    },
    {
      "epoch": 0.04747774480712166,
      "grad_norm": 2.540236711502075,
      "learning_rate": 8e-05,
      "loss": 0.48,
      "step": 8
    },
    {
      "epoch": 0.05341246290801187,
      "grad_norm": 2.2931642532348633,
      "learning_rate": 9e-05,
      "loss": 0.3405,
      "step": 9
    },
    {
      "epoch": 0.05341246290801187,
      "eval_loss": 0.17176146805286407,
      "eval_runtime": 8.9059,
      "eval_samples_per_second": 63.778,
      "eval_steps_per_second": 2.021,
      "step": 9
    },
    {
      "epoch": 0.05934718100890208,
      "grad_norm": 1.7333436012268066,
      "learning_rate": 0.0001,
      "loss": 0.1542,
      "step": 10
    },
    {
      "epoch": 0.06528189910979229,
      "grad_norm": 2.667405128479004,
      "learning_rate": 9.99695413509548e-05,
      "loss": 0.1052,
      "step": 11
    },
    {
      "epoch": 0.0712166172106825,
      "grad_norm": 0.9240720272064209,
      "learning_rate": 9.987820251299122e-05,
      "loss": 0.0946,
      "step": 12
    },
    {
      "epoch": 0.0771513353115727,
      "grad_norm": 1.5315141677856445,
      "learning_rate": 9.972609476841367e-05,
      "loss": 0.0902,
      "step": 13
    },
    {
      "epoch": 0.0830860534124629,
      "grad_norm": 0.6402982473373413,
      "learning_rate": 9.951340343707852e-05,
      "loss": 0.0683,
      "step": 14
    },
    {
      "epoch": 0.08902077151335312,
      "grad_norm": 0.5527127385139465,
      "learning_rate": 9.924038765061042e-05,
      "loss": 0.0706,
      "step": 15
    },
    {
      "epoch": 0.09495548961424333,
      "grad_norm": 0.5127731561660767,
      "learning_rate": 9.890738003669029e-05,
      "loss": 0.0653,
      "step": 16
    },
    {
      "epoch": 0.10089020771513353,
      "grad_norm": 0.3585059344768524,
      "learning_rate": 9.851478631379982e-05,
      "loss": 0.0538,
      "step": 17
    },
    {
      "epoch": 0.10682492581602374,
      "grad_norm": 0.48804140090942383,
      "learning_rate": 9.806308479691595e-05,
      "loss": 0.0523,
      "step": 18
    },
    {
      "epoch": 0.10682492581602374,
      "eval_loss": 0.05474362522363663,
      "eval_runtime": 8.875,
      "eval_samples_per_second": 64.0,
      "eval_steps_per_second": 2.028,
      "step": 18
    },
    {
      "epoch": 0.11275964391691394,
      "grad_norm": 0.4872173070907593,
      "learning_rate": 9.755282581475769e-05,
      "loss": 0.0488,
      "step": 19
    },
    {
      "epoch": 0.11869436201780416,
      "grad_norm": 0.9322812557220459,
      "learning_rate": 9.698463103929542e-05,
      "loss": 0.0514,
      "step": 20
    },
    {
      "epoch": 0.12462908011869436,
      "grad_norm": 0.2725036144256592,
      "learning_rate": 9.635919272833938e-05,
      "loss": 0.055,
      "step": 21
    },
    {
      "epoch": 0.13056379821958458,
      "grad_norm": 0.5436651110649109,
      "learning_rate": 9.567727288213005e-05,
      "loss": 0.0565,
      "step": 22
    },
    {
      "epoch": 0.13649851632047477,
      "grad_norm": 0.607605516910553,
      "learning_rate": 9.493970231495835e-05,
      "loss": 0.0429,
      "step": 23
    },
    {
      "epoch": 0.142433234421365,
      "grad_norm": 0.6267641186714172,
      "learning_rate": 9.414737964294636e-05,
      "loss": 0.0821,
      "step": 24
    },
    {
      "epoch": 0.14836795252225518,
      "grad_norm": 0.2521096169948578,
      "learning_rate": 9.330127018922194e-05,
      "loss": 0.0353,
      "step": 25
    },
    {
      "epoch": 0.1543026706231454,
      "grad_norm": 0.18574640154838562,
      "learning_rate": 9.24024048078213e-05,
      "loss": 0.0393,
      "step": 26
    },
    {
      "epoch": 0.16023738872403562,
      "grad_norm": 0.19706639647483826,
      "learning_rate": 9.145187862775209e-05,
      "loss": 0.0449,
      "step": 27
    },
    {
      "epoch": 0.16023738872403562,
      "eval_loss": 0.04798547551035881,
      "eval_runtime": 8.8817,
      "eval_samples_per_second": 63.952,
      "eval_steps_per_second": 2.027,
      "step": 27
    },
    {
      "epoch": 0.1661721068249258,
      "grad_norm": 0.32196494936943054,
      "learning_rate": 9.045084971874738e-05,
      "loss": 0.0305,
      "step": 28
    },
    {
      "epoch": 0.17210682492581603,
      "grad_norm": 0.3311671018600464,
      "learning_rate": 8.940053768033609e-05,
      "loss": 0.0655,
      "step": 29
    },
    {
      "epoch": 0.17804154302670624,
      "grad_norm": 0.3232560157775879,
      "learning_rate": 8.83022221559489e-05,
      "loss": 0.0301,
      "step": 30
    },
    {
      "epoch": 0.18397626112759644,
      "grad_norm": 0.6390916109085083,
      "learning_rate": 8.715724127386972e-05,
      "loss": 0.0483,
      "step": 31
    },
    {
      "epoch": 0.18991097922848665,
      "grad_norm": 0.5197941064834595,
      "learning_rate": 8.596699001693255e-05,
      "loss": 0.0353,
      "step": 32
    },
    {
      "epoch": 0.19584569732937684,
      "grad_norm": 0.8994812369346619,
      "learning_rate": 8.473291852294987e-05,
      "loss": 0.0505,
      "step": 33
    },
    {
      "epoch": 0.20178041543026706,
      "grad_norm": 0.5461136698722839,
      "learning_rate": 8.345653031794292e-05,
      "loss": 0.0441,
      "step": 34
    },
    {
      "epoch": 0.20771513353115728,
      "grad_norm": 0.5271572470664978,
      "learning_rate": 8.213938048432697e-05,
      "loss": 0.0459,
      "step": 35
    },
    {
      "epoch": 0.21364985163204747,
      "grad_norm": 0.6887075901031494,
      "learning_rate": 8.07830737662829e-05,
      "loss": 0.0495,
      "step": 36
    },
    {
      "epoch": 0.21364985163204747,
      "eval_loss": 0.041259631514549255,
      "eval_runtime": 8.874,
      "eval_samples_per_second": 64.007,
      "eval_steps_per_second": 2.028,
      "step": 36
    },
    {
      "epoch": 0.2195845697329377,
      "grad_norm": 0.35712963342666626,
      "learning_rate": 7.938926261462366e-05,
      "loss": 0.0386,
      "step": 37
    },
    {
      "epoch": 0.22551928783382788,
      "grad_norm": 0.27561286091804504,
      "learning_rate": 7.795964517353735e-05,
      "loss": 0.036,
      "step": 38
    },
    {
      "epoch": 0.2314540059347181,
      "grad_norm": 0.6331393122673035,
      "learning_rate": 7.649596321166024e-05,
      "loss": 0.0413,
      "step": 39
    },
    {
      "epoch": 0.23738872403560832,
      "grad_norm": 0.37509703636169434,
      "learning_rate": 7.500000000000001e-05,
      "loss": 0.0452,
      "step": 40
    },
    {
      "epoch": 0.2433234421364985,
      "grad_norm": 0.3862021863460541,
      "learning_rate": 7.347357813929454e-05,
      "loss": 0.0418,
      "step": 41
    },
    {
      "epoch": 0.24925816023738873,
      "grad_norm": 0.4388982355594635,
      "learning_rate": 7.191855733945387e-05,
      "loss": 0.0459,
      "step": 42
    },
    {
      "epoch": 0.2551928783382789,
      "grad_norm": 0.20295847952365875,
      "learning_rate": 7.033683215379002e-05,
      "loss": 0.0338,
      "step": 43
    },
    {
      "epoch": 0.26112759643916916,
      "grad_norm": 0.2113015353679657,
      "learning_rate": 6.873032967079561e-05,
      "loss": 0.0354,
      "step": 44
    },
    {
      "epoch": 0.26706231454005935,
      "grad_norm": 0.32455718517303467,
      "learning_rate": 6.710100716628344e-05,
      "loss": 0.0374,
      "step": 45
    },
    {
      "epoch": 0.26706231454005935,
      "eval_loss": 0.03937255218625069,
      "eval_runtime": 8.8768,
      "eval_samples_per_second": 63.987,
      "eval_steps_per_second": 2.028,
      "step": 45
    },
    {
      "epoch": 0.27299703264094954,
      "grad_norm": 0.24916131794452667,
      "learning_rate": 6.545084971874738e-05,
      "loss": 0.0365,
      "step": 46
    },
    {
      "epoch": 0.2789317507418398,
      "grad_norm": 0.1625402867794037,
      "learning_rate": 6.378186779084995e-05,
      "loss": 0.03,
      "step": 47
    },
    {
      "epoch": 0.28486646884273,
      "grad_norm": 0.2379160076379776,
      "learning_rate": 6.209609477998338e-05,
      "loss": 0.0426,
      "step": 48
    },
    {
      "epoch": 0.29080118694362017,
      "grad_norm": 0.20528316497802734,
      "learning_rate": 6.0395584540887963e-05,
      "loss": 0.0456,
      "step": 49
    },
    {
      "epoch": 0.29673590504451036,
      "grad_norm": 0.2271656095981598,
      "learning_rate": 5.868240888334653e-05,
      "loss": 0.0341,
      "step": 50
    },
    {
      "epoch": 0.3026706231454006,
      "grad_norm": 0.23903632164001465,
      "learning_rate": 5.695865504800327e-05,
      "loss": 0.0517,
      "step": 51
    },
    {
      "epoch": 0.3086053412462908,
      "grad_norm": 0.4485885798931122,
      "learning_rate": 5.522642316338268e-05,
      "loss": 0.0368,
      "step": 52
    },
    {
      "epoch": 0.314540059347181,
      "grad_norm": 0.2551536560058594,
      "learning_rate": 5.348782368720626e-05,
      "loss": 0.0331,
      "step": 53
    },
    {
      "epoch": 0.32047477744807124,
      "grad_norm": 0.32670527696609497,
      "learning_rate": 5.174497483512506e-05,
      "loss": 0.0466,
      "step": 54
    },
    {
      "epoch": 0.32047477744807124,
      "eval_loss": 0.034560102969408035,
      "eval_runtime": 8.8747,
      "eval_samples_per_second": 64.002,
      "eval_steps_per_second": 2.028,
      "step": 54
    },
    {
      "epoch": 0.3264094955489614,
      "grad_norm": 0.21245713531970978,
      "learning_rate": 5e-05,
      "loss": 0.0219,
      "step": 55
    },
    {
      "epoch": 0.3323442136498516,
      "grad_norm": 0.2684561312198639,
      "learning_rate": 4.825502516487497e-05,
      "loss": 0.0383,
      "step": 56
    },
    {
      "epoch": 0.33827893175074186,
      "grad_norm": 0.3183412551879883,
      "learning_rate": 4.6512176312793736e-05,
      "loss": 0.0325,
      "step": 57
    },
    {
      "epoch": 0.34421364985163205,
      "grad_norm": 0.22641129791736603,
      "learning_rate": 4.477357683661734e-05,
      "loss": 0.0304,
      "step": 58
    },
    {
      "epoch": 0.35014836795252224,
      "grad_norm": 0.23570093512535095,
      "learning_rate": 4.3041344951996746e-05,
      "loss": 0.0274,
      "step": 59
    },
    {
      "epoch": 0.3560830860534125,
      "grad_norm": 0.25089505314826965,
      "learning_rate": 4.131759111665349e-05,
      "loss": 0.0383,
      "step": 60
    },
    {
      "epoch": 0.3620178041543027,
      "grad_norm": 0.2983970642089844,
      "learning_rate": 3.960441545911204e-05,
      "loss": 0.0408,
      "step": 61
    },
    {
      "epoch": 0.36795252225519287,
      "grad_norm": 1.905240774154663,
      "learning_rate": 3.790390522001662e-05,
      "loss": 0.0407,
      "step": 62
    },
    {
      "epoch": 0.37388724035608306,
      "grad_norm": 0.33676159381866455,
      "learning_rate": 3.6218132209150045e-05,
      "loss": 0.0397,
      "step": 63
    },
    {
      "epoch": 0.37388724035608306,
      "eval_loss": 0.03145001456141472,
      "eval_runtime": 8.8871,
      "eval_samples_per_second": 63.913,
      "eval_steps_per_second": 2.025,
      "step": 63
    },
    {
      "epoch": 0.3798219584569733,
      "grad_norm": 0.22375427186489105,
      "learning_rate": 3.4549150281252636e-05,
      "loss": 0.0261,
      "step": 64
    },
    {
      "epoch": 0.3857566765578635,
      "grad_norm": 0.15232010185718536,
      "learning_rate": 3.289899283371657e-05,
      "loss": 0.02,
      "step": 65
    },
    {
      "epoch": 0.3916913946587537,
      "grad_norm": 0.8229625821113586,
      "learning_rate": 3.12696703292044e-05,
      "loss": 0.0277,
      "step": 66
    },
    {
      "epoch": 0.39762611275964393,
      "grad_norm": 0.3698793649673462,
      "learning_rate": 2.9663167846209998e-05,
      "loss": 0.0258,
      "step": 67
    },
    {
      "epoch": 0.4035608308605341,
      "grad_norm": 0.19600550830364227,
      "learning_rate": 2.8081442660546125e-05,
      "loss": 0.0262,
      "step": 68
    },
    {
      "epoch": 0.4094955489614243,
      "grad_norm": 0.31710517406463623,
      "learning_rate": 2.6526421860705473e-05,
      "loss": 0.0248,
      "step": 69
    },
    {
      "epoch": 0.41543026706231456,
      "grad_norm": 0.2836054563522339,
      "learning_rate": 2.500000000000001e-05,
      "loss": 0.0232,
      "step": 70
    },
    {
      "epoch": 0.42136498516320475,
      "grad_norm": 0.23305663466453552,
      "learning_rate": 2.350403678833976e-05,
      "loss": 0.0384,
      "step": 71
    },
    {
      "epoch": 0.42729970326409494,
      "grad_norm": 0.27690601348876953,
      "learning_rate": 2.2040354826462668e-05,
      "loss": 0.046,
      "step": 72
    },
    {
      "epoch": 0.42729970326409494,
      "eval_loss": 0.030352195724844933,
      "eval_runtime": 8.8701,
      "eval_samples_per_second": 64.035,
      "eval_steps_per_second": 2.029,
      "step": 72
    },
    {
      "epoch": 0.4332344213649852,
      "grad_norm": 0.12935283780097961,
      "learning_rate": 2.061073738537635e-05,
      "loss": 0.0193,
      "step": 73
    },
    {
      "epoch": 0.4391691394658754,
      "grad_norm": 0.16147606074810028,
      "learning_rate": 1.9216926233717085e-05,
      "loss": 0.0311,
      "step": 74
    },
    {
      "epoch": 0.44510385756676557,
      "grad_norm": 0.22025907039642334,
      "learning_rate": 1.7860619515673033e-05,
      "loss": 0.0305,
      "step": 75
    }
  ],
  "logging_steps": 1,
  "max_steps": 100,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 25,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 2.255337347392471e+17,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}