{
  "best_metric": 0.9491525423728814,
  "best_model_checkpoint": "/content/dissertation/scripts/ner/output/checkpoint-2330",
  "epoch": 10.0,
  "eval_steps": 500,
  "global_step": 4660,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 1.0,
      "eval_accuracy": 0.9989495654084337,
      "eval_f1": 0.9351598173515981,
      "eval_loss": 0.0030670168343931437,
      "eval_precision": 0.9292196007259528,
      "eval_recall": 0.9411764705882353,
      "eval_runtime": 13.9946,
      "eval_samples_per_second": 486.615,
      "eval_steps_per_second": 60.88,
      "step": 466
    },
    {
      "epoch": 1.0729613733905579,
      "grad_norm": 0.07174628973007202,
      "learning_rate": 4.4635193133047216e-05,
      "loss": 0.0199,
      "step": 500
    },
    {
      "epoch": 2.0,
      "eval_accuracy": 0.9989358342373021,
      "eval_f1": 0.9386834986474301,
      "eval_loss": 0.0030621723271906376,
      "eval_precision": 0.9212389380530973,
      "eval_recall": 0.9568014705882353,
      "eval_runtime": 14.0045,
      "eval_samples_per_second": 486.272,
      "eval_steps_per_second": 60.838,
      "step": 932
    },
    {
      "epoch": 2.1459227467811157,
      "grad_norm": 0.13906870782375336,
      "learning_rate": 3.927038626609442e-05,
      "loss": 0.0026,
      "step": 1000
    },
    {
      "epoch": 3.0,
      "eval_accuracy": 0.9989152374806047,
      "eval_f1": 0.9360919540229885,
      "eval_loss": 0.004003152716904879,
      "eval_precision": 0.9365225390984361,
      "eval_recall": 0.9356617647058824,
      "eval_runtime": 13.9451,
      "eval_samples_per_second": 488.343,
      "eval_steps_per_second": 61.097,
      "step": 1398
    },
    {
      "epoch": 3.218884120171674,
      "grad_norm": 0.14111244678497314,
      "learning_rate": 3.3905579399141636e-05,
      "loss": 0.0011,
      "step": 1500
    },
    {
      "epoch": 4.0,
      "eval_accuracy": 0.9987230010847625,
      "eval_f1": 0.9308584686774942,
      "eval_loss": 0.005216046702116728,
      "eval_precision": 0.9400187441424555,
      "eval_recall": 0.921875,
      "eval_runtime": 14.2384,
      "eval_samples_per_second": 478.283,
      "eval_steps_per_second": 59.838,
      "step": 1864
    },
    {
      "epoch": 4.291845493562231,
      "grad_norm": 0.09000600874423981,
      "learning_rate": 2.8540772532188842e-05,
      "loss": 0.001,
      "step": 2000
    },
    {
      "epoch": 5.0,
      "eval_accuracy": 0.9989426998228679,
      "eval_f1": 0.9491525423728814,
      "eval_loss": 0.004777050111442804,
      "eval_precision": 0.9461187214611873,
      "eval_recall": 0.9522058823529411,
      "eval_runtime": 13.9397,
      "eval_samples_per_second": 488.533,
      "eval_steps_per_second": 61.12,
      "step": 2330
    },
    {
      "epoch": 5.364806866952789,
      "grad_norm": 0.0045097870752215385,
      "learning_rate": 2.3175965665236052e-05,
      "loss": 0.0005,
      "step": 2500
    },
    {
      "epoch": 6.0,
      "eval_accuracy": 0.9988809095527758,
      "eval_f1": 0.9448244414044688,
      "eval_loss": 0.004644877277314663,
      "eval_precision": 0.9375565610859729,
      "eval_recall": 0.9522058823529411,
      "eval_runtime": 14.0259,
      "eval_samples_per_second": 485.531,
      "eval_steps_per_second": 60.745,
      "step": 2796
    },
    {
      "epoch": 6.437768240343348,
      "grad_norm": 0.029634617269039154,
      "learning_rate": 1.7811158798283262e-05,
      "loss": 0.0004,
      "step": 3000
    },
    {
      "epoch": 7.0,
      "eval_accuracy": 0.9989564309939994,
      "eval_f1": 0.9446460980036298,
      "eval_loss": 0.0049773636274039745,
      "eval_precision": 0.9327956989247311,
      "eval_recall": 0.9568014705882353,
      "eval_runtime": 13.9217,
      "eval_samples_per_second": 489.166,
      "eval_steps_per_second": 61.2,
      "step": 3262
    },
    {
      "epoch": 7.510729613733906,
      "grad_norm": 0.003798937890678644,
      "learning_rate": 1.2446351931330473e-05,
      "loss": 0.0002,
      "step": 3500
    },
    {
      "epoch": 8.0,
      "eval_accuracy": 0.9989221030661705,
      "eval_f1": 0.9435520881138136,
      "eval_loss": 0.005484889727085829,
      "eval_precision": 0.9422548120989918,
      "eval_recall": 0.9448529411764706,
      "eval_runtime": 13.8923,
      "eval_samples_per_second": 490.2,
      "eval_steps_per_second": 61.329,
      "step": 3728
    },
    {
      "epoch": 8.583690987124463,
      "grad_norm": 0.0004711664514616132,
      "learning_rate": 7.0815450643776825e-06,
      "loss": 0.0001,
      "step": 4000
    },
    {
      "epoch": 9.0,
      "eval_accuracy": 0.9989426998228679,
      "eval_f1": 0.9441903019213176,
      "eval_loss": 0.0057435426861047745,
      "eval_precision": 0.9398907103825137,
      "eval_recall": 0.9485294117647058,
      "eval_runtime": 13.9755,
      "eval_samples_per_second": 487.281,
      "eval_steps_per_second": 60.964,
      "step": 4194
    },
    {
      "epoch": 9.656652360515022,
      "grad_norm": 0.005946693476289511,
      "learning_rate": 1.7167381974248929e-06,
      "loss": 0.0001,
      "step": 4500
    },
    {
      "epoch": 10.0,
      "eval_accuracy": 0.9989083718950389,
      "eval_f1": 0.9416058394160585,
      "eval_loss": 0.005793666001409292,
      "eval_precision": 0.9347826086956522,
      "eval_recall": 0.9485294117647058,
      "eval_runtime": 14.4595,
      "eval_samples_per_second": 470.971,
      "eval_steps_per_second": 58.923,
      "step": 4660
    },
    {
      "epoch": 10.0,
      "step": 4660,
      "total_flos": 1.4714840952259542e+16,
      "train_loss": 0.002772659832779558,
      "train_runtime": 1349.0548,
      "train_samples_per_second": 220.873,
      "train_steps_per_second": 3.454
    }
  ],
  "logging_steps": 500,
  "max_steps": 4660,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 10,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.4714840952259542e+16,
  "train_batch_size": 32,
  "trial_name": null,
  "trial_params": null
}