Training in progress, step 80, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +81 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:85905a4efa045b0030db51c0398a6f359f039aba18cec9509006d5d5b8af8d05
 size 101752088

 version https://git-lfs.github.com/spec/v1
+oid sha256:3b120c235acc603d7e0a88df6eb116c05a31d43ac85e97d14eca60636aa4e9e1
 size 101752088

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1991c9eb89d48a8ffc4f37213c19848b47dcef3c2b8314121e579e8434fb0c91
 size 52046596

 version https://git-lfs.github.com/spec/v1
+oid sha256:3c28a74ee961f8b24fb2735619f4f437d34485673c89b57deafa93df5086d70b
 size 52046596

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:65f78a9649ee8cc6d0276caf10c7c8bafae430ddf310a187a7b4c38627fd2b56
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:2cd11dbeb5727fc345d367ecbecf218eaa06a9e3b7752506d05b1cc38c858f04
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4f98a8feef34550913a6c17e6d111551876ee5198dbf8b76141d29b9c822b726
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:49b8a1dbbf2c2a0b7fde326d57c34bd6c5e5d17e0aaf8b19016c1f721c049db1
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.008811127194914722,
   "eval_steps": 25,
-  "global_step": 70,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -521,6 +521,84 @@
       "learning_rate": 5.000000000000002e-05,
       "loss": 0.0042,
       "step": 70
     }
   ],
   "logging_steps": 1,
@@ -540,7 +618,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.60976881139712e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.01006985965133111,
   "eval_steps": 25,
+  "global_step": 80,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 5.000000000000002e-05,
       "loss": 0.0042,
       "step": 70
+    },
+    {
+      "epoch": 0.00893700044055636,
+      "grad_norm": 0.05394396558403969,
+      "learning_rate": 4.700807357667952e-05,
+      "loss": 0.0018,
+      "step": 71
+    },
+    {
+      "epoch": 0.009062873686197999,
+      "grad_norm": 2.811530113220215,
+      "learning_rate": 4.4080709652925336e-05,
+      "loss": 0.2694,
+      "step": 72
+    },
+    {
+      "epoch": 0.009188746931839638,
+      "grad_norm": 0.06051735207438469,
+      "learning_rate": 4.12214747707527e-05,
+      "loss": 0.0016,
+      "step": 73
+    },
+    {
+      "epoch": 0.009314620177481277,
+      "grad_norm": 0.596136748790741,
+      "learning_rate": 3.843385246743417e-05,
+      "loss": 0.0087,
+      "step": 74
+    },
+    {
+      "epoch": 0.009440493423122915,
+      "grad_norm": 0.11233700811862946,
+      "learning_rate": 3.5721239031346066e-05,
+      "loss": 0.0045,
+      "step": 75
+    },
+    {
+      "epoch": 0.009440493423122915,
+      "eval_loss": NaN,
+      "eval_runtime": 3551.4208,
+      "eval_samples_per_second": 0.942,
+      "eval_steps_per_second": 0.471,
+      "step": 75
+    },
+    {
+      "epoch": 0.009566366668764554,
+      "grad_norm": 0.09344177693128586,
+      "learning_rate": 3.308693936411421e-05,
+      "loss": 0.0053,
+      "step": 76
+    },
+    {
+      "epoch": 0.009692239914406193,
+      "grad_norm": 0.017914390191435814,
+      "learning_rate": 3.053416295410026e-05,
+      "loss": 0.0009,
+      "step": 77
+    },
+    {
+      "epoch": 0.009818113160047832,
+      "grad_norm": 0.14340530335903168,
+      "learning_rate": 2.8066019966134904e-05,
+      "loss": 0.007,
+      "step": 78
+    },
+    {
+      "epoch": 0.00994398640568947,
+      "grad_norm": 2.4637436866760254,
+      "learning_rate": 2.5685517452260567e-05,
+      "loss": 0.2807,
+      "step": 79
+    },
+    {
+      "epoch": 0.01006985965133111,
+      "grad_norm": 0.016049662604928017,
+      "learning_rate": 2.339555568810221e-05,
+      "loss": 0.0003,
+      "step": 80
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 5.26830721302528e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null