Training in progress, step 1500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5161521292bf1c2c1c6a94f6ef1ea578964ac98a8716df9d75c200655db406e6
 size 69527352

 version https://git-lfs.github.com/spec/v1
+oid sha256:cc14ba3598e022e1ec0aa1f7019859b9397217ce89e0ec8c1893e3df1bd6f9e0
 size 69527352

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a6701d4f71cccc16e8ae5337240ad8c4cca069668eccb68fd38f2914e22b7f26
 size 139313554

 version https://git-lfs.github.com/spec/v1
+oid sha256:166eb816c604acd9e394c55415f278cbfb1fc88186755c3631d2c88a9cc6c698
 size 139313554

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f0f0ab9dc096e7c9b452990dd1668acf7c972cd8337ac6f8e760b0447eb61ff5
 size 14308

 version https://git-lfs.github.com/spec/v1
+oid sha256:7981bb1a19a9fb41a4bd7b894439da0bdd3533a923db038f02cbc626d617d8c7
 size 14308

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:05089b5f122589ed831ae5ec00bfa1d74500e2dfd86f0ab8693de9fdc4ff1bb1
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:fc70abba463551b758dbd2d6203dfa8ce3997fcc152311258dbde48eb38a8273
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.9194591045379639,
-  "best_model_checkpoint": "./output/checkpoint-1350",
-  "epoch": 0.1678269517652909,
   "eval_steps": 150,
-  "global_step": 1350,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1024,6 +1024,119 @@
       "eval_samples_per_second": 9.355,
       "eval_steps_per_second": 9.355,
       "step": 1350
     }
   ],
   "logging_steps": 10,
@@ -1043,7 +1156,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.691886465487872e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.897224485874176,
+  "best_model_checkpoint": "./output/checkpoint-1500",
+  "epoch": 0.18647439085032322,
   "eval_steps": 150,
+  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 9.355,
       "eval_steps_per_second": 9.355,
       "step": 1350
+    },
+    {
+      "epoch": 0.16907011437095973,
+      "grad_norm": 1.5011839866638184,
+      "learning_rate": 0.00010569141556167905,
+      "loss": 0.6192,
+      "step": 1360
+    },
+    {
+      "epoch": 0.17031327697662854,
+      "grad_norm": 2.1147801876068115,
+      "learning_rate": 0.00010540089628071566,
+      "loss": 0.6289,
+      "step": 1370
+    },
+    {
+      "epoch": 0.17155643958229735,
+      "grad_norm": 1.8639715909957886,
+      "learning_rate": 0.00010510861351193747,
+      "loss": 0.6891,
+      "step": 1380
+    },
+    {
+      "epoch": 0.1727996021879662,
+      "grad_norm": 1.4501938819885254,
+      "learning_rate": 0.00010481457926994435,
+      "loss": 0.7117,
+      "step": 1390
+    },
+    {
+      "epoch": 0.174042764793635,
+      "grad_norm": 1.1600079536437988,
+      "learning_rate": 0.0001045188056413323,
+      "loss": 0.652,
+      "step": 1400
+    },
+    {
+      "epoch": 0.17528592739930382,
+      "grad_norm": 1.4674696922302246,
+      "learning_rate": 0.00010422130478419676,
+      "loss": 0.7558,
+      "step": 1410
+    },
+    {
+      "epoch": 0.17652909000497266,
+      "grad_norm": 1.767659068107605,
+      "learning_rate": 0.00010392208892763269,
+      "loss": 0.6438,
+      "step": 1420
+    },
+    {
+      "epoch": 0.17777225261064147,
+      "grad_norm": 1.4168020486831665,
+      "learning_rate": 0.00010362117037123204,
+      "loss": 0.6173,
+      "step": 1430
+    },
+    {
+      "epoch": 0.1790154152163103,
+      "grad_norm": 1.6601725816726685,
+      "learning_rate": 0.00010331856148457803,
+      "loss": 0.68,
+      "step": 1440
+    },
+    {
+      "epoch": 0.18025857782197913,
+      "grad_norm": 1.2710611820220947,
+      "learning_rate": 0.00010301427470673678,
+      "loss": 0.6924,
+      "step": 1450
+    },
+    {
+      "epoch": 0.18150174042764794,
+      "grad_norm": 2.1576950550079346,
+      "learning_rate": 0.00010270832254574588,
+      "loss": 0.6917,
+      "step": 1460
+    },
+    {
+      "epoch": 0.18274490303331675,
+      "grad_norm": 1.6391758918762207,
+      "learning_rate": 0.00010240071757810036,
+      "loss": 0.6717,
+      "step": 1470
+    },
+    {
+      "epoch": 0.1839880656389856,
+      "grad_norm": 1.4594990015029907,
+      "learning_rate": 0.00010209147244823564,
+      "loss": 0.7148,
+      "step": 1480
+    },
+    {
+      "epoch": 0.1852312282446544,
+      "grad_norm": 1.277106523513794,
+      "learning_rate": 0.00010178059986800773,
+      "loss": 0.6752,
+      "step": 1490
+    },
+    {
+      "epoch": 0.18647439085032322,
+      "grad_norm": 1.34278404712677,
+      "learning_rate": 0.00010146811261617085,
+      "loss": 0.7066,
+      "step": 1500
+    },
+    {
+      "epoch": 0.18647439085032322,
+      "eval_loss": 0.897224485874176,
+      "eval_runtime": 55.354,
+      "eval_samples_per_second": 9.033,
+      "eval_steps_per_second": 9.033,
+      "step": 1500
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 5.21121871179264e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null