Training in progress, step 1950, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:36fe7e658428f711dcac3d3150a53f472cf7a88f298f10e1ccb4006a342cf7ee
 size 69527352

 version https://git-lfs.github.com/spec/v1
+oid sha256:6e3b8ef376785e9cafb621fb5a7157d2bb4e3e92e06716e4f79376be8ddd8a67
 size 69527352

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:728e85f498d27e20d6bb5a67c2c8b3daa26aa2ad070e1317c483548a70ea1b09
 size 139313554

 version https://git-lfs.github.com/spec/v1
+oid sha256:bb707caa92720c742f6b5057c64ce456f97a0a305c683597e96d6c49c325b1bc
 size 139313554

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e98115984b9346c14fe15b1988bbea4d82315ae453852800d3c136c2f59ac9ea
 size 14308

 version https://git-lfs.github.com/spec/v1
+oid sha256:7fbad829d483b339a26e87847aafc349f9b5f5fa2f69baeccc578f19a8c8e5cf
 size 14308

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:79d3369553c9b3ca0b9714ec489c1f0dddd900e219ab7f3d72b5e2b926fc5857
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:dab5dfc5f8a218f5b5332643f6da5beb50a0e7236abc5407e39e2467ad257ef9
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.8798418045043945,
-  "best_model_checkpoint": "./output/checkpoint-1800",
-  "epoch": 0.22376926902038788,
   "eval_steps": 150,
-  "global_step": 1800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1363,6 +1363,119 @@
       "eval_samples_per_second": 8.902,
       "eval_steps_per_second": 8.902,
       "step": 1800
     }
   ],
   "logging_steps": 10,
@@ -1382,7 +1495,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.243483263622144e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.8656662106513977,
+  "best_model_checkpoint": "./output/checkpoint-1950",
+  "epoch": 0.24241670810542018,
   "eval_steps": 150,
+  "global_step": 1950,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 8.902,
       "eval_steps_per_second": 8.902,
       "step": 1800
+    },
+    {
+      "epoch": 0.2250124316260567,
+      "grad_norm": 1.6383726596832275,
+      "learning_rate": 9.105277923649698e-05,
+      "loss": 0.6029,
+      "step": 1810
+    },
+    {
+      "epoch": 0.2262555942317255,
+      "grad_norm": 0.863681435585022,
+      "learning_rate": 9.06957416400209e-05,
+      "loss": 0.6647,
+      "step": 1820
+    },
+    {
+      "epoch": 0.22749875683739434,
+      "grad_norm": 1.0826516151428223,
+      "learning_rate": 9.03375450270412e-05,
+      "loss": 0.6775,
+      "step": 1830
+    },
+    {
+      "epoch": 0.22874191944306316,
+      "grad_norm": 1.2367980480194092,
+      "learning_rate": 8.997820412161764e-05,
+      "loss": 0.7778,
+      "step": 1840
+    },
+    {
+      "epoch": 0.22998508204873197,
+      "grad_norm": 1.4348937273025513,
+      "learning_rate": 8.961773369484738e-05,
+      "loss": 0.6699,
+      "step": 1850
+    },
+    {
+      "epoch": 0.23122824465440078,
+      "grad_norm": 0.9706162810325623,
+      "learning_rate": 8.925614856425786e-05,
+      "loss": 0.684,
+      "step": 1860
+    },
+    {
+      "epoch": 0.23247140726006962,
+      "grad_norm": 1.4127984046936035,
+      "learning_rate": 8.88934635931975e-05,
+      "loss": 0.6667,
+      "step": 1870
+    },
+    {
+      "epoch": 0.23371456986573844,
+      "grad_norm": 1.4040454626083374,
+      "learning_rate": 8.852969369022494e-05,
+      "loss": 0.6014,
+      "step": 1880
+    },
+    {
+      "epoch": 0.23495773247140725,
+      "grad_norm": 1.3731218576431274,
+      "learning_rate": 8.816485380849613e-05,
+      "loss": 0.7063,
+      "step": 1890
+    },
+    {
+      "epoch": 0.2362008950770761,
+      "grad_norm": 1.5299303531646729,
+      "learning_rate": 8.779895894514961e-05,
+      "loss": 0.6177,
+      "step": 1900
+    },
+    {
+      "epoch": 0.2374440576827449,
+      "grad_norm": 1.3770627975463867,
+      "learning_rate": 8.743202414069011e-05,
+      "loss": 0.6487,
+      "step": 1910
+    },
+    {
+      "epoch": 0.23868722028841372,
+      "grad_norm": 1.1185230016708374,
+      "learning_rate": 8.706406447837023e-05,
+      "loss": 0.6612,
+      "step": 1920
+    },
+    {
+      "epoch": 0.23993038289408256,
+      "grad_norm": 1.027255654335022,
+      "learning_rate": 8.669509508357052e-05,
+      "loss": 0.6125,
+      "step": 1930
+    },
+    {
+      "epoch": 0.24117354549975137,
+      "grad_norm": 1.053480625152588,
+      "learning_rate": 8.632513112317761e-05,
+      "loss": 0.6614,
+      "step": 1940
+    },
+    {
+      "epoch": 0.24241670810542018,
+      "grad_norm": 1.3678585290908813,
+      "learning_rate": 8.59541878049609e-05,
+      "loss": 0.5761,
+      "step": 1950
+    },
+    {
+      "epoch": 0.24241670810542018,
+      "eval_loss": 0.8656662106513977,
+      "eval_runtime": 56.0937,
+      "eval_samples_per_second": 8.914,
+      "eval_steps_per_second": 8.914,
+      "step": 1950
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 6.767178816165888e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null