Training in progress, step 20, checkpoint

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:33440e9d041e98372f9c3745546a5a7cc6986bb0e05661553ad9752d3aef4911
 size 50624

 version https://git-lfs.github.com/spec/v1
+oid sha256:0ae44e745016a6736e29dd5920620ff9e29a0d148863d07240e95a88153aac47
 size 50624

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c6133efffc392369d67150ecc3099ef89b5461db66932860bf5b55d38dde2a99
 size 111142

 version https://git-lfs.github.com/spec/v1
+oid sha256:4b6216b2b99aeda74ddbab245325b7655629e8a22803cec27e96d31809e1772b
 size 111142

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb488ddaac30717057cafba2b63eb6beb2bfa4396579dbd215ca2d77215fe7a4
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:0e4a387fbd1d540556d345be6ded244ccd5d72d2d9e561af33b140954c9bd6a4
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:10e175ebe60f1a6bbd43d635188097fdd53bf710ff976db3f946328fc19cf4ba
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:532138a5ca880d8da393ae449e5715b2766def36b8838785ca08d07228b119b7
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.0025369084951199746,
   "eval_steps": 2,
-  "global_step": 18,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -213,6 +213,28 @@
       "eval_samples_per_second": 246.815,
       "eval_steps_per_second": 123.408,
       "step": 18
     }
   ],
   "logging_steps": 1,
@@ -227,12 +249,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 470722019328.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.0028187872167999718,
   "eval_steps": 2,
+  "global_step": 20,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 246.815,
       "eval_steps_per_second": 123.408,
       "step": 18
+    },
+    {
+      "epoch": 0.002677847855959973,
+      "grad_norm": 0.47241461277008057,
+      "learning_rate": 2.4471741852423237e-06,
+      "loss": 10.3838,
+      "step": 19
+    },
+    {
+      "epoch": 0.0028187872167999718,
+      "grad_norm": 0.5147857666015625,
+      "learning_rate": 0.0,
+      "loss": 10.3815,
+      "step": 20
+    },
+    {
+      "epoch": 0.0028187872167999718,
+      "eval_loss": NaN,
+      "eval_runtime": 11.6945,
+      "eval_samples_per_second": 255.504,
+      "eval_steps_per_second": 127.752,
+      "step": 20
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 523024465920.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null