Training in progress, step 262, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +165 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:16e6e2abc0a0790ff0176bd582135a996eca10e395f3fd01f2ec6d779f7e5117
 size 2145944

 version https://git-lfs.github.com/spec/v1
+oid sha256:51d08fbfc476d7228ecff85a37cd582fec298d6aeff1313b2f32a7d7a247f389
 size 2145944

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:499e4c787359b5dbbe372ff47bca335ffbea8a7c78df8ed3de13838964471589
 size 4310020

 version https://git-lfs.github.com/spec/v1
+oid sha256:da485dce9219bd43fe1f51cc8c91686429b611e3340ce0ec26bb5387b5fad0cf
 size 4310020

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9e5e7629c4425464c7213d511efd59b71b04aa4e86a4c735d8756aba61f15b74
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:aaa224dd65dca4ab776f8dfe511f81735b9e4fd11f9a0317a52dfa2485e46e6f
 size 14960

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3cdc4d15f65239cd790ca0d032954dccbdfcfa65ec895ad42543fe40e09b7225
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:e14d0228dab9df662f2d3b7b779488e60a65bd00470c0f5a3e4ba7ac4f6e5fcd
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:34b19c01518c61096535226e6a580a80a62cb40227c80f175b68c8043607aba3
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:a9780f94b8edac11f3b88dab785f36e6cb86d80dd6e97e8f4124136d3a344dc0
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a87aa4c88a8dbf2d012d8a18d14c0b3660a9e4052b3506f95eb8e6634db9a779
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:14b109b21bca311159de54b392a8335a2a601784a7afd3d6deeae1f386f8f637
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:17250bb3cf0e46ac843a7054fd246b1d5fde6a57c6f8c080eadaa80b09c70107
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d2c937ae5fa5ee67bf36c998bfc57575ecf9f7a1d29c1688d121888e5038981b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9096098953377736,
   "eval_steps": 500,
-  "global_step": 239,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1680,6 +1680,167 @@
       "learning_rate": 4.891628760948114e-06,
       "loss": 9.8696,
       "step": 239
     }
   ],
   "logging_steps": 1,
@@ -1694,12 +1855,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 198449773412352.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9971455756422455,
   "eval_steps": 500,
+  "global_step": 262,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 4.891628760948114e-06,
       "loss": 9.8696,
       "step": 239
+    },
+    {
+      "epoch": 0.9134157944814463,
+      "grad_norm": 0.7585572600364685,
+      "learning_rate": 4.4818529516926726e-06,
+      "loss": 9.8702,
+      "step": 240
+    },
+    {
+      "epoch": 0.917221693625119,
+      "grad_norm": 0.7781784534454346,
+      "learning_rate": 4.089194655986306e-06,
+      "loss": 9.8693,
+      "step": 241
+    },
+    {
+      "epoch": 0.9210275927687916,
+      "grad_norm": 0.7663347125053406,
+      "learning_rate": 3.7138015365554833e-06,
+      "loss": 9.8703,
+      "step": 242
+    },
+    {
+      "epoch": 0.9248334919124643,
+      "grad_norm": 0.7624083757400513,
+      "learning_rate": 3.3558147633999728e-06,
+      "loss": 9.8692,
+      "step": 243
+    },
+    {
+      "epoch": 0.928639391056137,
+      "grad_norm": 0.7586108446121216,
+      "learning_rate": 3.0153689607045845e-06,
+      "loss": 9.8695,
+      "step": 244
+    },
+    {
+      "epoch": 0.9324452901998097,
+      "grad_norm": 0.7663297057151794,
+      "learning_rate": 2.692592156212487e-06,
+      "loss": 9.8714,
+      "step": 245
+    },
+    {
+      "epoch": 0.9362511893434824,
+      "grad_norm": 0.7702814936637878,
+      "learning_rate": 2.3876057330792346e-06,
+      "loss": 9.87,
+      "step": 246
+    },
+    {
+      "epoch": 0.9400570884871551,
+      "grad_norm": 0.7781908512115479,
+      "learning_rate": 2.100524384225555e-06,
+      "loss": 9.8706,
+      "step": 247
+    },
+    {
+      "epoch": 0.9438629876308278,
+      "grad_norm": 0.7821645140647888,
+      "learning_rate": 1.8314560692059835e-06,
+      "loss": 9.8697,
+      "step": 248
+    },
+    {
+      "epoch": 0.9476688867745005,
+      "grad_norm": 0.7859928011894226,
+      "learning_rate": 1.5805019736097104e-06,
+      "loss": 9.8684,
+      "step": 249
+    },
+    {
+      "epoch": 0.9514747859181731,
+      "grad_norm": 0.810000479221344,
+      "learning_rate": 1.3477564710088098e-06,
+      "loss": 9.8693,
+      "step": 250
+    },
+    {
+      "epoch": 0.9552806850618458,
+      "grad_norm": 0.7431778311729431,
+      "learning_rate": 1.1333070874682216e-06,
+      "loss": 9.8695,
+      "step": 251
+    },
+    {
+      "epoch": 0.9590865842055185,
+      "grad_norm": 0.7624398469924927,
+      "learning_rate": 9.372344686307655e-07,
+      "loss": 9.8701,
+      "step": 252
+    },
+    {
+      "epoch": 0.9628924833491912,
+      "grad_norm": 0.7584826946258545,
+      "learning_rate": 7.596123493895991e-07,
+      "loss": 9.8705,
+      "step": 253
+    },
+    {
+      "epoch": 0.966698382492864,
+      "grad_norm": 0.7702676653862,
+      "learning_rate": 6.005075261595494e-07,
+      "loss": 9.8698,
+      "step": 254
+    },
+    {
+      "epoch": 0.9705042816365367,
+      "grad_norm": 0.7663776278495789,
+      "learning_rate": 4.5997983175773417e-07,
+      "loss": 9.87,
+      "step": 255
+    },
+    {
+      "epoch": 0.9743101807802094,
+      "grad_norm": 0.7741448283195496,
+      "learning_rate": 3.380821129028489e-07,
+      "loss": 9.8685,
+      "step": 256
+    },
+    {
+      "epoch": 0.978116079923882,
+      "grad_norm": 0.7703086137771606,
+      "learning_rate": 2.3486021034170857e-07,
+      "loss": 9.8698,
+      "step": 257
+    },
+    {
+      "epoch": 0.9819219790675547,
+      "grad_norm": 0.7586408853530884,
+      "learning_rate": 1.503529416103988e-07,
+      "loss": 9.8716,
+      "step": 258
+    },
+    {
+      "epoch": 0.9857278782112274,
+      "grad_norm": 0.7703169584274292,
+      "learning_rate": 8.459208643659122e-08,
+      "loss": 9.87,
+      "step": 259
+    },
+    {
+      "epoch": 0.9895337773549001,
+      "grad_norm": 0.7703465223312378,
+      "learning_rate": 3.760237478849793e-08,
+      "loss": 9.8706,
+      "step": 260
+    },
+    {
+      "epoch": 0.9933396764985728,
+      "grad_norm": 0.7702966928482056,
+      "learning_rate": 9.401477574932926e-09,
+      "loss": 9.8716,
+      "step": 261
+    },
+    {
+      "epoch": 0.9971455756422455,
+      "grad_norm": 0.778302788734436,
+      "learning_rate": 0.0,
+      "loss": 9.8713,
+      "step": 262
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 217547450351616.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null