Training in progress, step 900, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:55dfe9fb7f3128ce900f85873ce9089dda937ea76e143b8837bdd97de02a6640
 size 524363632

 version https://git-lfs.github.com/spec/v1
+oid sha256:7fdfb940693f1c3aafa0189ec7111d3edb4fd9d110f0d9c61ff0cf3745124e39
 size 524363632

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1083c00dc43995a6c81f87894859e2f58e4370c70e9000e40ef092dded244fe6
 size 1049049442

 version https://git-lfs.github.com/spec/v1
+oid sha256:d37c4809c9aa1ad0c2fe5d47d3b851522e6f0210d0448ba7dd98ba91922ea764
 size 1049049442

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2c95ad3b8a642363e32a822abf74fe540f31dd9513c96b7cd9ff2c634d99406f
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:953f8e5d71766516f22562bd76f4dfbe7528aeb193338b993e0806f5c5da2d47
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:01d7fef7d29480b2b6b9ce11dd77e0c699d943e8e5d91236651553a4ae0d3870
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:f51293ad7eaca2d9fbcb656287d586dbce3d55186d836ffb75f98a82c46d3fdf
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.2344202995300293,
-  "best_model_checkpoint": "./output/checkpoint-750",
-  "epoch": 0.0335946248600224,
   "eval_steps": 150,
-  "global_step": 750,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -572,6 +572,119 @@
       "eval_samples_per_second": 9.684,
       "eval_steps_per_second": 9.684,
       "step": 750
     }
   ],
   "logging_steps": 10,
@@ -591,7 +704,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 9.63620096827392e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.2309150695800781,
+  "best_model_checkpoint": "./output/checkpoint-900",
+  "epoch": 0.040313549832026875,
   "eval_steps": 150,
+  "global_step": 900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 9.684,
       "eval_steps_per_second": 9.684,
       "step": 750
+    },
+    {
+      "epoch": 0.03404255319148936,
+      "grad_norm": 4.141931056976318,
+      "learning_rate": 7.169244800297089e-06,
+      "loss": 1.2613,
+      "step": 760
+    },
+    {
+      "epoch": 0.03449048152295633,
+      "grad_norm": 4.191932201385498,
+      "learning_rate": 7.159301712523407e-06,
+      "loss": 1.1802,
+      "step": 770
+    },
+    {
+      "epoch": 0.03493840985442329,
+      "grad_norm": 4.759700775146484,
+      "learning_rate": 7.149218481709644e-06,
+      "loss": 1.0651,
+      "step": 780
+    },
+    {
+      "epoch": 0.03538633818589026,
+      "grad_norm": 3.969430923461914,
+      "learning_rate": 7.1389955223379266e-06,
+      "loss": 0.9129,
+      "step": 790
+    },
+    {
+      "epoch": 0.03583426651735722,
+      "grad_norm": 5.1956467628479,
+      "learning_rate": 7.128633254634072e-06,
+      "loss": 1.2688,
+      "step": 800
+    },
+    {
+      "epoch": 0.03628219484882419,
+      "grad_norm": 3.615705966949463,
+      "learning_rate": 7.118132104550322e-06,
+      "loss": 1.1092,
+      "step": 810
+    },
+    {
+      "epoch": 0.036730123180291153,
+      "grad_norm": 3.635277271270752,
+      "learning_rate": 7.107492503747826e-06,
+      "loss": 1.0265,
+      "step": 820
+    },
+    {
+      "epoch": 0.03717805151175812,
+      "grad_norm": 4.518077373504639,
+      "learning_rate": 7.096714889578898e-06,
+      "loss": 1.0817,
+      "step": 830
+    },
+    {
+      "epoch": 0.037625979843225084,
+      "grad_norm": 6.652565002441406,
+      "learning_rate": 7.085799705069046e-06,
+      "loss": 0.9709,
+      "step": 840
+    },
+    {
+      "epoch": 0.03807390817469205,
+      "grad_norm": 5.337361812591553,
+      "learning_rate": 7.0747473988987515e-06,
+      "loss": 1.0883,
+      "step": 850
+    },
+    {
+      "epoch": 0.038521836506159014,
+      "grad_norm": 5.067249774932861,
+      "learning_rate": 7.063558425385033e-06,
+      "loss": 1.08,
+      "step": 860
+    },
+    {
+      "epoch": 0.03896976483762598,
+      "grad_norm": 3.9859232902526855,
+      "learning_rate": 7.052233244462769e-06,
+      "loss": 1.0063,
+      "step": 870
+    },
+    {
+      "epoch": 0.039417693169092945,
+      "grad_norm": 5.297623634338379,
+      "learning_rate": 7.040772321665788e-06,
+      "loss": 0.9638,
+      "step": 880
+    },
+    {
+      "epoch": 0.03986562150055991,
+      "grad_norm": 6.088709354400635,
+      "learning_rate": 7.029176128107734e-06,
+      "loss": 1.2673,
+      "step": 890
+    },
+    {
+      "epoch": 0.040313549832026875,
+      "grad_norm": 7.997159957885742,
+      "learning_rate": 7.017445140462711e-06,
+      "loss": 0.9986,
+      "step": 900
+    },
+    {
+      "epoch": 0.040313549832026875,
+      "eval_loss": 1.2309150695800781,
+      "eval_runtime": 51.612,
+      "eval_samples_per_second": 9.688,
+      "eval_steps_per_second": 9.688,
+      "step": 900
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.157850253080576e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null