Training in progress, step 4950, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fd6e27722a4556ce816cc06dea2192deb470b4c7575547d0385f0f64e0582419
 size 335604696

 version https://git-lfs.github.com/spec/v1
+oid sha256:00d190fa03a8b744759e3dc60d422da2e78988c51a3ed128830b6205a9c696be
 size 335604696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:98f47e22f9bc7ea2f2a36cb3cf34559618d78e0cc231ffa15b9fa08e4dfaf5e9
 size 671467026

 version https://git-lfs.github.com/spec/v1
+oid sha256:168fd07a7bfd886ba082b420f079e60065cd81d463cf839e7eea49403cd4a717
 size 671467026

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3db1b1dc6380b47fa5473e08619f5033b5e9db1f7a5928be021a489f2d2d5df1
 size 14308

 version https://git-lfs.github.com/spec/v1
+oid sha256:e9a20ffde0bcc0378377fd456c0fc9ed90bdc5e0f81640a306edad6f8e3d388d
 size 14308

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d965ba2c87314f68867b110394668e2ae1d68cbd5affed6052b0bbf6bcf4700e
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:580af5054c7ccbfc854ec8423aba1a6359c216121b4aaa182dffa1292869253d
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.0024483543820679188,
-  "best_model_checkpoint": "./output/checkpoint-4800",
-  "epoch": 1.304702364773036,
   "eval_steps": 150,
-  "global_step": 4800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3623,6 +3623,119 @@
       "eval_samples_per_second": 9.09,
       "eval_steps_per_second": 9.09,
       "step": 4800
     }
   ],
   "logging_steps": 10,
@@ -3642,7 +3755,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.1123209269885665e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.002407131949439645,
+  "best_model_checkpoint": "./output/checkpoint-4950",
+  "epoch": 1.3454743136721936,
   "eval_steps": 150,
+  "global_step": 4950,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 9.09,
       "eval_steps_per_second": 9.09,
       "step": 4800
+    },
+    {
+      "epoch": 1.3074204946996466,
+      "grad_norm": 2.8233747482299805,
+      "learning_rate": 1.5284161868940867e-07,
+      "loss": 0.0025,
+      "step": 4810
+    },
+    {
+      "epoch": 1.3101386246262572,
+      "grad_norm": 2.893601179122925,
+      "learning_rate": 1.371938027303652e-07,
+      "loss": 0.0079,
+      "step": 4820
+    },
+    {
+      "epoch": 1.3128567545528675,
+      "grad_norm": 0.9337513446807861,
+      "learning_rate": 1.223881602388429e-07,
+      "loss": 0.008,
+      "step": 4830
+    },
+    {
+      "epoch": 1.3155748844794781,
+      "grad_norm": 0.9524758458137512,
+      "learning_rate": 1.08425299816816e-07,
+      "loss": 0.0051,
+      "step": 4840
+    },
+    {
+      "epoch": 1.3182930144060885,
+      "grad_norm": 3.0172386169433594,
+      "learning_rate": 9.53057954227865e-08,
+      "loss": 0.0042,
+      "step": 4850
+    },
+    {
+      "epoch": 1.321011144332699,
+      "grad_norm": 1.300944447517395,
+      "learning_rate": 8.303018634819421e-08,
+      "loss": 0.0041,
+      "step": 4860
+    },
+    {
+      "epoch": 1.3237292742593096,
+      "grad_norm": 0.5587581396102905,
+      "learning_rate": 7.159897719524897e-08,
+      "loss": 0.0043,
+      "step": 4870
+    },
+    {
+      "epoch": 1.3264474041859202,
+      "grad_norm": 2.783456563949585,
+      "learning_rate": 6.101263785618691e-08,
+      "loss": 0.0048,
+      "step": 4880
+    },
+    {
+      "epoch": 1.3291655341125306,
+      "grad_norm": 1.9860410690307617,
+      "learning_rate": 5.127160349395123e-08,
+      "loss": 0.0052,
+      "step": 4890
+    },
+    {
+      "epoch": 1.331883664039141,
+      "grad_norm": 3.2289083003997803,
+      "learning_rate": 4.2376274524313086e-08,
+      "loss": 0.0033,
+      "step": 4900
+    },
+    {
+      "epoch": 1.3346017939657515,
+      "grad_norm": 0.5823839902877808,
+      "learning_rate": 3.432701659940772e-08,
+      "loss": 0.0068,
+      "step": 4910
+    },
+    {
+      "epoch": 1.337319923892362,
+      "grad_norm": 1.3258577585220337,
+      "learning_rate": 2.7124160592697094e-08,
+      "loss": 0.0042,
+      "step": 4920
+    },
+    {
+      "epoch": 1.3400380538189727,
+      "grad_norm": 2.034165620803833,
+      "learning_rate": 2.0768002585386592e-08,
+      "loss": 0.0053,
+      "step": 4930
+    },
+    {
+      "epoch": 1.342756183745583,
+      "grad_norm": 2.6955316066741943,
+      "learning_rate": 1.525880385422937e-08,
+      "loss": 0.0064,
+      "step": 4940
+    },
+    {
+      "epoch": 1.3454743136721936,
+      "grad_norm": 1.4360600709915161,
+      "learning_rate": 1.0596790860812194e-08,
+      "loss": 0.0098,
+      "step": 4950
+    },
+    {
+      "epoch": 1.3454743136721936,
+      "eval_loss": 0.002407131949439645,
+      "eval_runtime": 56.3377,
+      "eval_samples_per_second": 8.893,
+      "eval_steps_per_second": 8.893,
+      "step": 4950
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.1468899731314442e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null