Training in progress, step 75, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +178 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f9848be0e4acadbba321110328225156d97e0fc08e1ed1c1bfb5056ff0592eb5
 size 80013120

 version https://git-lfs.github.com/spec/v1
+oid sha256:2df15b5d017c655dcc53f769a573f68e743f57472aec092b2cfebdf79c4b233f
 size 80013120

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:478376eb4f42555f768806b0991c4e24673b91d28283cad53f3c3bb26ee490b9
 size 41119636

 version https://git-lfs.github.com/spec/v1
+oid sha256:1ea59b6c0f2e53cd901c8ce6f3413b1f6907dfa9edf465c65d1e14d981c158b4
 size 41119636

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb4cff690dce3dde6359e80a7e8260777a1ca14706363dfe5ceba98cd5175139
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:b9a2e2e612d77d97a4b0242765fede790a34f933ba010ba697d2e1fc9aa07c4b
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a89ffc445067fef9d6d02bb3ff9e61d5e3209e6fa67c7259b3b364b90dbaa2cd
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f23e2214bcafb439ebc7528dcc283ef6218d509a276c0baff0743503ecbe3d92
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.4189578423671118,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -373,6 +373,181 @@
       "eval_samples_per_second": 4.761,
       "eval_steps_per_second": 4.761,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -392,7 +567,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.25749848408064e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.6284367635506677,
   "eval_steps": 50,
+  "global_step": 75,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 4.761,
       "eval_steps_per_second": 4.761,
       "step": 50
+    },
+    {
+      "epoch": 0.42733699921445406,
+      "grad_norm": 0.4209323823451996,
+      "learning_rate": 5.695865504800327e-05,
+      "loss": 2.4749,
+      "step": 51
+    },
+    {
+      "epoch": 0.43571615606179626,
+      "grad_norm": 0.4266431927680969,
+      "learning_rate": 5.522642316338268e-05,
+      "loss": 2.4692,
+      "step": 52
+    },
+    {
+      "epoch": 0.4440953129091385,
+      "grad_norm": 0.3953860402107239,
+      "learning_rate": 5.348782368720626e-05,
+      "loss": 2.3527,
+      "step": 53
+    },
+    {
+      "epoch": 0.45247446975648076,
+      "grad_norm": 0.4726410210132599,
+      "learning_rate": 5.174497483512506e-05,
+      "loss": 2.4229,
+      "step": 54
+    },
+    {
+      "epoch": 0.460853626603823,
+      "grad_norm": 0.4370991289615631,
+      "learning_rate": 5e-05,
+      "loss": 2.5421,
+      "step": 55
+    },
+    {
+      "epoch": 0.4692327834511652,
+      "grad_norm": 0.4647808074951172,
+      "learning_rate": 4.825502516487497e-05,
+      "loss": 2.5684,
+      "step": 56
+    },
+    {
+      "epoch": 0.47761194029850745,
+      "grad_norm": 0.4097454249858856,
+      "learning_rate": 4.6512176312793736e-05,
+      "loss": 2.4871,
+      "step": 57
+    },
+    {
+      "epoch": 0.4859910971458497,
+      "grad_norm": 0.4504952132701874,
+      "learning_rate": 4.477357683661734e-05,
+      "loss": 2.4055,
+      "step": 58
+    },
+    {
+      "epoch": 0.49437025399319195,
+      "grad_norm": 0.461972177028656,
+      "learning_rate": 4.3041344951996746e-05,
+      "loss": 2.5632,
+      "step": 59
+    },
+    {
+      "epoch": 0.5027494108405341,
+      "grad_norm": 0.42533305287361145,
+      "learning_rate": 4.131759111665349e-05,
+      "loss": 2.4914,
+      "step": 60
+    },
+    {
+      "epoch": 0.5111285676878764,
+      "grad_norm": 0.4510684311389923,
+      "learning_rate": 3.960441545911204e-05,
+      "loss": 2.5091,
+      "step": 61
+    },
+    {
+      "epoch": 0.5195077245352187,
+      "grad_norm": 0.42407482862472534,
+      "learning_rate": 3.790390522001662e-05,
+      "loss": 2.3668,
+      "step": 62
+    },
+    {
+      "epoch": 0.5278868813825609,
+      "grad_norm": 0.431485116481781,
+      "learning_rate": 3.6218132209150045e-05,
+      "loss": 2.4541,
+      "step": 63
+    },
+    {
+      "epoch": 0.5362660382299032,
+      "grad_norm": 0.4215572774410248,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 2.3595,
+      "step": 64
+    },
+    {
+      "epoch": 0.5446451950772454,
+      "grad_norm": 0.5403610467910767,
+      "learning_rate": 3.289899283371657e-05,
+      "loss": 2.7011,
+      "step": 65
+    },
+    {
+      "epoch": 0.5530243519245875,
+      "grad_norm": 0.43399372696876526,
+      "learning_rate": 3.12696703292044e-05,
+      "loss": 2.367,
+      "step": 66
+    },
+    {
+      "epoch": 0.5614035087719298,
+      "grad_norm": 0.49265211820602417,
+      "learning_rate": 2.9663167846209998e-05,
+      "loss": 2.3943,
+      "step": 67
+    },
+    {
+      "epoch": 0.569782665619272,
+      "grad_norm": 0.4823525547981262,
+      "learning_rate": 2.8081442660546125e-05,
+      "loss": 2.3512,
+      "step": 68
+    },
+    {
+      "epoch": 0.5781618224666143,
+      "grad_norm": 0.4148399829864502,
+      "learning_rate": 2.6526421860705473e-05,
+      "loss": 2.4461,
+      "step": 69
+    },
+    {
+      "epoch": 0.5865409793139565,
+      "grad_norm": 0.45690131187438965,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 2.3753,
+      "step": 70
+    },
+    {
+      "epoch": 0.5949201361612988,
+      "grad_norm": 0.3864487111568451,
+      "learning_rate": 2.350403678833976e-05,
+      "loss": 2.3544,
+      "step": 71
+    },
+    {
+      "epoch": 0.603299293008641,
+      "grad_norm": 0.4677547812461853,
+      "learning_rate": 2.2040354826462668e-05,
+      "loss": 2.5031,
+      "step": 72
+    },
+    {
+      "epoch": 0.6116784498559832,
+      "grad_norm": 0.37837573885917664,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 2.3215,
+      "step": 73
+    },
+    {
+      "epoch": 0.6200576067033254,
+      "grad_norm": 0.47641924023628235,
+      "learning_rate": 1.9216926233717085e-05,
+      "loss": 2.4183,
+      "step": 74
+    },
+    {
+      "epoch": 0.6284367635506677,
+      "grad_norm": 0.5523366928100586,
+      "learning_rate": 1.7860619515673033e-05,
+      "loss": 2.5932,
+      "step": 75
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 4.88624772612096e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null