Training in progress, step 2400, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2693f72e813e713d406690d49d8156881475ef3cf8f6818b5e9056a7b4a22c0c
 size 524363632

 version https://git-lfs.github.com/spec/v1
+oid sha256:6a8c4d05cebc8a6230506025ac32b92b43f97706b15c5ef0630b359fcedb61fd
 size 524363632

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5b288ca22be915aaaaf317d351bd953b3936b15f6015824c642dc247009b8ec4
 size 1049049442

 version https://git-lfs.github.com/spec/v1
+oid sha256:d0768f36181b7ac2e23e854e832362cdba94250b37612dba5c19cd4985727d9a
 size 1049049442

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d6ae471f42e4ea6fa3a444149858dc300e531b4ad7528d71e7842bbc7d6626eb
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:fc077b33af19e58da72048d8d3eba838a65dd66577cf1fffba1ce82ab86f524d
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cd4de6d323250fa29100ace84fac2a12c56e0aeb7da01a14da471c2e00185282
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:e289fadf25e00f6e814140ec41c4ae5fbbf1fcf1f7907f11f4e9d252c610f893
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.2077045440673828,
-  "best_model_checkpoint": "./output/checkpoint-1950",
-  "epoch": 0.10078387458006718,
   "eval_steps": 150,
-  "global_step": 2250,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1702,6 +1702,119 @@
       "eval_samples_per_second": 9.684,
       "eval_steps_per_second": 9.684,
       "step": 2250
     }
   ],
   "logging_steps": 10,
@@ -1721,7 +1834,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.911099213817856e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.2038679122924805,
+  "best_model_checkpoint": "./output/checkpoint-2400",
+  "epoch": 0.10750279955207166,
   "eval_steps": 150,
+  "global_step": 2400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 9.684,
       "eval_steps_per_second": 9.684,
       "step": 2250
+    },
+    {
+      "epoch": 0.10123180291153415,
+      "grad_norm": 3.644266128540039,
+      "learning_rate": 4.443230854565133e-06,
+      "loss": 1.0985,
+      "step": 2260
+    },
+    {
+      "epoch": 0.10167973124300111,
+      "grad_norm": 4.662050724029541,
+      "learning_rate": 4.4195883554948885e-06,
+      "loss": 1.3397,
+      "step": 2270
+    },
+    {
+      "epoch": 0.10212765957446808,
+      "grad_norm": 5.3237385749816895,
+      "learning_rate": 4.3959183322699466e-06,
+      "loss": 1.1351,
+      "step": 2280
+    },
+    {
+      "epoch": 0.10257558790593505,
+      "grad_norm": 4.3604207038879395,
+      "learning_rate": 4.372221757872255e-06,
+      "loss": 1.1208,
+      "step": 2290
+    },
+    {
+      "epoch": 0.10302351623740201,
+      "grad_norm": 3.731410264968872,
+      "learning_rate": 4.3484996063751725e-06,
+      "loss": 1.1584,
+      "step": 2300
+    },
+    {
+      "epoch": 0.10347144456886898,
+      "grad_norm": 4.031397342681885,
+      "learning_rate": 4.324752852903435e-06,
+      "loss": 0.9656,
+      "step": 2310
+    },
+    {
+      "epoch": 0.10391937290033594,
+      "grad_norm": 3.564148187637329,
+      "learning_rate": 4.300982473593068e-06,
+      "loss": 1.0031,
+      "step": 2320
+    },
+    {
+      "epoch": 0.1043673012318029,
+      "grad_norm": 5.459331035614014,
+      "learning_rate": 4.277189445551261e-06,
+      "loss": 1.0037,
+      "step": 2330
+    },
+    {
+      "epoch": 0.10481522956326987,
+      "grad_norm": 4.870905876159668,
+      "learning_rate": 4.253374746816209e-06,
+      "loss": 0.9615,
+      "step": 2340
+    },
+    {
+      "epoch": 0.10526315789473684,
+      "grad_norm": 5.284097671508789,
+      "learning_rate": 4.229539356316898e-06,
+      "loss": 1.3278,
+      "step": 2350
+    },
+    {
+      "epoch": 0.1057110862262038,
+      "grad_norm": 5.323864459991455,
+      "learning_rate": 4.205684253832877e-06,
+      "loss": 1.1903,
+      "step": 2360
+    },
+    {
+      "epoch": 0.10615901455767077,
+      "grad_norm": 7.844208717346191,
+      "learning_rate": 4.1818104199539735e-06,
+      "loss": 1.056,
+      "step": 2370
+    },
+    {
+      "epoch": 0.10660694288913773,
+      "grad_norm": 4.325316905975342,
+      "learning_rate": 4.1579188360399916e-06,
+      "loss": 1.2431,
+      "step": 2380
+    },
+    {
+      "epoch": 0.1070548712206047,
+      "grad_norm": 3.5362424850463867,
+      "learning_rate": 4.134010484180368e-06,
+      "loss": 1.1804,
+      "step": 2390
+    },
+    {
+      "epoch": 0.10750279955207166,
+      "grad_norm": 3.2404041290283203,
+      "learning_rate": 4.110086347153807e-06,
+      "loss": 1.1556,
+      "step": 2400
+    },
+    {
+      "epoch": 0.10750279955207166,
+      "eval_loss": 1.2038679122924805,
+      "eval_runtime": 51.7303,
+      "eval_samples_per_second": 9.666,
+      "eval_steps_per_second": 9.666,
+      "step": 2400
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 3.109754858840064e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null