Training in progress, step 50, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +186 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f650d279aec1dae8e5c4288fd3153c5c177eaef426deb671371cd9152bf83449
 size 25192688

 version https://git-lfs.github.com/spec/v1
+oid sha256:b23b27be78527ca8d94cdc6064dbf55ef9428ed2d5fccf840f0d5b032e9cf96e
 size 25192688

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c88f04f2ac4a1155227fdbbe4e2ee8ae5667ccdce056ddbda440d81b809bd02b
 size 50493050

 version https://git-lfs.github.com/spec/v1
+oid sha256:0519f3d246d7d718fbfd0ad44abd243b7de27d75dc511b5555bc75e9b99ff569
 size 50493050

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:99e28405194b0c192fbf8db70a05fd4be4aed083594e235cd77f63948f0619b3
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:4975f04cc73623a7d831d10548ba7946cf5cebd8545c7386ad9f94aa368d0c8c
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:99fc9c0ec571f76cf9b6d1229601c5173899cd18104e487c5627f5f4c56c6e8a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:46fa8207e86dee7d50b0ab12f1dd18c4426e8c65d06f97f8b2bd004a747e9cfa
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.028421202216853774,
   "eval_steps": 25,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -198,6 +198,189 @@
       "eval_samples_per_second": 11.119,
       "eval_steps_per_second": 5.567,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -217,7 +400,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1539607766237184.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.05684240443370755,
   "eval_steps": 25,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 11.119,
       "eval_steps_per_second": 5.567,
       "step": 25
+    },
+    {
+      "epoch": 0.029558050305527925,
+      "grad_norm": 7.320021629333496,
+      "learning_rate": 7.68649804173412e-05,
+      "loss": 13.1999,
+      "step": 26
+    },
+    {
+      "epoch": 0.030694898394202075,
+      "grad_norm": 7.271773815155029,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 15.5507,
+      "step": 27
+    },
+    {
+      "epoch": 0.031831746482876226,
+      "grad_norm": 7.728046894073486,
+      "learning_rate": 7.308743066175172e-05,
+      "loss": 17.3175,
+      "step": 28
+    },
+    {
+      "epoch": 0.03296859457155037,
+      "grad_norm": 5.821549892425537,
+      "learning_rate": 7.113091308703498e-05,
+      "loss": 10.6975,
+      "step": 29
+    },
+    {
+      "epoch": 0.03410544266022453,
+      "grad_norm": 6.840242385864258,
+      "learning_rate": 6.91341716182545e-05,
+      "loss": 15.8851,
+      "step": 30
+    },
+    {
+      "epoch": 0.03524229074889868,
+      "grad_norm": 12.806135177612305,
+      "learning_rate": 6.710100716628344e-05,
+      "loss": 13.5899,
+      "step": 31
+    },
+    {
+      "epoch": 0.03637913883757283,
+      "grad_norm": 6.994766712188721,
+      "learning_rate": 6.503528997521366e-05,
+      "loss": 15.6565,
+      "step": 32
+    },
+    {
+      "epoch": 0.03751598692624698,
+      "grad_norm": 7.654018402099609,
+      "learning_rate": 6.294095225512603e-05,
+      "loss": 15.5655,
+      "step": 33
+    },
+    {
+      "epoch": 0.03865283501492113,
+      "grad_norm": 8.867931365966797,
+      "learning_rate": 6.0821980696905146e-05,
+      "loss": 16.6892,
+      "step": 34
+    },
+    {
+      "epoch": 0.039789683103595284,
+      "grad_norm": 7.223085403442383,
+      "learning_rate": 5.868240888334653e-05,
+      "loss": 12.9233,
+      "step": 35
+    },
+    {
+      "epoch": 0.04092653119226943,
+      "grad_norm": 6.747748851776123,
+      "learning_rate": 5.6526309611002594e-05,
+      "loss": 13.6085,
+      "step": 36
+    },
+    {
+      "epoch": 0.042063379280943586,
+      "grad_norm": 6.9611616134643555,
+      "learning_rate": 5.435778713738292e-05,
+      "loss": 13.9404,
+      "step": 37
+    },
+    {
+      "epoch": 0.04320022736961773,
+      "grad_norm": 8.217069625854492,
+      "learning_rate": 5.218096936826681e-05,
+      "loss": 13.8488,
+      "step": 38
+    },
+    {
+      "epoch": 0.04433707545829189,
+      "grad_norm": 6.399670124053955,
+      "learning_rate": 5e-05,
+      "loss": 13.4894,
+      "step": 39
+    },
+    {
+      "epoch": 0.045473923546966034,
+      "grad_norm": 6.03984260559082,
+      "learning_rate": 4.781903063173321e-05,
+      "loss": 15.3474,
+      "step": 40
+    },
+    {
+      "epoch": 0.04661077163564019,
+      "grad_norm": 7.631984710693359,
+      "learning_rate": 4.564221286261709e-05,
+      "loss": 12.2432,
+      "step": 41
+    },
+    {
+      "epoch": 0.047747619724314336,
+      "grad_norm": 6.203024864196777,
+      "learning_rate": 4.347369038899744e-05,
+      "loss": 13.4534,
+      "step": 42
+    },
+    {
+      "epoch": 0.04888446781298849,
+      "grad_norm": 6.871401309967041,
+      "learning_rate": 4.131759111665349e-05,
+      "loss": 14.3178,
+      "step": 43
+    },
+    {
+      "epoch": 0.05002131590166264,
+      "grad_norm": 7.451761722564697,
+      "learning_rate": 3.917801930309486e-05,
+      "loss": 14.6442,
+      "step": 44
+    },
+    {
+      "epoch": 0.05115816399033679,
+      "grad_norm": 7.06754732131958,
+      "learning_rate": 3.705904774487396e-05,
+      "loss": 12.303,
+      "step": 45
+    },
+    {
+      "epoch": 0.052295012079010945,
+      "grad_norm": 6.363272190093994,
+      "learning_rate": 3.4964710024786354e-05,
+      "loss": 18.1736,
+      "step": 46
+    },
+    {
+      "epoch": 0.05343186016768509,
+      "grad_norm": 7.741644382476807,
+      "learning_rate": 3.289899283371657e-05,
+      "loss": 13.9887,
+      "step": 47
+    },
+    {
+      "epoch": 0.05456870825635925,
+      "grad_norm": 7.256255149841309,
+      "learning_rate": 3.086582838174551e-05,
+      "loss": 18.5768,
+      "step": 48
+    },
+    {
+      "epoch": 0.055705556345033394,
+      "grad_norm": 8.02944564819336,
+      "learning_rate": 2.886908691296504e-05,
+      "loss": 13.2399,
+      "step": 49
+    },
+    {
+      "epoch": 0.05684240443370755,
+      "grad_norm": 6.896628379821777,
+      "learning_rate": 2.6912569338248315e-05,
+      "loss": 10.77,
+      "step": 50
+    },
+    {
+      "epoch": 0.05684240443370755,
+      "eval_loss": 1.744654893875122,
+      "eval_runtime": 66.449,
+      "eval_samples_per_second": 11.151,
+      "eval_steps_per_second": 5.583,
+      "step": 50
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 3056462708342784.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null