Training in progress, step 150, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +2 -2
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +69 -69
last-checkpoint/training_args.bin +1 -1

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f8d2559cf0a778e9840a4c37a4d46ac67ebec08e11276c08d4ebc4a1ab32841f
 size 319876032

 version https://git-lfs.github.com/spec/v1
+oid sha256:1ed692f944315bade0586154433ae05196c130d3c1a1031148af0026b3dad070
 size 319876032

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1768c8213f9998c620429e755fdaaddfdcee6ac18984259d54465be24333369c
 size 640010002

 version https://git-lfs.github.com/spec/v1
+oid sha256:59581924af07ec8a919c943285b2e449aed8d904949a144c9c3a7335cf2e0414
 size 640010002

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:46985dbff475a9b7c7985308ad4d08ce1029dc6f59bccbb70b71ff753618d2b8
-size 14308

 version https://git-lfs.github.com/spec/v1
+oid sha256:dc13ec54115687b66c0bacabf0e2de654fcd14a9636f330067b3d04364bf3419
+size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6549e0cb3283f731e5eb41433c64c6e6fa61af711d2cfd4b4a1929c1bdb5b64f
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:9c01a9c9216d924473c3e5c0df9bd20a460a41ed4b43baf53c46506e9cefba51
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-  "best_metric": 0.5502287745475769,
   "best_model_checkpoint": "./output/checkpoint-150",
-  "epoch": 0.016962569263824494,
   "eval_steps": 150,
   "global_step": 150,
   "is_hyper_param_search": false,
@@ -9,116 +9,116 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.0011308379509216329,
-      "grad_norm": 3.084001064300537,
-      "learning_rate": 7.500000000000001e-06,
-      "loss": 1.1033,
       "step": 10
     },
     {
-      "epoch": 0.0022616759018432657,
-      "grad_norm": 1.3109848499298096,
-      "learning_rate": 1.5000000000000002e-05,
-      "loss": 1.3614,
       "step": 20
     },
     {
-      "epoch": 0.003392513852764899,
-      "grad_norm": 8.813097953796387,
-      "learning_rate": 2.25e-05,
-      "loss": 0.6036,
       "step": 30
     },
     {
-      "epoch": 0.0045233518036865315,
-      "grad_norm": 1.5215480327606201,
-      "learning_rate": 3.0000000000000004e-05,
-      "loss": 0.3051,
       "step": 40
     },
     {
-      "epoch": 0.005654189754608165,
-      "grad_norm": 3.0029616355895996,
-      "learning_rate": 3.7500000000000003e-05,
-      "loss": 0.4012,
       "step": 50
     },
     {
-      "epoch": 0.006785027705529798,
-      "grad_norm": 4.15091609954834,
-      "learning_rate": 4.5e-05,
-      "loss": 0.2458,
       "step": 60
     },
     {
-      "epoch": 0.00791586565645143,
-      "grad_norm": 0.9505107402801514,
-      "learning_rate": 5.25e-05,
-      "loss": 0.216,
       "step": 70
     },
     {
-      "epoch": 0.009046703607373063,
-      "grad_norm": 3.8529767990112305,
-      "learning_rate": 6.000000000000001e-05,
-      "loss": 0.2557,
       "step": 80
     },
     {
-      "epoch": 0.010177541558294697,
-      "grad_norm": 1.3274264335632324,
-      "learning_rate": 6.750000000000001e-05,
-      "loss": 0.2389,
       "step": 90
     },
     {
-      "epoch": 0.01130837950921633,
-      "grad_norm": 1.8785921335220337,
-      "learning_rate": 7.500000000000001e-05,
-      "loss": 0.2036,
       "step": 100
     },
     {
-      "epoch": 0.012439217460137961,
-      "grad_norm": 1.5390714406967163,
-      "learning_rate": 7.499922926093873e-05,
-      "loss": 0.2569,
       "step": 110
     },
     {
-      "epoch": 0.013570055411059595,
-      "grad_norm": 1.8701865673065186,
-      "learning_rate": 7.499691707543698e-05,
-      "loss": 0.1756,
       "step": 120
     },
     {
-      "epoch": 0.014700893361981228,
-      "grad_norm": 1.2455791234970093,
-      "learning_rate": 7.499306353853963e-05,
-      "loss": 0.3081,
       "step": 130
     },
     {
-      "epoch": 0.01583173131290286,
-      "grad_norm": 1.9865636825561523,
-      "learning_rate": 7.49876688086505e-05,
-      "loss": 0.3142,
       "step": 140
     },
     {
-      "epoch": 0.016962569263824494,
-      "grad_norm": 6.710127830505371,
-      "learning_rate": 7.498073310752581e-05,
-      "loss": 0.276,
       "step": 150
     },
     {
-      "epoch": 0.016962569263824494,
-      "eval_loss": 0.5502287745475769,
-      "eval_runtime": 39.7817,
-      "eval_samples_per_second": 12.569,
-      "eval_steps_per_second": 12.569,
       "step": 150
     }
   ],
@@ -139,8 +139,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.092620352271155e+16,
-  "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.4814591705799103,
   "best_model_checkpoint": "./output/checkpoint-150",
+  "epoch": 0.008481284631912247,
   "eval_steps": 150,
   "global_step": 150,
   "is_hyper_param_search": false,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.0005654189754608164,
+      "grad_norm": 2.227701425552368,
+      "learning_rate": 7.500000000000001e-07,
+      "loss": 0.1995,
       "step": 10
     },
     {
+      "epoch": 0.0011308379509216329,
+      "grad_norm": 5.525130748748779,
+      "learning_rate": 1.5000000000000002e-06,
+      "loss": 0.2334,
       "step": 20
     },
     {
+      "epoch": 0.0016962569263824494,
+      "grad_norm": 1.4867887496948242,
+      "learning_rate": 2.25e-06,
+      "loss": 0.3133,
       "step": 30
     },
     {
+      "epoch": 0.0022616759018432657,
+      "grad_norm": 0.5477761626243591,
+      "learning_rate": 3.0000000000000005e-06,
+      "loss": 0.1692,
       "step": 40
     },
     {
+      "epoch": 0.0028270948773040823,
+      "grad_norm": 1.7914361953735352,
+      "learning_rate": 3.7500000000000005e-06,
+      "loss": 0.3082,
       "step": 50
     },
     {
+      "epoch": 0.003392513852764899,
+      "grad_norm": 0.40979117155075073,
+      "learning_rate": 4.5e-06,
+      "loss": 0.1468,
       "step": 60
     },
     {
+      "epoch": 0.003957932828225715,
+      "grad_norm": 5.27268123626709,
+      "learning_rate": 5.2500000000000006e-06,
+      "loss": 0.2381,
       "step": 70
     },
     {
+      "epoch": 0.0045233518036865315,
+      "grad_norm": 8.342147827148438,
+      "learning_rate": 6.000000000000001e-06,
+      "loss": 0.2292,
       "step": 80
     },
     {
+      "epoch": 0.0050887707791473485,
+      "grad_norm": 4.8586745262146,
+      "learning_rate": 6.7500000000000014e-06,
+      "loss": 0.1351,
       "step": 90
     },
     {
+      "epoch": 0.005654189754608165,
+      "grad_norm": 7.848427772521973,
+      "learning_rate": 7.500000000000001e-06,
+      "loss": 0.2967,
       "step": 100
     },
     {
+      "epoch": 0.006219608730068981,
+      "grad_norm": 0.6273432374000549,
+      "learning_rate": 7.499922926093874e-06,
+      "loss": 0.1445,
       "step": 110
     },
     {
+      "epoch": 0.006785027705529798,
+      "grad_norm": 0.21901638805866241,
+      "learning_rate": 7.499691707543699e-06,
+      "loss": 0.2228,
       "step": 120
     },
     {
+      "epoch": 0.007350446680990614,
+      "grad_norm": 0.5449599027633667,
+      "learning_rate": 7.499306353853963e-06,
+      "loss": 0.2675,
       "step": 130
     },
     {
+      "epoch": 0.00791586565645143,
+      "grad_norm": 0.5028505921363831,
+      "learning_rate": 7.49876688086505e-06,
+      "loss": 0.1786,
       "step": 140
     },
     {
+      "epoch": 0.008481284631912247,
+      "grad_norm": 1.582517385482788,
+      "learning_rate": 7.4980733107525805e-06,
+      "loss": 0.2159,
       "step": 150
     },
     {
+      "epoch": 0.008481284631912247,
+      "eval_loss": 0.4814591705799103,
+      "eval_runtime": 39.6064,
+      "eval_samples_per_second": 12.624,
+      "eval_steps_per_second": 12.624,
       "step": 150
     }
   ],
       "attributes": {}
     }
   },
+  "total_flos": 8916555427872768.0,
+  "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null
 }

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3f279fd1e1d39cc83bb0e079653c3d42ec760dfe034424991216b98360d897a4
 size 5496

 version https://git-lfs.github.com/spec/v1
+oid sha256:34c342b6df7f9ed99a585d948f2c42b7aa526c41d1d12a548cf7269c01c411c5
 size 5496