Training in progress, step 2700, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0fc54bb7873cd7766315c895133e6f6b29d30c00b75c7d9fa8dd5ddbd9bdf246
 size 205573472

 version https://git-lfs.github.com/spec/v1
+oid sha256:8a0f7e66a5cf5e2fe250e8be921f24692b83ef6dc556fb1ad68f814e1c8e95fd
 size 205573472

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:75e3bcc205bcf6e8e55e1f86e630f98a421ee469fc3ef6e9e0462dad7a513599
 size 411372650

 version https://git-lfs.github.com/spec/v1
+oid sha256:3d74b30ee9a6aaf67c9615cf76ae290dd35040db63b258316a8bf7a766bc2ed2
 size 411372650

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:41cf55dad76711a8b3bb0a84c3270c8fa5a9a1e5d84a6ea9b66d5562ec1761d6
 size 14308

 version https://git-lfs.github.com/spec/v1
+oid sha256:bd2c8e97237e376105e407b05be1e33b22c026561b920b8fe9d134eb88ebbcfa
 size 14308

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:974af4605b4bf59d5494d851d4737f8534604f3b9bc0e001e663081ee9cce887
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:b0dfc2af941e2567517229a8f44267f5380076f9a37680e99372f149a8e0c635
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.7639342546463013,
-  "best_model_checkpoint": "./output/checkpoint-2550",
-  "epoch": 0.016104788490444492,
   "eval_steps": 150,
-  "global_step": 2550,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1928,6 +1928,119 @@
       "eval_samples_per_second": 10.974,
       "eval_steps_per_second": 10.974,
       "step": 2550
     }
   ],
   "logging_steps": 10,
@@ -1947,7 +2060,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.0413045503167693e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.7622952461242676,
+  "best_model_checkpoint": "./output/checkpoint-2700",
+  "epoch": 0.017052128989882405,
   "eval_steps": 150,
+  "global_step": 2700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 10.974,
       "eval_steps_per_second": 10.974,
       "step": 2550
+    },
+    {
+      "epoch": 0.016167944523740353,
+      "grad_norm": 11.584785461425781,
+      "learning_rate": 2.7323687334514695e-05,
+      "loss": 0.8422,
+      "step": 2560
+    },
+    {
+      "epoch": 0.016231100557036214,
+      "grad_norm": 9.246831893920898,
+      "learning_rate": 2.71473819165525e-05,
+      "loss": 1.0227,
+      "step": 2570
+    },
+    {
+      "epoch": 0.016294256590332075,
+      "grad_norm": 9.19963264465332,
+      "learning_rate": 2.6971090993338606e-05,
+      "loss": 0.9826,
+      "step": 2580
+    },
+    {
+      "epoch": 0.016357412623627936,
+      "grad_norm": 7.812788009643555,
+      "learning_rate": 2.679482181150238e-05,
+      "loss": 0.8062,
+      "step": 2590
+    },
+    {
+      "epoch": 0.016420568656923797,
+      "grad_norm": 6.75607967376709,
+      "learning_rate": 2.6618581616779483e-05,
+      "loss": 0.8495,
+      "step": 2600
+    },
+    {
+      "epoch": 0.016483724690219657,
+      "grad_norm": 8.447277069091797,
+      "learning_rate": 2.644237765371404e-05,
+      "loss": 1.1002,
+      "step": 2610
+    },
+    {
+      "epoch": 0.016546880723515518,
+      "grad_norm": 9.761106491088867,
+      "learning_rate": 2.626621716536085e-05,
+      "loss": 0.9549,
+      "step": 2620
+    },
+    {
+      "epoch": 0.01661003675681138,
+      "grad_norm": 10.971216201782227,
+      "learning_rate": 2.6090107392987575e-05,
+      "loss": 0.9771,
+      "step": 2630
+    },
+    {
+      "epoch": 0.01667319279010724,
+      "grad_norm": 11.389016151428223,
+      "learning_rate": 2.591405557577721e-05,
+      "loss": 0.9737,
+      "step": 2640
+    },
+    {
+      "epoch": 0.0167363488234031,
+      "grad_norm": 9.189516067504883,
+      "learning_rate": 2.5738068950530398e-05,
+      "loss": 0.9855,
+      "step": 2650
+    },
+    {
+      "epoch": 0.01679950485669896,
+      "grad_norm": 8.623804092407227,
+      "learning_rate": 2.5562154751368014e-05,
+      "loss": 1.0468,
+      "step": 2660
+    },
+    {
+      "epoch": 0.016862660889994822,
+      "grad_norm": 10.484329223632812,
+      "learning_rate": 2.5386320209433798e-05,
+      "loss": 1.0479,
+      "step": 2670
+    },
+    {
+      "epoch": 0.016925816923290683,
+      "grad_norm": 9.45596981048584,
+      "learning_rate": 2.5210572552597046e-05,
+      "loss": 0.9985,
+      "step": 2680
+    },
+    {
+      "epoch": 0.016988972956586544,
+      "grad_norm": 11.783865928649902,
+      "learning_rate": 2.5034919005155583e-05,
+      "loss": 1.0066,
+      "step": 2690
+    },
+    {
+      "epoch": 0.017052128989882405,
+      "grad_norm": 11.132217407226562,
+      "learning_rate": 2.4859366787538754e-05,
+      "loss": 0.8558,
+      "step": 2700
+    },
+    {
+      "epoch": 0.017052128989882405,
+      "eval_loss": 0.7622952461242676,
+      "eval_runtime": 45.0496,
+      "eval_samples_per_second": 11.099,
+      "eval_steps_per_second": 11.099,
+      "step": 2700
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 2.1658889386082304e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null