Training in progress, step 3000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0627010dbcdd1bd4804a95111399ce8e7a21c77842832aaa6fdacef2dedea7fe
 size 69527352

 version https://git-lfs.github.com/spec/v1
+oid sha256:e76345f809b53997ae5b0156376662cc932fae1628a32a6daa74b18bf353691c
 size 69527352

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ec5d8c6905e253f2885c2f1916a8f76e6d4109ec1face63a4a28a3ddb2164b0a
 size 139313554

 version https://git-lfs.github.com/spec/v1
+oid sha256:9350ab8952c9068ba9cb6662b755e3ae064e0864a10cc19275a73e3493f1d699
 size 139313554

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e8ef6d693325d1213db02dd00b4b8455f5cdb1b3db60f7539a13f7a9a5a3fbf3
 size 14308

 version https://git-lfs.github.com/spec/v1
+oid sha256:221fbae6356b068d1a273b00f61f9d4825a8ecf84836f89b11a087624e7b10f1
 size 14308

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:675b3a9e5fe7372c3c43243a8218917ed6d7710114a3dd64818b1e7e3d4370e0
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:125a0482b0838ad97cbdd22589ee6289ec41c1a06bf562da8714c95f5c3581c0
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.813827633857727,
-  "best_model_checkpoint": "./output/checkpoint-2850",
-  "epoch": 0.35430134261561413,
   "eval_steps": 150,
-  "global_step": 2850,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2154,6 +2154,119 @@
       "eval_samples_per_second": 8.853,
       "eval_steps_per_second": 8.853,
       "step": 2850
     }
   ],
   "logging_steps": 10,
@@ -2173,7 +2286,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 9.896048668870656e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.8055340647697449,
+  "best_model_checkpoint": "./output/checkpoint-3000",
+  "epoch": 0.37294878170064644,
   "eval_steps": 150,
+  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 8.853,
       "eval_steps_per_second": 8.853,
       "step": 2850
+    },
+    {
+      "epoch": 0.35554450522128295,
+      "grad_norm": 1.4959031343460083,
+      "learning_rate": 5.015951009982081e-05,
+      "loss": 0.6377,
+      "step": 2860
+    },
+    {
+      "epoch": 0.35678766782695176,
+      "grad_norm": 1.524834394454956,
+      "learning_rate": 4.976694176268278e-05,
+      "loss": 0.6132,
+      "step": 2870
+    },
+    {
+      "epoch": 0.3580308304326206,
+      "grad_norm": 1.1156436204910278,
+      "learning_rate": 4.937489683169692e-05,
+      "loss": 0.5865,
+      "step": 2880
+    },
+    {
+      "epoch": 0.3592739930382894,
+      "grad_norm": 1.4648617506027222,
+      "learning_rate": 4.8983391422294786e-05,
+      "loss": 0.5489,
+      "step": 2890
+    },
+    {
+      "epoch": 0.36051715564395825,
+      "grad_norm": 0.9886593222618103,
+      "learning_rate": 4.8592441627730355e-05,
+      "loss": 0.5844,
+      "step": 2900
+    },
+    {
+      "epoch": 0.36176031824962707,
+      "grad_norm": 1.7449545860290527,
+      "learning_rate": 4.820206351841842e-05,
+      "loss": 0.617,
+      "step": 2910
+    },
+    {
+      "epoch": 0.3630034808552959,
+      "grad_norm": 1.375961184501648,
+      "learning_rate": 4.781227314127405e-05,
+      "loss": 0.6068,
+      "step": 2920
+    },
+    {
+      "epoch": 0.3642466434609647,
+      "grad_norm": 1.08450448513031,
+      "learning_rate": 4.7423086519052966e-05,
+      "loss": 0.6064,
+      "step": 2930
+    },
+    {
+      "epoch": 0.3654898060666335,
+      "grad_norm": 1.6093776226043701,
+      "learning_rate": 4.703451964969287e-05,
+      "loss": 0.6449,
+      "step": 2940
+    },
+    {
+      "epoch": 0.3667329686723023,
+      "grad_norm": 1.2619701623916626,
+      "learning_rate": 4.66465885056558e-05,
+      "loss": 0.5688,
+      "step": 2950
+    },
+    {
+      "epoch": 0.3679761312779712,
+      "grad_norm": 1.2892088890075684,
+      "learning_rate": 4.62593090332717e-05,
+      "loss": 0.5941,
+      "step": 2960
+    },
+    {
+      "epoch": 0.36921929388364,
+      "grad_norm": 1.0506901741027832,
+      "learning_rate": 4.587269715208281e-05,
+      "loss": 0.5454,
+      "step": 2970
+    },
+    {
+      "epoch": 0.3704624564893088,
+      "grad_norm": 1.6574184894561768,
+      "learning_rate": 4.5486768754189305e-05,
+      "loss": 0.5409,
+      "step": 2980
+    },
+    {
+      "epoch": 0.3717056190949776,
+      "grad_norm": 1.1367279291152954,
+      "learning_rate": 4.510153970359606e-05,
+      "loss": 0.6502,
+      "step": 2990
+    },
+    {
+      "epoch": 0.37294878170064644,
+      "grad_norm": 1.1561517715454102,
+      "learning_rate": 4.4717025835560476e-05,
+      "loss": 0.5962,
+      "step": 3000
+    },
+    {
+      "epoch": 0.37294878170064644,
+      "eval_loss": 0.8055340647697449,
+      "eval_runtime": 54.6339,
+      "eval_samples_per_second": 9.152,
+      "eval_steps_per_second": 9.152,
+      "step": 3000
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.0423543389447168e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null