Training in progress, step 900, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +116 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7d018a885c48fc0c37b1517b6a917608711216b0c986199a88ed63bfa264bb6f
 size 69527352

 version https://git-lfs.github.com/spec/v1
+oid sha256:47a16b51ed86ef9284b498af46d0376b4111bc98db6e3a93d475a79295e2f251
 size 69527352

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2d0277322814cbfc588f9a257df415c737454820ed7d47488062a26cd5645983
 size 139313554

 version https://git-lfs.github.com/spec/v1
+oid sha256:dcc2335ec30b7353024ca0587baa051275591342c5014a352aee71d8fc65afba
 size 139313554

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b13fcf3f291144a6cd2c774e108aa3a14da9f19c8ed985937da466add28008e9
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:4f9de2f7947115389a7a99bea9a1bbdfa4f757d6c06e8a050b7f2a473acaf2e5
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5d02fc640701307686c6a3396481672cdf8282d493508ee82d1db38b43c52dc7
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:844b58ea4caa8e4462bacce55fd7b9bbec4884fc493ed5628b1d32bf13abecce
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 1.5808264017105103,
   "best_model_checkpoint": "./output/checkpoint-600",
-  "epoch": 3.456221198156682,
   "eval_steps": 150,
-  "global_step": 750,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -572,6 +572,119 @@
       "eval_samples_per_second": 9.401,
       "eval_steps_per_second": 9.401,
       "step": 750
     }
   ],
   "logging_steps": 10,
@@ -591,7 +704,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3144486839671680.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 1.5808264017105103,
   "best_model_checkpoint": "./output/checkpoint-600",
+  "epoch": 4.147465437788019,
   "eval_steps": 150,
+  "global_step": 900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 9.401,
       "eval_steps_per_second": 9.401,
       "step": 750
+    },
+    {
+      "epoch": 3.5023041474654377,
+      "grad_norm": 2.300726890563965,
+      "learning_rate": 5.2574461868845316e-05,
+      "loss": 1.4251,
+      "step": 760
+    },
+    {
+      "epoch": 3.5483870967741935,
+      "grad_norm": 2.2960753440856934,
+      "learning_rate": 5.2501545891838315e-05,
+      "loss": 1.3402,
+      "step": 770
+    },
+    {
+      "epoch": 3.5944700460829493,
+      "grad_norm": 2.15303897857666,
+      "learning_rate": 5.242760219920405e-05,
+      "loss": 1.3517,
+      "step": 780
+    },
+    {
+      "epoch": 3.640552995391705,
+      "grad_norm": 2.8471062183380127,
+      "learning_rate": 5.235263383047812e-05,
+      "loss": 1.3804,
+      "step": 790
+    },
+    {
+      "epoch": 3.686635944700461,
+      "grad_norm": 2.315626859664917,
+      "learning_rate": 5.2276643867316525e-05,
+      "loss": 1.3088,
+      "step": 800
+    },
+    {
+      "epoch": 3.7327188940092166,
+      "grad_norm": 2.1980669498443604,
+      "learning_rate": 5.219963543336902e-05,
+      "loss": 1.3247,
+      "step": 810
+    },
+    {
+      "epoch": 3.7788018433179724,
+      "grad_norm": 2.2485177516937256,
+      "learning_rate": 5.212161169415071e-05,
+      "loss": 1.3587,
+      "step": 820
+    },
+    {
+      "epoch": 3.824884792626728,
+      "grad_norm": 2.9055187702178955,
+      "learning_rate": 5.204257585691191e-05,
+      "loss": 1.304,
+      "step": 830
+    },
+    {
+      "epoch": 3.870967741935484,
+      "grad_norm": 1.9540749788284302,
+      "learning_rate": 5.196253117050633e-05,
+      "loss": 1.5041,
+      "step": 840
+    },
+    {
+      "epoch": 3.9170506912442398,
+      "grad_norm": 2.1801793575286865,
+      "learning_rate": 5.188148092525751e-05,
+      "loss": 1.4353,
+      "step": 850
+    },
+    {
+      "epoch": 3.9631336405529956,
+      "grad_norm": 2.4277756214141846,
+      "learning_rate": 5.179942845282357e-05,
+      "loss": 1.3884,
+      "step": 860
+    },
+    {
+      "epoch": 4.009216589861751,
+      "grad_norm": 1.8367973566055298,
+      "learning_rate": 5.17163771260603e-05,
+      "loss": 1.4612,
+      "step": 870
+    },
+    {
+      "epoch": 4.055299539170507,
+      "grad_norm": 2.414250373840332,
+      "learning_rate": 5.163233035888244e-05,
+      "loss": 1.2588,
+      "step": 880
+    },
+    {
+      "epoch": 4.1013824884792625,
+      "grad_norm": 2.6931984424591064,
+      "learning_rate": 5.154729160612338e-05,
+      "loss": 1.2111,
+      "step": 890
+    },
+    {
+      "epoch": 4.147465437788019,
+      "grad_norm": 2.5944881439208984,
+      "learning_rate": 5.146126436339321e-05,
+      "loss": 1.2324,
+      "step": 900
+    },
+    {
+      "epoch": 4.147465437788019,
+      "eval_loss": 1.6766996383666992,
+      "eval_runtime": 22.1869,
+      "eval_samples_per_second": 8.699,
+      "eval_steps_per_second": 8.699,
+      "step": 900
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 3780963021939840.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null