Training in progress, step 4350, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e6b78acdd25633c93d9a84817fabd0deb4875c5954b9c3f63ef04ead20b369ed
 size 524363632

 version https://git-lfs.github.com/spec/v1
+oid sha256:c10e16e3ac21d2c3067ac066149d6847ada80249a0d2201ec8b0747c1cc6cf62
 size 524363632

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1c5e89b18a6b91f7700ccc031244c743f903100ca90edb74470d2a1d7ac8bceb
-size 1049049378

 version https://git-lfs.github.com/spec/v1
+oid sha256:878ec53ac90deb1001fac14c0eae703bd28c1206475fc3b081fb43a039a2ed13
+size 1049049442

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a60ac613274fc65034ee410771d705cc6f3b3ae8982f6d7b8a50e62bf600cd66
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:d3b9e5eea9433b8628e2a81dae4e1ee9ab1ee13a921f1ad76ef9904766aca9f5
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:820726d6ef8ac6d9f9ca34e9eb1daa2e5ba6a674a46b1cafa3773bfd40fd74af
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:c1f3a1c2778942fd3be1a9f139839cd53a1e492e182302e5e768461dfa2919be
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.1952238082885742,
-  "best_model_checkpoint": "./output/checkpoint-4050",
-  "epoch": 0.1881298992161254,
   "eval_steps": 150,
-  "global_step": 4200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3171,6 +3171,119 @@
       "eval_samples_per_second": 9.682,
       "eval_steps_per_second": 9.682,
       "step": 4200
     }
   ],
   "logging_steps": 10,
@@ -3190,7 +3303,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.412158843609088e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.1951868534088135,
+  "best_model_checkpoint": "./output/checkpoint-4350",
+  "epoch": 0.1948488241881299,
   "eval_steps": 150,
+  "global_step": 4350,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 9.682,
       "eval_steps_per_second": 9.682,
       "step": 4200
+    },
+    {
+      "epoch": 0.1885778275475924,
+      "grad_norm": 4.277423858642578,
+      "learning_rate": 4.7082387189226646e-07,
+      "loss": 1.0834,
+      "step": 4210
+    },
+    {
+      "epoch": 0.18902575587905934,
+      "grad_norm": 3.7345645427703857,
+      "learning_rate": 4.5922767833421454e-07,
+      "loss": 1.255,
+      "step": 4220
+    },
+    {
+      "epoch": 0.18947368421052632,
+      "grad_norm": 5.163575172424316,
+      "learning_rate": 4.477667555372326e-07,
+      "loss": 1.1317,
+      "step": 4230
+    },
+    {
+      "epoch": 0.18992161254199327,
+      "grad_norm": 5.2220892906188965,
+      "learning_rate": 4.364415746149678e-07,
+      "loss": 1.0966,
+      "step": 4240
+    },
+    {
+      "epoch": 0.19036954087346025,
+      "grad_norm": 5.796306610107422,
+      "learning_rate": 4.2525260110124964e-07,
+      "loss": 1.0268,
+      "step": 4250
+    },
+    {
+      "epoch": 0.1908174692049272,
+      "grad_norm": 4.295403003692627,
+      "learning_rate": 4.1420029493095623e-07,
+      "loss": 1.0465,
+      "step": 4260
+    },
+    {
+      "epoch": 0.19126539753639418,
+      "grad_norm": 5.671868324279785,
+      "learning_rate": 4.032851104211036e-07,
+      "loss": 1.2124,
+      "step": 4270
+    },
+    {
+      "epoch": 0.19171332586786113,
+      "grad_norm": 4.053644180297852,
+      "learning_rate": 3.925074962521762e-07,
+      "loss": 1.0574,
+      "step": 4280
+    },
+    {
+      "epoch": 0.1921612541993281,
+      "grad_norm": 3.7694053649902344,
+      "learning_rate": 3.818678954496787e-07,
+      "loss": 1.0604,
+      "step": 4290
+    },
+    {
+      "epoch": 0.19260918253079506,
+      "grad_norm": 4.982527256011963,
+      "learning_rate": 3.713667453659287e-07,
+      "loss": 1.1518,
+      "step": 4300
+    },
+    {
+      "epoch": 0.19305711086226204,
+      "grad_norm": 5.036848545074463,
+      "learning_rate": 3.6100447766207473e-07,
+      "loss": 1.0251,
+      "step": 4310
+    },
+    {
+      "epoch": 0.193505039193729,
+      "grad_norm": 5.744006633758545,
+      "learning_rate": 3.5078151829035693e-07,
+      "loss": 1.0103,
+      "step": 4320
+    },
+    {
+      "epoch": 0.19395296752519597,
+      "grad_norm": 3.843419075012207,
+      "learning_rate": 3.4069828747659405e-07,
+      "loss": 1.0053,
+      "step": 4330
+    },
+    {
+      "epoch": 0.19440089585666293,
+      "grad_norm": 4.357511043548584,
+      "learning_rate": 3.3075519970291144e-07,
+      "loss": 1.202,
+      "step": 4340
+    },
+    {
+      "epoch": 0.1948488241881299,
+      "grad_norm": 6.164062976837158,
+      "learning_rate": 3.209526636907036e-07,
+      "loss": 1.1136,
+      "step": 4350
+    },
+    {
+      "epoch": 0.1948488241881299,
+      "eval_loss": 1.1951868534088135,
+      "eval_runtime": 51.6432,
+      "eval_samples_per_second": 9.682,
+      "eval_steps_per_second": 9.682,
+      "step": 4350
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 5.6157580670976e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null