Training in progress, step 4800, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +116 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d45b75e8780ea3804ea9254533607010c2e8b727e3c235634fa4b6050e8698cf
 size 524363632

 version https://git-lfs.github.com/spec/v1
+oid sha256:10f714b23564c742311d1c540ca7fc10fcdbf3af226fde80988b15f53a4de759
 size 524363632

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5b221d8f9f40f095d22c6d417ca3a0af75953108b073407e6f96b0d6ddfd2643
-size 1049049378

 version https://git-lfs.github.com/spec/v1
+oid sha256:b8ef88fa021ecb5183af5180dd2f7d78da6703c97879b82587cac55aeec59fae
+size 1049049442

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c0aef250a97cd4703312dac201660d7f97a09a6e15d50413621370c123af9698
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:cfdff946c145aa36cd62555b4444db1637fdc8a7e1df28c12b53257128697918
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:657bbe4e559d5f9e7581fbbb12237706f640d94bb8a67370d9ae890c56e7c61f
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:c3ecab210fbeef159cafb78be4b3e45fddac96a485c1a8431fd12fe8ae378aa1
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 1.1947814226150513,
   "best_model_checkpoint": "./output/checkpoint-4650",
-  "epoch": 0.20828667413213886,
   "eval_steps": 150,
-  "global_step": 4650,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3510,6 +3510,119 @@
       "eval_samples_per_second": 9.651,
       "eval_steps_per_second": 9.651,
       "step": 4650
     }
   ],
   "logging_steps": 10,
@@ -3529,7 +3642,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.013945095856128e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 1.1947814226150513,
   "best_model_checkpoint": "./output/checkpoint-4650",
+  "epoch": 0.21500559910414332,
   "eval_steps": 150,
+  "global_step": 4800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 9.651,
       "eval_steps_per_second": 9.651,
       "step": 4650
+    },
+    {
+      "epoch": 0.2087346024636058,
+      "grad_norm": 4.046876907348633,
+      "learning_rate": 8.874548095798464e-08,
+      "loss": 1.1393,
+      "step": 4660
+    },
+    {
+      "epoch": 0.2091825307950728,
+      "grad_norm": 4.740685939788818,
+      "learning_rate": 8.362113243093245e-08,
+      "loss": 1.0529,
+      "step": 4670
+    },
+    {
+      "epoch": 0.20963045912653974,
+      "grad_norm": 6.356805324554443,
+      "learning_rate": 7.864749437890173e-08,
+      "loss": 1.2791,
+      "step": 4680
+    },
+    {
+      "epoch": 0.21007838745800672,
+      "grad_norm": 4.329228401184082,
+      "learning_rate": 7.382477124867282e-08,
+      "loss": 1.2672,
+      "step": 4690
+    },
+    {
+      "epoch": 0.21052631578947367,
+      "grad_norm": 5.217611312866211,
+      "learning_rate": 6.915316128350461e-08,
+      "loss": 0.9357,
+      "step": 4700
+    },
+    {
+      "epoch": 0.21097424412094065,
+      "grad_norm": 5.418657302856445,
+      "learning_rate": 6.463285651498563e-08,
+      "loss": 1.011,
+      "step": 4710
+    },
+    {
+      "epoch": 0.2114221724524076,
+      "grad_norm": 6.056429386138916,
+      "learning_rate": 6.026404275513875e-08,
+      "loss": 1.4377,
+      "step": 4720
+    },
+    {
+      "epoch": 0.21187010078387458,
+      "grad_norm": 3.5456736087799072,
+      "learning_rate": 5.604689958878723e-08,
+      "loss": 1.1192,
+      "step": 4730
+    },
+    {
+      "epoch": 0.21231802911534153,
+      "grad_norm": 5.697049140930176,
+      "learning_rate": 5.198160036616898e-08,
+      "loss": 1.0392,
+      "step": 4740
+    },
+    {
+      "epoch": 0.2127659574468085,
+      "grad_norm": 4.248316764831543,
+      "learning_rate": 4.8068312195811847e-08,
+      "loss": 1.0041,
+      "step": 4750
+    },
+    {
+      "epoch": 0.21321388577827546,
+      "grad_norm": 3.3937604427337646,
+      "learning_rate": 4.4307195937666194e-08,
+      "loss": 0.9791,
+      "step": 4760
+    },
+    {
+      "epoch": 0.21366181410974244,
+      "grad_norm": 3.097196340560913,
+      "learning_rate": 4.069840619648935e-08,
+      "loss": 1.1306,
+      "step": 4770
+    },
+    {
+      "epoch": 0.2141097424412094,
+      "grad_norm": 5.534854888916016,
+      "learning_rate": 3.72420913154932e-08,
+      "loss": 1.104,
+      "step": 4780
+    },
+    {
+      "epoch": 0.21455767077267637,
+      "grad_norm": 5.693947792053223,
+      "learning_rate": 3.3938393370244876e-08,
+      "loss": 1.1541,
+      "step": 4790
+    },
+    {
+      "epoch": 0.21500559910414332,
+      "grad_norm": 4.025967597961426,
+      "learning_rate": 3.078744816282731e-08,
+      "loss": 1.1515,
+      "step": 4800
+    },
+    {
+      "epoch": 0.21500559910414332,
+      "eval_loss": 1.1954809427261353,
+      "eval_runtime": 51.6284,
+      "eval_samples_per_second": 9.685,
+      "eval_steps_per_second": 9.685,
+      "step": 4800
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 6.204448348803072e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null