Training in progress, step 3000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e3041ee336d7872f0f16235d3f8aa2ee8994195865960c90c216a2032fad6491
 size 524363632

 version https://git-lfs.github.com/spec/v1
+oid sha256:2a24ccb34ee670ad31c12d9251a8af3e2d476a5cb241dfcacfd09b83fd31da13
 size 524363632

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:79516741c68ad2bd3abfbf03e3596fe2cea5d265b0ab7fa9fae53e880850771b
 size 1049049442

 version https://git-lfs.github.com/spec/v1
+oid sha256:2be2c6a4a3b357e1b920c33a1c22c1fc7950fd6a88fee358b8557a1d6be1999f
 size 1049049442

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7e060ed0cba0b653c0ae1781d1ecb988273d6035f4be3c081c9210d24bdbfd30
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:a9dec7d48193c1bf07d35e7fafa4ead566a1f9c6126b97351f8b8095ac049ca3
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0fb5a07357869015d5baa75c47552309f3268fa1ab75403f011820118b2afca5
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:e3c408f4c434a323d7fe8a30b3b55f0cf203ab417bbc4794626805f567e54301
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.2028086185455322,
-  "best_model_checkpoint": "./output/checkpoint-2850",
-  "epoch": 0.1276595744680851,
   "eval_steps": 150,
-  "global_step": 2850,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2154,6 +2154,119 @@
       "eval_samples_per_second": 9.683,
       "eval_steps_per_second": 9.683,
       "step": 2850
     }
   ],
   "logging_steps": 10,
@@ -2173,7 +2286,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.65468828746752e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.199351191520691,
+  "best_model_checkpoint": "./output/checkpoint-3000",
+  "epoch": 0.1343784994400896,
   "eval_steps": 150,
+  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 9.683,
       "eval_steps_per_second": 9.683,
       "step": 2850
+    },
+    {
+      "epoch": 0.12810750279955208,
+      "grad_norm": 5.54340124130249,
+      "learning_rate": 3.009570605989249e-06,
+      "loss": 0.999,
+      "step": 2860
+    },
+    {
+      "epoch": 0.12855543113101903,
+      "grad_norm": 3.859863758087158,
+      "learning_rate": 2.986016505760967e-06,
+      "loss": 1.025,
+      "step": 2870
+    },
+    {
+      "epoch": 0.129003359462486,
+      "grad_norm": 5.119099140167236,
+      "learning_rate": 2.962493809901815e-06,
+      "loss": 1.3963,
+      "step": 2880
+    },
+    {
+      "epoch": 0.12945128779395296,
+      "grad_norm": 5.8379130363464355,
+      "learning_rate": 2.9390034853376875e-06,
+      "loss": 1.0822,
+      "step": 2890
+    },
+    {
+      "epoch": 0.12989921612541994,
+      "grad_norm": 3.261016845703125,
+      "learning_rate": 2.9155464976638217e-06,
+      "loss": 1.0526,
+      "step": 2900
+    },
+    {
+      "epoch": 0.1303471444568869,
+      "grad_norm": 3.678527355194092,
+      "learning_rate": 2.8921238111051057e-06,
+      "loss": 1.1167,
+      "step": 2910
+    },
+    {
+      "epoch": 0.13079507278835387,
+      "grad_norm": 4.787365436553955,
+      "learning_rate": 2.8687363884764434e-06,
+      "loss": 1.0829,
+      "step": 2920
+    },
+    {
+      "epoch": 0.13124300111982082,
+      "grad_norm": 3.475607395172119,
+      "learning_rate": 2.8453851911431783e-06,
+      "loss": 1.0801,
+      "step": 2930
+    },
+    {
+      "epoch": 0.1316909294512878,
+      "grad_norm": 6.456125736236572,
+      "learning_rate": 2.822071178981572e-06,
+      "loss": 1.1287,
+      "step": 2940
+    },
+    {
+      "epoch": 0.13213885778275475,
+      "grad_norm": 3.778585910797119,
+      "learning_rate": 2.7987953103393484e-06,
+      "loss": 1.1359,
+      "step": 2950
+    },
+    {
+      "epoch": 0.13258678611422173,
+      "grad_norm": 3.37793231010437,
+      "learning_rate": 2.7755585419963026e-06,
+      "loss": 1.0584,
+      "step": 2960
+    },
+    {
+      "epoch": 0.13303471444568868,
+      "grad_norm": 5.2485575675964355,
+      "learning_rate": 2.7523618291249687e-06,
+      "loss": 1.2037,
+      "step": 2970
+    },
+    {
+      "epoch": 0.13348264277715566,
+      "grad_norm": 4.524936676025391,
+      "learning_rate": 2.729206125251359e-06,
+      "loss": 0.9778,
+      "step": 2980
+    },
+    {
+      "epoch": 0.1339305711086226,
+      "grad_norm": 5.820756912231445,
+      "learning_rate": 2.7060923822157638e-06,
+      "loss": 1.0351,
+      "step": 2990
+    },
+    {
+      "epoch": 0.1343784994400896,
+      "grad_norm": 5.031400680541992,
+      "learning_rate": 2.6830215501336288e-06,
+      "loss": 1.1926,
+      "step": 3000
+    },
+    {
+      "epoch": 0.1343784994400896,
+      "eval_loss": 1.199351191520691,
+      "eval_runtime": 51.5688,
+      "eval_samples_per_second": 9.696,
+      "eval_steps_per_second": 9.696,
+      "step": 3000
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 3.849433190903808e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null