Training in progress, step 39, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +102 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0b7ccd61eea6f44c0e0815959869b93b7a21307cd78060e7a3a696d99b4c215e
 size 14696

 version https://git-lfs.github.com/spec/v1
+oid sha256:296c0e7114323a9858809edd080f8475c9209749e39f10eaafa92445d05bf713
 size 14696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:03bf89303709c0510f6ab263bbc3ebda76d04ec11f075cbb20624512971f6f67
 size 39398

 version https://git-lfs.github.com/spec/v1
+oid sha256:487b5b471a84ceaf03d95b191de81bbc11c9b64710902f665b0ea7368d7d502c
 size 39398

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4ce9ec22e0051f976ac081d26951edb3de92acba5c29f4c684fe32b805e5bc15
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:48d41985628b63b1f03308534e42f5f4fade1dc9f1a7ca147144af3b829d1153
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d8712da1b2787df41952a507984ec77e0f72c59fac7ee6cf21606445686249de
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:ccc7e73cc5879da996ace4c3a10d9efe08a100111973e801d61997747e95e982
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.0948905109489051,
   "eval_steps": 13,
-  "global_step": 26,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -213,6 +213,105 @@
       "eval_samples_per_second": 251.328,
       "eval_steps_per_second": 125.664,
       "step": 26
     }
   ],
   "logging_steps": 1,
@@ -232,7 +331,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3072196608.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.14233576642335766,
   "eval_steps": 13,
+  "global_step": 39,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 251.328,
       "eval_steps_per_second": 125.664,
       "step": 26
+    },
+    {
+      "epoch": 0.09854014598540146,
+      "grad_norm": 0.011796779930591583,
+      "learning_rate": 0.00012334453638559057,
+      "loss": 11.9357,
+      "step": 27
+    },
+    {
+      "epoch": 0.10218978102189781,
+      "grad_norm": 0.014917504042387009,
+      "learning_rate": 0.0001156434465040231,
+      "loss": 11.9356,
+      "step": 28
+    },
+    {
+      "epoch": 0.10583941605839416,
+      "grad_norm": 0.01455847267061472,
+      "learning_rate": 0.0001078459095727845,
+      "loss": 11.9375,
+      "step": 29
+    },
+    {
+      "epoch": 0.10948905109489052,
+      "grad_norm": 0.010509638115763664,
+      "learning_rate": 0.0001,
+      "loss": 11.9371,
+      "step": 30
+    },
+    {
+      "epoch": 0.11313868613138686,
+      "grad_norm": 0.010377367027103901,
+      "learning_rate": 9.215409042721552e-05,
+      "loss": 11.9354,
+      "step": 31
+    },
+    {
+      "epoch": 0.11678832116788321,
+      "grad_norm": 0.014895463362336159,
+      "learning_rate": 8.435655349597689e-05,
+      "loss": 11.9354,
+      "step": 32
+    },
+    {
+      "epoch": 0.12043795620437957,
+      "grad_norm": 0.01482429075986147,
+      "learning_rate": 7.66554636144095e-05,
+      "loss": 11.9347,
+      "step": 33
+    },
+    {
+      "epoch": 0.12408759124087591,
+      "grad_norm": 0.020593857392668724,
+      "learning_rate": 6.909830056250527e-05,
+      "loss": 11.9365,
+      "step": 34
+    },
+    {
+      "epoch": 0.12773722627737227,
+      "grad_norm": 0.013053865171968937,
+      "learning_rate": 6.173165676349103e-05,
+      "loss": 11.9348,
+      "step": 35
+    },
+    {
+      "epoch": 0.13138686131386862,
+      "grad_norm": 0.014818524941802025,
+      "learning_rate": 5.4600950026045326e-05,
+      "loss": 11.9374,
+      "step": 36
+    },
+    {
+      "epoch": 0.13503649635036497,
+      "grad_norm": 0.018579095602035522,
+      "learning_rate": 4.7750143528405126e-05,
+      "loss": 11.9358,
+      "step": 37
+    },
+    {
+      "epoch": 0.1386861313868613,
+      "grad_norm": 0.014956467784941196,
+      "learning_rate": 4.12214747707527e-05,
+      "loss": 11.936,
+      "step": 38
+    },
+    {
+      "epoch": 0.14233576642335766,
+      "grad_norm": 0.009931315667927265,
+      "learning_rate": 3.5055195166981645e-05,
+      "loss": 11.9358,
+      "step": 39
+    },
+    {
+      "epoch": 0.14233576642335766,
+      "eval_loss": 11.936786651611328,
+      "eval_runtime": 0.4619,
+      "eval_samples_per_second": 251.13,
+      "eval_steps_per_second": 125.565,
+      "step": 39
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 4608294912.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null