Training in progress, step 50, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +202 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2a61250d2d52b6ff46b962e92275a5f175050a92d9f0e8c166c29dc014083ddc
 size 50624

 version https://git-lfs.github.com/spec/v1
+oid sha256:a8d32465c7fb57ad961a14215c03eb2e12dfbcb892d0abcf5473d407e554d661
 size 50624

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3463d36fcb8bb2b35f98e94ca1eeb427f1c45eae3b462450c6a8e7db4227a77b
 size 118090

 version https://git-lfs.github.com/spec/v1
+oid sha256:0421565eb9e7fb7024826218f9ecc0ce2f4932e0b309ca3ca144e33fb730521c
 size 118090

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3b3600f4f62c77cfb9f3f36d5a114f6f58022f220d20e149c85171731fd49eb1
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:cb9517b7ce59c47365939baf2f50e6bfd58d4414b9c61ed194de990178b59d75
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c931ece4da598a541d357f6c98f67481603252e193960022d37ddd49c584b1f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a89ffc445067fef9d6d02bb3ff9e61d5e3209e6fa67c7259b3b364b90dbaa2cd
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.18450184501845018,
   "eval_steps": 9,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -206,6 +206,205 @@
       "learning_rate": 9.330127018922194e-05,
       "loss": 10.3623,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -225,7 +424,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1307561164800.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.36900369003690037,
   "eval_steps": 9,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 9.330127018922194e-05,
       "loss": 10.3623,
       "step": 25
+    },
+    {
+      "epoch": 0.1918819188191882,
+      "grad_norm": 0.04991920292377472,
+      "learning_rate": 9.24024048078213e-05,
+      "loss": 10.3588,
+      "step": 26
+    },
+    {
+      "epoch": 0.1992619926199262,
+      "grad_norm": 0.04830910265445709,
+      "learning_rate": 9.145187862775209e-05,
+      "loss": 10.3699,
+      "step": 27
+    },
+    {
+      "epoch": 0.1992619926199262,
+      "eval_loss": 10.361371040344238,
+      "eval_runtime": 0.3422,
+      "eval_samples_per_second": 333.119,
+      "eval_steps_per_second": 43.831,
+      "step": 27
+    },
+    {
+      "epoch": 0.2066420664206642,
+      "grad_norm": 0.058343108743429184,
+      "learning_rate": 9.045084971874738e-05,
+      "loss": 10.3575,
+      "step": 28
+    },
+    {
+      "epoch": 0.2140221402214022,
+      "grad_norm": 0.044099360704422,
+      "learning_rate": 8.940053768033609e-05,
+      "loss": 10.3616,
+      "step": 29
+    },
+    {
+      "epoch": 0.22140221402214022,
+      "grad_norm": 0.053332798182964325,
+      "learning_rate": 8.83022221559489e-05,
+      "loss": 10.3653,
+      "step": 30
+    },
+    {
+      "epoch": 0.22878228782287824,
+      "grad_norm": 0.04733964800834656,
+      "learning_rate": 8.715724127386972e-05,
+      "loss": 10.3671,
+      "step": 31
+    },
+    {
+      "epoch": 0.23616236162361623,
+      "grad_norm": 0.05281442031264305,
+      "learning_rate": 8.596699001693255e-05,
+      "loss": 10.3571,
+      "step": 32
+    },
+    {
+      "epoch": 0.24354243542435425,
+      "grad_norm": 0.06388460844755173,
+      "learning_rate": 8.473291852294987e-05,
+      "loss": 10.3636,
+      "step": 33
+    },
+    {
+      "epoch": 0.25092250922509224,
+      "grad_norm": 0.04604727402329445,
+      "learning_rate": 8.345653031794292e-05,
+      "loss": 10.3503,
+      "step": 34
+    },
+    {
+      "epoch": 0.25830258302583026,
+      "grad_norm": 0.06891700625419617,
+      "learning_rate": 8.213938048432697e-05,
+      "loss": 10.3584,
+      "step": 35
+    },
+    {
+      "epoch": 0.2656826568265683,
+      "grad_norm": 0.05445127934217453,
+      "learning_rate": 8.07830737662829e-05,
+      "loss": 10.3556,
+      "step": 36
+    },
+    {
+      "epoch": 0.2656826568265683,
+      "eval_loss": 10.360313415527344,
+      "eval_runtime": 0.3439,
+      "eval_samples_per_second": 331.463,
+      "eval_steps_per_second": 43.614,
+      "step": 36
+    },
+    {
+      "epoch": 0.2730627306273063,
+      "grad_norm": 0.05406421422958374,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 10.3603,
+      "step": 37
+    },
+    {
+      "epoch": 0.28044280442804426,
+      "grad_norm": 0.05694621428847313,
+      "learning_rate": 7.795964517353735e-05,
+      "loss": 10.3506,
+      "step": 38
+    },
+    {
+      "epoch": 0.2878228782287823,
+      "grad_norm": 0.05310724303126335,
+      "learning_rate": 7.649596321166024e-05,
+      "loss": 10.363,
+      "step": 39
+    },
+    {
+      "epoch": 0.2952029520295203,
+      "grad_norm": 0.04855857416987419,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 10.3602,
+      "step": 40
+    },
+    {
+      "epoch": 0.3025830258302583,
+      "grad_norm": 0.055433258414268494,
+      "learning_rate": 7.347357813929454e-05,
+      "loss": 10.3508,
+      "step": 41
+    },
+    {
+      "epoch": 0.30996309963099633,
+      "grad_norm": 0.0567321702837944,
+      "learning_rate": 7.191855733945387e-05,
+      "loss": 10.3638,
+      "step": 42
+    },
+    {
+      "epoch": 0.3173431734317343,
+      "grad_norm": 0.046573370695114136,
+      "learning_rate": 7.033683215379002e-05,
+      "loss": 10.3518,
+      "step": 43
+    },
+    {
+      "epoch": 0.3247232472324723,
+      "grad_norm": 0.054166462272405624,
+      "learning_rate": 6.873032967079561e-05,
+      "loss": 10.3555,
+      "step": 44
+    },
+    {
+      "epoch": 0.33210332103321033,
+      "grad_norm": 0.054884567856788635,
+      "learning_rate": 6.710100716628344e-05,
+      "loss": 10.3619,
+      "step": 45
+    },
+    {
+      "epoch": 0.33210332103321033,
+      "eval_loss": 10.35931396484375,
+      "eval_runtime": 0.3976,
+      "eval_samples_per_second": 286.747,
+      "eval_steps_per_second": 37.73,
+      "step": 45
+    },
+    {
+      "epoch": 0.33948339483394835,
+      "grad_norm": 0.05505272373557091,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 10.3552,
+      "step": 46
+    },
+    {
+      "epoch": 0.34686346863468637,
+      "grad_norm": 0.058725755661726,
+      "learning_rate": 6.378186779084995e-05,
+      "loss": 10.349,
+      "step": 47
+    },
+    {
+      "epoch": 0.35424354243542433,
+      "grad_norm": 0.05648166686296463,
+      "learning_rate": 6.209609477998338e-05,
+      "loss": 10.3584,
+      "step": 48
+    },
+    {
+      "epoch": 0.36162361623616235,
+      "grad_norm": 0.051474615931510925,
+      "learning_rate": 6.0395584540887963e-05,
+      "loss": 10.3589,
+      "step": 49
+    },
+    {
+      "epoch": 0.36900369003690037,
+      "grad_norm": 0.05279526114463806,
+      "learning_rate": 5.868240888334653e-05,
+      "loss": 10.3487,
+      "step": 50
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2615122329600.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null