Training in progress, step 50, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +202 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2a8abd964b19f3b5eef4cd7dce9af72822380decba20d9ccafc53f101cebc90b
 size 50624

 version https://git-lfs.github.com/spec/v1
+oid sha256:697490d29b21ecf70f277de487ea6e965e53b9dd200100b4f4badc82f8ba117e
 size 50624

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ba183a6bfcdf451463ba51c6f1a1ad523e2b69c35dd9caf62512a488297279bd
 size 118090

 version https://git-lfs.github.com/spec/v1
+oid sha256:495c600342de07d78430e1e8902cfcfc1e6018c9b5ebd5083a90a2cab7abbfa4
 size 118090

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f0c59790f2e3ba0a4714a087914c6124ed7398fe25ca94de6ab9e0301a8e585f
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:a080d3277fb6ccb5ed989cb90ca2c5dbb10923ca8748d5a82c16ca3dd1e9dbd3
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c931ece4da598a541d357f6c98f67481603252e193960022d37ddd49c584b1f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a89ffc445067fef9d6d02bb3ff9e61d5e3209e6fa67c7259b3b364b90dbaa2cd
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.007137758743754461,
   "eval_steps": 9,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -206,6 +206,205 @@
       "learning_rate": 9.330127018922194e-05,
       "loss": 10.3807,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -225,7 +424,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2615122329600.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.014275517487508922,
   "eval_steps": 9,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 9.330127018922194e-05,
       "loss": 10.3807,
       "step": 25
+    },
+    {
+      "epoch": 0.0074232690935046395,
+      "grad_norm": 0.026710139587521553,
+      "learning_rate": 9.24024048078213e-05,
+      "loss": 10.3785,
+      "step": 26
+    },
+    {
+      "epoch": 0.007708779443254818,
+      "grad_norm": 0.033151932060718536,
+      "learning_rate": 9.145187862775209e-05,
+      "loss": 10.3804,
+      "step": 27
+    },
+    {
+      "epoch": 0.007708779443254818,
+      "eval_loss": 10.380158424377441,
+      "eval_runtime": 42.2392,
+      "eval_samples_per_second": 69.84,
+      "eval_steps_per_second": 8.736,
+      "step": 27
+    },
+    {
+      "epoch": 0.007994289793004997,
+      "grad_norm": 0.03826072812080383,
+      "learning_rate": 9.045084971874738e-05,
+      "loss": 10.3811,
+      "step": 28
+    },
+    {
+      "epoch": 0.008279800142755174,
+      "grad_norm": 0.028944505378603935,
+      "learning_rate": 8.940053768033609e-05,
+      "loss": 10.3767,
+      "step": 29
+    },
+    {
+      "epoch": 0.008565310492505354,
+      "grad_norm": 0.025594528764486313,
+      "learning_rate": 8.83022221559489e-05,
+      "loss": 10.3826,
+      "step": 30
+    },
+    {
+      "epoch": 0.008850820842255532,
+      "grad_norm": 0.03534218296408653,
+      "learning_rate": 8.715724127386972e-05,
+      "loss": 10.3787,
+      "step": 31
+    },
+    {
+      "epoch": 0.009136331192005711,
+      "grad_norm": 0.03356329724192619,
+      "learning_rate": 8.596699001693255e-05,
+      "loss": 10.3809,
+      "step": 32
+    },
+    {
+      "epoch": 0.009421841541755889,
+      "grad_norm": 0.03521755710244179,
+      "learning_rate": 8.473291852294987e-05,
+      "loss": 10.3805,
+      "step": 33
+    },
+    {
+      "epoch": 0.009707351891506066,
+      "grad_norm": 0.04086000844836235,
+      "learning_rate": 8.345653031794292e-05,
+      "loss": 10.3797,
+      "step": 34
+    },
+    {
+      "epoch": 0.009992862241256246,
+      "grad_norm": 0.028289103880524635,
+      "learning_rate": 8.213938048432697e-05,
+      "loss": 10.3805,
+      "step": 35
+    },
+    {
+      "epoch": 0.010278372591006424,
+      "grad_norm": 0.03809809312224388,
+      "learning_rate": 8.07830737662829e-05,
+      "loss": 10.377,
+      "step": 36
+    },
+    {
+      "epoch": 0.010278372591006424,
+      "eval_loss": 10.379316329956055,
+      "eval_runtime": 42.2396,
+      "eval_samples_per_second": 69.84,
+      "eval_steps_per_second": 8.736,
+      "step": 36
+    },
+    {
+      "epoch": 0.010563882940756603,
+      "grad_norm": 0.03364298865199089,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 10.3792,
+      "step": 37
+    },
+    {
+      "epoch": 0.01084939329050678,
+      "grad_norm": 0.03586876392364502,
+      "learning_rate": 7.795964517353735e-05,
+      "loss": 10.3766,
+      "step": 38
+    },
+    {
+      "epoch": 0.01113490364025696,
+      "grad_norm": 0.030886787921190262,
+      "learning_rate": 7.649596321166024e-05,
+      "loss": 10.3789,
+      "step": 39
+    },
+    {
+      "epoch": 0.011420413990007138,
+      "grad_norm": 0.03570697829127312,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 10.3804,
+      "step": 40
+    },
+    {
+      "epoch": 0.011705924339757316,
+      "grad_norm": 0.03459020331501961,
+      "learning_rate": 7.347357813929454e-05,
+      "loss": 10.3777,
+      "step": 41
+    },
+    {
+      "epoch": 0.011991434689507495,
+      "grad_norm": 0.03704289346933365,
+      "learning_rate": 7.191855733945387e-05,
+      "loss": 10.3769,
+      "step": 42
+    },
+    {
+      "epoch": 0.012276945039257673,
+      "grad_norm": 0.03582561016082764,
+      "learning_rate": 7.033683215379002e-05,
+      "loss": 10.378,
+      "step": 43
+    },
+    {
+      "epoch": 0.012562455389007852,
+      "grad_norm": 0.033004630357027054,
+      "learning_rate": 6.873032967079561e-05,
+      "loss": 10.38,
+      "step": 44
+    },
+    {
+      "epoch": 0.01284796573875803,
+      "grad_norm": 0.034119606018066406,
+      "learning_rate": 6.710100716628344e-05,
+      "loss": 10.3789,
+      "step": 45
+    },
+    {
+      "epoch": 0.01284796573875803,
+      "eval_loss": 10.378472328186035,
+      "eval_runtime": 42.1903,
+      "eval_samples_per_second": 69.921,
+      "eval_steps_per_second": 8.746,
+      "step": 45
+    },
+    {
+      "epoch": 0.01313347608850821,
+      "grad_norm": 0.03747232258319855,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 10.3778,
+      "step": 46
+    },
+    {
+      "epoch": 0.013418986438258387,
+      "grad_norm": 0.04485693201422691,
+      "learning_rate": 6.378186779084995e-05,
+      "loss": 10.3784,
+      "step": 47
+    },
+    {
+      "epoch": 0.013704496788008565,
+      "grad_norm": 0.051734451204538345,
+      "learning_rate": 6.209609477998338e-05,
+      "loss": 10.3775,
+      "step": 48
+    },
+    {
+      "epoch": 0.013990007137758744,
+      "grad_norm": 0.046976011246442795,
+      "learning_rate": 6.0395584540887963e-05,
+      "loss": 10.3767,
+      "step": 49
+    },
+    {
+      "epoch": 0.014275517487508922,
+      "grad_norm": 0.04274662956595421,
+      "learning_rate": 5.868240888334653e-05,
+      "loss": 10.3785,
+      "step": 50
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 5230244659200.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null