Training in progress, step 50, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +202 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:50ef3f40ded0fa85bce06e1e5e333af179217d66bcd05d9cbd14e67ba3124432
 size 13587864

 version https://git-lfs.github.com/spec/v1
+oid sha256:1aa35fb39b2e75c94fedc4fc74f5b1fc70bf16aefc66ead64c47cdf0e79b1e25
 size 13587864

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e80344cf46cf8dc48ae4f1ad4caae680c656b81a41ea35e3199efd818658dece
 size 27273018

 version https://git-lfs.github.com/spec/v1
+oid sha256:12074d34bcce312ded1383decb51bc38e258ce3992f16b288cb27751eb930a43
 size 27273018

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5d5984639385e955b7730db79c8d44ebf50a83c75f8e1d452771b84c9f499fee
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:05f8d8c64896b75aa08caf4a3a052d9d1d276898c69cfdf38186ab3c0d3fde81
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c931ece4da598a541d357f6c98f67481603252e193960022d37ddd49c584b1f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a89ffc445067fef9d6d02bb3ff9e61d5e3209e6fa67c7259b3b364b90dbaa2cd
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.041701417848206836,
   "eval_steps": 9,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -206,6 +206,205 @@
       "learning_rate": 9.330127018922194e-05,
       "loss": 5.9953,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -225,7 +424,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 347093965209600.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.08340283569641367,
   "eval_steps": 9,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 9.330127018922194e-05,
       "loss": 5.9953,
       "step": 25
+    },
+    {
+      "epoch": 0.043369474562135114,
+      "grad_norm": 5.392281532287598,
+      "learning_rate": 9.24024048078213e-05,
+      "loss": 6.2443,
+      "step": 26
+    },
+    {
+      "epoch": 0.045037531276063386,
+      "grad_norm": 6.442398548126221,
+      "learning_rate": 9.145187862775209e-05,
+      "loss": 5.6431,
+      "step": 27
+    },
+    {
+      "epoch": 0.045037531276063386,
+      "eval_loss": 5.766228675842285,
+      "eval_runtime": 4.4386,
+      "eval_samples_per_second": 113.776,
+      "eval_steps_per_second": 14.419,
+      "step": 27
+    },
+    {
+      "epoch": 0.04670558798999166,
+      "grad_norm": 5.939089775085449,
+      "learning_rate": 9.045084971874738e-05,
+      "loss": 5.7104,
+      "step": 28
+    },
+    {
+      "epoch": 0.04837364470391994,
+      "grad_norm": 5.219799041748047,
+      "learning_rate": 8.940053768033609e-05,
+      "loss": 5.1013,
+      "step": 29
+    },
+    {
+      "epoch": 0.05004170141784821,
+      "grad_norm": 5.86526346206665,
+      "learning_rate": 8.83022221559489e-05,
+      "loss": 5.5001,
+      "step": 30
+    },
+    {
+      "epoch": 0.05170975813177648,
+      "grad_norm": 5.6979899406433105,
+      "learning_rate": 8.715724127386972e-05,
+      "loss": 5.0218,
+      "step": 31
+    },
+    {
+      "epoch": 0.05337781484570475,
+      "grad_norm": 6.7155022621154785,
+      "learning_rate": 8.596699001693255e-05,
+      "loss": 4.7259,
+      "step": 32
+    },
+    {
+      "epoch": 0.05504587155963303,
+      "grad_norm": 6.724297523498535,
+      "learning_rate": 8.473291852294987e-05,
+      "loss": 4.4075,
+      "step": 33
+    },
+    {
+      "epoch": 0.0567139282735613,
+      "grad_norm": 5.889575004577637,
+      "learning_rate": 8.345653031794292e-05,
+      "loss": 3.9336,
+      "step": 34
+    },
+    {
+      "epoch": 0.058381984987489574,
+      "grad_norm": 5.748373031616211,
+      "learning_rate": 8.213938048432697e-05,
+      "loss": 3.9889,
+      "step": 35
+    },
+    {
+      "epoch": 0.060050041701417846,
+      "grad_norm": 6.093235492706299,
+      "learning_rate": 8.07830737662829e-05,
+      "loss": 3.6407,
+      "step": 36
+    },
+    {
+      "epoch": 0.060050041701417846,
+      "eval_loss": 3.569064140319824,
+      "eval_runtime": 4.3989,
+      "eval_samples_per_second": 114.802,
+      "eval_steps_per_second": 14.549,
+      "step": 36
+    },
+    {
+      "epoch": 0.061718098415346125,
+      "grad_norm": 8.288016319274902,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 3.3482,
+      "step": 37
+    },
+    {
+      "epoch": 0.0633861551292744,
+      "grad_norm": 8.288249015808105,
+      "learning_rate": 7.795964517353735e-05,
+      "loss": 3.2973,
+      "step": 38
+    },
+    {
+      "epoch": 0.06505421184320268,
+      "grad_norm": 12.118824005126953,
+      "learning_rate": 7.649596321166024e-05,
+      "loss": 3.3757,
+      "step": 39
+    },
+    {
+      "epoch": 0.06672226855713094,
+      "grad_norm": 16.755817413330078,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 3.218,
+      "step": 40
+    },
+    {
+      "epoch": 0.06839032527105922,
+      "grad_norm": 5.772495269775391,
+      "learning_rate": 7.347357813929454e-05,
+      "loss": 2.7063,
+      "step": 41
+    },
+    {
+      "epoch": 0.07005838198498748,
+      "grad_norm": 7.338413715362549,
+      "learning_rate": 7.191855733945387e-05,
+      "loss": 2.9268,
+      "step": 42
+    },
+    {
+      "epoch": 0.07172643869891576,
+      "grad_norm": 6.612784385681152,
+      "learning_rate": 7.033683215379002e-05,
+      "loss": 2.4539,
+      "step": 43
+    },
+    {
+      "epoch": 0.07339449541284404,
+      "grad_norm": 7.984735012054443,
+      "learning_rate": 6.873032967079561e-05,
+      "loss": 3.1338,
+      "step": 44
+    },
+    {
+      "epoch": 0.0750625521267723,
+      "grad_norm": 4.620100021362305,
+      "learning_rate": 6.710100716628344e-05,
+      "loss": 2.0016,
+      "step": 45
+    },
+    {
+      "epoch": 0.0750625521267723,
+      "eval_loss": 2.5487208366394043,
+      "eval_runtime": 4.4053,
+      "eval_samples_per_second": 114.634,
+      "eval_steps_per_second": 14.528,
+      "step": 45
+    },
+    {
+      "epoch": 0.07673060884070058,
+      "grad_norm": 3.504941463470459,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 2.1658,
+      "step": 46
+    },
+    {
+      "epoch": 0.07839866555462886,
+      "grad_norm": 4.470401763916016,
+      "learning_rate": 6.378186779084995e-05,
+      "loss": 2.5759,
+      "step": 47
+    },
+    {
+      "epoch": 0.08006672226855713,
+      "grad_norm": 6.22830057144165,
+      "learning_rate": 6.209609477998338e-05,
+      "loss": 2.4302,
+      "step": 48
+    },
+    {
+      "epoch": 0.0817347789824854,
+      "grad_norm": 5.181815147399902,
+      "learning_rate": 6.0395584540887963e-05,
+      "loss": 2.5107,
+      "step": 49
+    },
+    {
+      "epoch": 0.08340283569641367,
+      "grad_norm": 8.078532218933105,
+      "learning_rate": 5.868240888334653e-05,
+      "loss": 2.5161,
+      "step": 50
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 694187930419200.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null