Training in progress, step 750, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4c36d64160936231b89fb053230dd64152d8f1cf833efc54d387307783a334dc
 size 319876032

 version https://git-lfs.github.com/spec/v1
+oid sha256:57b6faa60d8c701666a9d5fcee1f685ec69cd9618f925244a3fc222b6447dbc8
 size 319876032

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:806d13f7c389ac06545875a3a8aacf204a3c6b41f397627ede6be9dce975574f
 size 640010002

 version https://git-lfs.github.com/spec/v1
+oid sha256:638e7f15ac1f1388fee114578cdbe315595262541250d98493ebe0ff2fe0d52b
 size 640010002

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:13b148d8fca0a2ad2f84c3039598f7f42dd281c7e5d72284b78f7c3f4302d89d
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:edb447f63d665a92c0b5a3329ef77c28b5ad60571b15ad21996b1f09ef09590c
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:36ecce3e1177343d53ff5033f14f9aeebc8d978f05d309eda4e2cfafa92535e9
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:01d7fef7d29480b2b6b9ce11dd77e0c699d943e8e5d91236651553a4ae0d3870
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.425952672958374,
-  "best_model_checkpoint": "./output/checkpoint-600",
-  "epoch": 0.03392513852764899,
   "eval_steps": 150,
-  "global_step": 600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -459,6 +459,119 @@
       "eval_samples_per_second": 12.577,
       "eval_steps_per_second": 12.577,
       "step": 600
     }
   ],
   "logging_steps": 10,
@@ -478,7 +591,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.451899120176333e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.4108331799507141,
+  "best_model_checkpoint": "./output/checkpoint-750",
+  "epoch": 0.04240642315956124,
   "eval_steps": 150,
+  "global_step": 750,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 12.577,
       "eval_steps_per_second": 12.577,
       "step": 600
+    },
+    {
+      "epoch": 0.0344905575031098,
+      "grad_norm": 6.550843715667725,
+      "learning_rate": 7.301309871606081e-06,
+      "loss": 0.3565,
+      "step": 610
+    },
+    {
+      "epoch": 0.03505597647857062,
+      "grad_norm": 1.943982720375061,
+      "learning_rate": 7.293514711482861e-06,
+      "loss": 0.2715,
+      "step": 620
+    },
+    {
+      "epoch": 0.03562139545403144,
+      "grad_norm": 4.950693607330322,
+      "learning_rate": 7.285573891348849e-06,
+      "loss": 0.2719,
+      "step": 630
+    },
+    {
+      "epoch": 0.03618681442949225,
+      "grad_norm": 7.106111526489258,
+      "learning_rate": 7.27748773762006e-06,
+      "loss": 0.287,
+      "step": 640
+    },
+    {
+      "epoch": 0.03675223340495307,
+      "grad_norm": 3.4435412883758545,
+      "learning_rate": 7.269256582686603e-06,
+      "loss": 0.2495,
+      "step": 650
+    },
+    {
+      "epoch": 0.03731765238041389,
+      "grad_norm": 3.9263601303100586,
+      "learning_rate": 7.260880764899016e-06,
+      "loss": 0.2317,
+      "step": 660
+    },
+    {
+      "epoch": 0.0378830713558747,
+      "grad_norm": 1.1376698017120361,
+      "learning_rate": 7.252360628554363e-06,
+      "loss": 0.138,
+      "step": 670
+    },
+    {
+      "epoch": 0.038448490331335516,
+      "grad_norm": 7.205196857452393,
+      "learning_rate": 7.243696523882079e-06,
+      "loss": 0.1982,
+      "step": 680
+    },
+    {
+      "epoch": 0.03901390930679634,
+      "grad_norm": 3.7006053924560547,
+      "learning_rate": 7.2348888070295705e-06,
+      "loss": 0.2156,
+      "step": 690
+    },
+    {
+      "epoch": 0.03957932828225715,
+      "grad_norm": 0.5304602384567261,
+      "learning_rate": 7.225937840047583e-06,
+      "loss": 0.3153,
+      "step": 700
+    },
+    {
+      "epoch": 0.040144747257717966,
+      "grad_norm": 14.555486679077148,
+      "learning_rate": 7.216843990875307e-06,
+      "loss": 0.3455,
+      "step": 710
+    },
+    {
+      "epoch": 0.04071016623317879,
+      "grad_norm": 20.35503578186035,
+      "learning_rate": 7.207607633325266e-06,
+      "loss": 0.2996,
+      "step": 720
+    },
+    {
+      "epoch": 0.0412755852086396,
+      "grad_norm": 0.4252071678638458,
+      "learning_rate": 7.198229147067941e-06,
+      "loss": 0.2781,
+      "step": 730
+    },
+    {
+      "epoch": 0.04184100418410042,
+      "grad_norm": 0.641488790512085,
+      "learning_rate": 7.18870891761617e-06,
+      "loss": 0.1364,
+      "step": 740
+    },
+    {
+      "epoch": 0.04240642315956124,
+      "grad_norm": 7.14177942276001,
+      "learning_rate": 7.1790473363092974e-06,
+      "loss": 0.2639,
+      "step": 750
+    },
+    {
+      "epoch": 0.04240642315956124,
+      "eval_loss": 0.4108331799507141,
+      "eval_runtime": 39.6561,
+      "eval_samples_per_second": 12.608,
+      "eval_steps_per_second": 12.608,
+      "step": 750
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 4.289226525366682e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null