Training in progress, step 3450, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +116 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:22a9ddd35b3df7abd3e6cd6114478403a890fcb1640bd7224d3483b461c24d4f
 size 39131224

 version https://git-lfs.github.com/spec/v1
+oid sha256:b8a25559e511b85c5aae5dfc33cd837d580d3e1921f3ac475da346fab5e037f2
 size 39131224

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ff83a9aacb5f52cacc114f9c70f23b7038636a8b55d7f0f10853d92591bee1be
 size 78504766

 version https://git-lfs.github.com/spec/v1
+oid sha256:97b79fda2582c0271274523fbb7a5c5cceaa62b5e25c60b4f9604c7a8d758368
 size 78504766

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d2dd81a9d2a1c821b6acf845d8a2bc7b9c9a920083a1eb8a7ccd7a4bdc764e46
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:402ea5c8966f4a4d2b897a51ce5cf2cdad9ce9ef440b6d8cad953b85ed9745a4
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5af34678d4362657736a6697e6bc5d13d1a967b12f171df00bcc4a7612a9b8a2
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:36ebe1553452961b2895e7bd4eec6f90aa710519c9026af0f70af6770050886c
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.5112539529800415,
   "best_model_checkpoint": "./output/checkpoint-2550",
-  "epoch": 6.273764258555133,
   "eval_steps": 150,
-  "global_step": 3300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2493,6 +2493,119 @@
       "eval_samples_per_second": 9.01,
       "eval_steps_per_second": 9.01,
       "step": 3300
     }
   ],
   "logging_steps": 10,
@@ -2512,7 +2625,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3367221059607552.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.5112539529800415,
   "best_model_checkpoint": "./output/checkpoint-2550",
+  "epoch": 6.55893536121673,
   "eval_steps": 150,
+  "global_step": 3450,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 9.01,
       "eval_steps_per_second": 9.01,
       "step": 3300
+    },
+    {
+      "epoch": 6.2927756653992395,
+      "grad_norm": 1.0838931798934937,
+      "learning_rate": 3.3236681277484654e-05,
+      "loss": 0.0245,
+      "step": 3310
+    },
+    {
+      "epoch": 6.311787072243346,
+      "grad_norm": 1.420167326927185,
+      "learning_rate": 3.2883208595437584e-05,
+      "loss": 0.0317,
+      "step": 3320
+    },
+    {
+      "epoch": 6.330798479087452,
+      "grad_norm": 0.5360614061355591,
+      "learning_rate": 3.2530953343684136e-05,
+      "loss": 0.0365,
+      "step": 3330
+    },
+    {
+      "epoch": 6.349809885931559,
+      "grad_norm": 3.0224130153656006,
+      "learning_rate": 3.217993000205799e-05,
+      "loss": 0.03,
+      "step": 3340
+    },
+    {
+      "epoch": 6.3688212927756656,
+      "grad_norm": 0.7197875380516052,
+      "learning_rate": 3.1830152999753903e-05,
+      "loss": 0.0358,
+      "step": 3350
+    },
+    {
+      "epoch": 6.387832699619771,
+      "grad_norm": 1.1931145191192627,
+      "learning_rate": 3.148163671473439e-05,
+      "loss": 0.0332,
+      "step": 3360
+    },
+    {
+      "epoch": 6.406844106463878,
+      "grad_norm": 0.8724992275238037,
+      "learning_rate": 3.113439547313892e-05,
+      "loss": 0.0292,
+      "step": 3370
+    },
+    {
+      "epoch": 6.425855513307985,
+      "grad_norm": 2.2905428409576416,
+      "learning_rate": 3.0788443548694874e-05,
+      "loss": 0.0369,
+      "step": 3380
+    },
+    {
+      "epoch": 6.444866920152092,
+      "grad_norm": 0.48562759160995483,
+      "learning_rate": 3.0443795162130876e-05,
+      "loss": 0.0309,
+      "step": 3390
+    },
+    {
+      "epoch": 6.4638783269961975,
+      "grad_norm": 1.1909234523773193,
+      "learning_rate": 3.0100464480592185e-05,
+      "loss": 0.0405,
+      "step": 3400
+    },
+    {
+      "epoch": 6.482889733840304,
+      "grad_norm": 1.2226147651672363,
+      "learning_rate": 2.9758465617058404e-05,
+      "loss": 0.0344,
+      "step": 3410
+    },
+    {
+      "epoch": 6.501901140684411,
+      "grad_norm": 0.8750718235969543,
+      "learning_rate": 2.9417812629763285e-05,
+      "loss": 0.0321,
+      "step": 3420
+    },
+    {
+      "epoch": 6.520912547528517,
+      "grad_norm": 1.249475121498108,
+      "learning_rate": 2.9078519521616894e-05,
+      "loss": 0.0329,
+      "step": 3430
+    },
+    {
+      "epoch": 6.5399239543726235,
+      "grad_norm": 1.1932651996612549,
+      "learning_rate": 2.8740600239630002e-05,
+      "loss": 0.033,
+      "step": 3440
+    },
+    {
+      "epoch": 6.55893536121673,
+      "grad_norm": 0.5336318016052246,
+      "learning_rate": 2.8404068674340714e-05,
+      "loss": 0.0323,
+      "step": 3450
+    },
+    {
+      "epoch": 6.55893536121673,
+      "eval_loss": 0.5230394005775452,
+      "eval_runtime": 52.7826,
+      "eval_samples_per_second": 8.867,
+      "eval_steps_per_second": 8.867,
+      "step": 3450
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 3521384583865344.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null