Training in progress, step 3150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2a24ccb34ee670ad31c12d9251a8af3e2d476a5cb241dfcacfd09b83fd31da13
 size 524363632

 version https://git-lfs.github.com/spec/v1
+oid sha256:89cc1745b4500ad6cf558198aa9b4e987065634d082f54bd44c3c89a26dd0906
 size 524363632

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2be2c6a4a3b357e1b920c33a1c22c1fc7950fd6a88fee358b8557a1d6be1999f
 size 1049049442

 version https://git-lfs.github.com/spec/v1
+oid sha256:96cf2b77c6232af1bdf1652020d2d1e3b99db45a4d0a35dc7260f2f620431494
 size 1049049442

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a9dec7d48193c1bf07d35e7fafa4ead566a1f9c6126b97351f8b8095ac049ca3
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:469b796b4ae7827da357c6ad4d389b1a5f899bd0c5614fe11b27f1430a7f9bdc
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e3c408f4c434a323d7fe8a30b3b55f0cf203ab417bbc4794626805f567e54301
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:8a2801bc6a2e1667d6f68fb7b82fe94994bd9e743692539b17302be0c7385f74
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.199351191520691,
-  "best_model_checkpoint": "./output/checkpoint-3000",
-  "epoch": 0.1343784994400896,
   "eval_steps": 150,
-  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2267,6 +2267,119 @@
       "eval_samples_per_second": 9.696,
       "eval_steps_per_second": 9.696,
       "step": 3000
     }
   ],
   "logging_steps": 10,
@@ -2286,7 +2399,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.849433190903808e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.1985480785369873,
+  "best_model_checkpoint": "./output/checkpoint-3150",
+  "epoch": 0.14109742441209405,
   "eval_steps": 150,
+  "global_step": 3150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 9.696,
       "eval_steps_per_second": 9.696,
       "step": 3000
+    },
+    {
+      "epoch": 0.13482642777155654,
+      "grad_norm": 4.307104587554932,
+      "learning_rate": 2.6599945773564997e-06,
+      "loss": 1.1743,
+      "step": 3010
+    },
+    {
+      "epoch": 0.13527435610302352,
+      "grad_norm": 4.9457221031188965,
+      "learning_rate": 2.6370124104330357e-06,
+      "loss": 1.1287,
+      "step": 3020
+    },
+    {
+      "epoch": 0.13572228443449047,
+      "grad_norm": 3.17401385307312,
+      "learning_rate": 2.614075994070105e-06,
+      "loss": 1.1686,
+      "step": 3030
+    },
+    {
+      "epoch": 0.13617021276595745,
+      "grad_norm": 6.098177433013916,
+      "learning_rate": 2.591186271093948e-06,
+      "loss": 1.1546,
+      "step": 3040
+    },
+    {
+      "epoch": 0.1366181410974244,
+      "grad_norm": 4.12905216217041,
+      "learning_rate": 2.568344182411423e-06,
+      "loss": 1.0909,
+      "step": 3050
+    },
+    {
+      "epoch": 0.13706606942889138,
+      "grad_norm": 4.946627616882324,
+      "learning_rate": 2.5455506669713293e-06,
+      "loss": 1.2223,
+      "step": 3060
+    },
+    {
+      "epoch": 0.13751399776035833,
+      "grad_norm": 4.25789737701416,
+      "learning_rate": 2.522806661725812e-06,
+      "loss": 1.0383,
+      "step": 3070
+    },
+    {
+      "epoch": 0.1379619260918253,
+      "grad_norm": 6.536715030670166,
+      "learning_rate": 2.5001131015918444e-06,
+      "loss": 0.9992,
+      "step": 3080
+    },
+    {
+      "epoch": 0.13840985442329226,
+      "grad_norm": 5.861030578613281,
+      "learning_rate": 2.4774709194127973e-06,
+      "loss": 1.1678,
+      "step": 3090
+    },
+    {
+      "epoch": 0.13885778275475924,
+      "grad_norm": 4.58046293258667,
+      "learning_rate": 2.4548810459200973e-06,
+      "loss": 1.2545,
+      "step": 3100
+    },
+    {
+      "epoch": 0.1393057110862262,
+      "grad_norm": 6.048022270202637,
+      "learning_rate": 2.4323444096949647e-06,
+      "loss": 1.0531,
+      "step": 3110
+    },
+    {
+      "epoch": 0.13975363941769317,
+      "grad_norm": 5.86400842666626,
+      "learning_rate": 2.409861937130248e-06,
+      "loss": 1.1093,
+      "step": 3120
+    },
+    {
+      "epoch": 0.14020156774916012,
+      "grad_norm": 3.7916102409362793,
+      "learning_rate": 2.3874345523923327e-06,
+      "loss": 1.1048,
+      "step": 3130
+    },
+    {
+      "epoch": 0.1406494960806271,
+      "grad_norm": 4.009166717529297,
+      "learning_rate": 2.3650631773831644e-06,
+      "loss": 1.0198,
+      "step": 3140
+    },
+    {
+      "epoch": 0.14109742441209405,
+      "grad_norm": 4.695572853088379,
+      "learning_rate": 2.3427487317023477e-06,
+      "loss": 1.1909,
+      "step": 3150
+    },
+    {
+      "epoch": 0.14109742441209405,
+      "eval_loss": 1.1985480785369873,
+      "eval_runtime": 51.6619,
+      "eval_samples_per_second": 9.678,
+      "eval_steps_per_second": 9.678,
+      "step": 3150
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 4.04330569814016e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null