Training in progress, step 1500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:43562e1d3c082e1d78b638e7ccb2b25658e8c66a467e585cd3a377404a32286a
 size 319876032

 version https://git-lfs.github.com/spec/v1
+oid sha256:6db80fccb2c3e0fe5a4dad0dd63ff03c757b4ce44797eed73312c8747ceb4721
 size 319876032

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:83b0c79868a26e1ad237c18cc2cbbfa3d56ad8dcc31cf48ec869b6d1d0838571
 size 640010002

 version https://git-lfs.github.com/spec/v1
+oid sha256:214cffaa9c02699fb9eb500cc526ac344fea51d3dd7a6be7ed0604160917ceba
 size 640010002

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3fbdfb3a71bf80c6f97621a0be978d4a01680d20d7308ae36262f594b931b7d7
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:5e4c17ab7dde949a9d7155db95cb0d86b87e0ca42009494abed577a3dbf347e8
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:18c88c03c83322e1a691e866b652d06d19003ce345c89230ff72194c865749c3
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:7e2bb55e94fb33eeb522c3f2d754bc51aade7ec9f99182aa3065529c82c6dab5
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.3694673478603363,
-  "best_model_checkpoint": "./output/checkpoint-1350",
-  "epoch": 0.07633156168721023,
   "eval_steps": 150,
-  "global_step": 1350,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1024,6 +1024,119 @@
       "eval_samples_per_second": 12.645,
       "eval_steps_per_second": 12.645,
       "step": 1350
     }
   ],
   "logging_steps": 10,
@@ -1043,7 +1156,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.711481902517453e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.3590245246887207,
+  "best_model_checkpoint": "./output/checkpoint-1500",
+  "epoch": 0.08481284631912248,
   "eval_steps": 150,
+  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 12.645,
       "eval_steps_per_second": 12.645,
       "step": 1350
+    },
+    {
+      "epoch": 0.07689698066267103,
+      "grad_norm": 4.6597371101379395,
+      "learning_rate": 6.341484933700744e-06,
+      "loss": 0.2264,
+      "step": 1360
+    },
+    {
+      "epoch": 0.07746239963813185,
+      "grad_norm": 2.3831920623779297,
+      "learning_rate": 6.32405377684294e-06,
+      "loss": 0.2637,
+      "step": 1370
+    },
+    {
+      "epoch": 0.07802781861359268,
+      "grad_norm": 6.223957538604736,
+      "learning_rate": 6.306516810716249e-06,
+      "loss": 0.262,
+      "step": 1380
+    },
+    {
+      "epoch": 0.07859323758905348,
+      "grad_norm": 9.916725158691406,
+      "learning_rate": 6.288874756196662e-06,
+      "loss": 0.2729,
+      "step": 1390
+    },
+    {
+      "epoch": 0.0791586565645143,
+      "grad_norm": 0.49764057993888855,
+      "learning_rate": 6.271128338479939e-06,
+      "loss": 0.2377,
+      "step": 1400
+    },
+    {
+      "epoch": 0.07972407553997513,
+      "grad_norm": 2.9618566036224365,
+      "learning_rate": 6.253278287051806e-06,
+      "loss": 0.249,
+      "step": 1410
+    },
+    {
+      "epoch": 0.08028949451543593,
+      "grad_norm": 2.368474006652832,
+      "learning_rate": 6.235325335657962e-06,
+      "loss": 0.124,
+      "step": 1420
+    },
+    {
+      "epoch": 0.08085491349089675,
+      "grad_norm": 0.38136398792266846,
+      "learning_rate": 6.217270222273923e-06,
+      "loss": 0.2674,
+      "step": 1430
+    },
+    {
+      "epoch": 0.08142033246635758,
+      "grad_norm": 4.6476898193359375,
+      "learning_rate": 6.1991136890746825e-06,
+      "loss": 0.1299,
+      "step": 1440
+    },
+    {
+      "epoch": 0.08198575144181838,
+      "grad_norm": 1.214414119720459,
+      "learning_rate": 6.180856482404208e-06,
+      "loss": 0.2702,
+      "step": 1450
+    },
+    {
+      "epoch": 0.0825511704172792,
+      "grad_norm": 7.3671464920043945,
+      "learning_rate": 6.162499352744754e-06,
+      "loss": 0.2172,
+      "step": 1460
+    },
+    {
+      "epoch": 0.08311658939274003,
+      "grad_norm": 0.29375457763671875,
+      "learning_rate": 6.144043054686022e-06,
+      "loss": 0.1906,
+      "step": 1470
+    },
+    {
+      "epoch": 0.08368200836820083,
+      "grad_norm": 1.2316617965698242,
+      "learning_rate": 6.125488346894139e-06,
+      "loss": 0.2524,
+      "step": 1480
+    },
+    {
+      "epoch": 0.08424742734366165,
+      "grad_norm": 4.17201566696167,
+      "learning_rate": 6.106835992080464e-06,
+      "loss": 0.2358,
+      "step": 1490
+    },
+    {
+      "epoch": 0.08481284631912248,
+      "grad_norm": 0.6424977779388428,
+      "learning_rate": 6.088086756970252e-06,
+      "loss": 0.2243,
+      "step": 1500
+    },
+    {
+      "epoch": 0.08481284631912248,
+      "eval_loss": 0.3590245246887207,
+      "eval_runtime": 39.5277,
+      "eval_samples_per_second": 12.649,
+      "eval_steps_per_second": 12.649,
+      "step": 1500
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 8.56989857589166e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null