Training in progress, step 1500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f1952cfee702785548c3cccb8349c34cbaac4b556d8ea73e0ffd0d246f429845
 size 319876032

 version https://git-lfs.github.com/spec/v1
+oid sha256:4bcb6af540d25c5f5d31433cb07385ba68f10302f864604c5a1bf5979e12e620
 size 319876032

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0f8c1c7a23540216601b312a1f8adf015dce14da9673e2c02819b7b51a5b16e4
 size 640010002

 version https://git-lfs.github.com/spec/v1
+oid sha256:40aab3db494a2674de0a1f38b3e5db81c49bd4a2f9f640a17c73293e45c2a34d
 size 640010002

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ae503cf838012622da6ce9fc5ebd1e2dd4d76dfb7d8241850497e552b44d7e99
 size 14308

 version https://git-lfs.github.com/spec/v1
+oid sha256:741265e26d07c3333e143245ac09223c25aeb523ed846ef93534220bcf1841a0
 size 14308

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:18c88c03c83322e1a691e866b652d06d19003ce345c89230ff72194c865749c3
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:7e2bb55e94fb33eeb522c3f2d754bc51aade7ec9f99182aa3065529c82c6dab5
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.40071919560432434,
-  "best_model_checkpoint": "./output/checkpoint-1200",
-  "epoch": 0.15266312337442045,
   "eval_steps": 150,
-  "global_step": 1350,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1024,6 +1024,119 @@
       "eval_samples_per_second": 13.931,
       "eval_steps_per_second": 13.931,
       "step": 1350
     }
   ],
   "logging_steps": 10,
@@ -1043,7 +1156,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.8419020158880973e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.3870772421360016,
+  "best_model_checkpoint": "./output/checkpoint-1500",
+  "epoch": 0.16962569263824495,
   "eval_steps": 150,
+  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 13.931,
       "eval_steps_per_second": 13.931,
       "step": 1350
+    },
+    {
+      "epoch": 0.15379396132534207,
+      "grad_norm": 3.2196218967437744,
+      "learning_rate": 6.341484933700744e-06,
+      "loss": 0.2629,
+      "step": 1360
+    },
+    {
+      "epoch": 0.1549247992762637,
+      "grad_norm": 2.702026128768921,
+      "learning_rate": 6.32405377684294e-06,
+      "loss": 0.1325,
+      "step": 1370
+    },
+    {
+      "epoch": 0.15605563722718535,
+      "grad_norm": 1.581925630569458,
+      "learning_rate": 6.306516810716249e-06,
+      "loss": 0.1481,
+      "step": 1380
+    },
+    {
+      "epoch": 0.15718647517810697,
+      "grad_norm": 6.646518230438232,
+      "learning_rate": 6.288874756196662e-06,
+      "loss": 0.2308,
+      "step": 1390
+    },
+    {
+      "epoch": 0.1583173131290286,
+      "grad_norm": 5.573264122009277,
+      "learning_rate": 6.271128338479939e-06,
+      "loss": 0.2235,
+      "step": 1400
+    },
+    {
+      "epoch": 0.15944815107995025,
+      "grad_norm": 1.5918960571289062,
+      "learning_rate": 6.253278287051806e-06,
+      "loss": 0.1238,
+      "step": 1410
+    },
+    {
+      "epoch": 0.16057898903087187,
+      "grad_norm": 11.685979843139648,
+      "learning_rate": 6.235325335657962e-06,
+      "loss": 0.1953,
+      "step": 1420
+    },
+    {
+      "epoch": 0.1617098269817935,
+      "grad_norm": 1.055677890777588,
+      "learning_rate": 6.217270222273923e-06,
+      "loss": 0.1109,
+      "step": 1430
+    },
+    {
+      "epoch": 0.16284066493271515,
+      "grad_norm": 4.812380313873291,
+      "learning_rate": 6.1991136890746825e-06,
+      "loss": 0.164,
+      "step": 1440
+    },
+    {
+      "epoch": 0.16397150288363677,
+      "grad_norm": 3.4639365673065186,
+      "learning_rate": 6.180856482404208e-06,
+      "loss": 0.1479,
+      "step": 1450
+    },
+    {
+      "epoch": 0.1651023408345584,
+      "grad_norm": 2.494502544403076,
+      "learning_rate": 6.162499352744754e-06,
+      "loss": 0.1527,
+      "step": 1460
+    },
+    {
+      "epoch": 0.16623317878548005,
+      "grad_norm": 1.5618149042129517,
+      "learning_rate": 6.144043054686022e-06,
+      "loss": 0.1873,
+      "step": 1470
+    },
+    {
+      "epoch": 0.16736401673640167,
+      "grad_norm": 2.2748749256134033,
+      "learning_rate": 6.125488346894139e-06,
+      "loss": 0.2023,
+      "step": 1480
+    },
+    {
+      "epoch": 0.1684948546873233,
+      "grad_norm": 1.5124659538269043,
+      "learning_rate": 6.106835992080464e-06,
+      "loss": 0.0645,
+      "step": 1490
+    },
+    {
+      "epoch": 0.16962569263824495,
+      "grad_norm": 5.185418128967285,
+      "learning_rate": 6.088086756970252e-06,
+      "loss": 0.1843,
+      "step": 1500
+    },
+    {
+      "epoch": 0.16962569263824495,
+      "eval_loss": 0.3870772421360016,
+      "eval_runtime": 35.7004,
+      "eval_samples_per_second": 14.005,
+      "eval_steps_per_second": 14.005,
+      "step": 1500
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 2.0460281562759168e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null