Training in progress, step 1200, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c95de728f02bd108c427e07914d7a266ac8e219b042c5a31ab5c42cd5ae57f40
 size 524363632

 version https://git-lfs.github.com/spec/v1
+oid sha256:807e2020d4cc18f157e1ef0d1bfd91dd5bf0c37dcea25db0e1a74afaa6d01745
 size 524363632

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8e38d306ee414bf708f6b626142dca0ab4b5969b5cf416730f19f8a0d90de238
 size 1049049442

 version https://git-lfs.github.com/spec/v1
+oid sha256:4f4be45d595fa1a9446b71dac7d9916ddea1170c72ac19df309f820d8635447c
 size 1049049442

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:496b0588f97d6d587516f88b79f3f545f508fdd7aeb5db98153fda3c8189db81
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:4e13c301efe13091da720b5921b6c06ef2af4b0396bf6dd105a86ca83c2c83de
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2ba6bf3e8e84f8697154a5603399be4e682ed0ecacfbbcbd0b06870559b45041
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:94d254686016f56c6ee3bc710fe38ee5c6ec1eb812335e8f222de3fe8edbd01d
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.2271474599838257,
-  "best_model_checkpoint": "./output/checkpoint-1050",
-  "epoch": 0.04703247480403135,
   "eval_steps": 150,
-  "global_step": 1050,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -798,6 +798,119 @@
       "eval_samples_per_second": 9.695,
       "eval_steps_per_second": 9.695,
       "step": 1050
     }
   ],
   "logging_steps": 10,
@@ -817,7 +930,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.358086907308032e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.2224195003509521,
+  "best_model_checkpoint": "./output/checkpoint-1200",
+  "epoch": 0.05375139977603583,
   "eval_steps": 150,
+  "global_step": 1200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 9.695,
       "eval_steps_per_second": 9.695,
       "step": 1050
+    },
+    {
+      "epoch": 0.04748040313549832,
+      "grad_norm": 4.918002605438232,
+      "learning_rate": 6.811827548134495e-06,
+      "loss": 1.156,
+      "step": 1060
+    },
+    {
+      "epoch": 0.047928331466965284,
+      "grad_norm": 3.533487319946289,
+      "learning_rate": 6.797883281792261e-06,
+      "loss": 1.0533,
+      "step": 1070
+    },
+    {
+      "epoch": 0.04837625979843225,
+      "grad_norm": 4.698348045349121,
+      "learning_rate": 6.783813728906054e-06,
+      "loss": 1.2621,
+      "step": 1080
+    },
+    {
+      "epoch": 0.048824188129899214,
+      "grad_norm": 3.90852427482605,
+      "learning_rate": 6.769619467820086e-06,
+      "loss": 1.0754,
+      "step": 1090
+    },
+    {
+      "epoch": 0.04927211646136618,
+      "grad_norm": 6.924786567687988,
+      "learning_rate": 6.755301082004838e-06,
+      "loss": 1.0617,
+      "step": 1100
+    },
+    {
+      "epoch": 0.049720044792833144,
+      "grad_norm": 5.685960292816162,
+      "learning_rate": 6.740859160033068e-06,
+      "loss": 1.2185,
+      "step": 1110
+    },
+    {
+      "epoch": 0.05016797312430011,
+      "grad_norm": 5.533092975616455,
+      "learning_rate": 6.726294295555623e-06,
+      "loss": 1.0583,
+      "step": 1120
+    },
+    {
+      "epoch": 0.050615901455767075,
+      "grad_norm": 4.5029988288879395,
+      "learning_rate": 6.711607087277034e-06,
+      "loss": 1.1781,
+      "step": 1130
+    },
+    {
+      "epoch": 0.05106382978723404,
+      "grad_norm": 3.2203736305236816,
+      "learning_rate": 6.69679813893091e-06,
+      "loss": 1.151,
+      "step": 1140
+    },
+    {
+      "epoch": 0.051511758118701005,
+      "grad_norm": 6.602795600891113,
+      "learning_rate": 6.681868059255113e-06,
+      "loss": 1.1373,
+      "step": 1150
+    },
+    {
+      "epoch": 0.05195968645016797,
+      "grad_norm": 3.071552038192749,
+      "learning_rate": 6.666817461966741e-06,
+      "loss": 1.1554,
+      "step": 1160
+    },
+    {
+      "epoch": 0.052407614781634936,
+      "grad_norm": 5.886751174926758,
+      "learning_rate": 6.651646965736902e-06,
+      "loss": 1.1328,
+      "step": 1170
+    },
+    {
+      "epoch": 0.0528555431131019,
+      "grad_norm": 4.323307991027832,
+      "learning_rate": 6.636357194165274e-06,
+      "loss": 1.1535,
+      "step": 1180
+    },
+    {
+      "epoch": 0.053303471444568866,
+      "grad_norm": 4.585876941680908,
+      "learning_rate": 6.620948775754481e-06,
+      "loss": 1.1636,
+      "step": 1190
+    },
+    {
+      "epoch": 0.05375139977603583,
+      "grad_norm": 3.9351437091827393,
+      "learning_rate": 6.605422343884255e-06,
+      "loss": 1.2689,
+      "step": 1200
+    },
+    {
+      "epoch": 0.05375139977603583,
+      "eval_loss": 1.2224195003509521,
+      "eval_runtime": 51.5936,
+      "eval_samples_per_second": 9.691,
+      "eval_steps_per_second": 9.691,
+      "step": 1200
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.541998722299904e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null