Training in progress, step 500

Browse files

Files changed (10) hide show

model.safetensors +1 -1
run-1/checkpoint-1000/trainer_state.json +21 -21
run-1/checkpoint-1500/trainer_state.json +28 -28
run-1/checkpoint-1908/trainer_state.json +33 -33
run-1/checkpoint-500/model.safetensors +1 -1
run-1/checkpoint-500/optimizer.pt +1 -1
run-1/checkpoint-500/trainer_state.json +9 -9
run-1/checkpoint-500/training_args.bin +1 -1
runs/Aug10_17-36-17_bc748cae6928/events.out.tfevents.1723318310.bc748cae6928.590.10 +3 -0
training_args.bin +1 -1

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:911ad2e3d0d2ebd06f39bfde975f4ec1fed24558e2f4f205bc9e42c412daaceb
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:c29e0288f4ab949b658612b4efc595bc16ad1c35b955dd771212845f742fd59c
 size 268290900

run-1/checkpoint-1000/trainer_state.json CHANGED Viewed

@@ -10,43 +10,43 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.5783870967741935,
-      "eval_loss": 0.2046278566122055,
-      "eval_runtime": 5.6717,
-      "eval_samples_per_second": 546.572,
-      "eval_steps_per_second": 11.46,
       "step": 318
     },
     {
       "epoch": 1.5723270440251573,
-      "grad_norm": 0.5409613251686096,
       "learning_rate": 1.4758909853249476e-05,
-      "loss": 0.3241,
       "step": 500
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.8125806451612904,
-      "eval_loss": 0.10322821140289307,
-      "eval_runtime": 6.1936,
-      "eval_samples_per_second": 500.513,
-      "eval_steps_per_second": 10.495,
       "step": 636
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.8687096774193548,
-      "eval_loss": 0.0720166265964508,
-      "eval_runtime": 5.6413,
-      "eval_samples_per_second": 549.518,
-      "eval_steps_per_second": 11.522,
       "step": 954
     },
     {
       "epoch": 3.1446540880503147,
-      "grad_norm": 0.46297112107276917,
       "learning_rate": 9.517819706498952e-06,
-      "loss": 0.1192,
       "step": 1000
     }
   ],
@@ -71,8 +71,8 @@
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.1698724421938158,
     "num_train_epochs": 6,
-    "temperature": 11
   }
 }

   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.567741935483871,
+      "eval_loss": 0.19664955139160156,
+      "eval_runtime": 5.5309,
+      "eval_samples_per_second": 560.487,
+      "eval_steps_per_second": 11.752,
       "step": 318
     },
     {
       "epoch": 1.5723270440251573,
+      "grad_norm": 0.5286217927932739,
       "learning_rate": 1.4758909853249476e-05,
+      "loss": 0.3117,
       "step": 500
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.8083870967741935,
+      "eval_loss": 0.10034344345331192,
+      "eval_runtime": 6.1068,
+      "eval_samples_per_second": 507.628,
+      "eval_steps_per_second": 10.644,
       "step": 636
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.8664516129032258,
+      "eval_loss": 0.07075813412666321,
+      "eval_runtime": 5.786,
+      "eval_samples_per_second": 535.779,
+      "eval_steps_per_second": 11.234,
       "step": 954
     },
     {
       "epoch": 3.1446540880503147,
+      "grad_norm": 0.45189452171325684,
       "learning_rate": 9.517819706498952e-06,
+      "loss": 0.1157,
       "step": 1000
     }
   ],
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.4479260334486119,
     "num_train_epochs": 6,
+    "temperature": 18
   }
 }

run-1/checkpoint-1500/trainer_state.json CHANGED Viewed

@@ -10,59 +10,59 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.5783870967741935,
-      "eval_loss": 0.2046278566122055,
-      "eval_runtime": 5.6717,
-      "eval_samples_per_second": 546.572,
-      "eval_steps_per_second": 11.46,
       "step": 318
     },
     {
       "epoch": 1.5723270440251573,
-      "grad_norm": 0.5409613251686096,
       "learning_rate": 1.4758909853249476e-05,
-      "loss": 0.3241,
       "step": 500
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.8125806451612904,
-      "eval_loss": 0.10322821140289307,
-      "eval_runtime": 6.1936,
-      "eval_samples_per_second": 500.513,
-      "eval_steps_per_second": 10.495,
       "step": 636
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.8687096774193548,
-      "eval_loss": 0.0720166265964508,
-      "eval_runtime": 5.6413,
-      "eval_samples_per_second": 549.518,
-      "eval_steps_per_second": 11.522,
       "step": 954
     },
     {
       "epoch": 3.1446540880503147,
-      "grad_norm": 0.46297112107276917,
       "learning_rate": 9.517819706498952e-06,
-      "loss": 0.1192,
       "step": 1000
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.8912903225806451,
-      "eval_loss": 0.058526117354631424,
-      "eval_runtime": 5.7211,
-      "eval_samples_per_second": 541.849,
-      "eval_steps_per_second": 11.361,
       "step": 1272
     },
     {
       "epoch": 4.716981132075472,
-      "grad_norm": 0.3392227292060852,
       "learning_rate": 4.276729559748428e-06,
-      "loss": 0.0816,
       "step": 1500
     }
   ],
@@ -87,8 +87,8 @@
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.1698724421938158,
     "num_train_epochs": 6,
-    "temperature": 11
   }
 }

   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.567741935483871,
+      "eval_loss": 0.19664955139160156,
+      "eval_runtime": 5.5309,
+      "eval_samples_per_second": 560.487,
+      "eval_steps_per_second": 11.752,
       "step": 318
     },
     {
       "epoch": 1.5723270440251573,
+      "grad_norm": 0.5286217927932739,
       "learning_rate": 1.4758909853249476e-05,
+      "loss": 0.3117,
       "step": 500
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.8083870967741935,
+      "eval_loss": 0.10034344345331192,
+      "eval_runtime": 6.1068,
+      "eval_samples_per_second": 507.628,
+      "eval_steps_per_second": 10.644,
       "step": 636
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.8664516129032258,
+      "eval_loss": 0.07075813412666321,
+      "eval_runtime": 5.786,
+      "eval_samples_per_second": 535.779,
+      "eval_steps_per_second": 11.234,
       "step": 954
     },
     {
       "epoch": 3.1446540880503147,
+      "grad_norm": 0.45189452171325684,
       "learning_rate": 9.517819706498952e-06,
+      "loss": 0.1157,
       "step": 1000
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.8890322580645161,
+      "eval_loss": 0.057840555906295776,
+      "eval_runtime": 5.8497,
+      "eval_samples_per_second": 529.945,
+      "eval_steps_per_second": 11.112,
       "step": 1272
     },
     {
       "epoch": 4.716981132075472,
+      "grad_norm": 0.327290415763855,
       "learning_rate": 4.276729559748428e-06,
+      "loss": 0.0799,
       "step": 1500
     }
   ],
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.4479260334486119,
     "num_train_epochs": 6,
+    "temperature": 18
   }
 }

run-1/checkpoint-1908/trainer_state.json CHANGED Viewed

@@ -10,68 +10,68 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.5783870967741935,
-      "eval_loss": 0.2046278566122055,
-      "eval_runtime": 5.6717,
-      "eval_samples_per_second": 546.572,
-      "eval_steps_per_second": 11.46,
       "step": 318
     },
     {
       "epoch": 1.5723270440251573,
-      "grad_norm": 0.5409613251686096,
       "learning_rate": 1.4758909853249476e-05,
-      "loss": 0.3241,
       "step": 500
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.8125806451612904,
-      "eval_loss": 0.10322821140289307,
-      "eval_runtime": 6.1936,
-      "eval_samples_per_second": 500.513,
-      "eval_steps_per_second": 10.495,
       "step": 636
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.8687096774193548,
-      "eval_loss": 0.0720166265964508,
-      "eval_runtime": 5.6413,
-      "eval_samples_per_second": 549.518,
-      "eval_steps_per_second": 11.522,
       "step": 954
     },
     {
       "epoch": 3.1446540880503147,
-      "grad_norm": 0.46297112107276917,
       "learning_rate": 9.517819706498952e-06,
-      "loss": 0.1192,
       "step": 1000
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.8912903225806451,
-      "eval_loss": 0.058526117354631424,
-      "eval_runtime": 5.7211,
-      "eval_samples_per_second": 541.849,
-      "eval_steps_per_second": 11.361,
       "step": 1272
     },
     {
       "epoch": 4.716981132075472,
-      "grad_norm": 0.3392227292060852,
       "learning_rate": 4.276729559748428e-06,
-      "loss": 0.0816,
       "step": 1500
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.8941935483870967,
-      "eval_loss": 0.05137300118803978,
-      "eval_runtime": 5.9715,
-      "eval_samples_per_second": 519.136,
-      "eval_steps_per_second": 10.885,
       "step": 1590
     }
   ],
@@ -96,8 +96,8 @@
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.1698724421938158,
     "num_train_epochs": 6,
-    "temperature": 11
   }
 }

   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.567741935483871,
+      "eval_loss": 0.19664955139160156,
+      "eval_runtime": 5.5309,
+      "eval_samples_per_second": 560.487,
+      "eval_steps_per_second": 11.752,
       "step": 318
     },
     {
       "epoch": 1.5723270440251573,
+      "grad_norm": 0.5286217927932739,
       "learning_rate": 1.4758909853249476e-05,
+      "loss": 0.3117,
       "step": 500
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.8083870967741935,
+      "eval_loss": 0.10034344345331192,
+      "eval_runtime": 6.1068,
+      "eval_samples_per_second": 507.628,
+      "eval_steps_per_second": 10.644,
       "step": 636
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.8664516129032258,
+      "eval_loss": 0.07075813412666321,
+      "eval_runtime": 5.786,
+      "eval_samples_per_second": 535.779,
+      "eval_steps_per_second": 11.234,
       "step": 954
     },
     {
       "epoch": 3.1446540880503147,
+      "grad_norm": 0.45189452171325684,
       "learning_rate": 9.517819706498952e-06,
+      "loss": 0.1157,
       "step": 1000
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.8890322580645161,
+      "eval_loss": 0.057840555906295776,
+      "eval_runtime": 5.8497,
+      "eval_samples_per_second": 529.945,
+      "eval_steps_per_second": 11.112,
       "step": 1272
     },
     {
       "epoch": 4.716981132075472,
+      "grad_norm": 0.327290415763855,
       "learning_rate": 4.276729559748428e-06,
+      "loss": 0.0799,
       "step": 1500
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.8938709677419355,
+      "eval_loss": 0.05099958926439285,
+      "eval_runtime": 6.1102,
+      "eval_samples_per_second": 507.352,
+      "eval_steps_per_second": 10.638,
       "step": 1590
     }
   ],
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.4479260334486119,
     "num_train_epochs": 6,
+    "temperature": 18
   }
 }

run-1/checkpoint-500/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eacb34859c1848548f9646318e1d765056a5be2f637bbdd796cf5bd49701af2d
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:c29e0288f4ab949b658612b4efc595bc16ad1c35b955dd771212845f742fd59c
 size 268290900

run-1/checkpoint-500/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4bd322f129186b261f05e3f9f627f18bad9945db582fe9b3175b22d33e9d4025
 size 536643898

 version https://git-lfs.github.com/spec/v1
+oid sha256:21d5d1e2a71a38ce22eb489c68c85dda378278838f448f2ce48fb6cb9fbd870f
 size 536643898

run-1/checkpoint-500/trainer_state.json CHANGED Viewed

@@ -10,18 +10,18 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.5783870967741935,
-      "eval_loss": 0.2046278566122055,
-      "eval_runtime": 5.6717,
-      "eval_samples_per_second": 546.572,
-      "eval_steps_per_second": 11.46,
       "step": 318
     },
     {
       "epoch": 1.5723270440251573,
-      "grad_norm": 0.5409613251686096,
       "learning_rate": 1.4758909853249476e-05,
-      "loss": 0.3241,
       "step": 500
     }
   ],
@@ -46,8 +46,8 @@
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.1698724421938158,
     "num_train_epochs": 6,
-    "temperature": 11
   }
 }

   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.567741935483871,
+      "eval_loss": 0.19664955139160156,
+      "eval_runtime": 5.5309,
+      "eval_samples_per_second": 560.487,
+      "eval_steps_per_second": 11.752,
       "step": 318
     },
     {
       "epoch": 1.5723270440251573,
+      "grad_norm": 0.5286217927932739,
       "learning_rate": 1.4758909853249476e-05,
+      "loss": 0.3117,
       "step": 500
     }
   ],
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.4479260334486119,
     "num_train_epochs": 6,
+    "temperature": 18
   }
 }

run-1/checkpoint-500/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d8eb768576f75bcbf8b2b232d539edf6d6c6d5e888deb050362d521063dfbb74
 size 5176

 version https://git-lfs.github.com/spec/v1
+oid sha256:f879f71f2d173f98b817b4311cd97605daaadeaea76b087d279d7808a2906e61
 size 5176

runs/Aug10_17-36-17_bc748cae6928/events.out.tfevents.1723318310.bc748cae6928.590.10 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:59f0459d3e5e682153ad23fe042f5fcbf7562fd3998f87d81a96ee41d15aa5aa
+size 14622

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a795e38fc17d23ea7e491b0b97849dc60c777dbce157fcfdc837d87b44f51896
 size 5176

 version https://git-lfs.github.com/spec/v1
+oid sha256:f879f71f2d173f98b817b4311cd97605daaadeaea76b087d279d7808a2906e61
 size 5176