Training in progress, step 400, checkpoint

Browse files

Files changed (3) hide show

checkpoint-400/rng_state.pth +1 -1
checkpoint-400/trainer_state.json +143 -63
checkpoint-400/training_args.bin +1 -1

checkpoint-400/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2d37914d877602ff23d20a6a355eca7501c23eed895a382002a6a0e3005a55f3
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:1a5add27c6ba36590de75f8e76194972b97f8ca41a4f472ebe89de0fb0e51943
 size 14244

checkpoint-400/trainer_state.json CHANGED Viewed

@@ -23,10 +23,14 @@
     {
       "epoch": 0.06,
       "eval_accuracy": 0.44479243019924036,
       "eval_loss": 1.065091609954834,
-      "eval_runtime": 50.348,
-      "eval_samples_per_second": 596.131,
-      "eval_steps_per_second": 1.172,
       "step": 20
     },
     {
@@ -44,10 +48,14 @@
     {
       "epoch": 0.12,
       "eval_accuracy": 0.5033650962883988,
       "eval_loss": 1.0188277959823608,
-      "eval_runtime": 49.614,
-      "eval_samples_per_second": 604.95,
-      "eval_steps_per_second": 1.189,
       "step": 40
     },
     {
@@ -65,10 +73,14 @@
     {
       "epoch": 0.18,
       "eval_accuracy": 0.5279203038581995,
       "eval_loss": 0.9871189594268799,
-      "eval_runtime": 49.5201,
-      "eval_samples_per_second": 606.098,
-      "eval_steps_per_second": 1.191,
       "step": 60
     },
     {
@@ -86,10 +98,14 @@
     {
       "epoch": 0.24,
       "eval_accuracy": 0.5308189511561271,
       "eval_loss": 0.9888613224029541,
-      "eval_runtime": 49.4469,
-      "eval_samples_per_second": 606.994,
-      "eval_steps_per_second": 1.193,
       "step": 80
     },
     {
@@ -107,10 +123,14 @@
     {
       "epoch": 0.3,
       "eval_accuracy": 0.5307856333710935,
       "eval_loss": 0.9762536883354187,
-      "eval_runtime": 49.4804,
-      "eval_samples_per_second": 606.583,
-      "eval_steps_per_second": 1.192,
       "step": 100
     },
     {
@@ -128,10 +148,14 @@
     {
       "epoch": 0.36,
       "eval_accuracy": 0.5387819017791697,
       "eval_loss": 0.9713281989097595,
-      "eval_runtime": 49.4983,
-      "eval_samples_per_second": 606.364,
-      "eval_steps_per_second": 1.192,
       "step": 120
     },
     {
@@ -149,10 +173,14 @@
     {
       "epoch": 0.42,
       "eval_accuracy": 0.5312520823615646,
       "eval_loss": 0.9766249656677246,
-      "eval_runtime": 49.5213,
-      "eval_samples_per_second": 606.083,
-      "eval_steps_per_second": 1.191,
       "step": 140
     },
     {
@@ -170,10 +198,14 @@
     {
       "epoch": 0.48,
       "eval_accuracy": 0.5398147531152129,
       "eval_loss": 0.9589501619338989,
-      "eval_runtime": 49.4977,
-      "eval_samples_per_second": 606.372,
-      "eval_steps_per_second": 1.192,
       "step": 160
     },
     {
@@ -191,10 +223,14 @@
     {
       "epoch": 0.54,
       "eval_accuracy": 0.5423469047777704,
       "eval_loss": 0.953514814376831,
-      "eval_runtime": 49.4511,
-      "eval_samples_per_second": 606.943,
-      "eval_steps_per_second": 1.193,
       "step": 180
     },
     {
@@ -212,10 +248,14 @@
     {
       "epoch": 0.6,
       "eval_accuracy": 0.567201972412874,
       "eval_loss": 0.9273685812950134,
-      "eval_runtime": 49.4122,
-      "eval_samples_per_second": 607.421,
-      "eval_steps_per_second": 1.194,
       "step": 200
     },
     {
@@ -233,10 +273,14 @@
     {
       "epoch": 0.66,
       "eval_accuracy": 0.573598987139335,
       "eval_loss": 0.912590503692627,
-      "eval_runtime": 49.2827,
-      "eval_samples_per_second": 609.017,
-      "eval_steps_per_second": 1.197,
       "step": 220
     },
     {
@@ -254,10 +298,14 @@
     {
       "epoch": 0.72,
       "eval_accuracy": 0.5759645498767242,
       "eval_loss": 0.9052607417106628,
-      "eval_runtime": 49.4457,
-      "eval_samples_per_second": 607.01,
-      "eval_steps_per_second": 1.193,
       "step": 240
     },
     {
@@ -275,10 +323,14 @@
     {
       "epoch": 0.78,
       "eval_accuracy": 0.5766975411474645,
       "eval_loss": 0.9178985953330994,
-      "eval_runtime": 49.3132,
-      "eval_samples_per_second": 608.641,
-      "eval_steps_per_second": 1.196,
       "step": 260
     },
     {
@@ -296,10 +348,14 @@
     {
       "epoch": 0.84,
       "eval_accuracy": 0.58915839275005,
       "eval_loss": 0.8937407732009888,
-      "eval_runtime": 49.4342,
-      "eval_samples_per_second": 607.15,
-      "eval_steps_per_second": 1.194,
       "step": 280
     },
     {
@@ -317,10 +373,14 @@
     {
       "epoch": 0.9,
       "eval_accuracy": 0.613013926834144,
       "eval_loss": 0.8468813300132751,
-      "eval_runtime": 49.5046,
-      "eval_samples_per_second": 606.287,
-      "eval_steps_per_second": 1.192,
       "step": 300
     },
     {
@@ -338,10 +398,14 @@
     {
       "epoch": 0.96,
       "eval_accuracy": 0.6046511627906976,
       "eval_loss": 0.8615403771400452,
-      "eval_runtime": 49.5041,
-      "eval_samples_per_second": 606.294,
-      "eval_steps_per_second": 1.192,
       "step": 320
     },
     {
@@ -359,10 +423,14 @@
     {
       "epoch": 1.02,
       "eval_accuracy": 0.6439328313453722,
       "eval_loss": 0.7896137237548828,
-      "eval_runtime": 49.4448,
-      "eval_samples_per_second": 607.02,
-      "eval_steps_per_second": 1.193,
       "step": 340
     },
     {
@@ -380,10 +448,14 @@
     {
       "epoch": 1.08,
       "eval_accuracy": 0.5315852602119011,
       "eval_loss": 1.0123510360717773,
-      "eval_runtime": 49.4838,
-      "eval_samples_per_second": 606.542,
-      "eval_steps_per_second": 1.192,
       "step": 360
     },
     {
@@ -401,10 +473,14 @@
     {
       "epoch": 1.14,
       "eval_accuracy": 0.6488638635303525,
       "eval_loss": 0.791083574295044,
-      "eval_runtime": 49.4701,
-      "eval_samples_per_second": 606.71,
-      "eval_steps_per_second": 1.193,
       "step": 380
     },
     {
@@ -422,18 +498,22 @@
     {
       "epoch": 1.2,
       "eval_accuracy": 0.6699873392416872,
       "eval_loss": 0.7472424507141113,
-      "eval_runtime": 49.4938,
-      "eval_samples_per_second": 606.419,
-      "eval_steps_per_second": 1.192,
       "step": 400
     }
   ],
   "logging_steps": 10,
-  "max_steps": 996,
-  "num_train_epochs": 3,
   "save_steps": 100,
-  "total_flos": 5.38835212608471e+16,
   "trial_name": null,
   "trial_params": null
 }

     {
       "epoch": 0.06,
       "eval_accuracy": 0.44479243019924036,
+      "eval_combined_score": 0.3403229798934559,
+      "eval_f1": 0.2738667532127967,
       "eval_loss": 1.065091609954834,
+      "eval_precision": 0.19784030596254612,
+      "eval_recall": 0.44479243019924036,
+      "eval_runtime": 49.6621,
+      "eval_samples_per_second": 604.364,
+      "eval_steps_per_second": 1.188,
       "step": 20
     },
     {
     {
       "epoch": 0.12,
       "eval_accuracy": 0.5033650962883988,
+      "eval_combined_score": 0.4633375988688383,
+      "eval_f1": 0.4137746858205889,
       "eval_loss": 1.0188277959823608,
+      "eval_precision": 0.43284551707796665,
+      "eval_recall": 0.5033650962883988,
+      "eval_runtime": 49.1985,
+      "eval_samples_per_second": 610.06,
+      "eval_steps_per_second": 1.199,
       "step": 40
     },
     {
     {
       "epoch": 0.18,
       "eval_accuracy": 0.5279203038581995,
+      "eval_combined_score": 0.48433586826626607,
+      "eval_f1": 0.4596383010419703,
       "eval_loss": 0.9871189594268799,
+      "eval_precision": 0.421864564306695,
+      "eval_recall": 0.5279203038581995,
+      "eval_runtime": 49.0237,
+      "eval_samples_per_second": 612.235,
+      "eval_steps_per_second": 1.204,
       "step": 60
     },
     {
     {
       "epoch": 0.24,
       "eval_accuracy": 0.5308189511561271,
+      "eval_combined_score": 0.4866197693698143,
+      "eval_f1": 0.46528335920671143,
       "eval_loss": 0.9888613224029541,
+      "eval_precision": 0.4195578159602916,
+      "eval_recall": 0.5308189511561271,
+      "eval_runtime": 49.518,
+      "eval_samples_per_second": 606.124,
+      "eval_steps_per_second": 1.191,
       "step": 80
     },
     {
     {
       "epoch": 0.3,
       "eval_accuracy": 0.5307856333710935,
+      "eval_combined_score": 0.48644275806230897,
+      "eval_f1": 0.4666072639999521,
       "eval_loss": 0.9762536883354187,
+      "eval_precision": 0.4175925015070968,
+      "eval_recall": 0.5307856333710935,
+      "eval_runtime": 49.4629,
+      "eval_samples_per_second": 606.798,
+      "eval_steps_per_second": 1.193,
       "step": 100
     },
     {
     {
       "epoch": 0.36,
       "eval_accuracy": 0.5387819017791697,
+      "eval_combined_score": 0.4944622623129249,
+      "eval_f1": 0.47105988260831677,
       "eval_loss": 0.9713281989097595,
+      "eval_precision": 0.4292253630850433,
+      "eval_recall": 0.5387819017791697,
+      "eval_runtime": 49.0682,
+      "eval_samples_per_second": 611.68,
+      "eval_steps_per_second": 1.202,
       "step": 120
     },
     {
     {
       "epoch": 0.42,
       "eval_accuracy": 0.5312520823615646,
+      "eval_combined_score": 0.48712844254868687,
+      "eval_f1": 0.4673598197970026,
       "eval_loss": 0.9766249656677246,
+      "eval_precision": 0.41864978567461564,
+      "eval_recall": 0.5312520823615646,
+      "eval_runtime": 49.1859,
+      "eval_samples_per_second": 610.215,
+      "eval_steps_per_second": 1.2,
       "step": 140
     },
     {
     {
       "epoch": 0.48,
       "eval_accuracy": 0.5398147531152129,
+      "eval_combined_score": 0.49477075635813,
+      "eval_f1": 0.4751263005883661,
       "eval_loss": 0.9589501619338989,
+      "eval_precision": 0.4243272186137281,
+      "eval_recall": 0.5398147531152129,
+      "eval_runtime": 49.0847,
+      "eval_samples_per_second": 611.473,
+      "eval_steps_per_second": 1.202,
       "step": 160
     },
     {
     {
       "epoch": 0.54,
       "eval_accuracy": 0.5423469047777704,
+      "eval_combined_score": 0.49718028497336725,
+      "eval_f1": 0.4771728160733735,
       "eval_loss": 0.953514814376831,
+      "eval_precision": 0.42685451426455484,
+      "eval_recall": 0.5423469047777704,
+      "eval_runtime": 49.0032,
+      "eval_samples_per_second": 612.491,
+      "eval_steps_per_second": 1.204,
       "step": 180
     },
     {
     {
       "epoch": 0.6,
       "eval_accuracy": 0.567201972412874,
+      "eval_combined_score": 0.5200447629299639,
+      "eval_f1": 0.49911443945569844,
       "eval_loss": 0.9273685812950134,
+      "eval_precision": 0.44666066743840943,
+      "eval_recall": 0.567201972412874,
+      "eval_runtime": 49.1912,
+      "eval_samples_per_second": 610.15,
+      "eval_steps_per_second": 1.199,
       "step": 200
     },
     {
     {
       "epoch": 0.66,
       "eval_accuracy": 0.573598987139335,
+      "eval_combined_score": 0.5278568904198743,
+      "eval_f1": 0.5026102591641352,
       "eval_loss": 0.912590503692627,
+      "eval_precision": 0.4616193282366919,
+      "eval_recall": 0.573598987139335,
+      "eval_runtime": 49.2154,
+      "eval_samples_per_second": 609.849,
+      "eval_steps_per_second": 1.199,
       "step": 220
     },
     {
     {
       "epoch": 0.72,
       "eval_accuracy": 0.5759645498767242,
+      "eval_combined_score": 0.5280177627115059,
+      "eval_f1": 0.5069205876947673,
       "eval_loss": 0.9052607417106628,
+      "eval_precision": 0.45322136339780783,
+      "eval_recall": 0.5759645498767242,
+      "eval_runtime": 49.1399,
+      "eval_samples_per_second": 610.787,
+      "eval_steps_per_second": 1.201,
       "step": 240
     },
     {
     {
       "epoch": 0.78,
       "eval_accuracy": 0.5766975411474645,
+      "eval_combined_score": 0.534067292009198,
+      "eval_f1": 0.5018221478654629,
       "eval_loss": 0.9178985953330994,
+      "eval_precision": 0.4810519378764,
+      "eval_recall": 0.5766975411474645,
+      "eval_runtime": 49.2092,
+      "eval_samples_per_second": 609.927,
+      "eval_steps_per_second": 1.199,
       "step": 260
     },
     {
     {
       "epoch": 0.84,
       "eval_accuracy": 0.58915839275005,
+      "eval_combined_score": 0.5407092882328752,
+      "eval_f1": 0.5183161389995846,
       "eval_loss": 0.8937407732009888,
+      "eval_precision": 0.46620422843181647,
+      "eval_recall": 0.58915839275005,
+      "eval_runtime": 49.2523,
+      "eval_samples_per_second": 609.393,
+      "eval_steps_per_second": 1.198,
       "step": 280
     },
     {
     {
       "epoch": 0.9,
       "eval_accuracy": 0.613013926834144,
+      "eval_combined_score": 0.5923759012239074,
+      "eval_f1": 0.5579282363395321,
       "eval_loss": 0.8468813300132751,
+      "eval_precision": 0.5855475148878095,
+      "eval_recall": 0.613013926834144,
+      "eval_runtime": 49.1896,
+      "eval_samples_per_second": 610.17,
+      "eval_steps_per_second": 1.199,
       "step": 300
     },
     {
     {
       "epoch": 0.96,
       "eval_accuracy": 0.6046511627906976,
+      "eval_combined_score": 0.590510828847508,
+      "eval_f1": 0.5352474275558012,
       "eval_loss": 0.8615403771400452,
+      "eval_precision": 0.6174935622528357,
+      "eval_recall": 0.6046511627906976,
+      "eval_runtime": 49.37,
+      "eval_samples_per_second": 607.94,
+      "eval_steps_per_second": 1.195,
       "step": 320
     },
     {
     {
       "epoch": 1.02,
       "eval_accuracy": 0.6439328313453722,
+      "eval_combined_score": 0.6332615383344228,
+      "eval_f1": 0.6212200513859825,
       "eval_loss": 0.7896137237548828,
+      "eval_precision": 0.6239604392609642,
+      "eval_recall": 0.6439328313453722,
+      "eval_runtime": 49.1146,
+      "eval_samples_per_second": 611.102,
+      "eval_steps_per_second": 1.201,
       "step": 340
     },
     {
     {
       "epoch": 1.08,
       "eval_accuracy": 0.5315852602119011,
+      "eval_combined_score": 0.5500800253024862,
+      "eval_f1": 0.4943799031015135,
       "eval_loss": 1.0123510360717773,
+      "eval_precision": 0.642769677684629,
+      "eval_recall": 0.5315852602119011,
+      "eval_runtime": 49.1941,
+      "eval_samples_per_second": 610.114,
+      "eval_steps_per_second": 1.199,
       "step": 360
     },
     {
     {
       "epoch": 1.14,
       "eval_accuracy": 0.6488638635303525,
+      "eval_combined_score": 0.648329789222037,
+      "eval_f1": 0.6371420074616733,
       "eval_loss": 0.791083574295044,
+      "eval_precision": 0.6584494223657698,
+      "eval_recall": 0.6488638635303525,
+      "eval_runtime": 49.3484,
+      "eval_samples_per_second": 608.207,
+      "eval_steps_per_second": 1.196,
       "step": 380
     },
     {
     {
       "epoch": 1.2,
       "eval_accuracy": 0.6699873392416872,
+      "eval_combined_score": 0.6621103162794577,
+      "eval_f1": 0.6459453754294268,
       "eval_loss": 0.7472424507141113,
+      "eval_precision": 0.6625212112050299,
+      "eval_recall": 0.6699873392416872,
+      "eval_runtime": 49.3153,
+      "eval_samples_per_second": 608.614,
+      "eval_steps_per_second": 1.196,
       "step": 400
     }
   ],
   "logging_steps": 10,
+  "max_steps": 1660,
+  "num_train_epochs": 5,
   "save_steps": 100,
+  "total_flos": 5.388352304335258e+16,
   "trial_name": null,
   "trial_params": null
 }

checkpoint-400/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1f1be80ebe52f6e43af0b8aa087e72fad77310d5998b6e0b8f66a6a1d53be7b7
 size 4536

 version https://git-lfs.github.com/spec/v1
+oid sha256:ae98e7de1b05a570517ae68653e3c31b639a52c739d05197601f467f38b01c66
 size 4536