fix: model epoch=2

Browse files

Files changed (9) hide show

README.md +2 -2
all_results.json +8 -8
config.json +1 -1
eval_results.json +3 -3
model.safetensors +1 -1
train_results.json +6 -6
train_results.txt +6 -6
trainer_state.json +96 -33
training_args.bin +2 -2

README.md CHANGED Viewed

@@ -9,7 +9,7 @@ tags:
 ---
 ### Config
-- epoch = 1
 - learning_rate = 1e-5
 - batch_size = 16
@@ -17,4 +17,4 @@ tags:
 - V100(RAM 32GB)
 ### Validation Result
-- epoch = 1: `EM` 88.1191, `F1` 92.8047

 ---
 ### Config
+- epoch = 2
 - learning_rate = 1e-5
 - batch_size = 16
 - V100(RAM 32GB)
 ### Validation Result
+- epoch = 2: `EM` 88.1538, `F1` 92.7980

all_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
-    "epoch": 1.0,
     "eval_samples": 6865,
-    "exact_match": 88.11915483200555,
-    "f1": 92.80469400706696,
-    "total_flos": 4.801972373497037e+16,
-    "train_loss": 0.6182623529500156,
-    "train_runtime": 1876.03,
     "train_samples": 69399,
-    "train_samples_per_second": 36.992,
-    "train_steps_per_second": 2.312
 }

 {
+    "epoch": 2.0,
     "eval_samples": 6865,
+    "exact_match": 88.15379286456529,
+    "f1": 92.79799359581472,
+    "total_flos": 9.602043799869562e+16,
+    "train_loss": 0.42129573760465744,
+    "train_runtime": 3759.5481,
     "train_samples": 69399,
+    "train_samples_per_second": 36.919,
+    "train_steps_per_second": 2.308
 }

config.json CHANGED Viewed

@@ -26,4 +26,4 @@
   "type_vocab_size": 1,
   "use_cache": true,
   "vocab_size": 32000
-}

   "type_vocab_size": 1,
   "use_cache": true,
   "vocab_size": 32000
+}

eval_results.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-    "epoch": 1.0,
     "eval_samples": 6865,
-    "exact_match": 88.11915483200555,
-    "f1": 92.80469400706696
 }

 {
+    "epoch": 2.0,
     "eval_samples": 6865,
+    "exact_match": 88.15379286456529,
+    "f1": 92.79799359581472
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0aa4d93967c0fc1ccae387f0a6872064382ede5aa14747558fb53e198dec306c
 size 1342483296

 version https://git-lfs.github.com/spec/v1
+oid sha256:b55bdfc6c8ccc6a11aa3b8971474ba9b69ade8fbbf5f466808de1a7d8b3b1d2e
 size 1342483296

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 1.0,
-    "total_flos": 4.801972373497037e+16,
-    "train_loss": 0.6182623529500156,
-    "train_runtime": 1876.03,
     "train_samples": 69399,
-    "train_samples_per_second": 36.992,
-    "train_steps_per_second": 2.312
 }

 {
+    "epoch": 2.0,
+    "total_flos": 9.602043799869562e+16,
+    "train_loss": 0.42129573760465744,
+    "train_runtime": 3759.5481,
     "train_samples": 69399,
+    "train_samples_per_second": 36.919,
+    "train_steps_per_second": 2.308
 }

train_results.txt CHANGED Viewed

@@ -1,7 +1,7 @@
-epoch = 1.0
-total_flos = 4.801972373497037e+16
-train_loss = 0.6182623529500156
-train_runtime = 1876.03
 train_samples = 69399
-train_samples_per_second = 36.992
-train_steps_per_second = 2.312

+epoch = 2.0
+total_flos = 9.602043799869562e+16
+train_loss = 0.42129573760465744
+train_runtime = 3759.5481
 train_samples = 69399
+train_samples_per_second = 36.919
+train_steps_per_second = 2.308

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.0,
   "eval_steps": 50,
-  "global_step": 4338,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -17,67 +17,130 @@
     },
     {
       "epoch": 0.23052097740894423,
-      "grad_norm": 16.672468185424805,
-      "learning_rate": 8.705054715997916e-06,
-      "loss": 0.5451,
       "step": 1000
     },
     {
       "epoch": 0.3457814661134163,
-      "grad_norm": 11.151906967163086,
-      "learning_rate": 7.402292860865034e-06,
-      "loss": 0.4302,
       "step": 1500
     },
     {
       "epoch": 0.46104195481788846,
-      "grad_norm": 7.392632961273193,
-      "learning_rate": 6.099531005732152e-06,
-      "loss": 0.3772,
       "step": 2000
     },
     {
       "epoch": 0.5763024435223605,
-      "grad_norm": 6.710408687591553,
-      "learning_rate": 4.796769150599271e-06,
-      "loss": 0.3742,
       "step": 2500
     },
     {
       "epoch": 0.6915629322268326,
-      "grad_norm": 8.172633171081543,
-      "learning_rate": 3.494007295466389e-06,
-      "loss": 0.3518,
       "step": 3000
     },
     {
       "epoch": 0.8068234209313048,
-      "grad_norm": 5.664760112762451,
-      "learning_rate": 2.1912454403335073e-06,
-      "loss": 0.3619,
       "step": 3500
     },
     {
       "epoch": 0.9220839096357769,
-      "grad_norm": 16.45347785949707,
-      "learning_rate": 8.884835852006255e-07,
-      "loss": 0.3293,
       "step": 4000
     },
     {
-      "epoch": 1.0,
-      "step": 4338,
-      "total_flos": 4.801972373497037e+16,
-      "train_loss": 0.6182623529500156,
-      "train_runtime": 1876.03,
-      "train_samples_per_second": 36.992,
-      "train_steps_per_second": 2.312
     }
   ],
   "logging_steps": 500,
-  "max_steps": 4338,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 1,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -91,7 +154,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.801972373497037e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.0,
   "eval_steps": 50,
+  "global_step": 8676,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     },
     {
       "epoch": 0.23052097740894423,
+      "grad_norm": 16.483428955078125,
+      "learning_rate": 9.393346379647749e-06,
+      "loss": 0.5479,
       "step": 1000
     },
     {
       "epoch": 0.3457814661134163,
+      "grad_norm": 13.152728080749512,
+      "learning_rate": 8.781800391389433e-06,
+      "loss": 0.4338,
       "step": 1500
     },
     {
       "epoch": 0.46104195481788846,
+      "grad_norm": 8.478280067443848,
+      "learning_rate": 8.170254403131116e-06,
+      "loss": 0.3804,
       "step": 2000
     },
     {
       "epoch": 0.5763024435223605,
+      "grad_norm": 7.399623870849609,
+      "learning_rate": 7.558708414872799e-06,
+      "loss": 0.3876,
       "step": 2500
     },
     {
       "epoch": 0.6915629322268326,
+      "grad_norm": 15.365309715270996,
+      "learning_rate": 6.947162426614482e-06,
+      "loss": 0.3612,
       "step": 3000
     },
     {
       "epoch": 0.8068234209313048,
+      "grad_norm": 5.001895427703857,
+      "learning_rate": 6.335616438356164e-06,
+      "loss": 0.3709,
       "step": 3500
     },
     {
       "epoch": 0.9220839096357769,
+      "grad_norm": 20.685277938842773,
+      "learning_rate": 5.7240704500978485e-06,
+      "loss": 0.3376,
       "step": 4000
     },
     {
+      "epoch": 1.037344398340249,
+      "grad_norm": 12.555818557739258,
+      "learning_rate": 5.112524461839531e-06,
+      "loss": 0.2983,
+      "step": 4500
+    },
+    {
+      "epoch": 1.152604887044721,
+      "grad_norm": 7.005858898162842,
+      "learning_rate": 4.502201565557731e-06,
+      "loss": 0.221,
+      "step": 5000
+    },
+    {
+      "epoch": 1.2678653757491931,
+      "grad_norm": 4.69966459274292,
+      "learning_rate": 3.890655577299413e-06,
+      "loss": 0.2095,
+      "step": 5500
+    },
+    {
+      "epoch": 1.3831258644536653,
+      "grad_norm": 24.06895637512207,
+      "learning_rate": 3.2791095890410964e-06,
+      "loss": 0.2292,
+      "step": 6000
+    },
+    {
+      "epoch": 1.4983863531581374,
+      "grad_norm": 9.91574764251709,
+      "learning_rate": 2.6675636007827793e-06,
+      "loss": 0.2304,
+      "step": 6500
+    },
+    {
+      "epoch": 1.6136468418626095,
+      "grad_norm": 3.978304862976074,
+      "learning_rate": 2.0560176125244623e-06,
+      "loss": 0.2102,
+      "step": 7000
+    },
+    {
+      "epoch": 1.7289073305670817,
+      "grad_norm": 8.447595596313477,
+      "learning_rate": 1.4469178082191781e-06,
+      "loss": 0.2171,
+      "step": 7500
+    },
+    {
+      "epoch": 1.8441678192715538,
+      "grad_norm": 3.0918211936950684,
+      "learning_rate": 8.353718199608611e-07,
+      "loss": 0.2166,
+      "step": 8000
+    },
+    {
+      "epoch": 1.959428307976026,
+      "grad_norm": 1.6782150268554688,
+      "learning_rate": 2.2382583170254403e-07,
+      "loss": 0.2146,
+      "step": 8500
+    },
+    {
+      "epoch": 2.0,
+      "step": 8676,
+      "total_flos": 9.602043799869562e+16,
+      "train_loss": 0.42129573760465744,
+      "train_runtime": 3759.5481,
+      "train_samples_per_second": 36.919,
+      "train_steps_per_second": 2.308
     }
   ],
   "logging_steps": 500,
+  "max_steps": 8676,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 9.602043799869562e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:79abd64a81d1628797e3b05d617cbcfd462e49d3557e35556bd00b2bfba490ec
-size 4731

 version https://git-lfs.github.com/spec/v1
+oid sha256:cba40d79a7093ceb2d9f9996f5cc89d2f076db111347670e9b43ca7a9fcaab95
+size 4795