Upload 13 files

Browse files

Files changed (6) hide show

optimizer.pt +2 -2
pytorch_model.bin +2 -2
rng_state.pth +2 -2
scheduler.pt +2 -2
trainer_state.json +213 -37
training_args.bin +2 -2

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2eebdf89f63210f98912665ade5f147d6f175d6bfec3e113caea30c6f21f5633
-size 4921022932

 version https://git-lfs.github.com/spec/v1
+oid sha256:363505cec6ae12edbdab7483a99dd5dabd86465bc30901b8313cd858c4ce508b
+size 4921023381

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d2e9ce5a959fab6c79e80f68ccd5df8d82151cc4baa44b3855c0186201979e6f
-size 2460468737

 version https://git-lfs.github.com/spec/v1
+oid sha256:0c75b9dea114d972be227686e7b86d98818144a94bd373a007d578b0c5bc3a3c
+size 2460469182

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c355a37d69d0547cb02f29a95e2a61f87cc33a8ab0d5dc833ec916600db936e9
-size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:01e04213085dd5e20802745853457e0bc62c5da41fc6fdd60cd5770020ea2137
+size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:82fa38df0f02319ecaf4e43060afc1125beba62a6d3e8f96799a5efccae7cb3a
-size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:9c79ebef8c5a365223a47afc841c570f47e329d645c96a8d17b00f2936856436
+size 1064

trainer_state.json CHANGED Viewed

@@ -1,67 +1,243 @@
 {
-  "best_metric": 0.3143588602542877,
-  "best_model_checkpoint": "./checkpoint-th/checkpoint-1500",
-  "epoch": 0.2763894327106894,
   "eval_steps": 500,
-  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.09,
-      "learning_rate": 1.963147226828819e-05,
-      "loss": 4.6049,
       "step": 500
     },
     {
-      "epoch": 0.09,
-      "eval_bleu": 24.7133,
-      "eval_gen_len": 33.9437,
-      "eval_loss": 1.1478698253631592,
-      "eval_runtime": 214.6895,
-      "eval_samples_per_second": 4.714,
-      "eval_steps_per_second": 1.178,
       "step": 500
     },
     {
-      "epoch": 0.18,
-      "learning_rate": 1.9262944536576377e-05,
-      "loss": 0.3574,
       "step": 1000
     },
     {
-      "epoch": 0.18,
-      "eval_bleu": 25.1845,
-      "eval_gen_len": 34.0662,
-      "eval_loss": 0.31802815198898315,
-      "eval_runtime": 214.1787,
-      "eval_samples_per_second": 4.725,
-      "eval_steps_per_second": 1.181,
       "step": 1000
     },
     {
-      "epoch": 0.28,
-      "learning_rate": 1.8894416804864568e-05,
-      "loss": 0.1925,
       "step": 1500
     },
     {
-      "epoch": 0.28,
-      "eval_bleu": 25.5018,
-      "eval_gen_len": 33.7075,
-      "eval_loss": 0.3143588602542877,
-      "eval_runtime": 211.869,
-      "eval_samples_per_second": 4.777,
-      "eval_steps_per_second": 1.194,
       "step": 1500
     }
   ],
   "logging_steps": 500,
-  "max_steps": 27135,
-  "num_train_epochs": 5,
   "save_steps": 500,
-  "total_flos": 1.04021020901376e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.28169530630111694,
+  "best_model_checkpoint": "./checkpoint-lo/checkpoint-1500",
+  "epoch": 12.698301245753115,
   "eval_steps": 500,
+  "global_step": 7000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.91,
+      "learning_rate": 1.8790078644888082e-05,
+      "loss": 4.5919,
       "step": 500
     },
     {
+      "epoch": 0.91,
+      "eval_bleu": 32.6249,
+      "eval_gen_len": 32.6077,
+      "eval_loss": 1.1729092597961426,
+      "eval_runtime": 207.0111,
+      "eval_samples_per_second": 4.889,
+      "eval_steps_per_second": 1.222,
       "step": 500
     },
     {
+      "epoch": 1.81,
+      "learning_rate": 1.7580157289776165e-05,
+      "loss": 0.3216,
       "step": 1000
     },
     {
+      "epoch": 1.81,
+      "eval_bleu": 33.2994,
+      "eval_gen_len": 32.8577,
+      "eval_loss": 0.2831147611141205,
+      "eval_runtime": 231.4494,
+      "eval_samples_per_second": 4.372,
+      "eval_steps_per_second": 1.093,
       "step": 1000
     },
     {
+      "epoch": 2.72,
+      "learning_rate": 1.637023593466425e-05,
+      "loss": 0.1325,
       "step": 1500
     },
     {
+      "epoch": 2.72,
+      "eval_bleu": 33.7596,
+      "eval_gen_len": 32.5978,
+      "eval_loss": 0.28169530630111694,
+      "eval_runtime": 195.7742,
+      "eval_samples_per_second": 5.169,
+      "eval_steps_per_second": 1.292,
       "step": 1500
+    },
+    {
+      "epoch": 3.63,
+      "learning_rate": 1.516031457955233e-05,
+      "loss": 0.2509,
+      "step": 2000
+    },
+    {
+      "epoch": 3.63,
+      "eval_bleu": 8.1225,
+      "eval_gen_len": 42.5958,
+      "eval_loss": 0.576555609703064,
+      "eval_runtime": 240.5328,
+      "eval_samples_per_second": 4.207,
+      "eval_steps_per_second": 1.052,
+      "step": 2000
+    },
+    {
+      "epoch": 4.53,
+      "learning_rate": 1.3950393224440413e-05,
+      "loss": 0.2255,
+      "step": 2500
+    },
+    {
+      "epoch": 4.53,
+      "eval_bleu": 7.8932,
+      "eval_gen_len": 43.3468,
+      "eval_loss": 0.5630556344985962,
+      "eval_runtime": 238.3063,
+      "eval_samples_per_second": 4.247,
+      "eval_steps_per_second": 1.062,
+      "step": 2500
+    },
+    {
+      "epoch": 5.44,
+      "learning_rate": 1.2740471869328494e-05,
+      "loss": 0.2123,
+      "step": 3000
+    },
+    {
+      "epoch": 5.44,
+      "eval_bleu": 7.8523,
+      "eval_gen_len": 43.2866,
+      "eval_loss": 0.5581173896789551,
+      "eval_runtime": 238.527,
+      "eval_samples_per_second": 4.243,
+      "eval_steps_per_second": 1.061,
+      "step": 3000
+    },
+    {
+      "epoch": 6.35,
+      "learning_rate": 1.1530550514216576e-05,
+      "loss": 0.2061,
+      "step": 3500
+    },
+    {
+      "epoch": 6.35,
+      "eval_bleu": 7.8532,
+      "eval_gen_len": 42.9358,
+      "eval_loss": 0.555178701877594,
+      "eval_runtime": 243.8895,
+      "eval_samples_per_second": 4.149,
+      "eval_steps_per_second": 1.037,
+      "step": 3500
+    },
+    {
+      "epoch": 7.25,
+      "learning_rate": 1.0320629159104658e-05,
+      "loss": 0.2001,
+      "step": 4000
+    },
+    {
+      "epoch": 7.25,
+      "eval_bleu": 7.8643,
+      "eval_gen_len": 43.7075,
+      "eval_loss": 0.5538426637649536,
+      "eval_runtime": 243.9747,
+      "eval_samples_per_second": 4.148,
+      "eval_steps_per_second": 1.037,
+      "step": 4000
+    },
+    {
+      "epoch": 8.16,
+      "learning_rate": 9.110707803992742e-06,
+      "loss": 0.1935,
+      "step": 4500
+    },
+    {
+      "epoch": 8.16,
+      "eval_bleu": 7.884,
+      "eval_gen_len": 43.6126,
+      "eval_loss": 0.5509431958198547,
+      "eval_runtime": 253.7386,
+      "eval_samples_per_second": 3.988,
+      "eval_steps_per_second": 0.997,
+      "step": 4500
+    },
+    {
+      "epoch": 9.07,
+      "learning_rate": 7.900786448880823e-06,
+      "loss": 0.1902,
+      "step": 5000
+    },
+    {
+      "epoch": 9.07,
+      "eval_bleu": 7.8327,
+      "eval_gen_len": 43.2352,
+      "eval_loss": 0.5488432049751282,
+      "eval_runtime": 241.3846,
+      "eval_samples_per_second": 4.192,
+      "eval_steps_per_second": 1.048,
+      "step": 5000
+    },
+    {
+      "epoch": 9.97,
+      "learning_rate": 6.690865093768906e-06,
+      "loss": 0.1867,
+      "step": 5500
+    },
+    {
+      "epoch": 9.97,
+      "eval_bleu": 7.8753,
+      "eval_gen_len": 43.75,
+      "eval_loss": 0.5456582903862,
+      "eval_runtime": 247.5702,
+      "eval_samples_per_second": 4.088,
+      "eval_steps_per_second": 1.022,
+      "step": 5500
+    },
+    {
+      "epoch": 10.89,
+      "learning_rate": 5.480943738656987e-06,
+      "loss": 0.1295,
+      "step": 6000
+    },
+    {
+      "epoch": 10.89,
+      "eval_bleu": 33.7401,
+      "eval_gen_len": 32.753,
+      "eval_loss": 0.2826240658760071,
+      "eval_runtime": 200.2264,
+      "eval_samples_per_second": 5.054,
+      "eval_steps_per_second": 1.264,
+      "step": 6000
+    },
+    {
+      "epoch": 11.79,
+      "learning_rate": 4.27102238354507e-06,
+      "loss": 0.1255,
+      "step": 6500
+    },
+    {
+      "epoch": 11.79,
+      "eval_bleu": 33.767,
+      "eval_gen_len": 32.7213,
+      "eval_loss": 0.2822073698043823,
+      "eval_runtime": 206.8407,
+      "eval_samples_per_second": 4.893,
+      "eval_steps_per_second": 1.223,
+      "step": 6500
+    },
+    {
+      "epoch": 12.7,
+      "learning_rate": 3.061101028433152e-06,
+      "loss": 0.1246,
+      "step": 7000
+    },
+    {
+      "epoch": 12.7,
+      "eval_bleu": 33.7958,
+      "eval_gen_len": 32.7233,
+      "eval_loss": 0.2822967767715454,
+      "eval_runtime": 200.4031,
+      "eval_samples_per_second": 5.05,
+      "eval_steps_per_second": 1.262,
+      "step": 7000
     }
   ],
   "logging_steps": 500,
+  "max_steps": 8265,
+  "num_train_epochs": 15,
   "save_steps": 500,
+  "total_flos": 4.85372919048831e+17,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bc9d4a097563d213d1df784742d8f330c779d845f3d571ee263c56996903cd83
-size 4155

 version https://git-lfs.github.com/spec/v1
+oid sha256:dc546a60bdbe8984b13752ac638a419b4b874e40de5590070d95dd2d21303c3b
+size 4728