Training in progress, step 2000

Browse files

Files changed (8) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +254 -5
pytorch_model.bin +1 -1
runs/Jan28_23-19-38_gpu07.cyverse.org/events.out.tfevents.1674973221.gpu07.cyverse.org.79624.0 +2 -2

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3928f832ffa43479203e440c1d702ec70e639afbbf8be0f74ad08e46d5a37aa2
 size 12347192855

 version https://git-lfs.github.com/spec/v1
+oid sha256:46124b4c921f12dd4bf47335e9d76a44f1413ead1fdc2eb7bac5d8c91d14785d
 size 12347192855

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4d75b247052640cc36d977e2c464b7839b9bef6cea975a10e3ed8c3c5c4d771c
 size 6173655480

 version https://git-lfs.github.com/spec/v1
+oid sha256:5e3bce729d0a5aa88b97e2208db0eac5024f1cb7d8c05fa4291f05c5ffb546b6
 size 6173655480

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f9024766959a88a9fd64569553c8d7c1792cb6de3865adeb779034386c11f291
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:6450fb70c9f637c8cf70a85044894a9aa53e7fb40b60415f65080b1848d744f8
 size 14575

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:daf88b9d12b3bbce1da14f42d0ac40e6a337a4392e3fa1b23de731156cb740f2
 size 557

 version https://git-lfs.github.com/spec/v1
+oid sha256:73fb9353e9395a668a7a368e6a41451629f20384989decfcc02ea7b20b2db3e5
 size 557

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7c78c9c65921a4e7d0cb73e6e0d5b04b7bd6c5f72c2090d61d2c79e369efc16c
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:55371a8ee3a1d4bb4b0f9e4ee704a9718614f62f69f56fa1c068056dd8b6df67
 size 627

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-  "best_metric": 0.4409728815314771,
-  "best_model_checkpoint": "/storage/elsayedissa/whisper-large-v2-arabic-24h/checkpoint-1000",
-  "epoch": 1.7825311942959001,
-  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -255,11 +255,260 @@
       "eval_steps_per_second": 0.148,
       "eval_wer": 0.4409728815314771,
       "step": 1000
     }
   ],
   "max_steps": 5000,
   "num_train_epochs": 9,
-  "total_flos": 1.061436888428544e+20,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.42719787333206743,
+  "best_model_checkpoint": "/storage/elsayedissa/whisper-large-v2-arabic-24h/checkpoint-2000",
+  "epoch": 3.5650623885918002,
+  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 0.148,
       "eval_wer": 0.4409728815314771,
       "step": 1000
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 8.844444444444445e-06,
+      "loss": 0.1597,
+      "step": 1025
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 8.788888888888891e-06,
+      "loss": 0.1524,
+      "step": 1050
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 8.733333333333333e-06,
+      "loss": 0.1527,
+      "step": 1075
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 8.677777777777779e-06,
+      "loss": 0.151,
+      "step": 1100
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 8.622222222222223e-06,
+      "loss": 0.158,
+      "step": 1125
+    },
+    {
+      "epoch": 2.05,
+      "learning_rate": 8.566666666666667e-06,
+      "loss": 0.0797,
+      "step": 1150
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 8.511111111111113e-06,
+      "loss": 0.1002,
+      "step": 1175
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 8.455555555555555e-06,
+      "loss": 0.096,
+      "step": 1200
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 8.400000000000001e-06,
+      "loss": 0.098,
+      "step": 1225
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 8.344444444444445e-06,
+      "loss": 0.0927,
+      "step": 1250
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 8.288888888888889e-06,
+      "loss": 0.1003,
+      "step": 1275
+    },
+    {
+      "epoch": 2.32,
+      "learning_rate": 8.233333333333335e-06,
+      "loss": 0.0885,
+      "step": 1300
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 8.177777777777779e-06,
+      "loss": 0.1033,
+      "step": 1325
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 8.122222222222223e-06,
+      "loss": 0.0914,
+      "step": 1350
+    },
+    {
+      "epoch": 2.45,
+      "learning_rate": 8.066666666666667e-06,
+      "loss": 0.1049,
+      "step": 1375
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 8.011111111111113e-06,
+      "loss": 0.0889,
+      "step": 1400
+    },
+    {
+      "epoch": 2.54,
+      "learning_rate": 7.955555555555557e-06,
+      "loss": 0.0989,
+      "step": 1425
+    },
+    {
+      "epoch": 2.58,
+      "learning_rate": 7.9e-06,
+      "loss": 0.0952,
+      "step": 1450
+    },
+    {
+      "epoch": 2.63,
+      "learning_rate": 7.844444444444446e-06,
+      "loss": 0.1034,
+      "step": 1475
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 7.788888888888889e-06,
+      "loss": 0.0906,
+      "step": 1500
+    },
+    {
+      "epoch": 2.72,
+      "learning_rate": 7.733333333333334e-06,
+      "loss": 0.0946,
+      "step": 1525
+    },
+    {
+      "epoch": 2.76,
+      "learning_rate": 7.677777777777778e-06,
+      "loss": 0.0865,
+      "step": 1550
+    },
+    {
+      "epoch": 2.81,
+      "learning_rate": 7.622222222222223e-06,
+      "loss": 0.105,
+      "step": 1575
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 7.566666666666667e-06,
+      "loss": 0.0891,
+      "step": 1600
+    },
+    {
+      "epoch": 2.9,
+      "learning_rate": 7.511111111111111e-06,
+      "loss": 0.1019,
+      "step": 1625
+    },
+    {
+      "epoch": 2.94,
+      "learning_rate": 7.455555555555556e-06,
+      "loss": 0.09,
+      "step": 1650
+    },
+    {
+      "epoch": 2.99,
+      "learning_rate": 7.4e-06,
+      "loss": 0.0941,
+      "step": 1675
+    },
+    {
+      "epoch": 3.03,
+      "learning_rate": 7.344444444444445e-06,
+      "loss": 0.0618,
+      "step": 1700
+    },
+    {
+      "epoch": 3.07,
+      "learning_rate": 7.28888888888889e-06,
+      "loss": 0.0489,
+      "step": 1725
+    },
+    {
+      "epoch": 3.12,
+      "learning_rate": 7.233333333333334e-06,
+      "loss": 0.0523,
+      "step": 1750
+    },
+    {
+      "epoch": 3.16,
+      "learning_rate": 7.177777777777778e-06,
+      "loss": 0.056,
+      "step": 1775
+    },
+    {
+      "epoch": 3.21,
+      "learning_rate": 7.122222222222222e-06,
+      "loss": 0.0544,
+      "step": 1800
+    },
+    {
+      "epoch": 3.25,
+      "learning_rate": 7.066666666666667e-06,
+      "loss": 0.0535,
+      "step": 1825
+    },
+    {
+      "epoch": 3.3,
+      "learning_rate": 7.011111111111112e-06,
+      "loss": 0.0548,
+      "step": 1850
+    },
+    {
+      "epoch": 3.34,
+      "learning_rate": 6.955555555555557e-06,
+      "loss": 0.0566,
+      "step": 1875
+    },
+    {
+      "epoch": 3.39,
+      "learning_rate": 6.9e-06,
+      "loss": 0.0563,
+      "step": 1900
+    },
+    {
+      "epoch": 3.43,
+      "learning_rate": 6.844444444444445e-06,
+      "loss": 0.0566,
+      "step": 1925
+    },
+    {
+      "epoch": 3.48,
+      "learning_rate": 6.788888888888889e-06,
+      "loss": 0.0588,
+      "step": 1950
+    },
+    {
+      "epoch": 3.52,
+      "learning_rate": 6.733333333333334e-06,
+      "loss": 0.0555,
+      "step": 1975
+    },
+    {
+      "epoch": 3.57,
+      "learning_rate": 6.677777777777779e-06,
+      "loss": 0.0587,
+      "step": 2000
+    },
+    {
+      "epoch": 3.57,
+      "eval_loss": 0.23366238176822662,
+      "eval_runtime": 4445.0678,
+      "eval_samples_per_second": 2.348,
+      "eval_steps_per_second": 0.147,
+      "eval_wer": 0.42719787333206743,
+      "step": 2000
     }
   ],
   "max_steps": 5000,
   "num_train_epochs": 9,
+  "total_flos": 2.122725154885632e+20,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4d75b247052640cc36d977e2c464b7839b9bef6cea975a10e3ed8c3c5c4d771c
 size 6173655480

 version https://git-lfs.github.com/spec/v1
+oid sha256:5e3bce729d0a5aa88b97e2208db0eac5024f1cb7d8c05fa4291f05c5ffb546b6
 size 6173655480

runs/Jan28_23-19-38_gpu07.cyverse.org/events.out.tfevents.1674973221.gpu07.cyverse.org.79624.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:95e458947f47281edc1fb8aae13807adfea871559e9fa492e7b42aca2ae1996f
-size 10996

 version https://git-lfs.github.com/spec/v1
+oid sha256:15a4e7be97529d4d330c452ac014f467e347887004f00a52765249d37330791c
+size 17594