Training in progress, step 4000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +294 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:13f8f2b474fa2b6284d59b3ee18ee12fa7507a2433ee4f0ba97cf2ecdc3c35c1
 size 966995080

 version https://git-lfs.github.com/spec/v1
+oid sha256:1273daa98b74ba4ee62a672a709db4ccc2eccfc87629f6d304b5f9d04b35d4a9
 size 966995080

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b0ef1069b97fed6b2293215f8c989c7a0784d96706a1ee18b58bab201b4fc6d0
 size 1925064044

 version https://git-lfs.github.com/spec/v1
+oid sha256:91ed02cdeb634f08998d0bfe9efde4e01f215fabf06e787b6c20637e7090bdc1
 size 1925064044

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:27cdf2edd39f57a70573d9ff0027b58248741fcc4a77b968063bd6a9c61fd866
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:d4a887c0679a244fb3578da62fc4230274c5d38de547b25494a50298ffcd112e
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:17af6a83bb1cb19cd0edadcdd8667775ae13ecbc6438dd8bbc5fbd929a74874b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:4a76e193687c482f6cc875caf45cbf094edc541bfbe3eb9f8259fd2d597d2f4e
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 51.77491557370612,
-  "best_model_checkpoint": "./whisper-small-taiwanese/checkpoint-2000",
-  "epoch": 1.2,
   "eval_steps": 1000,
-  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -874,6 +874,295 @@
       "eval_samples_per_second": 2.241,
       "eval_steps_per_second": 0.28,
       "step": 3000
     }
   ],
   "logging_steps": 25,
@@ -881,7 +1170,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 1000,
-  "total_flos": 1.385209921536e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 50.39660724102725,
+  "best_model_checkpoint": "./whisper-small-taiwanese/checkpoint-4000",
+  "epoch": 1.6,
   "eval_steps": 1000,
+  "global_step": 4000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 2.241,
       "eval_steps_per_second": 0.28,
       "step": 3000
+    },
+    {
+      "epoch": 1.21,
+      "grad_norm": 12.410914421081543,
+      "learning_rate": 4.388888888888889e-06,
+      "loss": 0.7325,
+      "step": 3025
+    },
+    {
+      "epoch": 1.22,
+      "grad_norm": 12.31027603149414,
+      "learning_rate": 4.333333333333334e-06,
+      "loss": 0.6914,
+      "step": 3050
+    },
+    {
+      "epoch": 1.23,
+      "grad_norm": 10.667587280273438,
+      "learning_rate": 4.277777777777778e-06,
+      "loss": 0.7216,
+      "step": 3075
+    },
+    {
+      "epoch": 1.24,
+      "grad_norm": 13.815753936767578,
+      "learning_rate": 4.222222222222223e-06,
+      "loss": 0.7235,
+      "step": 3100
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 11.412848472595215,
+      "learning_rate": 4.166666666666667e-06,
+      "loss": 0.7579,
+      "step": 3125
+    },
+    {
+      "epoch": 1.26,
+      "grad_norm": 13.73943042755127,
+      "learning_rate": 4.111111111111111e-06,
+      "loss": 0.77,
+      "step": 3150
+    },
+    {
+      "epoch": 1.27,
+      "grad_norm": 13.075247764587402,
+      "learning_rate": 4.055555555555556e-06,
+      "loss": 0.6957,
+      "step": 3175
+    },
+    {
+      "epoch": 1.28,
+      "grad_norm": 11.140027046203613,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.7516,
+      "step": 3200
+    },
+    {
+      "epoch": 1.29,
+      "grad_norm": 13.179604530334473,
+      "learning_rate": 3.944444444444445e-06,
+      "loss": 0.7427,
+      "step": 3225
+    },
+    {
+      "epoch": 1.3,
+      "grad_norm": 11.4240140914917,
+      "learning_rate": 3.88888888888889e-06,
+      "loss": 0.7679,
+      "step": 3250
+    },
+    {
+      "epoch": 1.31,
+      "grad_norm": 10.857213020324707,
+      "learning_rate": 3.833333333333334e-06,
+      "loss": 0.69,
+      "step": 3275
+    },
+    {
+      "epoch": 1.32,
+      "grad_norm": 12.246594429016113,
+      "learning_rate": 3.777777777777778e-06,
+      "loss": 0.7841,
+      "step": 3300
+    },
+    {
+      "epoch": 1.33,
+      "grad_norm": 10.60627269744873,
+      "learning_rate": 3.7222222222222225e-06,
+      "loss": 0.7167,
+      "step": 3325
+    },
+    {
+      "epoch": 1.34,
+      "grad_norm": 15.023033142089844,
+      "learning_rate": 3.6666666666666666e-06,
+      "loss": 0.753,
+      "step": 3350
+    },
+    {
+      "epoch": 1.35,
+      "grad_norm": 11.280016899108887,
+      "learning_rate": 3.6111111111111115e-06,
+      "loss": 0.7304,
+      "step": 3375
+    },
+    {
+      "epoch": 1.3599999999999999,
+      "grad_norm": 12.962152481079102,
+      "learning_rate": 3.555555555555556e-06,
+      "loss": 0.7802,
+      "step": 3400
+    },
+    {
+      "epoch": 1.37,
+      "grad_norm": 11.989816665649414,
+      "learning_rate": 3.5e-06,
+      "loss": 0.7298,
+      "step": 3425
+    },
+    {
+      "epoch": 1.38,
+      "grad_norm": 11.917997360229492,
+      "learning_rate": 3.444444444444445e-06,
+      "loss": 0.8122,
+      "step": 3450
+    },
+    {
+      "epoch": 1.3900000000000001,
+      "grad_norm": 11.995168685913086,
+      "learning_rate": 3.3888888888888893e-06,
+      "loss": 0.7428,
+      "step": 3475
+    },
+    {
+      "epoch": 1.4,
+      "grad_norm": 13.24657917022705,
+      "learning_rate": 3.3333333333333333e-06,
+      "loss": 0.7487,
+      "step": 3500
+    },
+    {
+      "epoch": 1.41,
+      "grad_norm": 14.055580139160156,
+      "learning_rate": 3.277777777777778e-06,
+      "loss": 0.735,
+      "step": 3525
+    },
+    {
+      "epoch": 1.42,
+      "grad_norm": 11.190061569213867,
+      "learning_rate": 3.2222222222222227e-06,
+      "loss": 0.747,
+      "step": 3550
+    },
+    {
+      "epoch": 1.43,
+      "grad_norm": 10.754741668701172,
+      "learning_rate": 3.1666666666666667e-06,
+      "loss": 0.7953,
+      "step": 3575
+    },
+    {
+      "epoch": 1.44,
+      "grad_norm": 11.28659725189209,
+      "learning_rate": 3.1111111111111116e-06,
+      "loss": 0.7396,
+      "step": 3600
+    },
+    {
+      "epoch": 1.45,
+      "grad_norm": 9.70627498626709,
+      "learning_rate": 3.055555555555556e-06,
+      "loss": 0.7127,
+      "step": 3625
+    },
+    {
+      "epoch": 1.46,
+      "grad_norm": 13.152200698852539,
+      "learning_rate": 3e-06,
+      "loss": 0.7299,
+      "step": 3650
+    },
+    {
+      "epoch": 1.47,
+      "grad_norm": 12.44729995727539,
+      "learning_rate": 2.944444444444445e-06,
+      "loss": 0.7195,
+      "step": 3675
+    },
+    {
+      "epoch": 1.48,
+      "grad_norm": 10.643758773803711,
+      "learning_rate": 2.888888888888889e-06,
+      "loss": 0.7772,
+      "step": 3700
+    },
+    {
+      "epoch": 1.49,
+      "grad_norm": 13.989819526672363,
+      "learning_rate": 2.8333333333333335e-06,
+      "loss": 0.7405,
+      "step": 3725
+    },
+    {
+      "epoch": 1.5,
+      "grad_norm": 9.972952842712402,
+      "learning_rate": 2.7777777777777783e-06,
+      "loss": 0.722,
+      "step": 3750
+    },
+    {
+      "epoch": 1.51,
+      "grad_norm": 12.274140357971191,
+      "learning_rate": 2.7222222222222224e-06,
+      "loss": 0.7326,
+      "step": 3775
+    },
+    {
+      "epoch": 1.52,
+      "grad_norm": 10.712841033935547,
+      "learning_rate": 2.666666666666667e-06,
+      "loss": 0.6631,
+      "step": 3800
+    },
+    {
+      "epoch": 1.53,
+      "grad_norm": 13.03647232055664,
+      "learning_rate": 2.6111111111111113e-06,
+      "loss": 0.6943,
+      "step": 3825
+    },
+    {
+      "epoch": 1.54,
+      "grad_norm": 10.963674545288086,
+      "learning_rate": 2.5555555555555557e-06,
+      "loss": 0.7379,
+      "step": 3850
+    },
+    {
+      "epoch": 1.55,
+      "grad_norm": 11.267337799072266,
+      "learning_rate": 2.5e-06,
+      "loss": 0.7165,
+      "step": 3875
+    },
+    {
+      "epoch": 1.56,
+      "grad_norm": 10.950325965881348,
+      "learning_rate": 2.4444444444444447e-06,
+      "loss": 0.718,
+      "step": 3900
+    },
+    {
+      "epoch": 1.5699999999999998,
+      "grad_norm": 12.390423774719238,
+      "learning_rate": 2.388888888888889e-06,
+      "loss": 0.76,
+      "step": 3925
+    },
+    {
+      "epoch": 1.58,
+      "grad_norm": 11.487335205078125,
+      "learning_rate": 2.3333333333333336e-06,
+      "loss": 0.7708,
+      "step": 3950
+    },
+    {
+      "epoch": 1.5899999999999999,
+      "grad_norm": 11.19138240814209,
+      "learning_rate": 2.277777777777778e-06,
+      "loss": 0.6526,
+      "step": 3975
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 10.622859954833984,
+      "learning_rate": 2.222222222222222e-06,
+      "loss": 0.7332,
+      "step": 4000
+    },
+    {
+      "epoch": 1.6,
+      "eval_cer": 50.39660724102725,
+      "eval_loss": 0.9230387210845947,
+      "eval_runtime": 1742.867,
+      "eval_samples_per_second": 2.258,
+      "eval_steps_per_second": 0.282,
+      "step": 4000
     }
   ],
   "logging_steps": 25,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 1000,
+  "total_flos": 1.846946562048e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null