Training in progress, step 4000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +294 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:11656bf7f033202b92b73fbd190a96edd871986eae5df5760f4085f5dda8ca05
 size 966995080

 version https://git-lfs.github.com/spec/v1
+oid sha256:0abaa86fc4833d57f7fe503c09526ace445919e1b76f14b35ac06c12e186254f
 size 966995080

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:65bb8e9be3f0e1854108e3633b2dea43fc25763c0c02b9d8dc515936b822151a
 size 1925064044

 version https://git-lfs.github.com/spec/v1
+oid sha256:77a61b8fba58f2ecec15e248785b8d20ba3be4672b027d63e4ae27a50a6e05e6
 size 1925064044

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:27cdf2edd39f57a70573d9ff0027b58248741fcc4a77b968063bd6a9c61fd866
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:d4a887c0679a244fb3578da62fc4230274c5d38de547b25494a50298ffcd112e
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:17af6a83bb1cb19cd0edadcdd8667775ae13ecbc6438dd8bbc5fbd929a74874b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:4a76e193687c482f6cc875caf45cbf094edc541bfbe3eb9f8259fd2d597d2f4e
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 19.074374661838764,
-  "best_model_checkpoint": "./whisper-small-taiwanese-hanzi/checkpoint-3000",
-  "epoch": 1.2,
   "eval_steps": 1000,
-  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -874,6 +874,295 @@
       "eval_samples_per_second": 2.265,
       "eval_steps_per_second": 0.283,
       "step": 3000
     }
   ],
   "logging_steps": 25,
@@ -881,7 +1170,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 1000,
-  "total_flos": 1.385209921536e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 18.183709992924626,
+  "best_model_checkpoint": "./whisper-small-taiwanese-hanzi/checkpoint-4000",
+  "epoch": 1.6,
   "eval_steps": 1000,
+  "global_step": 4000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 2.265,
       "eval_steps_per_second": 0.283,
       "step": 3000
+    },
+    {
+      "epoch": 1.21,
+      "grad_norm": 7.052708148956299,
+      "learning_rate": 4.388888888888889e-06,
+      "loss": 0.2062,
+      "step": 3025
+    },
+    {
+      "epoch": 1.22,
+      "grad_norm": 9.39709186553955,
+      "learning_rate": 4.333333333333334e-06,
+      "loss": 0.2342,
+      "step": 3050
+    },
+    {
+      "epoch": 1.23,
+      "grad_norm": 5.614500522613525,
+      "learning_rate": 4.277777777777778e-06,
+      "loss": 0.218,
+      "step": 3075
+    },
+    {
+      "epoch": 1.24,
+      "grad_norm": 7.228747367858887,
+      "learning_rate": 4.222222222222223e-06,
+      "loss": 0.2154,
+      "step": 3100
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 10.118727684020996,
+      "learning_rate": 4.166666666666667e-06,
+      "loss": 0.2519,
+      "step": 3125
+    },
+    {
+      "epoch": 1.26,
+      "grad_norm": 9.65976333618164,
+      "learning_rate": 4.111111111111111e-06,
+      "loss": 0.2336,
+      "step": 3150
+    },
+    {
+      "epoch": 1.27,
+      "grad_norm": 9.654402732849121,
+      "learning_rate": 4.055555555555556e-06,
+      "loss": 0.2474,
+      "step": 3175
+    },
+    {
+      "epoch": 1.28,
+      "grad_norm": 6.564414024353027,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.2329,
+      "step": 3200
+    },
+    {
+      "epoch": 1.29,
+      "grad_norm": 7.532024383544922,
+      "learning_rate": 3.944444444444445e-06,
+      "loss": 0.2135,
+      "step": 3225
+    },
+    {
+      "epoch": 1.3,
+      "grad_norm": 5.012012004852295,
+      "learning_rate": 3.88888888888889e-06,
+      "loss": 0.2278,
+      "step": 3250
+    },
+    {
+      "epoch": 1.31,
+      "grad_norm": 7.632811069488525,
+      "learning_rate": 3.833333333333334e-06,
+      "loss": 0.2238,
+      "step": 3275
+    },
+    {
+      "epoch": 1.32,
+      "grad_norm": 6.163909912109375,
+      "learning_rate": 3.777777777777778e-06,
+      "loss": 0.2338,
+      "step": 3300
+    },
+    {
+      "epoch": 1.33,
+      "grad_norm": 7.474846839904785,
+      "learning_rate": 3.7222222222222225e-06,
+      "loss": 0.2217,
+      "step": 3325
+    },
+    {
+      "epoch": 1.34,
+      "grad_norm": 9.621731758117676,
+      "learning_rate": 3.6666666666666666e-06,
+      "loss": 0.226,
+      "step": 3350
+    },
+    {
+      "epoch": 1.35,
+      "grad_norm": 7.167582035064697,
+      "learning_rate": 3.6111111111111115e-06,
+      "loss": 0.2219,
+      "step": 3375
+    },
+    {
+      "epoch": 1.3599999999999999,
+      "grad_norm": 8.028946876525879,
+      "learning_rate": 3.555555555555556e-06,
+      "loss": 0.2243,
+      "step": 3400
+    },
+    {
+      "epoch": 1.37,
+      "grad_norm": 9.479345321655273,
+      "learning_rate": 3.5e-06,
+      "loss": 0.2486,
+      "step": 3425
+    },
+    {
+      "epoch": 1.38,
+      "grad_norm": 7.631903648376465,
+      "learning_rate": 3.444444444444445e-06,
+      "loss": 0.219,
+      "step": 3450
+    },
+    {
+      "epoch": 1.3900000000000001,
+      "grad_norm": 8.521742820739746,
+      "learning_rate": 3.3888888888888893e-06,
+      "loss": 0.2106,
+      "step": 3475
+    },
+    {
+      "epoch": 1.4,
+      "grad_norm": 9.257588386535645,
+      "learning_rate": 3.3333333333333333e-06,
+      "loss": 0.225,
+      "step": 3500
+    },
+    {
+      "epoch": 1.41,
+      "grad_norm": 10.871211051940918,
+      "learning_rate": 3.277777777777778e-06,
+      "loss": 0.2248,
+      "step": 3525
+    },
+    {
+      "epoch": 1.42,
+      "grad_norm": 5.058568954467773,
+      "learning_rate": 3.2222222222222227e-06,
+      "loss": 0.2315,
+      "step": 3550
+    },
+    {
+      "epoch": 1.43,
+      "grad_norm": 5.446198463439941,
+      "learning_rate": 3.1666666666666667e-06,
+      "loss": 0.2213,
+      "step": 3575
+    },
+    {
+      "epoch": 1.44,
+      "grad_norm": 7.046563148498535,
+      "learning_rate": 3.1111111111111116e-06,
+      "loss": 0.2029,
+      "step": 3600
+    },
+    {
+      "epoch": 1.45,
+      "grad_norm": 6.039666175842285,
+      "learning_rate": 3.055555555555556e-06,
+      "loss": 0.2046,
+      "step": 3625
+    },
+    {
+      "epoch": 1.46,
+      "grad_norm": 6.638487815856934,
+      "learning_rate": 3e-06,
+      "loss": 0.2218,
+      "step": 3650
+    },
+    {
+      "epoch": 1.47,
+      "grad_norm": 9.455551147460938,
+      "learning_rate": 2.944444444444445e-06,
+      "loss": 0.2252,
+      "step": 3675
+    },
+    {
+      "epoch": 1.48,
+      "grad_norm": 9.041964530944824,
+      "learning_rate": 2.888888888888889e-06,
+      "loss": 0.2082,
+      "step": 3700
+    },
+    {
+      "epoch": 1.49,
+      "grad_norm": 10.04900074005127,
+      "learning_rate": 2.8333333333333335e-06,
+      "loss": 0.2298,
+      "step": 3725
+    },
+    {
+      "epoch": 1.5,
+      "grad_norm": 5.999593734741211,
+      "learning_rate": 2.7777777777777783e-06,
+      "loss": 0.2085,
+      "step": 3750
+    },
+    {
+      "epoch": 1.51,
+      "grad_norm": 7.189665794372559,
+      "learning_rate": 2.7222222222222224e-06,
+      "loss": 0.2016,
+      "step": 3775
+    },
+    {
+      "epoch": 1.52,
+      "grad_norm": 6.945767879486084,
+      "learning_rate": 2.666666666666667e-06,
+      "loss": 0.2196,
+      "step": 3800
+    },
+    {
+      "epoch": 1.53,
+      "grad_norm": 6.626684188842773,
+      "learning_rate": 2.6111111111111113e-06,
+      "loss": 0.1848,
+      "step": 3825
+    },
+    {
+      "epoch": 1.54,
+      "grad_norm": 8.809107780456543,
+      "learning_rate": 2.5555555555555557e-06,
+      "loss": 0.2567,
+      "step": 3850
+    },
+    {
+      "epoch": 1.55,
+      "grad_norm": 6.8933186531066895,
+      "learning_rate": 2.5e-06,
+      "loss": 0.2177,
+      "step": 3875
+    },
+    {
+      "epoch": 1.56,
+      "grad_norm": 5.856971740722656,
+      "learning_rate": 2.4444444444444447e-06,
+      "loss": 0.214,
+      "step": 3900
+    },
+    {
+      "epoch": 1.5699999999999998,
+      "grad_norm": 6.439066410064697,
+      "learning_rate": 2.388888888888889e-06,
+      "loss": 0.2088,
+      "step": 3925
+    },
+    {
+      "epoch": 1.58,
+      "grad_norm": 6.070130348205566,
+      "learning_rate": 2.3333333333333336e-06,
+      "loss": 0.2085,
+      "step": 3950
+    },
+    {
+      "epoch": 1.5899999999999999,
+      "grad_norm": 7.12228536605835,
+      "learning_rate": 2.277777777777778e-06,
+      "loss": 0.1959,
+      "step": 3975
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 5.102252006530762,
+      "learning_rate": 2.222222222222222e-06,
+      "loss": 0.2183,
+      "step": 4000
+    },
+    {
+      "epoch": 1.6,
+      "eval_cer": 18.183709992924626,
+      "eval_loss": 0.3092849850654602,
+      "eval_runtime": 1753.7044,
+      "eval_samples_per_second": 2.244,
+      "eval_steps_per_second": 0.281,
+      "step": 4000
     }
   ],
   "logging_steps": 25,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 1000,
+  "total_flos": 1.846946562048e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null