Training in progress, step 6000, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/config.json +1 -1
last-checkpoint/generation_config.json +1 -1
last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +296 -7
last-checkpoint/training_args.bin +1 -1

last-checkpoint/config.json CHANGED Viewed

@@ -45,7 +45,7 @@
   "scale_embedding": false,
   "suppress_tokens": [],
   "torch_dtype": "float32",
-  "transformers_version": "4.40.1",
   "use_cache": false,
   "use_weighted_layer_sum": false,
   "vocab_size": 51865

   "scale_embedding": false,
   "suppress_tokens": [],
   "torch_dtype": "float32",
+  "transformers_version": "4.40.2",
   "use_cache": false,
   "use_weighted_layer_sum": false,
   "vocab_size": 51865

last-checkpoint/generation_config.json CHANGED Viewed

@@ -262,5 +262,5 @@
     "transcribe": 50359,
     "translate": 50358
   },
-  "transformers_version": "4.40.1"
 }

     "transcribe": 50359,
     "translate": 50358
   },
+  "transformers_version": "4.40.2"
 }

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0351867dc343cc644a28fc7f80c1d8e42d179bfa7434369ea19f3aff0a0e16ec
 size 966995080

 version https://git-lfs.github.com/spec/v1
+oid sha256:9ec0246d4e2aea1b71a33338e4420dd5d8c26630b4c1753f038e7f2036aad545
 size 966995080

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ee26c72857b99db7819dd149497f03225610ad437f9f2abb41a02876eef42e29
 size 1925064044

 version https://git-lfs.github.com/spec/v1
+oid sha256:cdc53657d0d3de6712008710ba891fd0a388a380e3678a28f24c312f466e7db5
 size 1925064044

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fce579953b334f6cfba9152781b4b5b016a30a4024c41dd066d03ae60bfaddc7
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:01936a26df76d30ee6550fdbb203f4526dab703ccbf83b9464caef2a32f84a5b
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3d6123b92a1a964482602c80eafadd952483e879e0467db7e659b5938ddcc1ab
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:8bdbe69a1efdf2a6b7b8df096446c782edc1c5607aae343868c0f0cf62a3941a
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 50.39660724102725,
-  "best_model_checkpoint": "./whisper-small-taiwanese/checkpoint-4000",
-  "epoch": 2.0,
   "eval_steps": 1000,
-  "global_step": 5000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1452,14 +1452,303 @@
       "eval_samples_per_second": 2.246,
       "eval_steps_per_second": 0.281,
       "step": 5000
     }
   ],
   "logging_steps": 25,
-  "max_steps": 5000,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 2,
   "save_steps": 1000,
-  "total_flos": 2.30868320256e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 49.85901151405969,
+  "best_model_checkpoint": "./whisper-small-taiwanese/checkpoint-6000",
+  "epoch": 2.4,
   "eval_steps": 1000,
+  "global_step": 6000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 2.246,
       "eval_steps_per_second": 0.281,
       "step": 5000
+    },
+    {
+      "epoch": 2.01,
+      "grad_norm": 12.426376342773438,
+      "learning_rate": 4.907407407407408e-06,
+      "loss": 0.5823,
+      "step": 5025
+    },
+    {
+      "epoch": 2.02,
+      "grad_norm": 10.951026916503906,
+      "learning_rate": 4.876543209876544e-06,
+      "loss": 0.6085,
+      "step": 5050
+    },
+    {
+      "epoch": 2.03,
+      "grad_norm": 10.53141975402832,
+      "learning_rate": 4.845679012345679e-06,
+      "loss": 0.5771,
+      "step": 5075
+    },
+    {
+      "epoch": 2.04,
+      "grad_norm": 13.22917366027832,
+      "learning_rate": 4.814814814814815e-06,
+      "loss": 0.6013,
+      "step": 5100
+    },
+    {
+      "epoch": 2.05,
+      "grad_norm": 12.245888710021973,
+      "learning_rate": 4.783950617283951e-06,
+      "loss": 0.559,
+      "step": 5125
+    },
+    {
+      "epoch": 2.06,
+      "grad_norm": 10.822369575500488,
+      "learning_rate": 4.753086419753087e-06,
+      "loss": 0.6044,
+      "step": 5150
+    },
+    {
+      "epoch": 2.07,
+      "grad_norm": 13.181960105895996,
+      "learning_rate": 4.722222222222222e-06,
+      "loss": 0.6063,
+      "step": 5175
+    },
+    {
+      "epoch": 2.08,
+      "grad_norm": 10.481088638305664,
+      "learning_rate": 4.691358024691358e-06,
+      "loss": 0.572,
+      "step": 5200
+    },
+    {
+      "epoch": 2.09,
+      "grad_norm": 10.6892671585083,
+      "learning_rate": 4.660493827160494e-06,
+      "loss": 0.6041,
+      "step": 5225
+    },
+    {
+      "epoch": 2.1,
+      "grad_norm": 11.274572372436523,
+      "learning_rate": 4.62962962962963e-06,
+      "loss": 0.5608,
+      "step": 5250
+    },
+    {
+      "epoch": 2.11,
+      "grad_norm": 11.774944305419922,
+      "learning_rate": 4.598765432098766e-06,
+      "loss": 0.6163,
+      "step": 5275
+    },
+    {
+      "epoch": 2.12,
+      "grad_norm": 10.94110107421875,
+      "learning_rate": 4.567901234567902e-06,
+      "loss": 0.5816,
+      "step": 5300
+    },
+    {
+      "epoch": 2.13,
+      "grad_norm": 10.177285194396973,
+      "learning_rate": 4.537037037037038e-06,
+      "loss": 0.557,
+      "step": 5325
+    },
+    {
+      "epoch": 2.14,
+      "grad_norm": 9.426462173461914,
+      "learning_rate": 4.506172839506173e-06,
+      "loss": 0.6411,
+      "step": 5350
+    },
+    {
+      "epoch": 2.15,
+      "grad_norm": 9.961886405944824,
+      "learning_rate": 4.475308641975309e-06,
+      "loss": 0.5906,
+      "step": 5375
+    },
+    {
+      "epoch": 2.16,
+      "grad_norm": 11.078606605529785,
+      "learning_rate": 4.444444444444444e-06,
+      "loss": 0.622,
+      "step": 5400
+    },
+    {
+      "epoch": 2.17,
+      "grad_norm": 10.944733619689941,
+      "learning_rate": 4.413580246913581e-06,
+      "loss": 0.6154,
+      "step": 5425
+    },
+    {
+      "epoch": 2.18,
+      "grad_norm": 10.523876190185547,
+      "learning_rate": 4.382716049382716e-06,
+      "loss": 0.6698,
+      "step": 5450
+    },
+    {
+      "epoch": 2.19,
+      "grad_norm": 12.090290069580078,
+      "learning_rate": 4.351851851851852e-06,
+      "loss": 0.6269,
+      "step": 5475
+    },
+    {
+      "epoch": 2.2,
+      "grad_norm": 9.12374210357666,
+      "learning_rate": 4.3209876543209875e-06,
+      "loss": 0.6209,
+      "step": 5500
+    },
+    {
+      "epoch": 2.21,
+      "grad_norm": 11.668550491333008,
+      "learning_rate": 4.290123456790124e-06,
+      "loss": 0.6692,
+      "step": 5525
+    },
+    {
+      "epoch": 2.22,
+      "grad_norm": 13.481975555419922,
+      "learning_rate": 4.2592592592592596e-06,
+      "loss": 0.6093,
+      "step": 5550
+    },
+    {
+      "epoch": 2.23,
+      "grad_norm": 12.388972282409668,
+      "learning_rate": 4.228395061728396e-06,
+      "loss": 0.5941,
+      "step": 5575
+    },
+    {
+      "epoch": 2.24,
+      "grad_norm": 9.559195518493652,
+      "learning_rate": 4.197530864197531e-06,
+      "loss": 0.5782,
+      "step": 5600
+    },
+    {
+      "epoch": 2.25,
+      "grad_norm": 10.876689910888672,
+      "learning_rate": 4.166666666666667e-06,
+      "loss": 0.5896,
+      "step": 5625
+    },
+    {
+      "epoch": 2.26,
+      "grad_norm": 10.03794002532959,
+      "learning_rate": 4.135802469135803e-06,
+      "loss": 0.6243,
+      "step": 5650
+    },
+    {
+      "epoch": 2.27,
+      "grad_norm": 11.717126846313477,
+      "learning_rate": 4.104938271604938e-06,
+      "loss": 0.6205,
+      "step": 5675
+    },
+    {
+      "epoch": 2.2800000000000002,
+      "grad_norm": 13.434377670288086,
+      "learning_rate": 4.074074074074074e-06,
+      "loss": 0.6419,
+      "step": 5700
+    },
+    {
+      "epoch": 2.29,
+      "grad_norm": 8.062933921813965,
+      "learning_rate": 4.04320987654321e-06,
+      "loss": 0.6042,
+      "step": 5725
+    },
+    {
+      "epoch": 2.3,
+      "grad_norm": 11.512144088745117,
+      "learning_rate": 4.012345679012346e-06,
+      "loss": 0.5766,
+      "step": 5750
+    },
+    {
+      "epoch": 2.31,
+      "grad_norm": 12.437589645385742,
+      "learning_rate": 3.9814814814814814e-06,
+      "loss": 0.6139,
+      "step": 5775
+    },
+    {
+      "epoch": 2.32,
+      "grad_norm": 13.863161087036133,
+      "learning_rate": 3.9506172839506175e-06,
+      "loss": 0.6477,
+      "step": 5800
+    },
+    {
+      "epoch": 2.33,
+      "grad_norm": 12.266985893249512,
+      "learning_rate": 3.9197530864197535e-06,
+      "loss": 0.5743,
+      "step": 5825
+    },
+    {
+      "epoch": 2.34,
+      "grad_norm": 9.438658714294434,
+      "learning_rate": 3.88888888888889e-06,
+      "loss": 0.5324,
+      "step": 5850
+    },
+    {
+      "epoch": 2.35,
+      "grad_norm": 10.063249588012695,
+      "learning_rate": 3.858024691358025e-06,
+      "loss": 0.5516,
+      "step": 5875
+    },
+    {
+      "epoch": 2.36,
+      "grad_norm": 11.568090438842773,
+      "learning_rate": 3.827160493827161e-06,
+      "loss": 0.6009,
+      "step": 5900
+    },
+    {
+      "epoch": 2.37,
+      "grad_norm": 12.200023651123047,
+      "learning_rate": 3.796296296296297e-06,
+      "loss": 0.5942,
+      "step": 5925
+    },
+    {
+      "epoch": 2.38,
+      "grad_norm": 9.803306579589844,
+      "learning_rate": 3.7654320987654325e-06,
+      "loss": 0.5866,
+      "step": 5950
+    },
+    {
+      "epoch": 2.39,
+      "grad_norm": 10.597114562988281,
+      "learning_rate": 3.734567901234568e-06,
+      "loss": 0.6058,
+      "step": 5975
+    },
+    {
+      "epoch": 2.4,
+      "grad_norm": 11.030874252319336,
+      "learning_rate": 3.7037037037037037e-06,
+      "loss": 0.6211,
+      "step": 6000
+    },
+    {
+      "epoch": 2.4,
+      "eval_cer": 49.85901151405969,
+      "eval_loss": 0.9176779985427856,
+      "eval_runtime": 1772.9346,
+      "eval_samples_per_second": 2.22,
+      "eval_steps_per_second": 0.278,
+      "step": 6000
     }
   ],
   "logging_steps": 25,
+  "max_steps": 9000,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
   "save_steps": 1000,
+  "total_flos": 2.770419843072e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7c3e5a033637a03b3c288e7f28b5f4eb2b2c22389eb467e77f64839f3948fe5f
 size 5176

 version https://git-lfs.github.com/spec/v1
+oid sha256:239dc06417f57db987ec4b8fd6d7236222d6262229a2d5b5d78a349f1ba73d59
 size 5176