Training in progress, step 2000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +294 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:27dfc3f476549bed133cf918ed6f896e43f792a41e630a39487725be9ec39ef0
 size 966995080

 version https://git-lfs.github.com/spec/v1
+oid sha256:703a6ac7121d730d9c0e42b1a06b45963892be5944000d1f0185ce7044bc3c9e
 size 966995080

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ab736d290d4d38ce8584a21f9201c95d1dc4854988ff48ca8afd3e0962a1f95e
 size 1925064044

 version https://git-lfs.github.com/spec/v1
+oid sha256:ddfbaef04fe7f922a8f6475913402834b772a6863710273bbd173e2839db0fd8
 size 1925064044

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d1f09b1f1f9b06ad2afb12e89fc8695073b76afcf9ea0b3552c7069932117824
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:1877997138fd6c00a4ddcc0ec7e9c019b9f4ccb7a15031d5cedb28ccb7a2c96c
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a51738ca0af55e803ac3fdbc0e3b67846eda4ca13018dd2960c216586e47c984
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:29fb9e79fa30fbb431af919246a50a3118e2599b8f861d1f7ece53767b613869
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 61.163904814262146,
-  "best_model_checkpoint": "./whisper-small-taiwanese/checkpoint-1000",
-  "epoch": 0.4,
   "eval_steps": 1000,
-  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -296,6 +296,295 @@
       "eval_samples_per_second": 2.257,
       "eval_steps_per_second": 0.282,
       "step": 1000
     }
   ],
   "logging_steps": 25,
@@ -303,7 +592,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 1000,
-  "total_flos": 4.61736640512e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 51.77491557370612,
+  "best_model_checkpoint": "./whisper-small-taiwanese/checkpoint-2000",
+  "epoch": 0.8,
   "eval_steps": 1000,
+  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 2.257,
       "eval_steps_per_second": 0.282,
       "step": 1000
+    },
+    {
+      "epoch": 0.41,
+      "grad_norm": 11.293231964111328,
+      "learning_rate": 8.833333333333334e-06,
+      "loss": 1.153,
+      "step": 1025
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 13.314165115356445,
+      "learning_rate": 8.777777777777778e-06,
+      "loss": 1.168,
+      "step": 1050
+    },
+    {
+      "epoch": 0.43,
+      "grad_norm": 13.231385231018066,
+      "learning_rate": 8.722222222222224e-06,
+      "loss": 1.1613,
+      "step": 1075
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 13.21717643737793,
+      "learning_rate": 8.666666666666668e-06,
+      "loss": 1.1246,
+      "step": 1100
+    },
+    {
+      "epoch": 0.45,
+      "grad_norm": 11.046935081481934,
+      "learning_rate": 8.611111111111112e-06,
+      "loss": 1.088,
+      "step": 1125
+    },
+    {
+      "epoch": 0.46,
+      "grad_norm": 14.906622886657715,
+      "learning_rate": 8.555555555555556e-06,
+      "loss": 1.19,
+      "step": 1150
+    },
+    {
+      "epoch": 0.47,
+      "grad_norm": 14.302517890930176,
+      "learning_rate": 8.5e-06,
+      "loss": 1.1351,
+      "step": 1175
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 13.947770118713379,
+      "learning_rate": 8.444444444444446e-06,
+      "loss": 1.057,
+      "step": 1200
+    },
+    {
+      "epoch": 0.49,
+      "grad_norm": 14.45609188079834,
+      "learning_rate": 8.38888888888889e-06,
+      "loss": 1.0993,
+      "step": 1225
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 14.952827453613281,
+      "learning_rate": 8.333333333333334e-06,
+      "loss": 1.1626,
+      "step": 1250
+    },
+    {
+      "epoch": 0.51,
+      "grad_norm": 16.128353118896484,
+      "learning_rate": 8.277777777777778e-06,
+      "loss": 1.1082,
+      "step": 1275
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 13.550396919250488,
+      "learning_rate": 8.222222222222222e-06,
+      "loss": 1.183,
+      "step": 1300
+    },
+    {
+      "epoch": 0.53,
+      "grad_norm": 14.400228500366211,
+      "learning_rate": 8.166666666666668e-06,
+      "loss": 1.1988,
+      "step": 1325
+    },
+    {
+      "epoch": 0.54,
+      "grad_norm": 13.9801607131958,
+      "learning_rate": 8.111111111111112e-06,
+      "loss": 1.1314,
+      "step": 1350
+    },
+    {
+      "epoch": 0.55,
+      "grad_norm": 12.84874439239502,
+      "learning_rate": 8.055555555555557e-06,
+      "loss": 1.1411,
+      "step": 1375
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 14.126324653625488,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 1.1314,
+      "step": 1400
+    },
+    {
+      "epoch": 0.57,
+      "grad_norm": 12.402750015258789,
+      "learning_rate": 7.944444444444445e-06,
+      "loss": 1.1071,
+      "step": 1425
+    },
+    {
+      "epoch": 0.58,
+      "grad_norm": 13.835284233093262,
+      "learning_rate": 7.88888888888889e-06,
+      "loss": 1.1393,
+      "step": 1450
+    },
+    {
+      "epoch": 0.59,
+      "grad_norm": 12.414569854736328,
+      "learning_rate": 7.833333333333333e-06,
+      "loss": 1.1026,
+      "step": 1475
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 15.43626880645752,
+      "learning_rate": 7.77777777777778e-06,
+      "loss": 1.164,
+      "step": 1500
+    },
+    {
+      "epoch": 0.61,
+      "grad_norm": 13.067487716674805,
+      "learning_rate": 7.722222222222223e-06,
+      "loss": 1.0448,
+      "step": 1525
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 14.158551216125488,
+      "learning_rate": 7.666666666666667e-06,
+      "loss": 1.1674,
+      "step": 1550
+    },
+    {
+      "epoch": 0.63,
+      "grad_norm": 13.062005996704102,
+      "learning_rate": 7.611111111111111e-06,
+      "loss": 1.0916,
+      "step": 1575
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 13.6104736328125,
+      "learning_rate": 7.555555555555556e-06,
+      "loss": 1.0424,
+      "step": 1600
+    },
+    {
+      "epoch": 0.65,
+      "grad_norm": 11.52835750579834,
+      "learning_rate": 7.500000000000001e-06,
+      "loss": 1.0196,
+      "step": 1625
+    },
+    {
+      "epoch": 0.66,
+      "grad_norm": 14.118935585021973,
+      "learning_rate": 7.444444444444445e-06,
+      "loss": 1.1502,
+      "step": 1650
+    },
+    {
+      "epoch": 0.67,
+      "grad_norm": 13.2473726272583,
+      "learning_rate": 7.38888888888889e-06,
+      "loss": 1.0562,
+      "step": 1675
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 13.026944160461426,
+      "learning_rate": 7.333333333333333e-06,
+      "loss": 1.0391,
+      "step": 1700
+    },
+    {
+      "epoch": 0.69,
+      "grad_norm": 11.923539161682129,
+      "learning_rate": 7.277777777777778e-06,
+      "loss": 1.063,
+      "step": 1725
+    },
+    {
+      "epoch": 0.7,
+      "grad_norm": 10.581581115722656,
+      "learning_rate": 7.222222222222223e-06,
+      "loss": 1.0504,
+      "step": 1750
+    },
+    {
+      "epoch": 0.71,
+      "grad_norm": 13.761798858642578,
+      "learning_rate": 7.166666666666667e-06,
+      "loss": 1.1781,
+      "step": 1775
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 13.440286636352539,
+      "learning_rate": 7.111111111111112e-06,
+      "loss": 1.088,
+      "step": 1800
+    },
+    {
+      "epoch": 0.73,
+      "grad_norm": 11.378331184387207,
+      "learning_rate": 7.055555555555557e-06,
+      "loss": 1.017,
+      "step": 1825
+    },
+    {
+      "epoch": 0.74,
+      "grad_norm": 16.24916648864746,
+      "learning_rate": 7e-06,
+      "loss": 1.0669,
+      "step": 1850
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 14.499041557312012,
+      "learning_rate": 6.944444444444445e-06,
+      "loss": 1.023,
+      "step": 1875
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 14.587787628173828,
+      "learning_rate": 6.88888888888889e-06,
+      "loss": 1.1128,
+      "step": 1900
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 14.249890327453613,
+      "learning_rate": 6.833333333333334e-06,
+      "loss": 1.0462,
+      "step": 1925
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 13.22544002532959,
+      "learning_rate": 6.777777777777779e-06,
+      "loss": 1.0564,
+      "step": 1950
+    },
+    {
+      "epoch": 0.79,
+      "grad_norm": 13.404162406921387,
+      "learning_rate": 6.7222222222222235e-06,
+      "loss": 1.0517,
+      "step": 1975
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 13.87370491027832,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 1.0556,
+      "step": 2000
+    },
+    {
+      "epoch": 0.8,
+      "eval_cer": 51.77491557370612,
+      "eval_loss": 1.0214924812316895,
+      "eval_runtime": 1738.5549,
+      "eval_samples_per_second": 2.264,
+      "eval_steps_per_second": 0.283,
+      "step": 2000
     }
   ],
   "logging_steps": 25,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 1000,
+  "total_flos": 9.23473281024e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null