Training in progress, step 3000, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +292 -3
last-checkpoint/training_args.bin +1 -1

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:703a6ac7121d730d9c0e42b1a06b45963892be5944000d1f0185ce7044bc3c9e
 size 966995080

 version https://git-lfs.github.com/spec/v1
+oid sha256:13f8f2b474fa2b6284d59b3ee18ee12fa7507a2433ee4f0ba97cf2ecdc3c35c1
 size 966995080

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ddfbaef04fe7f922a8f6475913402834b772a6863710273bbd173e2839db0fd8
 size 1925064044

 version https://git-lfs.github.com/spec/v1
+oid sha256:b0ef1069b97fed6b2293215f8c989c7a0784d96706a1ee18b58bab201b4fc6d0
 size 1925064044

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1877997138fd6c00a4ddcc0ec7e9c019b9f4ccb7a15031d5cedb28ccb7a2c96c
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:27cdf2edd39f57a70573d9ff0027b58248741fcc4a77b968063bd6a9c61fd866
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:29fb9e79fa30fbb431af919246a50a3118e2599b8f861d1f7ece53767b613869
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:17af6a83bb1cb19cd0edadcdd8667775ae13ecbc6438dd8bbc5fbd929a74874b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 51.77491557370612,
   "best_model_checkpoint": "./whisper-small-taiwanese/checkpoint-2000",
-  "epoch": 0.8,
   "eval_steps": 1000,
-  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -585,6 +585,295 @@
       "eval_samples_per_second": 2.264,
       "eval_steps_per_second": 0.283,
       "step": 2000
     }
   ],
   "logging_steps": 25,
@@ -592,7 +881,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 1000,
-  "total_flos": 9.23473281024e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 51.77491557370612,
   "best_model_checkpoint": "./whisper-small-taiwanese/checkpoint-2000",
+  "epoch": 1.2,
   "eval_steps": 1000,
+  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 2.264,
       "eval_steps_per_second": 0.283,
       "step": 2000
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 15.01921272277832,
+      "learning_rate": 6.6111111111111115e-06,
+      "loss": 1.0203,
+      "step": 2025
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 12.810806274414062,
+      "learning_rate": 6.555555555555556e-06,
+      "loss": 1.0426,
+      "step": 2050
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 12.653311729431152,
+      "learning_rate": 6.5000000000000004e-06,
+      "loss": 1.0451,
+      "step": 2075
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 14.353548049926758,
+      "learning_rate": 6.444444444444445e-06,
+      "loss": 1.0853,
+      "step": 2100
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 12.075662612915039,
+      "learning_rate": 6.3888888888888885e-06,
+      "loss": 1.0124,
+      "step": 2125
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 14.976198196411133,
+      "learning_rate": 6.333333333333333e-06,
+      "loss": 1.0461,
+      "step": 2150
+    },
+    {
+      "epoch": 0.87,
+      "grad_norm": 12.702341079711914,
+      "learning_rate": 6.277777777777778e-06,
+      "loss": 1.0319,
+      "step": 2175
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 14.232624053955078,
+      "learning_rate": 6.222222222222223e-06,
+      "loss": 1.0174,
+      "step": 2200
+    },
+    {
+      "epoch": 0.89,
+      "grad_norm": 12.84585189819336,
+      "learning_rate": 6.166666666666667e-06,
+      "loss": 1.0275,
+      "step": 2225
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 17.438783645629883,
+      "learning_rate": 6.111111111111112e-06,
+      "loss": 0.9808,
+      "step": 2250
+    },
+    {
+      "epoch": 0.91,
+      "grad_norm": 13.450716018676758,
+      "learning_rate": 6.055555555555555e-06,
+      "loss": 1.0239,
+      "step": 2275
+    },
+    {
+      "epoch": 0.92,
+      "grad_norm": 14.077709197998047,
+      "learning_rate": 6e-06,
+      "loss": 1.0151,
+      "step": 2300
+    },
+    {
+      "epoch": 0.93,
+      "grad_norm": 10.755902290344238,
+      "learning_rate": 5.944444444444445e-06,
+      "loss": 0.9994,
+      "step": 2325
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 13.025961875915527,
+      "learning_rate": 5.88888888888889e-06,
+      "loss": 1.0136,
+      "step": 2350
+    },
+    {
+      "epoch": 0.95,
+      "grad_norm": 13.124420166015625,
+      "learning_rate": 5.833333333333334e-06,
+      "loss": 0.9732,
+      "step": 2375
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 13.470574378967285,
+      "learning_rate": 5.777777777777778e-06,
+      "loss": 0.9919,
+      "step": 2400
+    },
+    {
+      "epoch": 0.97,
+      "grad_norm": 13.073882102966309,
+      "learning_rate": 5.722222222222222e-06,
+      "loss": 0.9791,
+      "step": 2425
+    },
+    {
+      "epoch": 0.98,
+      "grad_norm": 12.156904220581055,
+      "learning_rate": 5.666666666666667e-06,
+      "loss": 0.9761,
+      "step": 2450
+    },
+    {
+      "epoch": 0.99,
+      "grad_norm": 14.560174942016602,
+      "learning_rate": 5.611111111111112e-06,
+      "loss": 0.9478,
+      "step": 2475
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 13.365988731384277,
+      "learning_rate": 5.555555555555557e-06,
+      "loss": 0.9439,
+      "step": 2500
+    },
+    {
+      "epoch": 1.01,
+      "grad_norm": 11.116703987121582,
+      "learning_rate": 5.500000000000001e-06,
+      "loss": 0.8144,
+      "step": 2525
+    },
+    {
+      "epoch": 1.02,
+      "grad_norm": 11.22291088104248,
+      "learning_rate": 5.444444444444445e-06,
+      "loss": 0.7626,
+      "step": 2550
+    },
+    {
+      "epoch": 1.03,
+      "grad_norm": 10.895951271057129,
+      "learning_rate": 5.388888888888889e-06,
+      "loss": 0.7443,
+      "step": 2575
+    },
+    {
+      "epoch": 1.04,
+      "grad_norm": 10.497587203979492,
+      "learning_rate": 5.333333333333334e-06,
+      "loss": 0.7348,
+      "step": 2600
+    },
+    {
+      "epoch": 1.05,
+      "grad_norm": 10.018071174621582,
+      "learning_rate": 5.2777777777777785e-06,
+      "loss": 0.7096,
+      "step": 2625
+    },
+    {
+      "epoch": 1.06,
+      "grad_norm": 11.595548629760742,
+      "learning_rate": 5.2222222222222226e-06,
+      "loss": 0.7527,
+      "step": 2650
+    },
+    {
+      "epoch": 1.07,
+      "grad_norm": 9.90001106262207,
+      "learning_rate": 5.1666666666666675e-06,
+      "loss": 0.7502,
+      "step": 2675
+    },
+    {
+      "epoch": 1.08,
+      "grad_norm": 14.49976921081543,
+      "learning_rate": 5.1111111111111115e-06,
+      "loss": 0.7253,
+      "step": 2700
+    },
+    {
+      "epoch": 1.09,
+      "grad_norm": 10.992387771606445,
+      "learning_rate": 5.0555555555555555e-06,
+      "loss": 0.759,
+      "step": 2725
+    },
+    {
+      "epoch": 1.1,
+      "grad_norm": 11.267956733703613,
+      "learning_rate": 5e-06,
+      "loss": 0.7174,
+      "step": 2750
+    },
+    {
+      "epoch": 1.11,
+      "grad_norm": 12.558463096618652,
+      "learning_rate": 4.944444444444445e-06,
+      "loss": 0.7936,
+      "step": 2775
+    },
+    {
+      "epoch": 1.12,
+      "grad_norm": 10.136383056640625,
+      "learning_rate": 4.888888888888889e-06,
+      "loss": 0.7573,
+      "step": 2800
+    },
+    {
+      "epoch": 1.13,
+      "grad_norm": 10.183345794677734,
+      "learning_rate": 4.833333333333333e-06,
+      "loss": 0.7704,
+      "step": 2825
+    },
+    {
+      "epoch": 1.1400000000000001,
+      "grad_norm": 10.488049507141113,
+      "learning_rate": 4.777777777777778e-06,
+      "loss": 0.7343,
+      "step": 2850
+    },
+    {
+      "epoch": 1.15,
+      "grad_norm": 12.607866287231445,
+      "learning_rate": 4.722222222222222e-06,
+      "loss": 0.7247,
+      "step": 2875
+    },
+    {
+      "epoch": 1.16,
+      "grad_norm": 10.342514991760254,
+      "learning_rate": 4.666666666666667e-06,
+      "loss": 0.7618,
+      "step": 2900
+    },
+    {
+      "epoch": 1.17,
+      "grad_norm": 10.273557662963867,
+      "learning_rate": 4.611111111111112e-06,
+      "loss": 0.805,
+      "step": 2925
+    },
+    {
+      "epoch": 1.18,
+      "grad_norm": 11.328307151794434,
+      "learning_rate": 4.555555555555556e-06,
+      "loss": 0.6998,
+      "step": 2950
+    },
+    {
+      "epoch": 1.19,
+      "grad_norm": 13.699926376342773,
+      "learning_rate": 4.5e-06,
+      "loss": 0.7924,
+      "step": 2975
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 10.797248840332031,
+      "learning_rate": 4.444444444444444e-06,
+      "loss": 0.7837,
+      "step": 3000
+    },
+    {
+      "epoch": 1.2,
+      "eval_cer": 54.1977538679023,
+      "eval_loss": 0.9572013020515442,
+      "eval_runtime": 1756.4904,
+      "eval_samples_per_second": 2.241,
+      "eval_steps_per_second": 0.28,
+      "step": 3000
     }
   ],
   "logging_steps": 25,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 1000,
+  "total_flos": 1.385209921536e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:04e771610fc099e5b30e7cffca86636d05f6b8c26a942dacf865f2937b7d763e
 size 5176

 version https://git-lfs.github.com/spec/v1
+oid sha256:7c3e5a033637a03b3c288e7f28b5f4eb2b2c22389eb467e77f64839f3948fe5f
 size 5176