Training in progress, step 4000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +294 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eb4723176030943ebde72d95a5b430beb31e429b8f07ab63805e0a19400ce394
 size 966995080

 version https://git-lfs.github.com/spec/v1
+oid sha256:4b35281e57f38653ec64c5bc5be60610b3bddf528283e52b17f94b101f0da1e3
 size 966995080

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:27774a1c9324137368765ab64656e4cba5fe09dd0b9dba44b6e5f26d0df4f7af
 size 1925064044

 version https://git-lfs.github.com/spec/v1
+oid sha256:c7dd151efea5d7680180e1189346e1df7c2dcb8e0a5fa46b8d2fff36f69f4ca9
 size 1925064044

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:27cdf2edd39f57a70573d9ff0027b58248741fcc4a77b968063bd6a9c61fd866
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:d4a887c0679a244fb3578da62fc4230274c5d38de547b25494a50298ffcd112e
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8286671647e935c888143a0e7f6f5af2bd3055ba02d389f94e0f162c96f1d80e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:9b52ab14c4ce453c2751c4f86099cc9afc680226047a17acc9c5c9e00c75b7d9
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 51.82938759538251,
-  "best_model_checkpoint": "./whisper-small-taiwanese/checkpoint-3000",
-  "epoch": 1.2007204322593557,
   "eval_steps": 1000,
-  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -874,6 +874,295 @@
       "eval_samples_per_second": 2.202,
       "eval_steps_per_second": 0.275,
       "step": 3000
     }
   ],
   "logging_steps": 25,
@@ -881,7 +1170,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 1000,
-  "total_flos": 1.385007911755776e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 51.82156133828997,
+  "best_model_checkpoint": "./whisper-small-taiwanese/checkpoint-4000",
+  "epoch": 1.6009605763458075,
   "eval_steps": 1000,
+  "global_step": 4000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 2.202,
       "eval_steps_per_second": 0.275,
       "step": 3000
+    },
+    {
+      "epoch": 1.2107264358615168,
+      "grad_norm": 10.6748628616333,
+      "learning_rate": 4.383896797153026e-06,
+      "loss": 0.7877,
+      "step": 3025
+    },
+    {
+      "epoch": 1.2207324394636783,
+      "grad_norm": 11.652464866638184,
+      "learning_rate": 4.328291814946619e-06,
+      "loss": 0.7794,
+      "step": 3050
+    },
+    {
+      "epoch": 1.2307384430658395,
+      "grad_norm": 11.998939514160156,
+      "learning_rate": 4.272686832740214e-06,
+      "loss": 0.8183,
+      "step": 3075
+    },
+    {
+      "epoch": 1.2407444466680009,
+      "grad_norm": 13.142699241638184,
+      "learning_rate": 4.217081850533808e-06,
+      "loss": 0.7834,
+      "step": 3100
+    },
+    {
+      "epoch": 1.250750450270162,
+      "grad_norm": 11.67496395111084,
+      "learning_rate": 4.161476868327402e-06,
+      "loss": 0.7594,
+      "step": 3125
+    },
+    {
+      "epoch": 1.2607564538723235,
+      "grad_norm": 11.429244995117188,
+      "learning_rate": 4.105871886120997e-06,
+      "loss": 0.7963,
+      "step": 3150
+    },
+    {
+      "epoch": 1.2707624574744847,
+      "grad_norm": 12.160046577453613,
+      "learning_rate": 4.0502669039145905e-06,
+      "loss": 0.7441,
+      "step": 3175
+    },
+    {
+      "epoch": 1.2807684610766459,
+      "grad_norm": 12.606410026550293,
+      "learning_rate": 3.994661921708186e-06,
+      "loss": 0.8733,
+      "step": 3200
+    },
+    {
+      "epoch": 1.2907744646788073,
+      "grad_norm": 14.263989448547363,
+      "learning_rate": 3.93905693950178e-06,
+      "loss": 0.7433,
+      "step": 3225
+    },
+    {
+      "epoch": 1.3007804682809687,
+      "grad_norm": 11.299212455749512,
+      "learning_rate": 3.883451957295374e-06,
+      "loss": 0.789,
+      "step": 3250
+    },
+    {
+      "epoch": 1.31078647188313,
+      "grad_norm": 12.999605178833008,
+      "learning_rate": 3.827846975088969e-06,
+      "loss": 0.7868,
+      "step": 3275
+    },
+    {
+      "epoch": 1.320792475485291,
+      "grad_norm": 10.38305950164795,
+      "learning_rate": 3.7722419928825625e-06,
+      "loss": 0.7433,
+      "step": 3300
+    },
+    {
+      "epoch": 1.3307984790874525,
+      "grad_norm": 13.05246639251709,
+      "learning_rate": 3.7166370106761567e-06,
+      "loss": 0.7547,
+      "step": 3325
+    },
+    {
+      "epoch": 1.3408044826896137,
+      "grad_norm": 11.195088386535645,
+      "learning_rate": 3.661032028469751e-06,
+      "loss": 0.8126,
+      "step": 3350
+    },
+    {
+      "epoch": 1.3508104862917751,
+      "grad_norm": 11.096240997314453,
+      "learning_rate": 3.605427046263346e-06,
+      "loss": 0.743,
+      "step": 3375
+    },
+    {
+      "epoch": 1.3608164898939363,
+      "grad_norm": 13.594226837158203,
+      "learning_rate": 3.5498220640569395e-06,
+      "loss": 0.7965,
+      "step": 3400
+    },
+    {
+      "epoch": 1.3708224934960977,
+      "grad_norm": 15.316413879394531,
+      "learning_rate": 3.4942170818505337e-06,
+      "loss": 0.7956,
+      "step": 3425
+    },
+    {
+      "epoch": 1.380828497098259,
+      "grad_norm": 12.78977108001709,
+      "learning_rate": 3.4386120996441287e-06,
+      "loss": 0.7693,
+      "step": 3450
+    },
+    {
+      "epoch": 1.3908345007004201,
+      "grad_norm": 12.662712097167969,
+      "learning_rate": 3.383007117437723e-06,
+      "loss": 0.7768,
+      "step": 3475
+    },
+    {
+      "epoch": 1.4008405043025816,
+      "grad_norm": 8.803949356079102,
+      "learning_rate": 3.327402135231317e-06,
+      "loss": 0.7622,
+      "step": 3500
+    },
+    {
+      "epoch": 1.410846507904743,
+      "grad_norm": 13.736053466796875,
+      "learning_rate": 3.2717971530249116e-06,
+      "loss": 0.8152,
+      "step": 3525
+    },
+    {
+      "epoch": 1.4208525115069042,
+      "grad_norm": 12.255024909973145,
+      "learning_rate": 3.2161921708185057e-06,
+      "loss": 0.8149,
+      "step": 3550
+    },
+    {
+      "epoch": 1.4308585151090654,
+      "grad_norm": 12.75201416015625,
+      "learning_rate": 3.1605871886121e-06,
+      "loss": 0.7471,
+      "step": 3575
+    },
+    {
+      "epoch": 1.4408645187112268,
+      "grad_norm": 13.30036449432373,
+      "learning_rate": 3.1049822064056944e-06,
+      "loss": 0.6892,
+      "step": 3600
+    },
+    {
+      "epoch": 1.450870522313388,
+      "grad_norm": 10.946511268615723,
+      "learning_rate": 3.0493772241992886e-06,
+      "loss": 0.7916,
+      "step": 3625
+    },
+    {
+      "epoch": 1.4608765259155494,
+      "grad_norm": 10.852522850036621,
+      "learning_rate": 2.9937722419928827e-06,
+      "loss": 0.7329,
+      "step": 3650
+    },
+    {
+      "epoch": 1.4708825295177106,
+      "grad_norm": 11.466883659362793,
+      "learning_rate": 2.938167259786477e-06,
+      "loss": 0.7588,
+      "step": 3675
+    },
+    {
+      "epoch": 1.480888533119872,
+      "grad_norm": 12.728093147277832,
+      "learning_rate": 2.8825622775800715e-06,
+      "loss": 0.7527,
+      "step": 3700
+    },
+    {
+      "epoch": 1.4908945367220332,
+      "grad_norm": 9.343868255615234,
+      "learning_rate": 2.8269572953736656e-06,
+      "loss": 0.7451,
+      "step": 3725
+    },
+    {
+      "epoch": 1.5009005403241944,
+      "grad_norm": 14.047112464904785,
+      "learning_rate": 2.7713523131672598e-06,
+      "loss": 0.7905,
+      "step": 3750
+    },
+    {
+      "epoch": 1.5109065439263558,
+      "grad_norm": 10.599916458129883,
+      "learning_rate": 2.7157473309608543e-06,
+      "loss": 0.7819,
+      "step": 3775
+    },
+    {
+      "epoch": 1.5209125475285172,
+      "grad_norm": 14.341135025024414,
+      "learning_rate": 2.6601423487544485e-06,
+      "loss": 0.7166,
+      "step": 3800
+    },
+    {
+      "epoch": 1.5309185511306784,
+      "grad_norm": 11.71387767791748,
+      "learning_rate": 2.6045373665480426e-06,
+      "loss": 0.7386,
+      "step": 3825
+    },
+    {
+      "epoch": 1.5409245547328396,
+      "grad_norm": 12.604011535644531,
+      "learning_rate": 2.5489323843416376e-06,
+      "loss": 0.6969,
+      "step": 3850
+    },
+    {
+      "epoch": 1.550930558335001,
+      "grad_norm": 9.848773002624512,
+      "learning_rate": 2.4933274021352318e-06,
+      "loss": 0.8356,
+      "step": 3875
+    },
+    {
+      "epoch": 1.5609365619371625,
+      "grad_norm": 14.05534553527832,
+      "learning_rate": 2.437722419928826e-06,
+      "loss": 0.7282,
+      "step": 3900
+    },
+    {
+      "epoch": 1.5709425655393234,
+      "grad_norm": 12.9791259765625,
+      "learning_rate": 2.38211743772242e-06,
+      "loss": 0.7059,
+      "step": 3925
+    },
+    {
+      "epoch": 1.5809485691414848,
+      "grad_norm": 10.708452224731445,
+      "learning_rate": 2.3265124555160142e-06,
+      "loss": 0.7712,
+      "step": 3950
+    },
+    {
+      "epoch": 1.5909545727436463,
+      "grad_norm": 13.361218452453613,
+      "learning_rate": 2.270907473309609e-06,
+      "loss": 0.719,
+      "step": 3975
+    },
+    {
+      "epoch": 1.6009605763458075,
+      "grad_norm": 11.740647315979004,
+      "learning_rate": 2.215302491103203e-06,
+      "loss": 0.8262,
+      "step": 4000
+    },
+    {
+      "epoch": 1.6009605763458075,
+      "eval_cer": 51.82156133828997,
+      "eval_loss": 0.9109482169151306,
+      "eval_runtime": 1918.0204,
+      "eval_samples_per_second": 2.068,
+      "eval_steps_per_second": 0.259,
+      "step": 4000
     }
   ],
   "logging_steps": 25,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 1000,
+  "total_flos": 1.846744552267776e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null