zuazo commited on
Commit
4331dda
·
verified ·
1 Parent(s): 27bbc22

End of training

Browse files
README.md CHANGED
@@ -1,21 +1,24 @@
1
  ---
 
 
2
  license: apache-2.0
3
  base_model: openai/whisper-tiny
4
  tags:
 
5
  - generated_from_trainer
6
  datasets:
7
- - common_voice_13_0
8
  metrics:
9
  - wer
10
  model-index:
11
- - name: openai/whisper-tiny
12
  results:
13
  - task:
14
  name: Automatic Speech Recognition
15
  type: automatic-speech-recognition
16
  dataset:
17
- name: common_voice_13_0
18
- type: common_voice_13_0
19
  config: gl
20
  split: test
21
  args: gl
@@ -28,9 +31,9 @@ model-index:
28
  <!-- This model card has been generated automatically according to the information the Trainer had access to. You
29
  should probably proofread and complete it, then remove this comment. -->
30
 
31
- # openai/whisper-tiny
32
 
33
- This model is a fine-tuned version of [openai/whisper-tiny](https://huggingface.co/openai/whisper-tiny) on the common_voice_13_0 dataset.
34
  It achieves the following results on the evaluation set:
35
  - Loss: 0.6003
36
  - Wer: 26.1331
 
1
  ---
2
+ language:
3
+ - gl
4
  license: apache-2.0
5
  base_model: openai/whisper-tiny
6
  tags:
7
+ - whisper-event
8
  - generated_from_trainer
9
  datasets:
10
+ - mozilla-foundation/common_voice_13_0
11
  metrics:
12
  - wer
13
  model-index:
14
+ - name: Whisper Tiny Galician
15
  results:
16
  - task:
17
  name: Automatic Speech Recognition
18
  type: automatic-speech-recognition
19
  dataset:
20
+ name: mozilla-foundation/common_voice_13_0 gl
21
+ type: mozilla-foundation/common_voice_13_0
22
  config: gl
23
  split: test
24
  args: gl
 
31
  <!-- This model card has been generated automatically according to the information the Trainer had access to. You
32
  should probably proofread and complete it, then remove this comment. -->
33
 
34
+ # Whisper Tiny Galician
35
 
36
+ This model is a fine-tuned version of [openai/whisper-tiny](https://huggingface.co/openai/whisper-tiny) on the mozilla-foundation/common_voice_13_0 gl dataset.
37
  It achieves the following results on the evaluation set:
38
  - Loss: 0.6003
39
  - Wer: 26.1331
all_results.json CHANGED
@@ -1,12 +1,12 @@
1
  {
2
- "epoch": 99.01,
3
- "eval_loss": 0.5832294821739197,
4
- "eval_runtime": 845.9676,
5
- "eval_samples_per_second": 7.738,
6
- "eval_steps_per_second": 0.061,
7
- "eval_wer": 26.35037251655629,
8
- "train_loss": 0.05570581116452813,
9
- "train_runtime": 137346.4264,
10
- "train_samples_per_second": 9.319,
11
- "train_steps_per_second": 0.036
12
  }
 
1
  {
2
+ "epoch": 100.0,
3
+ "eval_loss": 0.6002562642097473,
4
+ "eval_runtime": 42.818,
5
+ "eval_samples_per_second": 152.88,
6
+ "eval_steps_per_second": 1.214,
7
+ "eval_wer": 26.13307119205298,
8
+ "train_loss": 0.5713151776909828,
9
+ "train_runtime": 5322.8653,
10
+ "train_samples_per_second": 240.472,
11
+ "train_steps_per_second": 0.939
12
  }
eval_results.json CHANGED
@@ -1,8 +1,8 @@
1
  {
2
- "epoch": 99.01,
3
- "eval_loss": 0.5832294821739197,
4
- "eval_runtime": 845.9676,
5
- "eval_samples_per_second": 7.738,
6
- "eval_steps_per_second": 0.061,
7
- "eval_wer": 26.35037251655629
8
  }
 
1
  {
2
+ "epoch": 100.0,
3
+ "eval_loss": 0.6002562642097473,
4
+ "eval_runtime": 42.818,
5
+ "eval_samples_per_second": 152.88,
6
+ "eval_steps_per_second": 1.214,
7
+ "eval_wer": 26.13307119205298
8
  }
runs/Jan02_16-03-37_hyperion-255/events.out.tfevents.1735835766.hyperion-255 ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:20dc660e88429f172d44bc31dd454e7f6f4318f580161013f2e09c0561d68e8b
3
+ size 40
train_results.json CHANGED
@@ -1,7 +1,7 @@
1
  {
2
- "epoch": 99.01,
3
- "train_loss": 0.05570581116452813,
4
- "train_runtime": 137346.4264,
5
- "train_samples_per_second": 9.319,
6
- "train_steps_per_second": 0.036
7
  }
 
1
  {
2
+ "epoch": 100.0,
3
+ "train_loss": 0.5713151776909828,
4
+ "train_runtime": 5322.8653,
5
+ "train_samples_per_second": 240.472,
6
+ "train_steps_per_second": 0.939
7
  }
trainer_state.json CHANGED
@@ -1,7 +1,7 @@
1
  {
2
- "best_metric": 26.35037251655629,
3
- "best_model_checkpoint": "./checkpoint-1000",
4
- "epoch": 99.01,
5
  "eval_steps": 1000,
6
  "global_step": 5000,
7
  "is_hyper_param_search": false,
@@ -9,1265 +9,1267 @@
9
  "is_world_process_zero": true,
10
  "log_history": [
11
  {
12
- "epoch": 0.01,
13
  "learning_rate": 1.575e-06,
14
- "loss": 2.2585,
15
  "step": 25
16
  },
17
  {
18
- "epoch": 0.01,
19
  "learning_rate": 3.4499999999999996e-06,
20
- "loss": 1.6463,
21
  "step": 50
22
  },
23
  {
24
- "epoch": 1.0,
25
  "learning_rate": 5.324999999999999e-06,
26
- "loss": 1.0949,
27
  "step": 75
28
  },
29
  {
30
- "epoch": 1.01,
31
  "learning_rate": 7.2e-06,
32
- "loss": 0.7923,
33
  "step": 100
34
  },
35
  {
36
- "epoch": 2.0,
37
  "learning_rate": 9.074999999999999e-06,
38
- "loss": 0.6811,
39
  "step": 125
40
  },
41
  {
42
- "epoch": 2.01,
43
  "learning_rate": 1.0949999999999998e-05,
44
- "loss": 0.5602,
45
  "step": 150
46
  },
47
  {
48
- "epoch": 3.0,
49
  "learning_rate": 1.2825e-05,
50
- "loss": 0.5154,
51
  "step": 175
52
  },
53
  {
54
- "epoch": 3.01,
55
  "learning_rate": 1.47e-05,
56
- "loss": 0.4336,
57
  "step": 200
58
  },
59
  {
60
- "epoch": 4.0,
61
  "learning_rate": 1.6575e-05,
62
- "loss": 0.4093,
63
  "step": 225
64
  },
65
  {
66
- "epoch": 4.01,
67
  "learning_rate": 1.8449999999999998e-05,
68
- "loss": 0.3408,
69
  "step": 250
70
  },
71
  {
72
- "epoch": 5.0,
73
  "learning_rate": 2.0325e-05,
74
- "loss": 0.3255,
75
  "step": 275
76
  },
77
  {
78
- "epoch": 5.01,
79
  "learning_rate": 2.2199999999999998e-05,
80
- "loss": 0.2656,
81
  "step": 300
82
  },
83
  {
84
- "epoch": 6.0,
85
  "learning_rate": 2.4075e-05,
86
- "loss": 0.2539,
87
  "step": 325
88
  },
89
  {
90
- "epoch": 6.01,
91
  "learning_rate": 2.5949999999999997e-05,
92
- "loss": 0.201,
93
  "step": 350
94
  },
95
  {
96
- "epoch": 7.0,
97
  "learning_rate": 2.7825e-05,
98
- "loss": 0.1936,
99
  "step": 375
100
  },
101
  {
102
- "epoch": 7.01,
103
  "learning_rate": 2.97e-05,
104
- "loss": 0.1458,
105
  "step": 400
106
  },
107
  {
108
- "epoch": 8.01,
109
  "learning_rate": 3.1574999999999995e-05,
110
- "loss": 0.1416,
111
  "step": 425
112
  },
113
  {
114
- "epoch": 8.01,
115
  "learning_rate": 3.345e-05,
116
- "loss": 0.1008,
117
  "step": 450
118
  },
119
  {
120
- "epoch": 9.01,
121
  "learning_rate": 3.5325e-05,
122
- "loss": 0.0983,
123
  "step": 475
124
  },
125
  {
126
- "epoch": 9.01,
127
  "learning_rate": 3.7199999999999996e-05,
128
- "loss": 0.0675,
129
  "step": 500
130
  },
131
  {
132
- "epoch": 10.01,
133
  "learning_rate": 3.732499999999999e-05,
134
- "loss": 0.0681,
135
  "step": 525
136
  },
137
  {
138
- "epoch": 10.01,
139
  "learning_rate": 3.711666666666666e-05,
140
- "loss": 0.0453,
141
  "step": 550
142
  },
143
  {
144
- "epoch": 11.01,
145
  "learning_rate": 3.690833333333333e-05,
146
- "loss": 0.0487,
147
  "step": 575
148
  },
149
  {
150
- "epoch": 11.01,
151
  "learning_rate": 3.67e-05,
152
- "loss": 0.0333,
153
  "step": 600
154
  },
155
  {
156
- "epoch": 12.01,
157
  "learning_rate": 3.649166666666667e-05,
158
- "loss": 0.0377,
159
  "step": 625
160
  },
161
  {
162
- "epoch": 12.01,
163
  "learning_rate": 3.6283333333333325e-05,
164
- "loss": 0.026,
165
  "step": 650
166
  },
167
  {
168
- "epoch": 13.01,
169
  "learning_rate": 3.6074999999999996e-05,
170
- "loss": 0.0277,
171
  "step": 675
172
  },
173
  {
174
- "epoch": 13.01,
175
  "learning_rate": 3.586666666666666e-05,
176
- "loss": 0.02,
177
  "step": 700
178
  },
179
  {
180
- "epoch": 14.01,
181
  "learning_rate": 3.565833333333333e-05,
182
- "loss": 0.0215,
183
  "step": 725
184
  },
185
  {
186
- "epoch": 14.01,
187
  "learning_rate": 3.545e-05,
188
- "loss": 0.0157,
189
  "step": 750
190
  },
191
  {
192
- "epoch": 15.01,
193
  "learning_rate": 3.5241666666666665e-05,
194
- "loss": 0.0167,
195
  "step": 775
196
  },
197
  {
198
- "epoch": 15.01,
199
  "learning_rate": 3.503333333333333e-05,
200
- "loss": 0.0132,
201
  "step": 800
202
  },
203
  {
204
- "epoch": 16.0,
205
  "learning_rate": 3.482499999999999e-05,
206
- "loss": 0.0138,
207
  "step": 825
208
  },
209
  {
210
- "epoch": 16.01,
211
  "learning_rate": 3.461666666666666e-05,
212
- "loss": 0.0108,
213
  "step": 850
214
  },
215
  {
216
- "epoch": 17.0,
217
  "learning_rate": 3.4408333333333334e-05,
218
- "loss": 0.0113,
219
  "step": 875
220
  },
221
  {
222
- "epoch": 17.01,
223
  "learning_rate": 3.42e-05,
224
- "loss": 0.0088,
225
  "step": 900
226
  },
227
  {
228
- "epoch": 18.0,
229
  "learning_rate": 3.399166666666667e-05,
230
- "loss": 0.0093,
231
  "step": 925
232
  },
233
  {
234
- "epoch": 18.01,
235
  "learning_rate": 3.3783333333333326e-05,
236
- "loss": 0.0079,
237
  "step": 950
238
  },
239
  {
240
- "epoch": 19.0,
241
  "learning_rate": 3.3574999999999996e-05,
242
- "loss": 0.0077,
243
  "step": 975
244
  },
245
  {
246
- "epoch": 19.01,
247
  "learning_rate": 3.336666666666667e-05,
248
- "loss": 0.0062,
249
  "step": 1000
250
  },
251
  {
252
- "epoch": 19.01,
253
- "eval_loss": 0.5832294821739197,
254
- "eval_runtime": 629.2972,
255
- "eval_samples_per_second": 10.402,
256
- "eval_steps_per_second": 0.083,
257
- "eval_wer": 26.35037251655629,
258
  "step": 1000
259
  },
260
  {
261
- "epoch": 20.0,
262
  "learning_rate": 3.315833333333333e-05,
263
- "loss": 0.0059,
264
  "step": 1025
265
  },
266
  {
267
- "epoch": 20.01,
268
  "learning_rate": 3.295e-05,
269
- "loss": 0.005,
270
  "step": 1050
271
  },
272
  {
273
- "epoch": 21.0,
274
  "learning_rate": 3.2741666666666665e-05,
275
- "loss": 0.0047,
276
  "step": 1075
277
  },
278
  {
279
- "epoch": 21.01,
280
  "learning_rate": 3.253333333333333e-05,
281
- "loss": 0.0041,
282
  "step": 1100
283
  },
284
  {
285
- "epoch": 22.0,
286
  "learning_rate": 3.2325e-05,
287
- "loss": 0.004,
288
  "step": 1125
289
  },
290
  {
291
- "epoch": 22.01,
292
  "learning_rate": 3.2116666666666664e-05,
293
- "loss": 0.0035,
294
  "step": 1150
295
  },
296
  {
297
- "epoch": 23.0,
298
  "learning_rate": 3.1908333333333334e-05,
299
- "loss": 0.0036,
300
  "step": 1175
301
  },
302
  {
303
- "epoch": 23.01,
304
  "learning_rate": 3.17e-05,
305
- "loss": 0.0036,
306
  "step": 1200
307
  },
308
  {
309
- "epoch": 24.0,
310
  "learning_rate": 3.149166666666666e-05,
311
- "loss": 0.0038,
312
  "step": 1225
313
  },
314
  {
315
- "epoch": 24.01,
316
  "learning_rate": 3.128333333333333e-05,
317
- "loss": 0.0034,
318
  "step": 1250
319
  },
320
  {
321
- "epoch": 25.0,
322
  "learning_rate": 3.1074999999999996e-05,
323
- "loss": 0.0033,
324
  "step": 1275
325
  },
326
  {
327
- "epoch": 25.01,
328
  "learning_rate": 3.086666666666667e-05,
329
- "loss": 0.003,
330
  "step": 1300
331
  },
332
  {
333
- "epoch": 26.0,
334
  "learning_rate": 3.065833333333333e-05,
335
- "loss": 0.0032,
336
  "step": 1325
337
  },
338
  {
339
- "epoch": 26.01,
340
  "learning_rate": 3.0449999999999998e-05,
341
- "loss": 0.0026,
342
  "step": 1350
343
  },
344
  {
345
- "epoch": 27.0,
346
  "learning_rate": 3.0241666666666662e-05,
347
- "loss": 0.0026,
348
  "step": 1375
349
  },
350
  {
351
- "epoch": 27.01,
352
  "learning_rate": 3.003333333333333e-05,
353
- "loss": 0.0023,
354
  "step": 1400
355
  },
356
  {
357
- "epoch": 28.0,
358
  "learning_rate": 2.9824999999999997e-05,
359
- "loss": 0.0024,
360
  "step": 1425
361
  },
362
  {
363
- "epoch": 28.01,
364
  "learning_rate": 2.9616666666666664e-05,
365
- "loss": 0.0021,
366
  "step": 1450
367
  },
368
  {
369
- "epoch": 29.0,
370
  "learning_rate": 2.940833333333333e-05,
371
- "loss": 0.0022,
372
  "step": 1475
373
  },
374
  {
375
- "epoch": 29.01,
376
  "learning_rate": 2.9199999999999995e-05,
377
- "loss": 0.002,
378
  "step": 1500
379
  },
380
  {
381
- "epoch": 30.0,
382
  "learning_rate": 2.8991666666666662e-05,
383
- "loss": 0.002,
384
  "step": 1525
385
  },
386
  {
387
- "epoch": 30.01,
388
  "learning_rate": 2.878333333333333e-05,
389
- "loss": 0.0019,
390
  "step": 1550
391
  },
392
  {
393
- "epoch": 31.0,
394
  "learning_rate": 2.8574999999999997e-05,
395
- "loss": 0.0019,
396
  "step": 1575
397
  },
398
  {
399
- "epoch": 31.01,
400
  "learning_rate": 2.8366666666666664e-05,
401
- "loss": 0.0018,
402
  "step": 1600
403
  },
404
  {
405
- "epoch": 32.01,
406
  "learning_rate": 2.815833333333333e-05,
407
- "loss": 0.0018,
408
  "step": 1625
409
  },
410
  {
411
- "epoch": 32.01,
412
  "learning_rate": 2.7949999999999995e-05,
413
- "loss": 0.0017,
414
  "step": 1650
415
  },
416
  {
417
- "epoch": 33.01,
418
  "learning_rate": 2.7741666666666662e-05,
419
- "loss": 0.0017,
420
  "step": 1675
421
  },
422
  {
423
- "epoch": 33.01,
424
  "learning_rate": 2.753333333333333e-05,
425
- "loss": 0.0016,
426
  "step": 1700
427
  },
428
  {
429
- "epoch": 34.01,
430
  "learning_rate": 2.7324999999999997e-05,
431
- "loss": 0.0016,
432
  "step": 1725
433
  },
434
  {
435
- "epoch": 34.01,
436
  "learning_rate": 2.7116666666666667e-05,
437
- "loss": 0.0015,
438
  "step": 1750
439
  },
440
  {
441
- "epoch": 35.01,
442
  "learning_rate": 2.6908333333333328e-05,
443
- "loss": 0.0015,
444
  "step": 1775
445
  },
446
  {
447
- "epoch": 35.01,
448
  "learning_rate": 2.6699999999999995e-05,
449
- "loss": 0.0014,
450
  "step": 1800
451
  },
452
  {
453
- "epoch": 36.01,
454
  "learning_rate": 2.6491666666666662e-05,
455
- "loss": 0.0015,
456
  "step": 1825
457
  },
458
  {
459
- "epoch": 36.01,
460
  "learning_rate": 2.628333333333333e-05,
461
- "loss": 0.0013,
462
  "step": 1850
463
  },
464
  {
465
- "epoch": 37.01,
466
  "learning_rate": 2.6075e-05,
467
- "loss": 0.0014,
468
  "step": 1875
469
  },
470
  {
471
- "epoch": 37.01,
472
  "learning_rate": 2.5866666666666667e-05,
473
- "loss": 0.0013,
474
  "step": 1900
475
  },
476
  {
477
- "epoch": 38.01,
478
  "learning_rate": 2.5658333333333328e-05,
479
- "loss": 0.0013,
480
  "step": 1925
481
  },
482
  {
483
- "epoch": 38.01,
484
  "learning_rate": 2.5449999999999995e-05,
485
- "loss": 0.0012,
486
  "step": 1950
487
  },
488
  {
489
- "epoch": 39.01,
490
  "learning_rate": 2.5241666666666666e-05,
491
- "loss": 0.0013,
492
  "step": 1975
493
  },
494
  {
495
- "epoch": 39.01,
496
  "learning_rate": 2.5033333333333333e-05,
497
- "loss": 0.0012,
498
  "step": 2000
499
  },
500
  {
501
- "epoch": 39.01,
502
- "eval_loss": 0.6526896953582764,
503
- "eval_runtime": 685.933,
504
- "eval_samples_per_second": 9.543,
505
- "eval_steps_per_second": 0.076,
506
- "eval_wer": 26.71771523178808,
507
  "step": 2000
508
  },
509
  {
510
- "epoch": 40.01,
511
  "learning_rate": 2.4825e-05,
512
- "loss": 0.0012,
513
  "step": 2025
514
  },
515
  {
516
- "epoch": 40.01,
517
  "learning_rate": 2.4616666666666668e-05,
518
- "loss": 0.0011,
519
  "step": 2050
520
  },
521
  {
522
- "epoch": 41.01,
523
  "learning_rate": 2.4408333333333328e-05,
524
- "loss": 0.0011,
525
  "step": 2075
526
  },
527
  {
528
- "epoch": 41.01,
529
  "learning_rate": 2.42e-05,
530
- "loss": 0.0011,
531
  "step": 2100
532
  },
533
  {
534
- "epoch": 42.01,
535
  "learning_rate": 2.3991666666666666e-05,
536
- "loss": 0.0011,
537
  "step": 2125
538
  },
539
  {
540
- "epoch": 42.01,
541
  "learning_rate": 2.3783333333333333e-05,
542
- "loss": 0.001,
543
  "step": 2150
544
  },
545
  {
546
- "epoch": 43.01,
547
  "learning_rate": 2.3575e-05,
548
- "loss": 0.0011,
549
  "step": 2175
550
  },
551
  {
552
- "epoch": 43.01,
553
  "learning_rate": 2.3366666666666664e-05,
554
- "loss": 0.001,
555
  "step": 2200
556
  },
557
  {
558
- "epoch": 44.01,
559
  "learning_rate": 2.315833333333333e-05,
560
- "loss": 0.001,
561
  "step": 2225
562
  },
563
  {
564
- "epoch": 44.01,
565
  "learning_rate": 2.295e-05,
566
- "loss": 0.0009,
567
  "step": 2250
568
  },
569
  {
570
- "epoch": 45.01,
571
  "learning_rate": 2.2741666666666666e-05,
572
- "loss": 0.001,
573
  "step": 2275
574
  },
575
  {
576
- "epoch": 45.01,
577
  "learning_rate": 2.2533333333333333e-05,
578
- "loss": 0.0009,
579
  "step": 2300
580
  },
581
  {
582
- "epoch": 46.01,
583
  "learning_rate": 2.2325e-05,
584
- "loss": 0.0009,
585
  "step": 2325
586
  },
587
  {
588
- "epoch": 46.01,
589
  "learning_rate": 2.2116666666666664e-05,
590
- "loss": 0.0009,
591
  "step": 2350
592
  },
593
  {
594
- "epoch": 47.01,
595
  "learning_rate": 2.190833333333333e-05,
596
- "loss": 0.0009,
597
  "step": 2375
598
  },
599
  {
600
- "epoch": 47.01,
601
  "learning_rate": 2.17e-05,
602
- "loss": 0.0009,
603
  "step": 2400
604
  },
605
  {
606
- "epoch": 48.01,
607
  "learning_rate": 2.1491666666666666e-05,
608
- "loss": 0.0009,
609
  "step": 2425
610
  },
611
  {
612
- "epoch": 48.01,
613
  "learning_rate": 2.1283333333333333e-05,
614
- "loss": 0.0008,
615
  "step": 2450
616
  },
617
  {
618
- "epoch": 49.01,
619
  "learning_rate": 2.1075e-05,
620
- "loss": 0.0008,
621
  "step": 2475
622
  },
623
  {
624
- "epoch": 49.01,
625
  "learning_rate": 2.0866666666666665e-05,
626
- "loss": 0.0008,
627
  "step": 2500
628
  },
629
  {
630
- "epoch": 50.01,
631
  "learning_rate": 2.0658333333333332e-05,
632
- "loss": 0.0008,
633
  "step": 2525
634
  },
635
  {
636
- "epoch": 50.01,
637
  "learning_rate": 2.045e-05,
638
- "loss": 0.0008,
639
  "step": 2550
640
  },
641
  {
642
- "epoch": 51.01,
643
  "learning_rate": 2.0241666666666666e-05,
644
- "loss": 0.0008,
645
  "step": 2575
646
  },
647
  {
648
- "epoch": 51.01,
649
  "learning_rate": 2.0033333333333334e-05,
650
- "loss": 0.0007,
651
  "step": 2600
652
  },
653
  {
654
- "epoch": 52.01,
655
  "learning_rate": 1.9824999999999997e-05,
656
- "loss": 0.0008,
657
  "step": 2625
658
  },
659
  {
660
- "epoch": 52.01,
661
  "learning_rate": 1.9616666666666665e-05,
662
- "loss": 0.0007,
663
  "step": 2650
664
  },
665
  {
666
- "epoch": 53.01,
667
  "learning_rate": 1.9408333333333332e-05,
668
- "loss": 0.0007,
669
  "step": 2675
670
  },
671
  {
672
- "epoch": 53.01,
673
  "learning_rate": 1.92e-05,
674
- "loss": 0.0007,
675
  "step": 2700
676
  },
677
  {
678
- "epoch": 54.01,
679
  "learning_rate": 1.8991666666666666e-05,
680
- "loss": 0.0007,
681
  "step": 2725
682
  },
683
  {
684
- "epoch": 54.01,
685
  "learning_rate": 1.8783333333333334e-05,
686
- "loss": 0.0007,
687
  "step": 2750
688
  },
689
  {
690
- "epoch": 55.01,
691
  "learning_rate": 1.8574999999999997e-05,
692
- "loss": 0.0007,
693
  "step": 2775
694
  },
695
  {
696
- "epoch": 55.01,
697
  "learning_rate": 1.8366666666666665e-05,
698
- "loss": 0.0007,
699
  "step": 2800
700
  },
701
  {
702
- "epoch": 56.01,
703
  "learning_rate": 1.8158333333333332e-05,
704
- "loss": 0.0007,
705
  "step": 2825
706
  },
707
  {
708
- "epoch": 56.01,
709
  "learning_rate": 1.795e-05,
710
- "loss": 0.0006,
711
  "step": 2850
712
  },
713
  {
714
- "epoch": 57.01,
715
  "learning_rate": 1.7741666666666663e-05,
716
- "loss": 0.0007,
717
  "step": 2875
718
  },
719
  {
720
- "epoch": 57.01,
721
  "learning_rate": 1.753333333333333e-05,
722
- "loss": 0.0006,
723
  "step": 2900
724
  },
725
  {
726
- "epoch": 58.01,
727
  "learning_rate": 1.7325e-05,
728
- "loss": 0.0006,
729
  "step": 2925
730
  },
731
  {
732
- "epoch": 58.01,
733
  "learning_rate": 1.7116666666666665e-05,
734
- "loss": 0.0006,
735
  "step": 2950
736
  },
737
  {
738
- "epoch": 59.01,
739
  "learning_rate": 1.6908333333333332e-05,
740
- "loss": 0.0006,
741
  "step": 2975
742
  },
743
  {
744
- "epoch": 59.01,
745
  "learning_rate": 1.67e-05,
746
- "loss": 0.0006,
747
  "step": 3000
748
  },
749
  {
750
- "epoch": 59.01,
751
- "eval_loss": 0.6950027942657471,
752
- "eval_runtime": 885.7004,
753
- "eval_samples_per_second": 7.391,
754
- "eval_steps_per_second": 0.059,
755
- "eval_wer": 27.435154525386313,
756
  "step": 3000
757
  },
758
  {
759
- "epoch": 60.01,
760
  "learning_rate": 1.6491666666666663e-05,
761
- "loss": 0.0006,
762
  "step": 3025
763
  },
764
  {
765
- "epoch": 60.01,
766
  "learning_rate": 1.6283333333333334e-05,
767
- "loss": 0.0006,
768
  "step": 3050
769
  },
770
  {
771
- "epoch": 61.01,
772
  "learning_rate": 1.6074999999999998e-05,
773
- "loss": 0.0006,
774
  "step": 3075
775
  },
776
  {
777
- "epoch": 61.01,
778
  "learning_rate": 1.5866666666666665e-05,
779
- "loss": 0.0006,
780
  "step": 3100
781
  },
782
  {
783
- "epoch": 62.01,
784
  "learning_rate": 1.5658333333333332e-05,
785
- "loss": 0.0006,
786
  "step": 3125
787
  },
788
  {
789
- "epoch": 62.01,
790
  "learning_rate": 1.545e-05,
791
- "loss": 0.0006,
792
  "step": 3150
793
  },
794
  {
795
- "epoch": 63.01,
796
  "learning_rate": 1.5241666666666665e-05,
797
- "loss": 0.0006,
798
  "step": 3175
799
  },
800
  {
801
- "epoch": 63.01,
802
  "learning_rate": 1.5033333333333332e-05,
803
- "loss": 0.0005,
804
  "step": 3200
805
  },
806
  {
807
- "epoch": 64.0,
808
  "learning_rate": 1.4824999999999998e-05,
809
- "loss": 0.0006,
810
  "step": 3225
811
  },
812
  {
813
- "epoch": 64.01,
814
  "learning_rate": 1.4616666666666665e-05,
815
- "loss": 0.0005,
816
  "step": 3250
817
  },
818
  {
819
- "epoch": 65.0,
820
  "learning_rate": 1.4408333333333332e-05,
821
- "loss": 0.0005,
822
  "step": 3275
823
  },
824
  {
825
- "epoch": 65.01,
826
  "learning_rate": 1.4199999999999998e-05,
827
- "loss": 0.0005,
828
  "step": 3300
829
  },
830
  {
831
- "epoch": 66.0,
832
  "learning_rate": 1.3991666666666665e-05,
833
- "loss": 0.0005,
834
  "step": 3325
835
  },
836
  {
837
- "epoch": 66.01,
838
  "learning_rate": 1.3783333333333332e-05,
839
- "loss": 0.0005,
840
  "step": 3350
841
  },
842
  {
843
- "epoch": 67.0,
844
  "learning_rate": 1.3574999999999998e-05,
845
- "loss": 0.0005,
846
  "step": 3375
847
  },
848
  {
849
- "epoch": 67.01,
850
  "learning_rate": 1.3366666666666665e-05,
851
- "loss": 0.0005,
852
  "step": 3400
853
  },
854
  {
855
- "epoch": 68.0,
856
  "learning_rate": 1.315833333333333e-05,
857
- "loss": 0.0005,
858
  "step": 3425
859
  },
860
  {
861
- "epoch": 68.01,
862
  "learning_rate": 1.2949999999999998e-05,
863
- "loss": 0.0005,
864
  "step": 3450
865
  },
866
  {
867
- "epoch": 69.0,
868
  "learning_rate": 1.2741666666666665e-05,
869
- "loss": 0.0005,
870
  "step": 3475
871
  },
872
  {
873
- "epoch": 69.01,
874
  "learning_rate": 1.253333333333333e-05,
875
- "loss": 0.0005,
876
  "step": 3500
877
  },
878
  {
879
- "epoch": 70.0,
880
  "learning_rate": 1.2324999999999998e-05,
881
- "loss": 0.0005,
882
  "step": 3525
883
  },
884
  {
885
- "epoch": 70.01,
886
  "learning_rate": 1.2116666666666667e-05,
887
- "loss": 0.0005,
888
  "step": 3550
889
  },
890
  {
891
- "epoch": 71.0,
892
  "learning_rate": 1.190833333333333e-05,
893
- "loss": 0.0005,
894
  "step": 3575
895
  },
896
  {
897
- "epoch": 71.01,
898
  "learning_rate": 1.17e-05,
899
- "loss": 0.0005,
900
  "step": 3600
901
  },
902
  {
903
- "epoch": 72.0,
904
  "learning_rate": 1.1491666666666667e-05,
905
- "loss": 0.0005,
906
  "step": 3625
907
  },
908
  {
909
- "epoch": 72.01,
910
  "learning_rate": 1.1283333333333331e-05,
911
- "loss": 0.0004,
912
  "step": 3650
913
  },
914
  {
915
- "epoch": 73.0,
916
  "learning_rate": 1.1075e-05,
917
- "loss": 0.0005,
918
  "step": 3675
919
  },
920
  {
921
- "epoch": 73.01,
922
  "learning_rate": 1.0866666666666667e-05,
923
- "loss": 0.0004,
924
  "step": 3700
925
  },
926
  {
927
- "epoch": 74.0,
928
  "learning_rate": 1.0658333333333333e-05,
929
- "loss": 0.0004,
930
  "step": 3725
931
  },
932
  {
933
- "epoch": 74.01,
934
  "learning_rate": 1.045e-05,
935
- "loss": 0.0004,
936
  "step": 3750
937
  },
938
  {
939
- "epoch": 75.0,
940
  "learning_rate": 1.0241666666666667e-05,
941
- "loss": 0.0004,
942
  "step": 3775
943
  },
944
  {
945
- "epoch": 75.01,
946
  "learning_rate": 1.0033333333333333e-05,
947
- "loss": 0.0004,
948
  "step": 3800
949
  },
950
  {
951
- "epoch": 76.0,
952
  "learning_rate": 9.825e-06,
953
- "loss": 0.0004,
954
  "step": 3825
955
  },
956
  {
957
- "epoch": 76.01,
958
  "learning_rate": 9.616666666666666e-06,
959
- "loss": 0.0004,
960
  "step": 3850
961
  },
962
  {
963
- "epoch": 77.0,
964
  "learning_rate": 9.408333333333333e-06,
965
- "loss": 0.0004,
966
  "step": 3875
967
  },
968
  {
969
- "epoch": 77.01,
970
  "learning_rate": 9.199999999999998e-06,
971
- "loss": 0.0004,
972
  "step": 3900
973
  },
974
  {
975
- "epoch": 78.0,
976
  "learning_rate": 8.991666666666666e-06,
977
- "loss": 0.0004,
978
  "step": 3925
979
  },
980
  {
981
- "epoch": 78.01,
982
  "learning_rate": 8.783333333333333e-06,
983
- "loss": 0.0004,
984
  "step": 3950
985
  },
986
  {
987
- "epoch": 79.0,
988
  "learning_rate": 8.574999999999998e-06,
989
- "loss": 0.0004,
990
  "step": 3975
991
  },
992
  {
993
- "epoch": 79.01,
994
  "learning_rate": 8.366666666666666e-06,
995
- "loss": 0.0004,
996
  "step": 4000
997
  },
998
  {
999
- "epoch": 79.01,
1000
- "eval_loss": 0.7259679436683655,
1001
- "eval_runtime": 645.824,
1002
- "eval_samples_per_second": 10.136,
1003
- "eval_steps_per_second": 0.081,
1004
- "eval_wer": 28.40438741721854,
1005
  "step": 4000
1006
  },
1007
  {
1008
- "epoch": 80.0,
1009
  "learning_rate": 8.158333333333333e-06,
1010
- "loss": 0.0004,
1011
  "step": 4025
1012
  },
1013
  {
1014
- "epoch": 80.01,
1015
  "learning_rate": 7.949999999999998e-06,
1016
- "loss": 0.0004,
1017
  "step": 4050
1018
  },
1019
  {
1020
- "epoch": 81.0,
1021
  "learning_rate": 7.741666666666666e-06,
1022
- "loss": 0.0004,
1023
  "step": 4075
1024
  },
1025
  {
1026
- "epoch": 81.01,
1027
  "learning_rate": 7.533333333333333e-06,
1028
- "loss": 0.0004,
1029
  "step": 4100
1030
  },
1031
  {
1032
- "epoch": 82.0,
1033
  "learning_rate": 7.324999999999999e-06,
1034
- "loss": 0.0004,
1035
  "step": 4125
1036
  },
1037
  {
1038
- "epoch": 82.01,
1039
  "learning_rate": 7.116666666666666e-06,
1040
- "loss": 0.0004,
1041
  "step": 4150
1042
  },
1043
  {
1044
- "epoch": 83.0,
1045
  "learning_rate": 6.908333333333333e-06,
1046
- "loss": 0.0004,
1047
  "step": 4175
1048
  },
1049
  {
1050
- "epoch": 83.01,
1051
  "learning_rate": 6.699999999999999e-06,
1052
- "loss": 0.0004,
1053
  "step": 4200
1054
  },
1055
  {
1056
- "epoch": 84.0,
1057
  "learning_rate": 6.491666666666666e-06,
1058
- "loss": 0.0004,
1059
  "step": 4225
1060
  },
1061
  {
1062
- "epoch": 84.01,
1063
  "learning_rate": 6.283333333333333e-06,
1064
- "loss": 0.0004,
1065
  "step": 4250
1066
  },
1067
  {
1068
- "epoch": 85.0,
1069
  "learning_rate": 6.0749999999999994e-06,
1070
- "loss": 0.0004,
1071
  "step": 4275
1072
  },
1073
  {
1074
- "epoch": 85.01,
1075
  "learning_rate": 5.866666666666666e-06,
1076
- "loss": 0.0004,
1077
  "step": 4300
1078
  },
1079
  {
1080
- "epoch": 86.0,
1081
  "learning_rate": 5.658333333333332e-06,
1082
- "loss": 0.0004,
1083
  "step": 4325
1084
  },
1085
  {
1086
- "epoch": 86.01,
1087
  "learning_rate": 5.4499999999999995e-06,
1088
- "loss": 0.0004,
1089
  "step": 4350
1090
  },
1091
  {
1092
- "epoch": 87.0,
1093
  "learning_rate": 5.241666666666666e-06,
1094
- "loss": 0.0004,
1095
  "step": 4375
1096
  },
1097
  {
1098
- "epoch": 87.01,
1099
  "learning_rate": 5.033333333333332e-06,
1100
- "loss": 0.0004,
1101
  "step": 4400
1102
  },
1103
  {
1104
- "epoch": 88.0,
1105
  "learning_rate": 4.825e-06,
1106
- "loss": 0.0004,
1107
  "step": 4425
1108
  },
1109
  {
1110
- "epoch": 88.01,
1111
  "learning_rate": 4.616666666666667e-06,
1112
- "loss": 0.0004,
1113
  "step": 4450
1114
  },
1115
  {
1116
- "epoch": 89.0,
1117
  "learning_rate": 4.408333333333333e-06,
1118
- "loss": 0.0004,
1119
  "step": 4475
1120
  },
1121
  {
1122
- "epoch": 89.01,
1123
  "learning_rate": 4.2e-06,
1124
- "loss": 0.0003,
1125
  "step": 4500
1126
  },
1127
  {
1128
- "epoch": 90.0,
1129
  "learning_rate": 3.991666666666666e-06,
1130
- "loss": 0.0004,
1131
  "step": 4525
1132
  },
1133
  {
1134
- "epoch": 90.01,
1135
  "learning_rate": 3.783333333333333e-06,
1136
- "loss": 0.0003,
1137
  "step": 4550
1138
  },
1139
  {
1140
- "epoch": 91.0,
1141
  "learning_rate": 3.575e-06,
1142
- "loss": 0.0004,
1143
  "step": 4575
1144
  },
1145
  {
1146
- "epoch": 91.01,
1147
  "learning_rate": 3.3666666666666665e-06,
1148
- "loss": 0.0003,
1149
  "step": 4600
1150
  },
1151
  {
1152
- "epoch": 92.0,
1153
  "learning_rate": 3.1583333333333333e-06,
1154
- "loss": 0.0004,
1155
  "step": 4625
1156
  },
1157
  {
1158
- "epoch": 92.01,
1159
  "learning_rate": 2.9499999999999997e-06,
1160
- "loss": 0.0003,
1161
  "step": 4650
1162
  },
1163
  {
1164
- "epoch": 93.0,
1165
  "learning_rate": 2.7416666666666665e-06,
1166
- "loss": 0.0003,
1167
  "step": 4675
1168
  },
1169
  {
1170
- "epoch": 93.01,
1171
  "learning_rate": 2.533333333333333e-06,
1172
- "loss": 0.0003,
1173
  "step": 4700
1174
  },
1175
  {
1176
- "epoch": 94.0,
1177
  "learning_rate": 2.3249999999999998e-06,
1178
- "loss": 0.0003,
1179
  "step": 4725
1180
  },
1181
  {
1182
- "epoch": 94.01,
1183
  "learning_rate": 2.1166666666666666e-06,
1184
- "loss": 0.0003,
1185
  "step": 4750
1186
  },
1187
  {
1188
- "epoch": 95.0,
1189
  "learning_rate": 1.908333333333333e-06,
1190
- "loss": 0.0003,
1191
  "step": 4775
1192
  },
1193
  {
1194
- "epoch": 95.01,
1195
  "learning_rate": 1.7e-06,
1196
- "loss": 0.0003,
1197
  "step": 4800
1198
  },
1199
  {
1200
- "epoch": 96.0,
1201
  "learning_rate": 1.4916666666666666e-06,
1202
- "loss": 0.0003,
1203
  "step": 4825
1204
  },
1205
  {
1206
- "epoch": 96.01,
1207
  "learning_rate": 1.2833333333333333e-06,
1208
- "loss": 0.0003,
1209
  "step": 4850
1210
  },
1211
  {
1212
- "epoch": 97.0,
1213
  "learning_rate": 1.0749999999999999e-06,
1214
- "loss": 0.0003,
1215
  "step": 4875
1216
  },
1217
  {
1218
- "epoch": 97.01,
1219
  "learning_rate": 8.666666666666666e-07,
1220
- "loss": 0.0003,
1221
  "step": 4900
1222
  },
1223
  {
1224
- "epoch": 98.0,
1225
  "learning_rate": 6.583333333333333e-07,
1226
- "loss": 0.0003,
1227
  "step": 4925
1228
  },
1229
  {
1230
- "epoch": 98.01,
1231
  "learning_rate": 4.5e-07,
1232
- "loss": 0.0003,
1233
  "step": 4950
1234
  },
1235
  {
1236
- "epoch": 99.0,
1237
  "learning_rate": 2.4166666666666665e-07,
1238
- "loss": 0.0003,
1239
  "step": 4975
1240
  },
1241
  {
1242
- "epoch": 99.01,
1243
  "learning_rate": 3.3333333333333334e-08,
1244
- "loss": 0.0003,
1245
  "step": 5000
1246
  },
1247
  {
1248
- "epoch": 99.01,
1249
- "eval_loss": 0.7315477132797241,
1250
- "eval_runtime": 782.825,
1251
- "eval_samples_per_second": 8.362,
1252
- "eval_steps_per_second": 0.066,
1253
- "eval_wer": 28.1905353200883,
1254
  "step": 5000
1255
  },
1256
  {
1257
- "epoch": 99.01,
1258
  "step": 5000,
1259
  "total_flos": 3.1497401622528e+19,
1260
- "train_loss": 0.05570581116452813,
1261
- "train_runtime": 137346.4264,
1262
- "train_samples_per_second": 9.319,
1263
- "train_steps_per_second": 0.036
1264
  }
1265
  ],
1266
  "logging_steps": 25,
1267
  "max_steps": 5000,
1268
- "num_train_epochs": 9223372036854775807,
 
1269
  "save_steps": 1000,
1270
  "total_flos": 3.1497401622528e+19,
 
1271
  "trial_name": null,
1272
  "trial_params": null
1273
  }
 
1
  {
2
+ "best_metric": 26.13307119205298,
3
+ "best_model_checkpoint": "./checkpoint-5000",
4
+ "epoch": 100.0,
5
  "eval_steps": 1000,
6
  "global_step": 5000,
7
  "is_hyper_param_search": false,
 
9
  "is_world_process_zero": true,
10
  "log_history": [
11
  {
12
+ "epoch": 0.5,
13
  "learning_rate": 1.575e-06,
14
+ "loss": 10.212,
15
  "step": 25
16
  },
17
  {
18
+ "epoch": 1.0,
19
  "learning_rate": 3.4499999999999996e-06,
20
+ "loss": 8.6948,
21
  "step": 50
22
  },
23
  {
24
+ "epoch": 1.5,
25
  "learning_rate": 5.324999999999999e-06,
26
+ "loss": 7.0414,
27
  "step": 75
28
  },
29
  {
30
+ "epoch": 2.0,
31
  "learning_rate": 7.2e-06,
32
+ "loss": 6.0592,
33
  "step": 100
34
  },
35
  {
36
+ "epoch": 2.5,
37
  "learning_rate": 9.074999999999999e-06,
38
+ "loss": 5.4484,
39
  "step": 125
40
  },
41
  {
42
+ "epoch": 3.0,
43
  "learning_rate": 1.0949999999999998e-05,
44
+ "loss": 5.0744,
45
  "step": 150
46
  },
47
  {
48
+ "epoch": 3.5,
49
  "learning_rate": 1.2825e-05,
50
+ "loss": 4.8184,
51
  "step": 175
52
  },
53
  {
54
+ "epoch": 4.0,
55
  "learning_rate": 1.47e-05,
56
+ "loss": 4.623,
57
  "step": 200
58
  },
59
  {
60
+ "epoch": 4.5,
61
  "learning_rate": 1.6575e-05,
62
+ "loss": 4.4652,
63
  "step": 225
64
  },
65
  {
66
+ "epoch": 5.0,
67
  "learning_rate": 1.8449999999999998e-05,
68
+ "loss": 4.3383,
69
  "step": 250
70
  },
71
  {
72
+ "epoch": 5.5,
73
  "learning_rate": 2.0325e-05,
74
+ "loss": 4.2083,
75
  "step": 275
76
  },
77
  {
78
+ "epoch": 6.0,
79
  "learning_rate": 2.2199999999999998e-05,
80
+ "loss": 4.1224,
81
  "step": 300
82
  },
83
  {
84
+ "epoch": 6.5,
85
  "learning_rate": 2.4075e-05,
86
+ "loss": 4.001,
87
  "step": 325
88
  },
89
  {
90
+ "epoch": 7.0,
91
  "learning_rate": 2.5949999999999997e-05,
92
+ "loss": 3.9214,
93
  "step": 350
94
  },
95
  {
96
+ "epoch": 7.5,
97
  "learning_rate": 2.7825e-05,
98
+ "loss": 3.6657,
99
  "step": 375
100
  },
101
  {
102
+ "epoch": 8.0,
103
  "learning_rate": 2.97e-05,
104
+ "loss": 2.9008,
105
  "step": 400
106
  },
107
  {
108
+ "epoch": 8.5,
109
  "learning_rate": 3.1574999999999995e-05,
110
+ "loss": 1.9626,
111
  "step": 425
112
  },
113
  {
114
+ "epoch": 9.0,
115
  "learning_rate": 3.345e-05,
116
+ "loss": 1.5518,
117
  "step": 450
118
  },
119
  {
120
+ "epoch": 9.5,
121
  "learning_rate": 3.5325e-05,
122
+ "loss": 1.2819,
123
  "step": 475
124
  },
125
  {
126
+ "epoch": 10.0,
127
  "learning_rate": 3.7199999999999996e-05,
128
+ "loss": 1.1488,
129
  "step": 500
130
  },
131
  {
132
+ "epoch": 10.5,
133
  "learning_rate": 3.732499999999999e-05,
134
+ "loss": 1.0035,
135
  "step": 525
136
  },
137
  {
138
+ "epoch": 11.0,
139
  "learning_rate": 3.711666666666666e-05,
140
+ "loss": 0.9323,
141
  "step": 550
142
  },
143
  {
144
+ "epoch": 11.5,
145
  "learning_rate": 3.690833333333333e-05,
146
+ "loss": 0.8265,
147
  "step": 575
148
  },
149
  {
150
+ "epoch": 12.0,
151
  "learning_rate": 3.67e-05,
152
+ "loss": 0.7946,
153
  "step": 600
154
  },
155
  {
156
+ "epoch": 12.5,
157
  "learning_rate": 3.649166666666667e-05,
158
+ "loss": 0.7179,
159
  "step": 625
160
  },
161
  {
162
+ "epoch": 13.0,
163
  "learning_rate": 3.6283333333333325e-05,
164
+ "loss": 0.6862,
165
  "step": 650
166
  },
167
  {
168
+ "epoch": 13.5,
169
  "learning_rate": 3.6074999999999996e-05,
170
+ "loss": 0.6252,
171
  "step": 675
172
  },
173
  {
174
+ "epoch": 14.0,
175
  "learning_rate": 3.586666666666666e-05,
176
+ "loss": 0.6159,
177
  "step": 700
178
  },
179
  {
180
+ "epoch": 14.5,
181
  "learning_rate": 3.565833333333333e-05,
182
+ "loss": 0.5589,
183
  "step": 725
184
  },
185
  {
186
+ "epoch": 15.0,
187
  "learning_rate": 3.545e-05,
188
+ "loss": 0.5586,
189
  "step": 750
190
  },
191
  {
192
+ "epoch": 15.5,
193
  "learning_rate": 3.5241666666666665e-05,
194
+ "loss": 0.5058,
195
  "step": 775
196
  },
197
  {
198
+ "epoch": 16.0,
199
  "learning_rate": 3.503333333333333e-05,
200
+ "loss": 0.5053,
201
  "step": 800
202
  },
203
  {
204
+ "epoch": 16.5,
205
  "learning_rate": 3.482499999999999e-05,
206
+ "loss": 0.4617,
207
  "step": 825
208
  },
209
  {
210
+ "epoch": 17.0,
211
  "learning_rate": 3.461666666666666e-05,
212
+ "loss": 0.4611,
213
  "step": 850
214
  },
215
  {
216
+ "epoch": 17.5,
217
  "learning_rate": 3.4408333333333334e-05,
218
+ "loss": 0.4201,
219
  "step": 875
220
  },
221
  {
222
+ "epoch": 18.0,
223
  "learning_rate": 3.42e-05,
224
+ "loss": 0.4233,
225
  "step": 900
226
  },
227
  {
228
+ "epoch": 18.5,
229
  "learning_rate": 3.399166666666667e-05,
230
+ "loss": 0.3921,
231
  "step": 925
232
  },
233
  {
234
+ "epoch": 19.0,
235
  "learning_rate": 3.3783333333333326e-05,
236
+ "loss": 0.3853,
237
  "step": 950
238
  },
239
  {
240
+ "epoch": 19.5,
241
  "learning_rate": 3.3574999999999996e-05,
242
+ "loss": 0.3585,
243
  "step": 975
244
  },
245
  {
246
+ "epoch": 20.0,
247
  "learning_rate": 3.336666666666667e-05,
248
+ "loss": 0.3626,
249
  "step": 1000
250
  },
251
  {
252
+ "epoch": 20.0,
253
+ "eval_loss": 0.5407164096832275,
254
+ "eval_runtime": 47.2578,
255
+ "eval_samples_per_second": 138.517,
256
+ "eval_steps_per_second": 1.1,
257
+ "eval_wer": 30.846440397350992,
258
  "step": 1000
259
  },
260
  {
261
+ "epoch": 20.5,
262
  "learning_rate": 3.315833333333333e-05,
263
+ "loss": 0.3313,
264
  "step": 1025
265
  },
266
  {
267
+ "epoch": 21.0,
268
  "learning_rate": 3.295e-05,
269
+ "loss": 0.3363,
270
  "step": 1050
271
  },
272
  {
273
+ "epoch": 21.5,
274
  "learning_rate": 3.2741666666666665e-05,
275
+ "loss": 0.3064,
276
  "step": 1075
277
  },
278
  {
279
+ "epoch": 22.0,
280
  "learning_rate": 3.253333333333333e-05,
281
+ "loss": 0.3133,
282
  "step": 1100
283
  },
284
  {
285
+ "epoch": 22.5,
286
  "learning_rate": 3.2325e-05,
287
+ "loss": 0.2886,
288
  "step": 1125
289
  },
290
  {
291
+ "epoch": 23.0,
292
  "learning_rate": 3.2116666666666664e-05,
293
+ "loss": 0.2927,
294
  "step": 1150
295
  },
296
  {
297
+ "epoch": 23.5,
298
  "learning_rate": 3.1908333333333334e-05,
299
+ "loss": 0.268,
300
  "step": 1175
301
  },
302
  {
303
+ "epoch": 24.0,
304
  "learning_rate": 3.17e-05,
305
+ "loss": 0.2773,
306
  "step": 1200
307
  },
308
  {
309
+ "epoch": 24.5,
310
  "learning_rate": 3.149166666666666e-05,
311
+ "loss": 0.2511,
312
  "step": 1225
313
  },
314
  {
315
+ "epoch": 25.0,
316
  "learning_rate": 3.128333333333333e-05,
317
+ "loss": 0.2599,
318
  "step": 1250
319
  },
320
  {
321
+ "epoch": 25.5,
322
  "learning_rate": 3.1074999999999996e-05,
323
+ "loss": 0.2354,
324
  "step": 1275
325
  },
326
  {
327
+ "epoch": 26.0,
328
  "learning_rate": 3.086666666666667e-05,
329
+ "loss": 0.2438,
330
  "step": 1300
331
  },
332
  {
333
+ "epoch": 26.5,
334
  "learning_rate": 3.065833333333333e-05,
335
+ "loss": 0.2191,
336
  "step": 1325
337
  },
338
  {
339
+ "epoch": 27.0,
340
  "learning_rate": 3.0449999999999998e-05,
341
+ "loss": 0.2311,
342
  "step": 1350
343
  },
344
  {
345
+ "epoch": 27.5,
346
  "learning_rate": 3.0241666666666662e-05,
347
+ "loss": 0.2125,
348
  "step": 1375
349
  },
350
  {
351
+ "epoch": 28.0,
352
  "learning_rate": 3.003333333333333e-05,
353
+ "loss": 0.2093,
354
  "step": 1400
355
  },
356
  {
357
+ "epoch": 28.5,
358
  "learning_rate": 2.9824999999999997e-05,
359
+ "loss": 0.1959,
360
  "step": 1425
361
  },
362
  {
363
+ "epoch": 29.0,
364
  "learning_rate": 2.9616666666666664e-05,
365
+ "loss": 0.2009,
366
  "step": 1450
367
  },
368
  {
369
+ "epoch": 29.5,
370
  "learning_rate": 2.940833333333333e-05,
371
+ "loss": 0.1843,
372
  "step": 1475
373
  },
374
  {
375
+ "epoch": 30.0,
376
  "learning_rate": 2.9199999999999995e-05,
377
+ "loss": 0.1921,
378
  "step": 1500
379
  },
380
  {
381
+ "epoch": 30.5,
382
  "learning_rate": 2.8991666666666662e-05,
383
+ "loss": 0.1717,
384
  "step": 1525
385
  },
386
  {
387
+ "epoch": 31.0,
388
  "learning_rate": 2.878333333333333e-05,
389
+ "loss": 0.1813,
390
  "step": 1550
391
  },
392
  {
393
+ "epoch": 31.5,
394
  "learning_rate": 2.8574999999999997e-05,
395
+ "loss": 0.1679,
396
  "step": 1575
397
  },
398
  {
399
+ "epoch": 32.0,
400
  "learning_rate": 2.8366666666666664e-05,
401
+ "loss": 0.168,
402
  "step": 1600
403
  },
404
  {
405
+ "epoch": 32.5,
406
  "learning_rate": 2.815833333333333e-05,
407
+ "loss": 0.1558,
408
  "step": 1625
409
  },
410
  {
411
+ "epoch": 33.0,
412
  "learning_rate": 2.7949999999999995e-05,
413
+ "loss": 0.1573,
414
  "step": 1650
415
  },
416
  {
417
+ "epoch": 33.5,
418
  "learning_rate": 2.7741666666666662e-05,
419
+ "loss": 0.1471,
420
  "step": 1675
421
  },
422
  {
423
+ "epoch": 34.0,
424
  "learning_rate": 2.753333333333333e-05,
425
+ "loss": 0.15,
426
  "step": 1700
427
  },
428
  {
429
+ "epoch": 34.5,
430
  "learning_rate": 2.7324999999999997e-05,
431
+ "loss": 0.1403,
432
  "step": 1725
433
  },
434
  {
435
+ "epoch": 35.0,
436
  "learning_rate": 2.7116666666666667e-05,
437
+ "loss": 0.1429,
438
  "step": 1750
439
  },
440
  {
441
+ "epoch": 35.5,
442
  "learning_rate": 2.6908333333333328e-05,
443
+ "loss": 0.1304,
444
  "step": 1775
445
  },
446
  {
447
+ "epoch": 36.0,
448
  "learning_rate": 2.6699999999999995e-05,
449
+ "loss": 0.1354,
450
  "step": 1800
451
  },
452
  {
453
+ "epoch": 36.5,
454
  "learning_rate": 2.6491666666666662e-05,
455
+ "loss": 0.124,
456
  "step": 1825
457
  },
458
  {
459
+ "epoch": 37.0,
460
  "learning_rate": 2.628333333333333e-05,
461
+ "loss": 0.1319,
462
  "step": 1850
463
  },
464
  {
465
+ "epoch": 37.5,
466
  "learning_rate": 2.6075e-05,
467
+ "loss": 0.1178,
468
  "step": 1875
469
  },
470
  {
471
+ "epoch": 38.0,
472
  "learning_rate": 2.5866666666666667e-05,
473
+ "loss": 0.1228,
474
  "step": 1900
475
  },
476
  {
477
+ "epoch": 38.5,
478
  "learning_rate": 2.5658333333333328e-05,
479
+ "loss": 0.1129,
480
  "step": 1925
481
  },
482
  {
483
+ "epoch": 39.0,
484
  "learning_rate": 2.5449999999999995e-05,
485
+ "loss": 0.116,
486
  "step": 1950
487
  },
488
  {
489
+ "epoch": 39.5,
490
  "learning_rate": 2.5241666666666666e-05,
491
+ "loss": 0.1077,
492
  "step": 1975
493
  },
494
  {
495
+ "epoch": 40.0,
496
  "learning_rate": 2.5033333333333333e-05,
497
+ "loss": 0.1103,
498
  "step": 2000
499
  },
500
  {
501
+ "epoch": 40.0,
502
+ "eval_loss": 0.5369554758071899,
503
+ "eval_runtime": 43.808,
504
+ "eval_samples_per_second": 149.425,
505
+ "eval_steps_per_second": 1.187,
506
+ "eval_wer": 27.04021799116998,
507
  "step": 2000
508
  },
509
  {
510
+ "epoch": 40.5,
511
  "learning_rate": 2.4825e-05,
512
+ "loss": 0.1028,
513
  "step": 2025
514
  },
515
  {
516
+ "epoch": 41.0,
517
  "learning_rate": 2.4616666666666668e-05,
518
+ "loss": 0.1041,
519
  "step": 2050
520
  },
521
  {
522
+ "epoch": 41.5,
523
  "learning_rate": 2.4408333333333328e-05,
524
+ "loss": 0.0986,
525
  "step": 2075
526
  },
527
  {
528
+ "epoch": 42.0,
529
  "learning_rate": 2.42e-05,
530
+ "loss": 0.1008,
531
  "step": 2100
532
  },
533
  {
534
+ "epoch": 42.5,
535
  "learning_rate": 2.3991666666666666e-05,
536
+ "loss": 0.0912,
537
  "step": 2125
538
  },
539
  {
540
+ "epoch": 43.0,
541
  "learning_rate": 2.3783333333333333e-05,
542
+ "loss": 0.0969,
543
  "step": 2150
544
  },
545
  {
546
+ "epoch": 43.5,
547
  "learning_rate": 2.3575e-05,
548
+ "loss": 0.0892,
549
  "step": 2175
550
  },
551
  {
552
+ "epoch": 44.0,
553
  "learning_rate": 2.3366666666666664e-05,
554
+ "loss": 0.0921,
555
  "step": 2200
556
  },
557
  {
558
+ "epoch": 44.5,
559
  "learning_rate": 2.315833333333333e-05,
560
+ "loss": 0.0853,
561
  "step": 2225
562
  },
563
  {
564
+ "epoch": 45.0,
565
  "learning_rate": 2.295e-05,
566
+ "loss": 0.0865,
567
  "step": 2250
568
  },
569
  {
570
+ "epoch": 45.5,
571
  "learning_rate": 2.2741666666666666e-05,
572
+ "loss": 0.0796,
573
  "step": 2275
574
  },
575
  {
576
+ "epoch": 46.0,
577
  "learning_rate": 2.2533333333333333e-05,
578
+ "loss": 0.0827,
579
  "step": 2300
580
  },
581
  {
582
+ "epoch": 46.5,
583
  "learning_rate": 2.2325e-05,
584
+ "loss": 0.0775,
585
  "step": 2325
586
  },
587
  {
588
+ "epoch": 47.0,
589
  "learning_rate": 2.2116666666666664e-05,
590
+ "loss": 0.0791,
591
  "step": 2350
592
  },
593
  {
594
+ "epoch": 47.5,
595
  "learning_rate": 2.190833333333333e-05,
596
+ "loss": 0.0733,
597
  "step": 2375
598
  },
599
  {
600
+ "epoch": 48.0,
601
  "learning_rate": 2.17e-05,
602
+ "loss": 0.0761,
603
  "step": 2400
604
  },
605
  {
606
+ "epoch": 48.5,
607
  "learning_rate": 2.1491666666666666e-05,
608
+ "loss": 0.0702,
609
  "step": 2425
610
  },
611
  {
612
+ "epoch": 49.0,
613
  "learning_rate": 2.1283333333333333e-05,
614
+ "loss": 0.0728,
615
  "step": 2450
616
  },
617
  {
618
+ "epoch": 49.5,
619
  "learning_rate": 2.1075e-05,
620
+ "loss": 0.0671,
621
  "step": 2475
622
  },
623
  {
624
+ "epoch": 50.0,
625
  "learning_rate": 2.0866666666666665e-05,
626
+ "loss": 0.0707,
627
  "step": 2500
628
  },
629
  {
630
+ "epoch": 50.5,
631
  "learning_rate": 2.0658333333333332e-05,
632
+ "loss": 0.0652,
633
  "step": 2525
634
  },
635
  {
636
+ "epoch": 51.0,
637
  "learning_rate": 2.045e-05,
638
+ "loss": 0.066,
639
  "step": 2550
640
  },
641
  {
642
+ "epoch": 51.5,
643
  "learning_rate": 2.0241666666666666e-05,
644
+ "loss": 0.0623,
645
  "step": 2575
646
  },
647
  {
648
+ "epoch": 52.0,
649
  "learning_rate": 2.0033333333333334e-05,
650
+ "loss": 0.0637,
651
  "step": 2600
652
  },
653
  {
654
+ "epoch": 52.5,
655
  "learning_rate": 1.9824999999999997e-05,
656
+ "loss": 0.0593,
657
  "step": 2625
658
  },
659
  {
660
+ "epoch": 53.0,
661
  "learning_rate": 1.9616666666666665e-05,
662
+ "loss": 0.0614,
663
  "step": 2650
664
  },
665
  {
666
+ "epoch": 53.5,
667
  "learning_rate": 1.9408333333333332e-05,
668
+ "loss": 0.0574,
669
  "step": 2675
670
  },
671
  {
672
+ "epoch": 54.0,
673
  "learning_rate": 1.92e-05,
674
+ "loss": 0.0597,
675
  "step": 2700
676
  },
677
  {
678
+ "epoch": 54.5,
679
  "learning_rate": 1.8991666666666666e-05,
680
+ "loss": 0.0565,
681
  "step": 2725
682
  },
683
  {
684
+ "epoch": 55.0,
685
  "learning_rate": 1.8783333333333334e-05,
686
+ "loss": 0.0562,
687
  "step": 2750
688
  },
689
  {
690
+ "epoch": 55.5,
691
  "learning_rate": 1.8574999999999997e-05,
692
+ "loss": 0.0538,
693
  "step": 2775
694
  },
695
  {
696
+ "epoch": 56.0,
697
  "learning_rate": 1.8366666666666665e-05,
698
+ "loss": 0.0545,
699
  "step": 2800
700
  },
701
  {
702
+ "epoch": 56.5,
703
  "learning_rate": 1.8158333333333332e-05,
704
+ "loss": 0.0515,
705
  "step": 2825
706
  },
707
  {
708
+ "epoch": 57.0,
709
  "learning_rate": 1.795e-05,
710
+ "loss": 0.0523,
711
  "step": 2850
712
  },
713
  {
714
+ "epoch": 57.5,
715
  "learning_rate": 1.7741666666666663e-05,
716
+ "loss": 0.0507,
717
  "step": 2875
718
  },
719
  {
720
+ "epoch": 58.0,
721
  "learning_rate": 1.753333333333333e-05,
722
+ "loss": 0.0513,
723
  "step": 2900
724
  },
725
  {
726
+ "epoch": 58.5,
727
  "learning_rate": 1.7325e-05,
728
+ "loss": 0.0482,
729
  "step": 2925
730
  },
731
  {
732
+ "epoch": 59.0,
733
  "learning_rate": 1.7116666666666665e-05,
734
+ "loss": 0.0487,
735
  "step": 2950
736
  },
737
  {
738
+ "epoch": 59.5,
739
  "learning_rate": 1.6908333333333332e-05,
740
+ "loss": 0.046,
741
  "step": 2975
742
  },
743
  {
744
+ "epoch": 60.0,
745
  "learning_rate": 1.67e-05,
746
+ "loss": 0.0473,
747
  "step": 3000
748
  },
749
  {
750
+ "epoch": 60.0,
751
+ "eval_loss": 0.5768794417381287,
752
+ "eval_runtime": 45.1811,
753
+ "eval_samples_per_second": 144.884,
754
+ "eval_steps_per_second": 1.151,
755
+ "eval_wer": 26.726338300220753,
756
  "step": 3000
757
  },
758
  {
759
+ "epoch": 60.5,
760
  "learning_rate": 1.6491666666666663e-05,
761
+ "loss": 0.0452,
762
  "step": 3025
763
  },
764
  {
765
+ "epoch": 61.0,
766
  "learning_rate": 1.6283333333333334e-05,
767
+ "loss": 0.0456,
768
  "step": 3050
769
  },
770
  {
771
+ "epoch": 61.5,
772
  "learning_rate": 1.6074999999999998e-05,
773
+ "loss": 0.0429,
774
  "step": 3075
775
  },
776
  {
777
+ "epoch": 62.0,
778
  "learning_rate": 1.5866666666666665e-05,
779
+ "loss": 0.0449,
780
  "step": 3100
781
  },
782
  {
783
+ "epoch": 62.5,
784
  "learning_rate": 1.5658333333333332e-05,
785
+ "loss": 0.0433,
786
  "step": 3125
787
  },
788
  {
789
+ "epoch": 63.0,
790
  "learning_rate": 1.545e-05,
791
+ "loss": 0.0436,
792
  "step": 3150
793
  },
794
  {
795
+ "epoch": 63.5,
796
  "learning_rate": 1.5241666666666665e-05,
797
+ "loss": 0.0409,
798
  "step": 3175
799
  },
800
  {
801
+ "epoch": 64.0,
802
  "learning_rate": 1.5033333333333332e-05,
803
+ "loss": 0.042,
804
  "step": 3200
805
  },
806
  {
807
+ "epoch": 64.5,
808
  "learning_rate": 1.4824999999999998e-05,
809
+ "loss": 0.0404,
810
  "step": 3225
811
  },
812
  {
813
+ "epoch": 65.0,
814
  "learning_rate": 1.4616666666666665e-05,
815
+ "loss": 0.0409,
816
  "step": 3250
817
  },
818
  {
819
+ "epoch": 65.5,
820
  "learning_rate": 1.4408333333333332e-05,
821
+ "loss": 0.0392,
822
  "step": 3275
823
  },
824
  {
825
+ "epoch": 66.0,
826
  "learning_rate": 1.4199999999999998e-05,
827
+ "loss": 0.0394,
828
  "step": 3300
829
  },
830
  {
831
+ "epoch": 66.5,
832
  "learning_rate": 1.3991666666666665e-05,
833
+ "loss": 0.0381,
834
  "step": 3325
835
  },
836
  {
837
+ "epoch": 67.0,
838
  "learning_rate": 1.3783333333333332e-05,
839
+ "loss": 0.0383,
840
  "step": 3350
841
  },
842
  {
843
+ "epoch": 67.5,
844
  "learning_rate": 1.3574999999999998e-05,
845
+ "loss": 0.0375,
846
  "step": 3375
847
  },
848
  {
849
+ "epoch": 68.0,
850
  "learning_rate": 1.3366666666666665e-05,
851
+ "loss": 0.0373,
852
  "step": 3400
853
  },
854
  {
855
+ "epoch": 68.5,
856
  "learning_rate": 1.315833333333333e-05,
857
+ "loss": 0.0365,
858
  "step": 3425
859
  },
860
  {
861
+ "epoch": 69.0,
862
  "learning_rate": 1.2949999999999998e-05,
863
+ "loss": 0.0363,
864
  "step": 3450
865
  },
866
  {
867
+ "epoch": 69.5,
868
  "learning_rate": 1.2741666666666665e-05,
869
+ "loss": 0.036,
870
  "step": 3475
871
  },
872
  {
873
+ "epoch": 70.0,
874
  "learning_rate": 1.253333333333333e-05,
875
+ "loss": 0.0358,
876
  "step": 3500
877
  },
878
  {
879
+ "epoch": 70.5,
880
  "learning_rate": 1.2324999999999998e-05,
881
+ "loss": 0.0349,
882
  "step": 3525
883
  },
884
  {
885
+ "epoch": 71.0,
886
  "learning_rate": 1.2116666666666667e-05,
887
+ "loss": 0.0351,
888
  "step": 3550
889
  },
890
  {
891
+ "epoch": 71.5,
892
  "learning_rate": 1.190833333333333e-05,
893
+ "loss": 0.0332,
894
  "step": 3575
895
  },
896
  {
897
+ "epoch": 72.0,
898
  "learning_rate": 1.17e-05,
899
+ "loss": 0.0344,
900
  "step": 3600
901
  },
902
  {
903
+ "epoch": 72.5,
904
  "learning_rate": 1.1491666666666667e-05,
905
+ "loss": 0.0334,
906
  "step": 3625
907
  },
908
  {
909
+ "epoch": 73.0,
910
  "learning_rate": 1.1283333333333331e-05,
911
+ "loss": 0.0335,
912
  "step": 3650
913
  },
914
  {
915
+ "epoch": 73.5,
916
  "learning_rate": 1.1075e-05,
917
+ "loss": 0.0322,
918
  "step": 3675
919
  },
920
  {
921
+ "epoch": 74.0,
922
  "learning_rate": 1.0866666666666667e-05,
923
+ "loss": 0.0327,
924
  "step": 3700
925
  },
926
  {
927
+ "epoch": 74.5,
928
  "learning_rate": 1.0658333333333333e-05,
929
+ "loss": 0.0316,
930
  "step": 3725
931
  },
932
  {
933
+ "epoch": 75.0,
934
  "learning_rate": 1.045e-05,
935
+ "loss": 0.0325,
936
  "step": 3750
937
  },
938
  {
939
+ "epoch": 75.5,
940
  "learning_rate": 1.0241666666666667e-05,
941
+ "loss": 0.0312,
942
  "step": 3775
943
  },
944
  {
945
+ "epoch": 76.0,
946
  "learning_rate": 1.0033333333333333e-05,
947
+ "loss": 0.031,
948
  "step": 3800
949
  },
950
  {
951
+ "epoch": 76.5,
952
  "learning_rate": 9.825e-06,
953
+ "loss": 0.0307,
954
  "step": 3825
955
  },
956
  {
957
+ "epoch": 77.0,
958
  "learning_rate": 9.616666666666666e-06,
959
+ "loss": 0.0311,
960
  "step": 3850
961
  },
962
  {
963
+ "epoch": 77.5,
964
  "learning_rate": 9.408333333333333e-06,
965
+ "loss": 0.0302,
966
  "step": 3875
967
  },
968
  {
969
+ "epoch": 78.0,
970
  "learning_rate": 9.199999999999998e-06,
971
+ "loss": 0.0306,
972
  "step": 3900
973
  },
974
  {
975
+ "epoch": 78.5,
976
  "learning_rate": 8.991666666666666e-06,
977
+ "loss": 0.0299,
978
  "step": 3925
979
  },
980
  {
981
+ "epoch": 79.0,
982
  "learning_rate": 8.783333333333333e-06,
983
+ "loss": 0.0301,
984
  "step": 3950
985
  },
986
  {
987
+ "epoch": 79.5,
988
  "learning_rate": 8.574999999999998e-06,
989
+ "loss": 0.0298,
990
  "step": 3975
991
  },
992
  {
993
+ "epoch": 80.0,
994
  "learning_rate": 8.366666666666666e-06,
995
+ "loss": 0.03,
996
  "step": 4000
997
  },
998
  {
999
+ "epoch": 80.0,
1000
+ "eval_loss": 0.5936003923416138,
1001
+ "eval_runtime": 43.3248,
1002
+ "eval_samples_per_second": 151.091,
1003
+ "eval_steps_per_second": 1.2,
1004
+ "eval_wer": 26.138245033112582,
1005
  "step": 4000
1006
  },
1007
  {
1008
+ "epoch": 80.5,
1009
  "learning_rate": 8.158333333333333e-06,
1010
+ "loss": 0.0284,
1011
  "step": 4025
1012
  },
1013
  {
1014
+ "epoch": 81.0,
1015
  "learning_rate": 7.949999999999998e-06,
1016
+ "loss": 0.0295,
1017
  "step": 4050
1018
  },
1019
  {
1020
+ "epoch": 81.5,
1021
  "learning_rate": 7.741666666666666e-06,
1022
+ "loss": 0.0279,
1023
  "step": 4075
1024
  },
1025
  {
1026
+ "epoch": 82.0,
1027
  "learning_rate": 7.533333333333333e-06,
1028
+ "loss": 0.0288,
1029
  "step": 4100
1030
  },
1031
  {
1032
+ "epoch": 82.5,
1033
  "learning_rate": 7.324999999999999e-06,
1034
+ "loss": 0.028,
1035
  "step": 4125
1036
  },
1037
  {
1038
+ "epoch": 83.0,
1039
  "learning_rate": 7.116666666666666e-06,
1040
+ "loss": 0.028,
1041
  "step": 4150
1042
  },
1043
  {
1044
+ "epoch": 83.5,
1045
  "learning_rate": 6.908333333333333e-06,
1046
+ "loss": 0.0278,
1047
  "step": 4175
1048
  },
1049
  {
1050
+ "epoch": 84.0,
1051
  "learning_rate": 6.699999999999999e-06,
1052
+ "loss": 0.0286,
1053
  "step": 4200
1054
  },
1055
  {
1056
+ "epoch": 84.5,
1057
  "learning_rate": 6.491666666666666e-06,
1058
+ "loss": 0.0275,
1059
  "step": 4225
1060
  },
1061
  {
1062
+ "epoch": 85.0,
1063
  "learning_rate": 6.283333333333333e-06,
1064
+ "loss": 0.0266,
1065
  "step": 4250
1066
  },
1067
  {
1068
+ "epoch": 85.5,
1069
  "learning_rate": 6.0749999999999994e-06,
1070
+ "loss": 0.0265,
1071
  "step": 4275
1072
  },
1073
  {
1074
+ "epoch": 86.0,
1075
  "learning_rate": 5.866666666666666e-06,
1076
+ "loss": 0.0268,
1077
  "step": 4300
1078
  },
1079
  {
1080
+ "epoch": 86.5,
1081
  "learning_rate": 5.658333333333332e-06,
1082
+ "loss": 0.026,
1083
  "step": 4325
1084
  },
1085
  {
1086
+ "epoch": 87.0,
1087
  "learning_rate": 5.4499999999999995e-06,
1088
+ "loss": 0.0265,
1089
  "step": 4350
1090
  },
1091
  {
1092
+ "epoch": 87.5,
1093
  "learning_rate": 5.241666666666666e-06,
1094
+ "loss": 0.0263,
1095
  "step": 4375
1096
  },
1097
  {
1098
+ "epoch": 88.0,
1099
  "learning_rate": 5.033333333333332e-06,
1100
+ "loss": 0.0262,
1101
  "step": 4400
1102
  },
1103
  {
1104
+ "epoch": 88.5,
1105
  "learning_rate": 4.825e-06,
1106
+ "loss": 0.0258,
1107
  "step": 4425
1108
  },
1109
  {
1110
+ "epoch": 89.0,
1111
  "learning_rate": 4.616666666666667e-06,
1112
+ "loss": 0.0255,
1113
  "step": 4450
1114
  },
1115
  {
1116
+ "epoch": 89.5,
1117
  "learning_rate": 4.408333333333333e-06,
1118
+ "loss": 0.0256,
1119
  "step": 4475
1120
  },
1121
  {
1122
+ "epoch": 90.0,
1123
  "learning_rate": 4.2e-06,
1124
+ "loss": 0.0261,
1125
  "step": 4500
1126
  },
1127
  {
1128
+ "epoch": 90.5,
1129
  "learning_rate": 3.991666666666666e-06,
1130
+ "loss": 0.0257,
1131
  "step": 4525
1132
  },
1133
  {
1134
+ "epoch": 91.0,
1135
  "learning_rate": 3.783333333333333e-06,
1136
+ "loss": 0.0256,
1137
  "step": 4550
1138
  },
1139
  {
1140
+ "epoch": 91.5,
1141
  "learning_rate": 3.575e-06,
1142
+ "loss": 0.0253,
1143
  "step": 4575
1144
  },
1145
  {
1146
+ "epoch": 92.0,
1147
  "learning_rate": 3.3666666666666665e-06,
1148
+ "loss": 0.0249,
1149
  "step": 4600
1150
  },
1151
  {
1152
+ "epoch": 92.5,
1153
  "learning_rate": 3.1583333333333333e-06,
1154
+ "loss": 0.0252,
1155
  "step": 4625
1156
  },
1157
  {
1158
+ "epoch": 93.0,
1159
  "learning_rate": 2.9499999999999997e-06,
1160
+ "loss": 0.0254,
1161
  "step": 4650
1162
  },
1163
  {
1164
+ "epoch": 93.5,
1165
  "learning_rate": 2.7416666666666665e-06,
1166
+ "loss": 0.0249,
1167
  "step": 4675
1168
  },
1169
  {
1170
+ "epoch": 94.0,
1171
  "learning_rate": 2.533333333333333e-06,
1172
+ "loss": 0.0247,
1173
  "step": 4700
1174
  },
1175
  {
1176
+ "epoch": 94.5,
1177
  "learning_rate": 2.3249999999999998e-06,
1178
+ "loss": 0.0252,
1179
  "step": 4725
1180
  },
1181
  {
1182
+ "epoch": 95.0,
1183
  "learning_rate": 2.1166666666666666e-06,
1184
+ "loss": 0.0247,
1185
  "step": 4750
1186
  },
1187
  {
1188
+ "epoch": 95.5,
1189
  "learning_rate": 1.908333333333333e-06,
1190
+ "loss": 0.0247,
1191
  "step": 4775
1192
  },
1193
  {
1194
+ "epoch": 96.0,
1195
  "learning_rate": 1.7e-06,
1196
+ "loss": 0.0246,
1197
  "step": 4800
1198
  },
1199
  {
1200
+ "epoch": 96.5,
1201
  "learning_rate": 1.4916666666666666e-06,
1202
+ "loss": 0.0244,
1203
  "step": 4825
1204
  },
1205
  {
1206
+ "epoch": 97.0,
1207
  "learning_rate": 1.2833333333333333e-06,
1208
+ "loss": 0.0236,
1209
  "step": 4850
1210
  },
1211
  {
1212
+ "epoch": 97.5,
1213
  "learning_rate": 1.0749999999999999e-06,
1214
+ "loss": 0.0239,
1215
  "step": 4875
1216
  },
1217
  {
1218
+ "epoch": 98.0,
1219
  "learning_rate": 8.666666666666666e-07,
1220
+ "loss": 0.0238,
1221
  "step": 4900
1222
  },
1223
  {
1224
+ "epoch": 98.5,
1225
  "learning_rate": 6.583333333333333e-07,
1226
+ "loss": 0.024,
1227
  "step": 4925
1228
  },
1229
  {
1230
+ "epoch": 99.0,
1231
  "learning_rate": 4.5e-07,
1232
+ "loss": 0.0246,
1233
  "step": 4950
1234
  },
1235
  {
1236
+ "epoch": 99.5,
1237
  "learning_rate": 2.4166666666666665e-07,
1238
+ "loss": 0.0242,
1239
  "step": 4975
1240
  },
1241
  {
1242
+ "epoch": 100.0,
1243
  "learning_rate": 3.3333333333333334e-08,
1244
+ "loss": 0.0244,
1245
  "step": 5000
1246
  },
1247
  {
1248
+ "epoch": 100.0,
1249
+ "eval_loss": 0.6002562642097473,
1250
+ "eval_runtime": 43.2619,
1251
+ "eval_samples_per_second": 151.311,
1252
+ "eval_steps_per_second": 1.202,
1253
+ "eval_wer": 26.13307119205298,
1254
  "step": 5000
1255
  },
1256
  {
1257
+ "epoch": 100.0,
1258
  "step": 5000,
1259
  "total_flos": 3.1497401622528e+19,
1260
+ "train_loss": 0.5713151776909828,
1261
+ "train_runtime": 5322.8653,
1262
+ "train_samples_per_second": 240.472,
1263
+ "train_steps_per_second": 0.939
1264
  }
1265
  ],
1266
  "logging_steps": 25,
1267
  "max_steps": 5000,
1268
+ "num_input_tokens_seen": 0,
1269
+ "num_train_epochs": 100,
1270
  "save_steps": 1000,
1271
  "total_flos": 3.1497401622528e+19,
1272
+ "train_batch_size": 256,
1273
  "trial_name": null,
1274
  "trial_params": null
1275
  }