whisper-small-eu / trainer_state.json
xezpeleta's picture
End of training
a299f4c verified
raw
history blame
54.2 kB
{
"best_metric": 10.886229784051602,
"best_model_checkpoint": "./checkpoint-8000",
"epoch": 1.0,
"eval_steps": 1000,
"global_step": 8000,
"is_hyper_param_search": false,
"is_local_process_zero": true,
"is_world_process_zero": true,
"log_history": [
{
"epoch": 0.003125,
"grad_norm": 17.579944610595703,
"learning_rate": 4.4e-07,
"loss": 2.3284,
"step": 25
},
{
"epoch": 0.00625,
"grad_norm": 9.753120422363281,
"learning_rate": 9.400000000000001e-07,
"loss": 1.9145,
"step": 50
},
{
"epoch": 0.009375,
"grad_norm": 9.469987869262695,
"learning_rate": 1.44e-06,
"loss": 1.2892,
"step": 75
},
{
"epoch": 0.0125,
"grad_norm": 6.952774524688721,
"learning_rate": 1.94e-06,
"loss": 0.9797,
"step": 100
},
{
"epoch": 0.015625,
"grad_norm": 6.080902576446533,
"learning_rate": 2.4400000000000004e-06,
"loss": 0.8265,
"step": 125
},
{
"epoch": 0.01875,
"grad_norm": 5.6766037940979,
"learning_rate": 2.9400000000000002e-06,
"loss": 0.6998,
"step": 150
},
{
"epoch": 0.021875,
"grad_norm": 5.372249126434326,
"learning_rate": 3.44e-06,
"loss": 0.6537,
"step": 175
},
{
"epoch": 0.025,
"grad_norm": 5.710323810577393,
"learning_rate": 3.94e-06,
"loss": 0.6149,
"step": 200
},
{
"epoch": 0.028125,
"grad_norm": 5.235953330993652,
"learning_rate": 4.440000000000001e-06,
"loss": 0.5256,
"step": 225
},
{
"epoch": 0.03125,
"grad_norm": 6.58635950088501,
"learning_rate": 4.94e-06,
"loss": 0.54,
"step": 250
},
{
"epoch": 0.034375,
"grad_norm": 5.4912004470825195,
"learning_rate": 5.4400000000000004e-06,
"loss": 0.5521,
"step": 275
},
{
"epoch": 0.0375,
"grad_norm": 5.846869945526123,
"learning_rate": 5.94e-06,
"loss": 0.5379,
"step": 300
},
{
"epoch": 0.040625,
"grad_norm": 5.060309410095215,
"learning_rate": 6.440000000000001e-06,
"loss": 0.4778,
"step": 325
},
{
"epoch": 0.04375,
"grad_norm": 5.06487512588501,
"learning_rate": 6.9400000000000005e-06,
"loss": 0.4152,
"step": 350
},
{
"epoch": 0.046875,
"grad_norm": 4.936045169830322,
"learning_rate": 7.440000000000001e-06,
"loss": 0.3547,
"step": 375
},
{
"epoch": 0.05,
"grad_norm": 3.8072471618652344,
"learning_rate": 7.94e-06,
"loss": 0.3428,
"step": 400
},
{
"epoch": 0.053125,
"grad_norm": 3.9378795623779297,
"learning_rate": 8.44e-06,
"loss": 0.3099,
"step": 425
},
{
"epoch": 0.05625,
"grad_norm": 3.732869863510132,
"learning_rate": 8.94e-06,
"loss": 0.2963,
"step": 450
},
{
"epoch": 0.059375,
"grad_norm": 3.9596025943756104,
"learning_rate": 9.440000000000001e-06,
"loss": 0.2745,
"step": 475
},
{
"epoch": 0.0625,
"grad_norm": 3.428398370742798,
"learning_rate": 9.940000000000001e-06,
"loss": 0.2626,
"step": 500
},
{
"epoch": 0.065625,
"grad_norm": 5.03747034072876,
"learning_rate": 9.970666666666668e-06,
"loss": 0.2411,
"step": 525
},
{
"epoch": 0.06875,
"grad_norm": 3.2012217044830322,
"learning_rate": 9.937333333333334e-06,
"loss": 0.2389,
"step": 550
},
{
"epoch": 0.071875,
"grad_norm": 3.7361278533935547,
"learning_rate": 9.904e-06,
"loss": 0.2217,
"step": 575
},
{
"epoch": 0.075,
"grad_norm": 4.509885787963867,
"learning_rate": 9.870666666666667e-06,
"loss": 0.2246,
"step": 600
},
{
"epoch": 0.078125,
"grad_norm": 3.462961435317993,
"learning_rate": 9.837333333333335e-06,
"loss": 0.199,
"step": 625
},
{
"epoch": 0.08125,
"grad_norm": 2.764691114425659,
"learning_rate": 9.804000000000001e-06,
"loss": 0.2156,
"step": 650
},
{
"epoch": 0.084375,
"grad_norm": 3.059408187866211,
"learning_rate": 9.770666666666668e-06,
"loss": 0.212,
"step": 675
},
{
"epoch": 0.0875,
"grad_norm": 3.952425718307495,
"learning_rate": 9.737333333333334e-06,
"loss": 0.2123,
"step": 700
},
{
"epoch": 0.090625,
"grad_norm": 4.892609119415283,
"learning_rate": 9.704e-06,
"loss": 0.2343,
"step": 725
},
{
"epoch": 0.09375,
"grad_norm": 4.592615127563477,
"learning_rate": 9.670666666666667e-06,
"loss": 0.3308,
"step": 750
},
{
"epoch": 0.096875,
"grad_norm": 4.663967132568359,
"learning_rate": 9.637333333333333e-06,
"loss": 0.3146,
"step": 775
},
{
"epoch": 0.1,
"grad_norm": 5.091048717498779,
"learning_rate": 9.604000000000002e-06,
"loss": 0.3519,
"step": 800
},
{
"epoch": 0.103125,
"grad_norm": 3.8216071128845215,
"learning_rate": 9.570666666666666e-06,
"loss": 0.2365,
"step": 825
},
{
"epoch": 0.10625,
"grad_norm": 3.122516393661499,
"learning_rate": 9.537333333333334e-06,
"loss": 0.193,
"step": 850
},
{
"epoch": 0.109375,
"grad_norm": 2.657339096069336,
"learning_rate": 9.504e-06,
"loss": 0.1759,
"step": 875
},
{
"epoch": 0.1125,
"grad_norm": 4.554510116577148,
"learning_rate": 9.470666666666667e-06,
"loss": 0.2387,
"step": 900
},
{
"epoch": 0.115625,
"grad_norm": 5.045220851898193,
"learning_rate": 9.437333333333334e-06,
"loss": 0.2845,
"step": 925
},
{
"epoch": 0.11875,
"grad_norm": 4.260054588317871,
"learning_rate": 9.404e-06,
"loss": 0.2755,
"step": 950
},
{
"epoch": 0.121875,
"grad_norm": 5.8209147453308105,
"learning_rate": 9.370666666666668e-06,
"loss": 0.481,
"step": 975
},
{
"epoch": 0.125,
"grad_norm": 5.498444557189941,
"learning_rate": 9.337333333333335e-06,
"loss": 0.3998,
"step": 1000
},
{
"epoch": 0.125,
"eval_loss": 0.36512792110443115,
"eval_runtime": 153.2646,
"eval_samples_per_second": 13.728,
"eval_steps_per_second": 0.861,
"eval_wer": 21.50135552023932,
"step": 1000
},
{
"epoch": 0.128125,
"grad_norm": 4.732964515686035,
"learning_rate": 9.304000000000001e-06,
"loss": 0.329,
"step": 1025
},
{
"epoch": 0.13125,
"grad_norm": 3.3556125164031982,
"learning_rate": 9.270666666666667e-06,
"loss": 0.2319,
"step": 1050
},
{
"epoch": 0.134375,
"grad_norm": 2.9708847999572754,
"learning_rate": 9.237333333333334e-06,
"loss": 0.174,
"step": 1075
},
{
"epoch": 0.1375,
"grad_norm": 2.841306447982788,
"learning_rate": 9.204e-06,
"loss": 0.1447,
"step": 1100
},
{
"epoch": 0.140625,
"grad_norm": 2.7909176349639893,
"learning_rate": 9.170666666666668e-06,
"loss": 0.1406,
"step": 1125
},
{
"epoch": 0.14375,
"grad_norm": 3.37842059135437,
"learning_rate": 9.137333333333333e-06,
"loss": 0.151,
"step": 1150
},
{
"epoch": 0.146875,
"grad_norm": 3.023977041244507,
"learning_rate": 9.104000000000001e-06,
"loss": 0.1529,
"step": 1175
},
{
"epoch": 0.15,
"grad_norm": 3.015974283218384,
"learning_rate": 9.070666666666668e-06,
"loss": 0.1496,
"step": 1200
},
{
"epoch": 0.153125,
"grad_norm": 4.30889892578125,
"learning_rate": 9.037333333333334e-06,
"loss": 0.219,
"step": 1225
},
{
"epoch": 0.15625,
"grad_norm": 4.160729885101318,
"learning_rate": 9.004e-06,
"loss": 0.238,
"step": 1250
},
{
"epoch": 0.159375,
"grad_norm": 4.687659740447998,
"learning_rate": 8.970666666666667e-06,
"loss": 0.2603,
"step": 1275
},
{
"epoch": 0.1625,
"grad_norm": 4.577232837677002,
"learning_rate": 8.937333333333335e-06,
"loss": 0.2666,
"step": 1300
},
{
"epoch": 0.165625,
"grad_norm": 5.091732501983643,
"learning_rate": 8.904e-06,
"loss": 0.2337,
"step": 1325
},
{
"epoch": 0.16875,
"grad_norm": 4.125801086425781,
"learning_rate": 8.870666666666668e-06,
"loss": 0.2379,
"step": 1350
},
{
"epoch": 0.171875,
"grad_norm": 5.142183303833008,
"learning_rate": 8.837333333333334e-06,
"loss": 0.2215,
"step": 1375
},
{
"epoch": 0.175,
"grad_norm": 4.486277103424072,
"learning_rate": 8.804e-06,
"loss": 0.2136,
"step": 1400
},
{
"epoch": 0.178125,
"grad_norm": 3.5466482639312744,
"learning_rate": 8.770666666666667e-06,
"loss": 0.2214,
"step": 1425
},
{
"epoch": 0.18125,
"grad_norm": 3.6199097633361816,
"learning_rate": 8.737333333333334e-06,
"loss": 0.2113,
"step": 1450
},
{
"epoch": 0.184375,
"grad_norm": 2.559951066970825,
"learning_rate": 8.704e-06,
"loss": 0.1552,
"step": 1475
},
{
"epoch": 0.1875,
"grad_norm": 2.9152133464813232,
"learning_rate": 8.670666666666666e-06,
"loss": 0.1354,
"step": 1500
},
{
"epoch": 0.190625,
"grad_norm": 2.608732223510742,
"learning_rate": 8.637333333333335e-06,
"loss": 0.144,
"step": 1525
},
{
"epoch": 0.19375,
"grad_norm": 4.0043416023254395,
"learning_rate": 8.604000000000001e-06,
"loss": 0.1367,
"step": 1550
},
{
"epoch": 0.196875,
"grad_norm": 2.3621206283569336,
"learning_rate": 8.570666666666667e-06,
"loss": 0.1194,
"step": 1575
},
{
"epoch": 0.2,
"grad_norm": 2.6970181465148926,
"learning_rate": 8.537333333333334e-06,
"loss": 0.1283,
"step": 1600
},
{
"epoch": 0.203125,
"grad_norm": 4.737370014190674,
"learning_rate": 8.504000000000002e-06,
"loss": 0.1858,
"step": 1625
},
{
"epoch": 0.20625,
"grad_norm": 3.462738513946533,
"learning_rate": 8.470666666666667e-06,
"loss": 0.1995,
"step": 1650
},
{
"epoch": 0.209375,
"grad_norm": 4.608364582061768,
"learning_rate": 8.437333333333335e-06,
"loss": 0.2028,
"step": 1675
},
{
"epoch": 0.2125,
"grad_norm": 2.770601987838745,
"learning_rate": 8.404000000000001e-06,
"loss": 0.1952,
"step": 1700
},
{
"epoch": 0.215625,
"grad_norm": 3.041656017303467,
"learning_rate": 8.370666666666668e-06,
"loss": 0.1464,
"step": 1725
},
{
"epoch": 0.21875,
"grad_norm": 2.988032102584839,
"learning_rate": 8.337333333333334e-06,
"loss": 0.1424,
"step": 1750
},
{
"epoch": 0.221875,
"grad_norm": 3.0646026134490967,
"learning_rate": 8.304e-06,
"loss": 0.1233,
"step": 1775
},
{
"epoch": 0.225,
"grad_norm": 2.617403268814087,
"learning_rate": 8.270666666666667e-06,
"loss": 0.1384,
"step": 1800
},
{
"epoch": 0.228125,
"grad_norm": 2.6170425415039062,
"learning_rate": 8.237333333333333e-06,
"loss": 0.1208,
"step": 1825
},
{
"epoch": 0.23125,
"grad_norm": 2.1296098232269287,
"learning_rate": 8.204000000000001e-06,
"loss": 0.1176,
"step": 1850
},
{
"epoch": 0.234375,
"grad_norm": 2.767275810241699,
"learning_rate": 8.170666666666668e-06,
"loss": 0.1189,
"step": 1875
},
{
"epoch": 0.2375,
"grad_norm": 2.7053661346435547,
"learning_rate": 8.137333333333334e-06,
"loss": 0.1211,
"step": 1900
},
{
"epoch": 0.240625,
"grad_norm": 2.281399965286255,
"learning_rate": 8.104e-06,
"loss": 0.1156,
"step": 1925
},
{
"epoch": 0.24375,
"grad_norm": 3.7013635635375977,
"learning_rate": 8.070666666666667e-06,
"loss": 0.1517,
"step": 1950
},
{
"epoch": 0.246875,
"grad_norm": 3.7125532627105713,
"learning_rate": 8.037333333333334e-06,
"loss": 0.2002,
"step": 1975
},
{
"epoch": 0.25,
"grad_norm": 3.8716859817504883,
"learning_rate": 8.004e-06,
"loss": 0.1975,
"step": 2000
},
{
"epoch": 0.25,
"eval_loss": 0.2918355464935303,
"eval_runtime": 153.1763,
"eval_samples_per_second": 13.736,
"eval_steps_per_second": 0.862,
"eval_wer": 15.873609423202767,
"step": 2000
},
{
"epoch": 0.253125,
"grad_norm": 2.4911813735961914,
"learning_rate": 7.970666666666668e-06,
"loss": 0.1648,
"step": 2025
},
{
"epoch": 0.25625,
"grad_norm": 2.604146718978882,
"learning_rate": 7.937333333333333e-06,
"loss": 0.1162,
"step": 2050
},
{
"epoch": 0.259375,
"grad_norm": 2.7352280616760254,
"learning_rate": 7.904000000000001e-06,
"loss": 0.1135,
"step": 2075
},
{
"epoch": 0.2625,
"grad_norm": 2.2932169437408447,
"learning_rate": 7.870666666666667e-06,
"loss": 0.1153,
"step": 2100
},
{
"epoch": 0.265625,
"grad_norm": 3.1734797954559326,
"learning_rate": 7.837333333333334e-06,
"loss": 0.1005,
"step": 2125
},
{
"epoch": 0.26875,
"grad_norm": 2.4353103637695312,
"learning_rate": 7.804e-06,
"loss": 0.0988,
"step": 2150
},
{
"epoch": 0.271875,
"grad_norm": 2.8655478954315186,
"learning_rate": 7.770666666666668e-06,
"loss": 0.1028,
"step": 2175
},
{
"epoch": 0.275,
"grad_norm": 3.800967216491699,
"learning_rate": 7.737333333333335e-06,
"loss": 0.1751,
"step": 2200
},
{
"epoch": 0.278125,
"grad_norm": 4.212419509887695,
"learning_rate": 7.704000000000001e-06,
"loss": 0.1798,
"step": 2225
},
{
"epoch": 0.28125,
"grad_norm": 3.5863020420074463,
"learning_rate": 7.670666666666668e-06,
"loss": 0.199,
"step": 2250
},
{
"epoch": 0.284375,
"grad_norm": 3.1013996601104736,
"learning_rate": 7.637333333333334e-06,
"loss": 0.1335,
"step": 2275
},
{
"epoch": 0.2875,
"grad_norm": 2.2462713718414307,
"learning_rate": 7.604e-06,
"loss": 0.0976,
"step": 2300
},
{
"epoch": 0.290625,
"grad_norm": 2.9669203758239746,
"learning_rate": 7.570666666666668e-06,
"loss": 0.0946,
"step": 2325
},
{
"epoch": 0.29375,
"grad_norm": 2.645289897918701,
"learning_rate": 7.537333333333334e-06,
"loss": 0.0935,
"step": 2350
},
{
"epoch": 0.296875,
"grad_norm": 1.9715274572372437,
"learning_rate": 7.5040000000000005e-06,
"loss": 0.1045,
"step": 2375
},
{
"epoch": 0.3,
"grad_norm": 2.1423373222351074,
"learning_rate": 7.470666666666667e-06,
"loss": 0.0977,
"step": 2400
},
{
"epoch": 0.303125,
"grad_norm": 2.029958963394165,
"learning_rate": 7.437333333333334e-06,
"loss": 0.1061,
"step": 2425
},
{
"epoch": 0.30625,
"grad_norm": 1.972732663154602,
"learning_rate": 7.404e-06,
"loss": 0.0998,
"step": 2450
},
{
"epoch": 0.309375,
"grad_norm": 2.2875239849090576,
"learning_rate": 7.370666666666667e-06,
"loss": 0.1068,
"step": 2475
},
{
"epoch": 0.3125,
"grad_norm": 3.1778981685638428,
"learning_rate": 7.337333333333334e-06,
"loss": 0.1168,
"step": 2500
},
{
"epoch": 0.315625,
"grad_norm": 3.360576868057251,
"learning_rate": 7.304000000000001e-06,
"loss": 0.1524,
"step": 2525
},
{
"epoch": 0.31875,
"grad_norm": 3.5467047691345215,
"learning_rate": 7.270666666666667e-06,
"loss": 0.1483,
"step": 2550
},
{
"epoch": 0.321875,
"grad_norm": 3.488696575164795,
"learning_rate": 7.237333333333334e-06,
"loss": 0.1775,
"step": 2575
},
{
"epoch": 0.325,
"grad_norm": 2.8800296783447266,
"learning_rate": 7.204000000000001e-06,
"loss": 0.135,
"step": 2600
},
{
"epoch": 0.328125,
"grad_norm": 3.1020660400390625,
"learning_rate": 7.170666666666667e-06,
"loss": 0.1108,
"step": 2625
},
{
"epoch": 0.33125,
"grad_norm": 2.1233720779418945,
"learning_rate": 7.137333333333334e-06,
"loss": 0.1002,
"step": 2650
},
{
"epoch": 0.334375,
"grad_norm": 2.393425703048706,
"learning_rate": 7.104000000000001e-06,
"loss": 0.0941,
"step": 2675
},
{
"epoch": 0.3375,
"grad_norm": 2.295924186706543,
"learning_rate": 7.0706666666666665e-06,
"loss": 0.0959,
"step": 2700
},
{
"epoch": 0.340625,
"grad_norm": 1.8125039339065552,
"learning_rate": 7.037333333333334e-06,
"loss": 0.1116,
"step": 2725
},
{
"epoch": 0.34375,
"grad_norm": 3.006834030151367,
"learning_rate": 7.004000000000001e-06,
"loss": 0.1146,
"step": 2750
},
{
"epoch": 0.346875,
"grad_norm": 4.171006679534912,
"learning_rate": 6.970666666666667e-06,
"loss": 0.2029,
"step": 2775
},
{
"epoch": 0.35,
"grad_norm": 3.68646240234375,
"learning_rate": 6.937333333333334e-06,
"loss": 0.1913,
"step": 2800
},
{
"epoch": 0.353125,
"grad_norm": 3.7463300228118896,
"learning_rate": 6.904e-06,
"loss": 0.16,
"step": 2825
},
{
"epoch": 0.35625,
"grad_norm": 3.069136381149292,
"learning_rate": 6.8706666666666676e-06,
"loss": 0.1571,
"step": 2850
},
{
"epoch": 0.359375,
"grad_norm": 3.17172908782959,
"learning_rate": 6.837333333333334e-06,
"loss": 0.1608,
"step": 2875
},
{
"epoch": 0.3625,
"grad_norm": 3.1673102378845215,
"learning_rate": 6.804e-06,
"loss": 0.1546,
"step": 2900
},
{
"epoch": 0.365625,
"grad_norm": 2.344193935394287,
"learning_rate": 6.770666666666668e-06,
"loss": 0.1282,
"step": 2925
},
{
"epoch": 0.36875,
"grad_norm": 2.5321226119995117,
"learning_rate": 6.737333333333333e-06,
"loss": 0.0979,
"step": 2950
},
{
"epoch": 0.371875,
"grad_norm": 2.2652363777160645,
"learning_rate": 6.7040000000000005e-06,
"loss": 0.1049,
"step": 2975
},
{
"epoch": 0.375,
"grad_norm": 2.7856993675231934,
"learning_rate": 6.670666666666668e-06,
"loss": 0.1433,
"step": 3000
},
{
"epoch": 0.375,
"eval_loss": 0.2720916271209717,
"eval_runtime": 151.7576,
"eval_samples_per_second": 13.864,
"eval_steps_per_second": 0.87,
"eval_wer": 13.9010937646069,
"step": 3000
},
{
"epoch": 0.378125,
"grad_norm": 4.214677810668945,
"learning_rate": 6.637333333333333e-06,
"loss": 0.1758,
"step": 3025
},
{
"epoch": 0.38125,
"grad_norm": 4.144543647766113,
"learning_rate": 6.604000000000001e-06,
"loss": 0.1972,
"step": 3050
},
{
"epoch": 0.384375,
"grad_norm": 2.1775295734405518,
"learning_rate": 6.570666666666667e-06,
"loss": 0.1293,
"step": 3075
},
{
"epoch": 0.3875,
"grad_norm": 2.796152353286743,
"learning_rate": 6.537333333333334e-06,
"loss": 0.099,
"step": 3100
},
{
"epoch": 0.390625,
"grad_norm": 2.1920204162597656,
"learning_rate": 6.504e-06,
"loss": 0.0945,
"step": 3125
},
{
"epoch": 0.39375,
"grad_norm": 2.8689582347869873,
"learning_rate": 6.470666666666667e-06,
"loss": 0.1118,
"step": 3150
},
{
"epoch": 0.396875,
"grad_norm": 3.580993175506592,
"learning_rate": 6.4373333333333344e-06,
"loss": 0.1732,
"step": 3175
},
{
"epoch": 0.4,
"grad_norm": 3.9165573120117188,
"learning_rate": 6.404e-06,
"loss": 0.1581,
"step": 3200
},
{
"epoch": 0.403125,
"grad_norm": 3.8235292434692383,
"learning_rate": 6.370666666666667e-06,
"loss": 0.1716,
"step": 3225
},
{
"epoch": 0.40625,
"grad_norm": 3.21138072013855,
"learning_rate": 6.3373333333333345e-06,
"loss": 0.1364,
"step": 3250
},
{
"epoch": 0.409375,
"grad_norm": 3.925539255142212,
"learning_rate": 6.304e-06,
"loss": 0.1459,
"step": 3275
},
{
"epoch": 0.4125,
"grad_norm": 3.062764883041382,
"learning_rate": 6.270666666666667e-06,
"loss": 0.1668,
"step": 3300
},
{
"epoch": 0.415625,
"grad_norm": 2.8379392623901367,
"learning_rate": 6.237333333333334e-06,
"loss": 0.1243,
"step": 3325
},
{
"epoch": 0.41875,
"grad_norm": 2.979661226272583,
"learning_rate": 6.204e-06,
"loss": 0.0979,
"step": 3350
},
{
"epoch": 0.421875,
"grad_norm": 2.4838883876800537,
"learning_rate": 6.170666666666667e-06,
"loss": 0.0848,
"step": 3375
},
{
"epoch": 0.425,
"grad_norm": 2.3293073177337646,
"learning_rate": 6.137333333333334e-06,
"loss": 0.0927,
"step": 3400
},
{
"epoch": 0.428125,
"grad_norm": 3.3497400283813477,
"learning_rate": 6.104000000000001e-06,
"loss": 0.0976,
"step": 3425
},
{
"epoch": 0.43125,
"grad_norm": 2.0302255153656006,
"learning_rate": 6.070666666666667e-06,
"loss": 0.0881,
"step": 3450
},
{
"epoch": 0.434375,
"grad_norm": 2.112396001815796,
"learning_rate": 6.037333333333334e-06,
"loss": 0.0828,
"step": 3475
},
{
"epoch": 0.4375,
"grad_norm": 2.513197183609009,
"learning_rate": 6.004000000000001e-06,
"loss": 0.0983,
"step": 3500
},
{
"epoch": 0.440625,
"grad_norm": 2.1429622173309326,
"learning_rate": 5.970666666666667e-06,
"loss": 0.0929,
"step": 3525
},
{
"epoch": 0.44375,
"grad_norm": 2.7300236225128174,
"learning_rate": 5.937333333333334e-06,
"loss": 0.0916,
"step": 3550
},
{
"epoch": 0.446875,
"grad_norm": 4.011541366577148,
"learning_rate": 5.9040000000000006e-06,
"loss": 0.1426,
"step": 3575
},
{
"epoch": 0.45,
"grad_norm": 3.1994545459747314,
"learning_rate": 5.870666666666667e-06,
"loss": 0.163,
"step": 3600
},
{
"epoch": 0.453125,
"grad_norm": 2.98388934135437,
"learning_rate": 5.837333333333333e-06,
"loss": 0.1568,
"step": 3625
},
{
"epoch": 0.45625,
"grad_norm": 2.4515798091888428,
"learning_rate": 5.804000000000001e-06,
"loss": 0.0937,
"step": 3650
},
{
"epoch": 0.459375,
"grad_norm": 2.0767834186553955,
"learning_rate": 5.770666666666666e-06,
"loss": 0.0861,
"step": 3675
},
{
"epoch": 0.4625,
"grad_norm": 2.601104974746704,
"learning_rate": 5.7373333333333335e-06,
"loss": 0.0917,
"step": 3700
},
{
"epoch": 0.465625,
"grad_norm": 2.593489408493042,
"learning_rate": 5.704000000000001e-06,
"loss": 0.1022,
"step": 3725
},
{
"epoch": 0.46875,
"grad_norm": 3.5832834243774414,
"learning_rate": 5.670666666666668e-06,
"loss": 0.1304,
"step": 3750
},
{
"epoch": 0.471875,
"grad_norm": 3.4403560161590576,
"learning_rate": 5.637333333333334e-06,
"loss": 0.1634,
"step": 3775
},
{
"epoch": 0.475,
"grad_norm": 3.6842737197875977,
"learning_rate": 5.604000000000001e-06,
"loss": 0.1683,
"step": 3800
},
{
"epoch": 0.478125,
"grad_norm": 3.8382315635681152,
"learning_rate": 5.570666666666667e-06,
"loss": 0.1538,
"step": 3825
},
{
"epoch": 0.48125,
"grad_norm": 4.207257270812988,
"learning_rate": 5.537333333333334e-06,
"loss": 0.165,
"step": 3850
},
{
"epoch": 0.484375,
"grad_norm": 2.4130444526672363,
"learning_rate": 5.504e-06,
"loss": 0.1558,
"step": 3875
},
{
"epoch": 0.4875,
"grad_norm": 2.3981151580810547,
"learning_rate": 5.4706666666666674e-06,
"loss": 0.1096,
"step": 3900
},
{
"epoch": 0.490625,
"grad_norm": 2.2837915420532227,
"learning_rate": 5.437333333333333e-06,
"loss": 0.0937,
"step": 3925
},
{
"epoch": 0.49375,
"grad_norm": 2.6647775173187256,
"learning_rate": 5.404e-06,
"loss": 0.0876,
"step": 3950
},
{
"epoch": 0.496875,
"grad_norm": 3.7677643299102783,
"learning_rate": 5.3706666666666675e-06,
"loss": 0.15,
"step": 3975
},
{
"epoch": 0.5,
"grad_norm": 3.542175769805908,
"learning_rate": 5.337333333333333e-06,
"loss": 0.1925,
"step": 4000
},
{
"epoch": 0.5,
"eval_loss": 0.25648659467697144,
"eval_runtime": 150.6646,
"eval_samples_per_second": 13.965,
"eval_steps_per_second": 0.876,
"eval_wer": 12.7372160418809,
"step": 4000
},
{
"epoch": 0.503125,
"grad_norm": 2.5672571659088135,
"learning_rate": 5.304e-06,
"loss": 0.1434,
"step": 4025
},
{
"epoch": 0.50625,
"grad_norm": 4.591808319091797,
"learning_rate": 5.270666666666668e-06,
"loss": 0.2075,
"step": 4050
},
{
"epoch": 0.509375,
"grad_norm": 3.485185146331787,
"learning_rate": 5.237333333333334e-06,
"loss": 0.1478,
"step": 4075
},
{
"epoch": 0.5125,
"grad_norm": 2.5995991230010986,
"learning_rate": 5.2040000000000005e-06,
"loss": 0.1383,
"step": 4100
},
{
"epoch": 0.515625,
"grad_norm": 2.4682819843292236,
"learning_rate": 5.170666666666667e-06,
"loss": 0.0959,
"step": 4125
},
{
"epoch": 0.51875,
"grad_norm": 2.436518669128418,
"learning_rate": 5.137333333333334e-06,
"loss": 0.0857,
"step": 4150
},
{
"epoch": 0.521875,
"grad_norm": 2.0344107151031494,
"learning_rate": 5.104e-06,
"loss": 0.0862,
"step": 4175
},
{
"epoch": 0.525,
"grad_norm": 1.6771937608718872,
"learning_rate": 5.070666666666667e-06,
"loss": 0.0808,
"step": 4200
},
{
"epoch": 0.528125,
"grad_norm": 1.7831439971923828,
"learning_rate": 5.037333333333334e-06,
"loss": 0.0872,
"step": 4225
},
{
"epoch": 0.53125,
"grad_norm": 2.228795051574707,
"learning_rate": 5.004e-06,
"loss": 0.0832,
"step": 4250
},
{
"epoch": 0.534375,
"grad_norm": 3.1402647495269775,
"learning_rate": 4.970666666666667e-06,
"loss": 0.0927,
"step": 4275
},
{
"epoch": 0.5375,
"grad_norm": 3.662506580352783,
"learning_rate": 4.937333333333334e-06,
"loss": 0.1477,
"step": 4300
},
{
"epoch": 0.540625,
"grad_norm": 2.865934371948242,
"learning_rate": 4.904000000000001e-06,
"loss": 0.1262,
"step": 4325
},
{
"epoch": 0.54375,
"grad_norm": 3.2233200073242188,
"learning_rate": 4.870666666666667e-06,
"loss": 0.1329,
"step": 4350
},
{
"epoch": 0.546875,
"grad_norm": 2.093703269958496,
"learning_rate": 4.837333333333334e-06,
"loss": 0.0795,
"step": 4375
},
{
"epoch": 0.55,
"grad_norm": 1.7601807117462158,
"learning_rate": 4.804e-06,
"loss": 0.0715,
"step": 4400
},
{
"epoch": 0.553125,
"grad_norm": 2.1606643199920654,
"learning_rate": 4.770666666666667e-06,
"loss": 0.0797,
"step": 4425
},
{
"epoch": 0.55625,
"grad_norm": 2.565343141555786,
"learning_rate": 4.737333333333334e-06,
"loss": 0.0883,
"step": 4450
},
{
"epoch": 0.559375,
"grad_norm": 2.062619924545288,
"learning_rate": 4.704e-06,
"loss": 0.0965,
"step": 4475
},
{
"epoch": 0.5625,
"grad_norm": 2.2219879627227783,
"learning_rate": 4.6706666666666675e-06,
"loss": 0.0891,
"step": 4500
},
{
"epoch": 0.565625,
"grad_norm": 2.857029676437378,
"learning_rate": 4.637333333333334e-06,
"loss": 0.1147,
"step": 4525
},
{
"epoch": 0.56875,
"grad_norm": 3.090247392654419,
"learning_rate": 4.604e-06,
"loss": 0.144,
"step": 4550
},
{
"epoch": 0.571875,
"grad_norm": 3.8906264305114746,
"learning_rate": 4.570666666666667e-06,
"loss": 0.1451,
"step": 4575
},
{
"epoch": 0.575,
"grad_norm": 3.7733590602874756,
"learning_rate": 4.537333333333334e-06,
"loss": 0.1475,
"step": 4600
},
{
"epoch": 0.578125,
"grad_norm": 3.379163980484009,
"learning_rate": 4.504e-06,
"loss": 0.1509,
"step": 4625
},
{
"epoch": 0.58125,
"grad_norm": 3.4210824966430664,
"learning_rate": 4.470666666666667e-06,
"loss": 0.1444,
"step": 4650
},
{
"epoch": 0.584375,
"grad_norm": 3.7809910774230957,
"learning_rate": 4.437333333333333e-06,
"loss": 0.1295,
"step": 4675
},
{
"epoch": 0.5875,
"grad_norm": 2.537574052810669,
"learning_rate": 4.4040000000000005e-06,
"loss": 0.1158,
"step": 4700
},
{
"epoch": 0.590625,
"grad_norm": 3.482285261154175,
"learning_rate": 4.370666666666667e-06,
"loss": 0.1249,
"step": 4725
},
{
"epoch": 0.59375,
"grad_norm": 3.0114011764526367,
"learning_rate": 4.337333333333334e-06,
"loss": 0.1238,
"step": 4750
},
{
"epoch": 0.596875,
"grad_norm": 2.117215394973755,
"learning_rate": 4.304000000000001e-06,
"loss": 0.0888,
"step": 4775
},
{
"epoch": 0.6,
"grad_norm": 2.0158379077911377,
"learning_rate": 4.270666666666667e-06,
"loss": 0.0972,
"step": 4800
},
{
"epoch": 0.603125,
"grad_norm": 2.5208640098571777,
"learning_rate": 4.2373333333333335e-06,
"loss": 0.0793,
"step": 4825
},
{
"epoch": 0.60625,
"grad_norm": 2.820002555847168,
"learning_rate": 4.204e-06,
"loss": 0.1035,
"step": 4850
},
{
"epoch": 0.609375,
"grad_norm": 3.1144282817840576,
"learning_rate": 4.170666666666667e-06,
"loss": 0.1128,
"step": 4875
},
{
"epoch": 0.6125,
"grad_norm": 3.1345527172088623,
"learning_rate": 4.137333333333334e-06,
"loss": 0.1217,
"step": 4900
},
{
"epoch": 0.615625,
"grad_norm": 2.2702696323394775,
"learning_rate": 4.104e-06,
"loss": 0.1061,
"step": 4925
},
{
"epoch": 0.61875,
"grad_norm": 2.714102268218994,
"learning_rate": 4.072e-06,
"loss": 0.0919,
"step": 4950
},
{
"epoch": 0.621875,
"grad_norm": 2.448854923248291,
"learning_rate": 4.0386666666666666e-06,
"loss": 0.0855,
"step": 4975
},
{
"epoch": 0.625,
"grad_norm": 2.9392127990722656,
"learning_rate": 4.005333333333334e-06,
"loss": 0.0818,
"step": 5000
},
{
"epoch": 0.625,
"eval_loss": 0.2562941014766693,
"eval_runtime": 160.0125,
"eval_samples_per_second": 13.149,
"eval_steps_per_second": 0.825,
"eval_wer": 11.942600729176405,
"step": 5000
},
{
"epoch": 0.628125,
"grad_norm": 2.4964210987091064,
"learning_rate": 3.972e-06,
"loss": 0.1203,
"step": 5025
},
{
"epoch": 0.63125,
"grad_norm": 3.330078125,
"learning_rate": 3.938666666666667e-06,
"loss": 0.111,
"step": 5050
},
{
"epoch": 0.634375,
"grad_norm": 3.6872191429138184,
"learning_rate": 3.905333333333334e-06,
"loss": 0.164,
"step": 5075
},
{
"epoch": 0.6375,
"grad_norm": 3.728769063949585,
"learning_rate": 3.872e-06,
"loss": 0.1515,
"step": 5100
},
{
"epoch": 0.640625,
"grad_norm": 3.4183156490325928,
"learning_rate": 3.838666666666667e-06,
"loss": 0.1334,
"step": 5125
},
{
"epoch": 0.64375,
"grad_norm": 3.4580440521240234,
"learning_rate": 3.8053333333333336e-06,
"loss": 0.134,
"step": 5150
},
{
"epoch": 0.646875,
"grad_norm": 2.2719855308532715,
"learning_rate": 3.772e-06,
"loss": 0.1088,
"step": 5175
},
{
"epoch": 0.65,
"grad_norm": 2.3186910152435303,
"learning_rate": 3.7386666666666673e-06,
"loss": 0.0724,
"step": 5200
},
{
"epoch": 0.653125,
"grad_norm": 1.8175565004348755,
"learning_rate": 3.7053333333333337e-06,
"loss": 0.0759,
"step": 5225
},
{
"epoch": 0.65625,
"grad_norm": 2.0874826908111572,
"learning_rate": 3.6720000000000006e-06,
"loss": 0.0813,
"step": 5250
},
{
"epoch": 0.659375,
"grad_norm": 1.9950120449066162,
"learning_rate": 3.638666666666667e-06,
"loss": 0.0824,
"step": 5275
},
{
"epoch": 0.6625,
"grad_norm": 2.6349194049835205,
"learning_rate": 3.6053333333333334e-06,
"loss": 0.0835,
"step": 5300
},
{
"epoch": 0.665625,
"grad_norm": 2.7667415142059326,
"learning_rate": 3.5720000000000003e-06,
"loss": 0.0823,
"step": 5325
},
{
"epoch": 0.66875,
"grad_norm": 3.617748260498047,
"learning_rate": 3.538666666666667e-06,
"loss": 0.1077,
"step": 5350
},
{
"epoch": 0.671875,
"grad_norm": 3.2603073120117188,
"learning_rate": 3.5053333333333335e-06,
"loss": 0.1268,
"step": 5375
},
{
"epoch": 0.675,
"grad_norm": 2.9681355953216553,
"learning_rate": 3.4720000000000004e-06,
"loss": 0.1206,
"step": 5400
},
{
"epoch": 0.678125,
"grad_norm": 4.156548500061035,
"learning_rate": 3.438666666666667e-06,
"loss": 0.1279,
"step": 5425
},
{
"epoch": 0.68125,
"grad_norm": 3.2013888359069824,
"learning_rate": 3.4053333333333337e-06,
"loss": 0.1177,
"step": 5450
},
{
"epoch": 0.684375,
"grad_norm": 3.299403190612793,
"learning_rate": 3.372e-06,
"loss": 0.0946,
"step": 5475
},
{
"epoch": 0.6875,
"grad_norm": 2.39630389213562,
"learning_rate": 3.338666666666667e-06,
"loss": 0.0944,
"step": 5500
},
{
"epoch": 0.690625,
"grad_norm": 3.7624928951263428,
"learning_rate": 3.3053333333333338e-06,
"loss": 0.1149,
"step": 5525
},
{
"epoch": 0.69375,
"grad_norm": 3.3170886039733887,
"learning_rate": 3.272e-06,
"loss": 0.1373,
"step": 5550
},
{
"epoch": 0.696875,
"grad_norm": 2.2296531200408936,
"learning_rate": 3.238666666666667e-06,
"loss": 0.1056,
"step": 5575
},
{
"epoch": 0.7,
"grad_norm": 1.8995999097824097,
"learning_rate": 3.2053333333333334e-06,
"loss": 0.0724,
"step": 5600
},
{
"epoch": 0.703125,
"grad_norm": 2.3782520294189453,
"learning_rate": 3.172e-06,
"loss": 0.0604,
"step": 5625
},
{
"epoch": 0.70625,
"grad_norm": 2.2558810710906982,
"learning_rate": 3.138666666666667e-06,
"loss": 0.0581,
"step": 5650
},
{
"epoch": 0.709375,
"grad_norm": 2.4040448665618896,
"learning_rate": 3.1053333333333336e-06,
"loss": 0.0713,
"step": 5675
},
{
"epoch": 0.7125,
"grad_norm": 2.5696732997894287,
"learning_rate": 3.072e-06,
"loss": 0.0773,
"step": 5700
},
{
"epoch": 0.715625,
"grad_norm": 2.237166404724121,
"learning_rate": 3.038666666666667e-06,
"loss": 0.0765,
"step": 5725
},
{
"epoch": 0.71875,
"grad_norm": 1.8783671855926514,
"learning_rate": 3.0053333333333332e-06,
"loss": 0.0779,
"step": 5750
},
{
"epoch": 0.721875,
"grad_norm": 2.096334457397461,
"learning_rate": 2.9720000000000005e-06,
"loss": 0.0751,
"step": 5775
},
{
"epoch": 0.725,
"grad_norm": 2.0362164974212646,
"learning_rate": 2.938666666666667e-06,
"loss": 0.0711,
"step": 5800
},
{
"epoch": 0.728125,
"grad_norm": 1.7136311531066895,
"learning_rate": 2.9053333333333334e-06,
"loss": 0.0635,
"step": 5825
},
{
"epoch": 0.73125,
"grad_norm": 2.754848003387451,
"learning_rate": 2.872e-06,
"loss": 0.0698,
"step": 5850
},
{
"epoch": 0.734375,
"grad_norm": 2.058065176010132,
"learning_rate": 2.8386666666666666e-06,
"loss": 0.0741,
"step": 5875
},
{
"epoch": 0.7375,
"grad_norm": 3.0389583110809326,
"learning_rate": 2.805333333333334e-06,
"loss": 0.0938,
"step": 5900
},
{
"epoch": 0.740625,
"grad_norm": 3.4811720848083496,
"learning_rate": 2.7720000000000003e-06,
"loss": 0.1387,
"step": 5925
},
{
"epoch": 0.74375,
"grad_norm": 3.2388477325439453,
"learning_rate": 2.7386666666666667e-06,
"loss": 0.1283,
"step": 5950
},
{
"epoch": 0.746875,
"grad_norm": 3.083925247192383,
"learning_rate": 2.7053333333333336e-06,
"loss": 0.1073,
"step": 5975
},
{
"epoch": 0.75,
"grad_norm": 2.6847918033599854,
"learning_rate": 2.672e-06,
"loss": 0.1038,
"step": 6000
},
{
"epoch": 0.75,
"eval_loss": 0.23902159929275513,
"eval_runtime": 158.0693,
"eval_samples_per_second": 13.311,
"eval_steps_per_second": 0.835,
"eval_wer": 11.07319809292325,
"step": 6000
},
{
"epoch": 0.753125,
"grad_norm": 2.7315189838409424,
"learning_rate": 2.6386666666666673e-06,
"loss": 0.0987,
"step": 6025
},
{
"epoch": 0.75625,
"grad_norm": 2.3389735221862793,
"learning_rate": 2.6053333333333337e-06,
"loss": 0.0858,
"step": 6050
},
{
"epoch": 0.759375,
"grad_norm": 1.982534646987915,
"learning_rate": 2.572e-06,
"loss": 0.0764,
"step": 6075
},
{
"epoch": 0.7625,
"grad_norm": 1.9040074348449707,
"learning_rate": 2.538666666666667e-06,
"loss": 0.0731,
"step": 6100
},
{
"epoch": 0.765625,
"grad_norm": 2.654710054397583,
"learning_rate": 2.5053333333333334e-06,
"loss": 0.0758,
"step": 6125
},
{
"epoch": 0.76875,
"grad_norm": 2.6400296688079834,
"learning_rate": 2.4720000000000002e-06,
"loss": 0.0824,
"step": 6150
},
{
"epoch": 0.771875,
"grad_norm": 7.269197463989258,
"learning_rate": 2.438666666666667e-06,
"loss": 0.0822,
"step": 6175
},
{
"epoch": 0.775,
"grad_norm": 2.363656520843506,
"learning_rate": 2.4053333333333335e-06,
"loss": 0.0818,
"step": 6200
},
{
"epoch": 0.778125,
"grad_norm": 2.4660115242004395,
"learning_rate": 2.3720000000000003e-06,
"loss": 0.0768,
"step": 6225
},
{
"epoch": 0.78125,
"grad_norm": 3.3116371631622314,
"learning_rate": 2.3386666666666668e-06,
"loss": 0.0783,
"step": 6250
},
{
"epoch": 0.784375,
"grad_norm": 2.595853090286255,
"learning_rate": 2.3053333333333336e-06,
"loss": 0.0899,
"step": 6275
},
{
"epoch": 0.7875,
"grad_norm": 2.709597587585449,
"learning_rate": 2.2720000000000004e-06,
"loss": 0.0953,
"step": 6300
},
{
"epoch": 0.790625,
"grad_norm": 2.4446637630462646,
"learning_rate": 2.238666666666667e-06,
"loss": 0.1249,
"step": 6325
},
{
"epoch": 0.79375,
"grad_norm": 3.4412341117858887,
"learning_rate": 2.2053333333333333e-06,
"loss": 0.1171,
"step": 6350
},
{
"epoch": 0.796875,
"grad_norm": 2.2719008922576904,
"learning_rate": 2.172e-06,
"loss": 0.1065,
"step": 6375
},
{
"epoch": 0.8,
"grad_norm": 1.9873290061950684,
"learning_rate": 2.138666666666667e-06,
"loss": 0.0872,
"step": 6400
},
{
"epoch": 0.803125,
"grad_norm": 2.487403392791748,
"learning_rate": 2.1053333333333334e-06,
"loss": 0.0765,
"step": 6425
},
{
"epoch": 0.80625,
"grad_norm": 2.4424736499786377,
"learning_rate": 2.0720000000000002e-06,
"loss": 0.0736,
"step": 6450
},
{
"epoch": 0.809375,
"grad_norm": 3.1507577896118164,
"learning_rate": 2.0386666666666667e-06,
"loss": 0.1064,
"step": 6475
},
{
"epoch": 0.8125,
"grad_norm": 2.6285648345947266,
"learning_rate": 2.0053333333333335e-06,
"loss": 0.0993,
"step": 6500
},
{
"epoch": 0.815625,
"grad_norm": 4.1934967041015625,
"learning_rate": 1.972e-06,
"loss": 0.1299,
"step": 6525
},
{
"epoch": 0.81875,
"grad_norm": 3.031852960586548,
"learning_rate": 1.9386666666666668e-06,
"loss": 0.1195,
"step": 6550
},
{
"epoch": 0.821875,
"grad_norm": 2.9288837909698486,
"learning_rate": 1.9053333333333334e-06,
"loss": 0.1197,
"step": 6575
},
{
"epoch": 0.825,
"grad_norm": 2.890054225921631,
"learning_rate": 1.8720000000000002e-06,
"loss": 0.1127,
"step": 6600
},
{
"epoch": 0.828125,
"grad_norm": 3.130406618118286,
"learning_rate": 1.8386666666666669e-06,
"loss": 0.1155,
"step": 6625
},
{
"epoch": 0.83125,
"grad_norm": 2.7169485092163086,
"learning_rate": 1.8053333333333333e-06,
"loss": 0.1291,
"step": 6650
},
{
"epoch": 0.834375,
"grad_norm": 2.7390034198760986,
"learning_rate": 1.7720000000000001e-06,
"loss": 0.1097,
"step": 6675
},
{
"epoch": 0.8375,
"grad_norm": 2.161604166030884,
"learning_rate": 1.7386666666666668e-06,
"loss": 0.1022,
"step": 6700
},
{
"epoch": 0.840625,
"grad_norm": 2.210451126098633,
"learning_rate": 1.7053333333333336e-06,
"loss": 0.0779,
"step": 6725
},
{
"epoch": 0.84375,
"grad_norm": 2.426438808441162,
"learning_rate": 1.672e-06,
"loss": 0.0728,
"step": 6750
},
{
"epoch": 0.846875,
"grad_norm": 2.8744237422943115,
"learning_rate": 1.6386666666666667e-06,
"loss": 0.0859,
"step": 6775
},
{
"epoch": 0.85,
"grad_norm": 2.8165483474731445,
"learning_rate": 1.6053333333333335e-06,
"loss": 0.1496,
"step": 6800
},
{
"epoch": 0.853125,
"grad_norm": 4.0077738761901855,
"learning_rate": 1.5720000000000002e-06,
"loss": 0.1343,
"step": 6825
},
{
"epoch": 0.85625,
"grad_norm": 3.8011586666107178,
"learning_rate": 1.538666666666667e-06,
"loss": 0.1397,
"step": 6850
},
{
"epoch": 0.859375,
"grad_norm": 2.7379047870635986,
"learning_rate": 1.5053333333333334e-06,
"loss": 0.1262,
"step": 6875
},
{
"epoch": 0.8625,
"grad_norm": 3.250950574874878,
"learning_rate": 1.472e-06,
"loss": 0.1188,
"step": 6900
},
{
"epoch": 0.865625,
"grad_norm": 2.782945156097412,
"learning_rate": 1.438666666666667e-06,
"loss": 0.1103,
"step": 6925
},
{
"epoch": 0.86875,
"grad_norm": 3.08154034614563,
"learning_rate": 1.4053333333333335e-06,
"loss": 0.1147,
"step": 6950
},
{
"epoch": 0.871875,
"grad_norm": 3.5768070220947266,
"learning_rate": 1.372e-06,
"loss": 0.1332,
"step": 6975
},
{
"epoch": 0.875,
"grad_norm": 3.155341863632202,
"learning_rate": 1.3386666666666668e-06,
"loss": 0.1282,
"step": 7000
},
{
"epoch": 0.875,
"eval_loss": 0.23438745737075806,
"eval_runtime": 154.8314,
"eval_samples_per_second": 13.589,
"eval_steps_per_second": 0.853,
"eval_wer": 11.391044218005048,
"step": 7000
},
{
"epoch": 0.878125,
"grad_norm": 11.062019348144531,
"learning_rate": 1.308e-06,
"loss": 0.2406,
"step": 7025
},
{
"epoch": 0.88125,
"grad_norm": 4.648179531097412,
"learning_rate": 1.2746666666666669e-06,
"loss": 0.3469,
"step": 7050
},
{
"epoch": 0.884375,
"grad_norm": 4.388245105743408,
"learning_rate": 1.2413333333333335e-06,
"loss": 0.3421,
"step": 7075
},
{
"epoch": 0.8875,
"grad_norm": 4.806427478790283,
"learning_rate": 1.2080000000000001e-06,
"loss": 0.2847,
"step": 7100
},
{
"epoch": 0.890625,
"grad_norm": 3.0818049907684326,
"learning_rate": 1.1746666666666668e-06,
"loss": 0.1671,
"step": 7125
},
{
"epoch": 0.89375,
"grad_norm": 4.117819309234619,
"learning_rate": 1.1413333333333334e-06,
"loss": 0.1313,
"step": 7150
},
{
"epoch": 0.896875,
"grad_norm": 2.8558835983276367,
"learning_rate": 1.108e-06,
"loss": 0.1177,
"step": 7175
},
{
"epoch": 0.9,
"grad_norm": 3.0425021648406982,
"learning_rate": 1.0746666666666669e-06,
"loss": 0.0911,
"step": 7200
},
{
"epoch": 0.903125,
"grad_norm": 2.6587588787078857,
"learning_rate": 1.0413333333333333e-06,
"loss": 0.0898,
"step": 7225
},
{
"epoch": 0.90625,
"grad_norm": 1.7572664022445679,
"learning_rate": 1.0080000000000001e-06,
"loss": 0.0922,
"step": 7250
},
{
"epoch": 0.909375,
"grad_norm": 2.00393009185791,
"learning_rate": 9.746666666666668e-07,
"loss": 0.0753,
"step": 7275
},
{
"epoch": 0.9125,
"grad_norm": 1.845981478691101,
"learning_rate": 9.413333333333334e-07,
"loss": 0.0628,
"step": 7300
},
{
"epoch": 0.915625,
"grad_norm": 2.008112907409668,
"learning_rate": 9.080000000000001e-07,
"loss": 0.0696,
"step": 7325
},
{
"epoch": 0.91875,
"grad_norm": 2.837357759475708,
"learning_rate": 8.746666666666668e-07,
"loss": 0.0897,
"step": 7350
},
{
"epoch": 0.921875,
"grad_norm": 2.4842417240142822,
"learning_rate": 8.413333333333334e-07,
"loss": 0.1227,
"step": 7375
},
{
"epoch": 0.925,
"grad_norm": 2.7866716384887695,
"learning_rate": 8.08e-07,
"loss": 0.1012,
"step": 7400
},
{
"epoch": 0.928125,
"grad_norm": 2.1826930046081543,
"learning_rate": 7.746666666666668e-07,
"loss": 0.1141,
"step": 7425
},
{
"epoch": 0.93125,
"grad_norm": 2.014090061187744,
"learning_rate": 7.413333333333333e-07,
"loss": 0.0754,
"step": 7450
},
{
"epoch": 0.934375,
"grad_norm": 2.1539175510406494,
"learning_rate": 7.08e-07,
"loss": 0.0736,
"step": 7475
},
{
"epoch": 0.9375,
"grad_norm": 2.712541341781616,
"learning_rate": 6.746666666666667e-07,
"loss": 0.0684,
"step": 7500
},
{
"epoch": 0.940625,
"grad_norm": 3.281242847442627,
"learning_rate": 6.413333333333334e-07,
"loss": 0.1414,
"step": 7525
},
{
"epoch": 0.94375,
"grad_norm": 4.088025093078613,
"learning_rate": 6.08e-07,
"loss": 0.1895,
"step": 7550
},
{
"epoch": 0.946875,
"grad_norm": 4.144560813903809,
"learning_rate": 5.746666666666667e-07,
"loss": 0.222,
"step": 7575
},
{
"epoch": 0.95,
"grad_norm": 1.8468823432922363,
"learning_rate": 5.413333333333334e-07,
"loss": 0.1349,
"step": 7600
},
{
"epoch": 0.953125,
"grad_norm": 2.5354621410369873,
"learning_rate": 5.08e-07,
"loss": 0.0872,
"step": 7625
},
{
"epoch": 0.95625,
"grad_norm": 1.83882737159729,
"learning_rate": 4.746666666666667e-07,
"loss": 0.0725,
"step": 7650
},
{
"epoch": 0.959375,
"grad_norm": 3.42556095123291,
"learning_rate": 4.413333333333333e-07,
"loss": 0.0988,
"step": 7675
},
{
"epoch": 0.9625,
"grad_norm": 2.682558059692383,
"learning_rate": 4.0800000000000005e-07,
"loss": 0.1166,
"step": 7700
},
{
"epoch": 0.965625,
"grad_norm": 3.2471797466278076,
"learning_rate": 3.7466666666666674e-07,
"loss": 0.1257,
"step": 7725
},
{
"epoch": 0.96875,
"grad_norm": 2.4202020168304443,
"learning_rate": 3.4133333333333337e-07,
"loss": 0.1114,
"step": 7750
},
{
"epoch": 0.971875,
"grad_norm": 2.8282711505889893,
"learning_rate": 3.0800000000000006e-07,
"loss": 0.0811,
"step": 7775
},
{
"epoch": 0.975,
"grad_norm": 4.20676326751709,
"learning_rate": 2.746666666666667e-07,
"loss": 0.104,
"step": 7800
},
{
"epoch": 0.978125,
"grad_norm": 4.955998420715332,
"learning_rate": 2.413333333333333e-07,
"loss": 0.2773,
"step": 7825
},
{
"epoch": 0.98125,
"grad_norm": 2.0168468952178955,
"learning_rate": 2.08e-07,
"loss": 0.1105,
"step": 7850
},
{
"epoch": 0.984375,
"grad_norm": 1.6335862874984741,
"learning_rate": 1.7466666666666667e-07,
"loss": 0.0808,
"step": 7875
},
{
"epoch": 0.9875,
"grad_norm": 2.269954204559326,
"learning_rate": 1.4133333333333333e-07,
"loss": 0.0786,
"step": 7900
},
{
"epoch": 0.990625,
"grad_norm": 2.0813560485839844,
"learning_rate": 1.0800000000000001e-07,
"loss": 0.0801,
"step": 7925
},
{
"epoch": 0.99375,
"grad_norm": 1.6093230247497559,
"learning_rate": 7.466666666666667e-08,
"loss": 0.0687,
"step": 7950
},
{
"epoch": 0.996875,
"grad_norm": 1.730695366859436,
"learning_rate": 4.133333333333334e-08,
"loss": 0.0814,
"step": 7975
},
{
"epoch": 1.0,
"grad_norm": 3.418311595916748,
"learning_rate": 8e-09,
"loss": 0.0959,
"step": 8000
},
{
"epoch": 1.0,
"eval_loss": 0.1835634410381317,
"eval_runtime": 154.4338,
"eval_samples_per_second": 13.624,
"eval_steps_per_second": 0.855,
"eval_wer": 10.886229784051602,
"step": 8000
},
{
"epoch": 1.0,
"step": 8000,
"total_flos": 7.387786248192e+19,
"train_loss": 0.17036041705310345,
"train_runtime": 11036.9074,
"train_samples_per_second": 23.195,
"train_steps_per_second": 0.725
}
],
"logging_steps": 25,
"max_steps": 8000,
"num_input_tokens_seen": 0,
"num_train_epochs": 9223372036854775807,
"save_steps": 1000,
"stateful_callbacks": {
"TrainerControl": {
"args": {
"should_epoch_stop": false,
"should_evaluate": false,
"should_log": false,
"should_save": true,
"should_training_stop": true
},
"attributes": {}
}
},
"total_flos": 7.387786248192e+19,
"train_batch_size": 32,
"trial_name": null,
"trial_params": null
}