|
{ |
|
"best_metric": 10.886229784051602, |
|
"best_model_checkpoint": "./checkpoint-8000", |
|
"epoch": 1.0, |
|
"eval_steps": 1000, |
|
"global_step": 8000, |
|
"is_hyper_param_search": false, |
|
"is_local_process_zero": true, |
|
"is_world_process_zero": true, |
|
"log_history": [ |
|
{ |
|
"epoch": 0.003125, |
|
"grad_norm": 17.579944610595703, |
|
"learning_rate": 4.4e-07, |
|
"loss": 2.3284, |
|
"step": 25 |
|
}, |
|
{ |
|
"epoch": 0.00625, |
|
"grad_norm": 9.753120422363281, |
|
"learning_rate": 9.400000000000001e-07, |
|
"loss": 1.9145, |
|
"step": 50 |
|
}, |
|
{ |
|
"epoch": 0.009375, |
|
"grad_norm": 9.469987869262695, |
|
"learning_rate": 1.44e-06, |
|
"loss": 1.2892, |
|
"step": 75 |
|
}, |
|
{ |
|
"epoch": 0.0125, |
|
"grad_norm": 6.952774524688721, |
|
"learning_rate": 1.94e-06, |
|
"loss": 0.9797, |
|
"step": 100 |
|
}, |
|
{ |
|
"epoch": 0.015625, |
|
"grad_norm": 6.080902576446533, |
|
"learning_rate": 2.4400000000000004e-06, |
|
"loss": 0.8265, |
|
"step": 125 |
|
}, |
|
{ |
|
"epoch": 0.01875, |
|
"grad_norm": 5.6766037940979, |
|
"learning_rate": 2.9400000000000002e-06, |
|
"loss": 0.6998, |
|
"step": 150 |
|
}, |
|
{ |
|
"epoch": 0.021875, |
|
"grad_norm": 5.372249126434326, |
|
"learning_rate": 3.44e-06, |
|
"loss": 0.6537, |
|
"step": 175 |
|
}, |
|
{ |
|
"epoch": 0.025, |
|
"grad_norm": 5.710323810577393, |
|
"learning_rate": 3.94e-06, |
|
"loss": 0.6149, |
|
"step": 200 |
|
}, |
|
{ |
|
"epoch": 0.028125, |
|
"grad_norm": 5.235953330993652, |
|
"learning_rate": 4.440000000000001e-06, |
|
"loss": 0.5256, |
|
"step": 225 |
|
}, |
|
{ |
|
"epoch": 0.03125, |
|
"grad_norm": 6.58635950088501, |
|
"learning_rate": 4.94e-06, |
|
"loss": 0.54, |
|
"step": 250 |
|
}, |
|
{ |
|
"epoch": 0.034375, |
|
"grad_norm": 5.4912004470825195, |
|
"learning_rate": 5.4400000000000004e-06, |
|
"loss": 0.5521, |
|
"step": 275 |
|
}, |
|
{ |
|
"epoch": 0.0375, |
|
"grad_norm": 5.846869945526123, |
|
"learning_rate": 5.94e-06, |
|
"loss": 0.5379, |
|
"step": 300 |
|
}, |
|
{ |
|
"epoch": 0.040625, |
|
"grad_norm": 5.060309410095215, |
|
"learning_rate": 6.440000000000001e-06, |
|
"loss": 0.4778, |
|
"step": 325 |
|
}, |
|
{ |
|
"epoch": 0.04375, |
|
"grad_norm": 5.06487512588501, |
|
"learning_rate": 6.9400000000000005e-06, |
|
"loss": 0.4152, |
|
"step": 350 |
|
}, |
|
{ |
|
"epoch": 0.046875, |
|
"grad_norm": 4.936045169830322, |
|
"learning_rate": 7.440000000000001e-06, |
|
"loss": 0.3547, |
|
"step": 375 |
|
}, |
|
{ |
|
"epoch": 0.05, |
|
"grad_norm": 3.8072471618652344, |
|
"learning_rate": 7.94e-06, |
|
"loss": 0.3428, |
|
"step": 400 |
|
}, |
|
{ |
|
"epoch": 0.053125, |
|
"grad_norm": 3.9378795623779297, |
|
"learning_rate": 8.44e-06, |
|
"loss": 0.3099, |
|
"step": 425 |
|
}, |
|
{ |
|
"epoch": 0.05625, |
|
"grad_norm": 3.732869863510132, |
|
"learning_rate": 8.94e-06, |
|
"loss": 0.2963, |
|
"step": 450 |
|
}, |
|
{ |
|
"epoch": 0.059375, |
|
"grad_norm": 3.9596025943756104, |
|
"learning_rate": 9.440000000000001e-06, |
|
"loss": 0.2745, |
|
"step": 475 |
|
}, |
|
{ |
|
"epoch": 0.0625, |
|
"grad_norm": 3.428398370742798, |
|
"learning_rate": 9.940000000000001e-06, |
|
"loss": 0.2626, |
|
"step": 500 |
|
}, |
|
{ |
|
"epoch": 0.065625, |
|
"grad_norm": 5.03747034072876, |
|
"learning_rate": 9.970666666666668e-06, |
|
"loss": 0.2411, |
|
"step": 525 |
|
}, |
|
{ |
|
"epoch": 0.06875, |
|
"grad_norm": 3.2012217044830322, |
|
"learning_rate": 9.937333333333334e-06, |
|
"loss": 0.2389, |
|
"step": 550 |
|
}, |
|
{ |
|
"epoch": 0.071875, |
|
"grad_norm": 3.7361278533935547, |
|
"learning_rate": 9.904e-06, |
|
"loss": 0.2217, |
|
"step": 575 |
|
}, |
|
{ |
|
"epoch": 0.075, |
|
"grad_norm": 4.509885787963867, |
|
"learning_rate": 9.870666666666667e-06, |
|
"loss": 0.2246, |
|
"step": 600 |
|
}, |
|
{ |
|
"epoch": 0.078125, |
|
"grad_norm": 3.462961435317993, |
|
"learning_rate": 9.837333333333335e-06, |
|
"loss": 0.199, |
|
"step": 625 |
|
}, |
|
{ |
|
"epoch": 0.08125, |
|
"grad_norm": 2.764691114425659, |
|
"learning_rate": 9.804000000000001e-06, |
|
"loss": 0.2156, |
|
"step": 650 |
|
}, |
|
{ |
|
"epoch": 0.084375, |
|
"grad_norm": 3.059408187866211, |
|
"learning_rate": 9.770666666666668e-06, |
|
"loss": 0.212, |
|
"step": 675 |
|
}, |
|
{ |
|
"epoch": 0.0875, |
|
"grad_norm": 3.952425718307495, |
|
"learning_rate": 9.737333333333334e-06, |
|
"loss": 0.2123, |
|
"step": 700 |
|
}, |
|
{ |
|
"epoch": 0.090625, |
|
"grad_norm": 4.892609119415283, |
|
"learning_rate": 9.704e-06, |
|
"loss": 0.2343, |
|
"step": 725 |
|
}, |
|
{ |
|
"epoch": 0.09375, |
|
"grad_norm": 4.592615127563477, |
|
"learning_rate": 9.670666666666667e-06, |
|
"loss": 0.3308, |
|
"step": 750 |
|
}, |
|
{ |
|
"epoch": 0.096875, |
|
"grad_norm": 4.663967132568359, |
|
"learning_rate": 9.637333333333333e-06, |
|
"loss": 0.3146, |
|
"step": 775 |
|
}, |
|
{ |
|
"epoch": 0.1, |
|
"grad_norm": 5.091048717498779, |
|
"learning_rate": 9.604000000000002e-06, |
|
"loss": 0.3519, |
|
"step": 800 |
|
}, |
|
{ |
|
"epoch": 0.103125, |
|
"grad_norm": 3.8216071128845215, |
|
"learning_rate": 9.570666666666666e-06, |
|
"loss": 0.2365, |
|
"step": 825 |
|
}, |
|
{ |
|
"epoch": 0.10625, |
|
"grad_norm": 3.122516393661499, |
|
"learning_rate": 9.537333333333334e-06, |
|
"loss": 0.193, |
|
"step": 850 |
|
}, |
|
{ |
|
"epoch": 0.109375, |
|
"grad_norm": 2.657339096069336, |
|
"learning_rate": 9.504e-06, |
|
"loss": 0.1759, |
|
"step": 875 |
|
}, |
|
{ |
|
"epoch": 0.1125, |
|
"grad_norm": 4.554510116577148, |
|
"learning_rate": 9.470666666666667e-06, |
|
"loss": 0.2387, |
|
"step": 900 |
|
}, |
|
{ |
|
"epoch": 0.115625, |
|
"grad_norm": 5.045220851898193, |
|
"learning_rate": 9.437333333333334e-06, |
|
"loss": 0.2845, |
|
"step": 925 |
|
}, |
|
{ |
|
"epoch": 0.11875, |
|
"grad_norm": 4.260054588317871, |
|
"learning_rate": 9.404e-06, |
|
"loss": 0.2755, |
|
"step": 950 |
|
}, |
|
{ |
|
"epoch": 0.121875, |
|
"grad_norm": 5.8209147453308105, |
|
"learning_rate": 9.370666666666668e-06, |
|
"loss": 0.481, |
|
"step": 975 |
|
}, |
|
{ |
|
"epoch": 0.125, |
|
"grad_norm": 5.498444557189941, |
|
"learning_rate": 9.337333333333335e-06, |
|
"loss": 0.3998, |
|
"step": 1000 |
|
}, |
|
{ |
|
"epoch": 0.125, |
|
"eval_loss": 0.36512792110443115, |
|
"eval_runtime": 153.2646, |
|
"eval_samples_per_second": 13.728, |
|
"eval_steps_per_second": 0.861, |
|
"eval_wer": 21.50135552023932, |
|
"step": 1000 |
|
}, |
|
{ |
|
"epoch": 0.128125, |
|
"grad_norm": 4.732964515686035, |
|
"learning_rate": 9.304000000000001e-06, |
|
"loss": 0.329, |
|
"step": 1025 |
|
}, |
|
{ |
|
"epoch": 0.13125, |
|
"grad_norm": 3.3556125164031982, |
|
"learning_rate": 9.270666666666667e-06, |
|
"loss": 0.2319, |
|
"step": 1050 |
|
}, |
|
{ |
|
"epoch": 0.134375, |
|
"grad_norm": 2.9708847999572754, |
|
"learning_rate": 9.237333333333334e-06, |
|
"loss": 0.174, |
|
"step": 1075 |
|
}, |
|
{ |
|
"epoch": 0.1375, |
|
"grad_norm": 2.841306447982788, |
|
"learning_rate": 9.204e-06, |
|
"loss": 0.1447, |
|
"step": 1100 |
|
}, |
|
{ |
|
"epoch": 0.140625, |
|
"grad_norm": 2.7909176349639893, |
|
"learning_rate": 9.170666666666668e-06, |
|
"loss": 0.1406, |
|
"step": 1125 |
|
}, |
|
{ |
|
"epoch": 0.14375, |
|
"grad_norm": 3.37842059135437, |
|
"learning_rate": 9.137333333333333e-06, |
|
"loss": 0.151, |
|
"step": 1150 |
|
}, |
|
{ |
|
"epoch": 0.146875, |
|
"grad_norm": 3.023977041244507, |
|
"learning_rate": 9.104000000000001e-06, |
|
"loss": 0.1529, |
|
"step": 1175 |
|
}, |
|
{ |
|
"epoch": 0.15, |
|
"grad_norm": 3.015974283218384, |
|
"learning_rate": 9.070666666666668e-06, |
|
"loss": 0.1496, |
|
"step": 1200 |
|
}, |
|
{ |
|
"epoch": 0.153125, |
|
"grad_norm": 4.30889892578125, |
|
"learning_rate": 9.037333333333334e-06, |
|
"loss": 0.219, |
|
"step": 1225 |
|
}, |
|
{ |
|
"epoch": 0.15625, |
|
"grad_norm": 4.160729885101318, |
|
"learning_rate": 9.004e-06, |
|
"loss": 0.238, |
|
"step": 1250 |
|
}, |
|
{ |
|
"epoch": 0.159375, |
|
"grad_norm": 4.687659740447998, |
|
"learning_rate": 8.970666666666667e-06, |
|
"loss": 0.2603, |
|
"step": 1275 |
|
}, |
|
{ |
|
"epoch": 0.1625, |
|
"grad_norm": 4.577232837677002, |
|
"learning_rate": 8.937333333333335e-06, |
|
"loss": 0.2666, |
|
"step": 1300 |
|
}, |
|
{ |
|
"epoch": 0.165625, |
|
"grad_norm": 5.091732501983643, |
|
"learning_rate": 8.904e-06, |
|
"loss": 0.2337, |
|
"step": 1325 |
|
}, |
|
{ |
|
"epoch": 0.16875, |
|
"grad_norm": 4.125801086425781, |
|
"learning_rate": 8.870666666666668e-06, |
|
"loss": 0.2379, |
|
"step": 1350 |
|
}, |
|
{ |
|
"epoch": 0.171875, |
|
"grad_norm": 5.142183303833008, |
|
"learning_rate": 8.837333333333334e-06, |
|
"loss": 0.2215, |
|
"step": 1375 |
|
}, |
|
{ |
|
"epoch": 0.175, |
|
"grad_norm": 4.486277103424072, |
|
"learning_rate": 8.804e-06, |
|
"loss": 0.2136, |
|
"step": 1400 |
|
}, |
|
{ |
|
"epoch": 0.178125, |
|
"grad_norm": 3.5466482639312744, |
|
"learning_rate": 8.770666666666667e-06, |
|
"loss": 0.2214, |
|
"step": 1425 |
|
}, |
|
{ |
|
"epoch": 0.18125, |
|
"grad_norm": 3.6199097633361816, |
|
"learning_rate": 8.737333333333334e-06, |
|
"loss": 0.2113, |
|
"step": 1450 |
|
}, |
|
{ |
|
"epoch": 0.184375, |
|
"grad_norm": 2.559951066970825, |
|
"learning_rate": 8.704e-06, |
|
"loss": 0.1552, |
|
"step": 1475 |
|
}, |
|
{ |
|
"epoch": 0.1875, |
|
"grad_norm": 2.9152133464813232, |
|
"learning_rate": 8.670666666666666e-06, |
|
"loss": 0.1354, |
|
"step": 1500 |
|
}, |
|
{ |
|
"epoch": 0.190625, |
|
"grad_norm": 2.608732223510742, |
|
"learning_rate": 8.637333333333335e-06, |
|
"loss": 0.144, |
|
"step": 1525 |
|
}, |
|
{ |
|
"epoch": 0.19375, |
|
"grad_norm": 4.0043416023254395, |
|
"learning_rate": 8.604000000000001e-06, |
|
"loss": 0.1367, |
|
"step": 1550 |
|
}, |
|
{ |
|
"epoch": 0.196875, |
|
"grad_norm": 2.3621206283569336, |
|
"learning_rate": 8.570666666666667e-06, |
|
"loss": 0.1194, |
|
"step": 1575 |
|
}, |
|
{ |
|
"epoch": 0.2, |
|
"grad_norm": 2.6970181465148926, |
|
"learning_rate": 8.537333333333334e-06, |
|
"loss": 0.1283, |
|
"step": 1600 |
|
}, |
|
{ |
|
"epoch": 0.203125, |
|
"grad_norm": 4.737370014190674, |
|
"learning_rate": 8.504000000000002e-06, |
|
"loss": 0.1858, |
|
"step": 1625 |
|
}, |
|
{ |
|
"epoch": 0.20625, |
|
"grad_norm": 3.462738513946533, |
|
"learning_rate": 8.470666666666667e-06, |
|
"loss": 0.1995, |
|
"step": 1650 |
|
}, |
|
{ |
|
"epoch": 0.209375, |
|
"grad_norm": 4.608364582061768, |
|
"learning_rate": 8.437333333333335e-06, |
|
"loss": 0.2028, |
|
"step": 1675 |
|
}, |
|
{ |
|
"epoch": 0.2125, |
|
"grad_norm": 2.770601987838745, |
|
"learning_rate": 8.404000000000001e-06, |
|
"loss": 0.1952, |
|
"step": 1700 |
|
}, |
|
{ |
|
"epoch": 0.215625, |
|
"grad_norm": 3.041656017303467, |
|
"learning_rate": 8.370666666666668e-06, |
|
"loss": 0.1464, |
|
"step": 1725 |
|
}, |
|
{ |
|
"epoch": 0.21875, |
|
"grad_norm": 2.988032102584839, |
|
"learning_rate": 8.337333333333334e-06, |
|
"loss": 0.1424, |
|
"step": 1750 |
|
}, |
|
{ |
|
"epoch": 0.221875, |
|
"grad_norm": 3.0646026134490967, |
|
"learning_rate": 8.304e-06, |
|
"loss": 0.1233, |
|
"step": 1775 |
|
}, |
|
{ |
|
"epoch": 0.225, |
|
"grad_norm": 2.617403268814087, |
|
"learning_rate": 8.270666666666667e-06, |
|
"loss": 0.1384, |
|
"step": 1800 |
|
}, |
|
{ |
|
"epoch": 0.228125, |
|
"grad_norm": 2.6170425415039062, |
|
"learning_rate": 8.237333333333333e-06, |
|
"loss": 0.1208, |
|
"step": 1825 |
|
}, |
|
{ |
|
"epoch": 0.23125, |
|
"grad_norm": 2.1296098232269287, |
|
"learning_rate": 8.204000000000001e-06, |
|
"loss": 0.1176, |
|
"step": 1850 |
|
}, |
|
{ |
|
"epoch": 0.234375, |
|
"grad_norm": 2.767275810241699, |
|
"learning_rate": 8.170666666666668e-06, |
|
"loss": 0.1189, |
|
"step": 1875 |
|
}, |
|
{ |
|
"epoch": 0.2375, |
|
"grad_norm": 2.7053661346435547, |
|
"learning_rate": 8.137333333333334e-06, |
|
"loss": 0.1211, |
|
"step": 1900 |
|
}, |
|
{ |
|
"epoch": 0.240625, |
|
"grad_norm": 2.281399965286255, |
|
"learning_rate": 8.104e-06, |
|
"loss": 0.1156, |
|
"step": 1925 |
|
}, |
|
{ |
|
"epoch": 0.24375, |
|
"grad_norm": 3.7013635635375977, |
|
"learning_rate": 8.070666666666667e-06, |
|
"loss": 0.1517, |
|
"step": 1950 |
|
}, |
|
{ |
|
"epoch": 0.246875, |
|
"grad_norm": 3.7125532627105713, |
|
"learning_rate": 8.037333333333334e-06, |
|
"loss": 0.2002, |
|
"step": 1975 |
|
}, |
|
{ |
|
"epoch": 0.25, |
|
"grad_norm": 3.8716859817504883, |
|
"learning_rate": 8.004e-06, |
|
"loss": 0.1975, |
|
"step": 2000 |
|
}, |
|
{ |
|
"epoch": 0.25, |
|
"eval_loss": 0.2918355464935303, |
|
"eval_runtime": 153.1763, |
|
"eval_samples_per_second": 13.736, |
|
"eval_steps_per_second": 0.862, |
|
"eval_wer": 15.873609423202767, |
|
"step": 2000 |
|
}, |
|
{ |
|
"epoch": 0.253125, |
|
"grad_norm": 2.4911813735961914, |
|
"learning_rate": 7.970666666666668e-06, |
|
"loss": 0.1648, |
|
"step": 2025 |
|
}, |
|
{ |
|
"epoch": 0.25625, |
|
"grad_norm": 2.604146718978882, |
|
"learning_rate": 7.937333333333333e-06, |
|
"loss": 0.1162, |
|
"step": 2050 |
|
}, |
|
{ |
|
"epoch": 0.259375, |
|
"grad_norm": 2.7352280616760254, |
|
"learning_rate": 7.904000000000001e-06, |
|
"loss": 0.1135, |
|
"step": 2075 |
|
}, |
|
{ |
|
"epoch": 0.2625, |
|
"grad_norm": 2.2932169437408447, |
|
"learning_rate": 7.870666666666667e-06, |
|
"loss": 0.1153, |
|
"step": 2100 |
|
}, |
|
{ |
|
"epoch": 0.265625, |
|
"grad_norm": 3.1734797954559326, |
|
"learning_rate": 7.837333333333334e-06, |
|
"loss": 0.1005, |
|
"step": 2125 |
|
}, |
|
{ |
|
"epoch": 0.26875, |
|
"grad_norm": 2.4353103637695312, |
|
"learning_rate": 7.804e-06, |
|
"loss": 0.0988, |
|
"step": 2150 |
|
}, |
|
{ |
|
"epoch": 0.271875, |
|
"grad_norm": 2.8655478954315186, |
|
"learning_rate": 7.770666666666668e-06, |
|
"loss": 0.1028, |
|
"step": 2175 |
|
}, |
|
{ |
|
"epoch": 0.275, |
|
"grad_norm": 3.800967216491699, |
|
"learning_rate": 7.737333333333335e-06, |
|
"loss": 0.1751, |
|
"step": 2200 |
|
}, |
|
{ |
|
"epoch": 0.278125, |
|
"grad_norm": 4.212419509887695, |
|
"learning_rate": 7.704000000000001e-06, |
|
"loss": 0.1798, |
|
"step": 2225 |
|
}, |
|
{ |
|
"epoch": 0.28125, |
|
"grad_norm": 3.5863020420074463, |
|
"learning_rate": 7.670666666666668e-06, |
|
"loss": 0.199, |
|
"step": 2250 |
|
}, |
|
{ |
|
"epoch": 0.284375, |
|
"grad_norm": 3.1013996601104736, |
|
"learning_rate": 7.637333333333334e-06, |
|
"loss": 0.1335, |
|
"step": 2275 |
|
}, |
|
{ |
|
"epoch": 0.2875, |
|
"grad_norm": 2.2462713718414307, |
|
"learning_rate": 7.604e-06, |
|
"loss": 0.0976, |
|
"step": 2300 |
|
}, |
|
{ |
|
"epoch": 0.290625, |
|
"grad_norm": 2.9669203758239746, |
|
"learning_rate": 7.570666666666668e-06, |
|
"loss": 0.0946, |
|
"step": 2325 |
|
}, |
|
{ |
|
"epoch": 0.29375, |
|
"grad_norm": 2.645289897918701, |
|
"learning_rate": 7.537333333333334e-06, |
|
"loss": 0.0935, |
|
"step": 2350 |
|
}, |
|
{ |
|
"epoch": 0.296875, |
|
"grad_norm": 1.9715274572372437, |
|
"learning_rate": 7.5040000000000005e-06, |
|
"loss": 0.1045, |
|
"step": 2375 |
|
}, |
|
{ |
|
"epoch": 0.3, |
|
"grad_norm": 2.1423373222351074, |
|
"learning_rate": 7.470666666666667e-06, |
|
"loss": 0.0977, |
|
"step": 2400 |
|
}, |
|
{ |
|
"epoch": 0.303125, |
|
"grad_norm": 2.029958963394165, |
|
"learning_rate": 7.437333333333334e-06, |
|
"loss": 0.1061, |
|
"step": 2425 |
|
}, |
|
{ |
|
"epoch": 0.30625, |
|
"grad_norm": 1.972732663154602, |
|
"learning_rate": 7.404e-06, |
|
"loss": 0.0998, |
|
"step": 2450 |
|
}, |
|
{ |
|
"epoch": 0.309375, |
|
"grad_norm": 2.2875239849090576, |
|
"learning_rate": 7.370666666666667e-06, |
|
"loss": 0.1068, |
|
"step": 2475 |
|
}, |
|
{ |
|
"epoch": 0.3125, |
|
"grad_norm": 3.1778981685638428, |
|
"learning_rate": 7.337333333333334e-06, |
|
"loss": 0.1168, |
|
"step": 2500 |
|
}, |
|
{ |
|
"epoch": 0.315625, |
|
"grad_norm": 3.360576868057251, |
|
"learning_rate": 7.304000000000001e-06, |
|
"loss": 0.1524, |
|
"step": 2525 |
|
}, |
|
{ |
|
"epoch": 0.31875, |
|
"grad_norm": 3.5467047691345215, |
|
"learning_rate": 7.270666666666667e-06, |
|
"loss": 0.1483, |
|
"step": 2550 |
|
}, |
|
{ |
|
"epoch": 0.321875, |
|
"grad_norm": 3.488696575164795, |
|
"learning_rate": 7.237333333333334e-06, |
|
"loss": 0.1775, |
|
"step": 2575 |
|
}, |
|
{ |
|
"epoch": 0.325, |
|
"grad_norm": 2.8800296783447266, |
|
"learning_rate": 7.204000000000001e-06, |
|
"loss": 0.135, |
|
"step": 2600 |
|
}, |
|
{ |
|
"epoch": 0.328125, |
|
"grad_norm": 3.1020660400390625, |
|
"learning_rate": 7.170666666666667e-06, |
|
"loss": 0.1108, |
|
"step": 2625 |
|
}, |
|
{ |
|
"epoch": 0.33125, |
|
"grad_norm": 2.1233720779418945, |
|
"learning_rate": 7.137333333333334e-06, |
|
"loss": 0.1002, |
|
"step": 2650 |
|
}, |
|
{ |
|
"epoch": 0.334375, |
|
"grad_norm": 2.393425703048706, |
|
"learning_rate": 7.104000000000001e-06, |
|
"loss": 0.0941, |
|
"step": 2675 |
|
}, |
|
{ |
|
"epoch": 0.3375, |
|
"grad_norm": 2.295924186706543, |
|
"learning_rate": 7.0706666666666665e-06, |
|
"loss": 0.0959, |
|
"step": 2700 |
|
}, |
|
{ |
|
"epoch": 0.340625, |
|
"grad_norm": 1.8125039339065552, |
|
"learning_rate": 7.037333333333334e-06, |
|
"loss": 0.1116, |
|
"step": 2725 |
|
}, |
|
{ |
|
"epoch": 0.34375, |
|
"grad_norm": 3.006834030151367, |
|
"learning_rate": 7.004000000000001e-06, |
|
"loss": 0.1146, |
|
"step": 2750 |
|
}, |
|
{ |
|
"epoch": 0.346875, |
|
"grad_norm": 4.171006679534912, |
|
"learning_rate": 6.970666666666667e-06, |
|
"loss": 0.2029, |
|
"step": 2775 |
|
}, |
|
{ |
|
"epoch": 0.35, |
|
"grad_norm": 3.68646240234375, |
|
"learning_rate": 6.937333333333334e-06, |
|
"loss": 0.1913, |
|
"step": 2800 |
|
}, |
|
{ |
|
"epoch": 0.353125, |
|
"grad_norm": 3.7463300228118896, |
|
"learning_rate": 6.904e-06, |
|
"loss": 0.16, |
|
"step": 2825 |
|
}, |
|
{ |
|
"epoch": 0.35625, |
|
"grad_norm": 3.069136381149292, |
|
"learning_rate": 6.8706666666666676e-06, |
|
"loss": 0.1571, |
|
"step": 2850 |
|
}, |
|
{ |
|
"epoch": 0.359375, |
|
"grad_norm": 3.17172908782959, |
|
"learning_rate": 6.837333333333334e-06, |
|
"loss": 0.1608, |
|
"step": 2875 |
|
}, |
|
{ |
|
"epoch": 0.3625, |
|
"grad_norm": 3.1673102378845215, |
|
"learning_rate": 6.804e-06, |
|
"loss": 0.1546, |
|
"step": 2900 |
|
}, |
|
{ |
|
"epoch": 0.365625, |
|
"grad_norm": 2.344193935394287, |
|
"learning_rate": 6.770666666666668e-06, |
|
"loss": 0.1282, |
|
"step": 2925 |
|
}, |
|
{ |
|
"epoch": 0.36875, |
|
"grad_norm": 2.5321226119995117, |
|
"learning_rate": 6.737333333333333e-06, |
|
"loss": 0.0979, |
|
"step": 2950 |
|
}, |
|
{ |
|
"epoch": 0.371875, |
|
"grad_norm": 2.2652363777160645, |
|
"learning_rate": 6.7040000000000005e-06, |
|
"loss": 0.1049, |
|
"step": 2975 |
|
}, |
|
{ |
|
"epoch": 0.375, |
|
"grad_norm": 2.7856993675231934, |
|
"learning_rate": 6.670666666666668e-06, |
|
"loss": 0.1433, |
|
"step": 3000 |
|
}, |
|
{ |
|
"epoch": 0.375, |
|
"eval_loss": 0.2720916271209717, |
|
"eval_runtime": 151.7576, |
|
"eval_samples_per_second": 13.864, |
|
"eval_steps_per_second": 0.87, |
|
"eval_wer": 13.9010937646069, |
|
"step": 3000 |
|
}, |
|
{ |
|
"epoch": 0.378125, |
|
"grad_norm": 4.214677810668945, |
|
"learning_rate": 6.637333333333333e-06, |
|
"loss": 0.1758, |
|
"step": 3025 |
|
}, |
|
{ |
|
"epoch": 0.38125, |
|
"grad_norm": 4.144543647766113, |
|
"learning_rate": 6.604000000000001e-06, |
|
"loss": 0.1972, |
|
"step": 3050 |
|
}, |
|
{ |
|
"epoch": 0.384375, |
|
"grad_norm": 2.1775295734405518, |
|
"learning_rate": 6.570666666666667e-06, |
|
"loss": 0.1293, |
|
"step": 3075 |
|
}, |
|
{ |
|
"epoch": 0.3875, |
|
"grad_norm": 2.796152353286743, |
|
"learning_rate": 6.537333333333334e-06, |
|
"loss": 0.099, |
|
"step": 3100 |
|
}, |
|
{ |
|
"epoch": 0.390625, |
|
"grad_norm": 2.1920204162597656, |
|
"learning_rate": 6.504e-06, |
|
"loss": 0.0945, |
|
"step": 3125 |
|
}, |
|
{ |
|
"epoch": 0.39375, |
|
"grad_norm": 2.8689582347869873, |
|
"learning_rate": 6.470666666666667e-06, |
|
"loss": 0.1118, |
|
"step": 3150 |
|
}, |
|
{ |
|
"epoch": 0.396875, |
|
"grad_norm": 3.580993175506592, |
|
"learning_rate": 6.4373333333333344e-06, |
|
"loss": 0.1732, |
|
"step": 3175 |
|
}, |
|
{ |
|
"epoch": 0.4, |
|
"grad_norm": 3.9165573120117188, |
|
"learning_rate": 6.404e-06, |
|
"loss": 0.1581, |
|
"step": 3200 |
|
}, |
|
{ |
|
"epoch": 0.403125, |
|
"grad_norm": 3.8235292434692383, |
|
"learning_rate": 6.370666666666667e-06, |
|
"loss": 0.1716, |
|
"step": 3225 |
|
}, |
|
{ |
|
"epoch": 0.40625, |
|
"grad_norm": 3.21138072013855, |
|
"learning_rate": 6.3373333333333345e-06, |
|
"loss": 0.1364, |
|
"step": 3250 |
|
}, |
|
{ |
|
"epoch": 0.409375, |
|
"grad_norm": 3.925539255142212, |
|
"learning_rate": 6.304e-06, |
|
"loss": 0.1459, |
|
"step": 3275 |
|
}, |
|
{ |
|
"epoch": 0.4125, |
|
"grad_norm": 3.062764883041382, |
|
"learning_rate": 6.270666666666667e-06, |
|
"loss": 0.1668, |
|
"step": 3300 |
|
}, |
|
{ |
|
"epoch": 0.415625, |
|
"grad_norm": 2.8379392623901367, |
|
"learning_rate": 6.237333333333334e-06, |
|
"loss": 0.1243, |
|
"step": 3325 |
|
}, |
|
{ |
|
"epoch": 0.41875, |
|
"grad_norm": 2.979661226272583, |
|
"learning_rate": 6.204e-06, |
|
"loss": 0.0979, |
|
"step": 3350 |
|
}, |
|
{ |
|
"epoch": 0.421875, |
|
"grad_norm": 2.4838883876800537, |
|
"learning_rate": 6.170666666666667e-06, |
|
"loss": 0.0848, |
|
"step": 3375 |
|
}, |
|
{ |
|
"epoch": 0.425, |
|
"grad_norm": 2.3293073177337646, |
|
"learning_rate": 6.137333333333334e-06, |
|
"loss": 0.0927, |
|
"step": 3400 |
|
}, |
|
{ |
|
"epoch": 0.428125, |
|
"grad_norm": 3.3497400283813477, |
|
"learning_rate": 6.104000000000001e-06, |
|
"loss": 0.0976, |
|
"step": 3425 |
|
}, |
|
{ |
|
"epoch": 0.43125, |
|
"grad_norm": 2.0302255153656006, |
|
"learning_rate": 6.070666666666667e-06, |
|
"loss": 0.0881, |
|
"step": 3450 |
|
}, |
|
{ |
|
"epoch": 0.434375, |
|
"grad_norm": 2.112396001815796, |
|
"learning_rate": 6.037333333333334e-06, |
|
"loss": 0.0828, |
|
"step": 3475 |
|
}, |
|
{ |
|
"epoch": 0.4375, |
|
"grad_norm": 2.513197183609009, |
|
"learning_rate": 6.004000000000001e-06, |
|
"loss": 0.0983, |
|
"step": 3500 |
|
}, |
|
{ |
|
"epoch": 0.440625, |
|
"grad_norm": 2.1429622173309326, |
|
"learning_rate": 5.970666666666667e-06, |
|
"loss": 0.0929, |
|
"step": 3525 |
|
}, |
|
{ |
|
"epoch": 0.44375, |
|
"grad_norm": 2.7300236225128174, |
|
"learning_rate": 5.937333333333334e-06, |
|
"loss": 0.0916, |
|
"step": 3550 |
|
}, |
|
{ |
|
"epoch": 0.446875, |
|
"grad_norm": 4.011541366577148, |
|
"learning_rate": 5.9040000000000006e-06, |
|
"loss": 0.1426, |
|
"step": 3575 |
|
}, |
|
{ |
|
"epoch": 0.45, |
|
"grad_norm": 3.1994545459747314, |
|
"learning_rate": 5.870666666666667e-06, |
|
"loss": 0.163, |
|
"step": 3600 |
|
}, |
|
{ |
|
"epoch": 0.453125, |
|
"grad_norm": 2.98388934135437, |
|
"learning_rate": 5.837333333333333e-06, |
|
"loss": 0.1568, |
|
"step": 3625 |
|
}, |
|
{ |
|
"epoch": 0.45625, |
|
"grad_norm": 2.4515798091888428, |
|
"learning_rate": 5.804000000000001e-06, |
|
"loss": 0.0937, |
|
"step": 3650 |
|
}, |
|
{ |
|
"epoch": 0.459375, |
|
"grad_norm": 2.0767834186553955, |
|
"learning_rate": 5.770666666666666e-06, |
|
"loss": 0.0861, |
|
"step": 3675 |
|
}, |
|
{ |
|
"epoch": 0.4625, |
|
"grad_norm": 2.601104974746704, |
|
"learning_rate": 5.7373333333333335e-06, |
|
"loss": 0.0917, |
|
"step": 3700 |
|
}, |
|
{ |
|
"epoch": 0.465625, |
|
"grad_norm": 2.593489408493042, |
|
"learning_rate": 5.704000000000001e-06, |
|
"loss": 0.1022, |
|
"step": 3725 |
|
}, |
|
{ |
|
"epoch": 0.46875, |
|
"grad_norm": 3.5832834243774414, |
|
"learning_rate": 5.670666666666668e-06, |
|
"loss": 0.1304, |
|
"step": 3750 |
|
}, |
|
{ |
|
"epoch": 0.471875, |
|
"grad_norm": 3.4403560161590576, |
|
"learning_rate": 5.637333333333334e-06, |
|
"loss": 0.1634, |
|
"step": 3775 |
|
}, |
|
{ |
|
"epoch": 0.475, |
|
"grad_norm": 3.6842737197875977, |
|
"learning_rate": 5.604000000000001e-06, |
|
"loss": 0.1683, |
|
"step": 3800 |
|
}, |
|
{ |
|
"epoch": 0.478125, |
|
"grad_norm": 3.8382315635681152, |
|
"learning_rate": 5.570666666666667e-06, |
|
"loss": 0.1538, |
|
"step": 3825 |
|
}, |
|
{ |
|
"epoch": 0.48125, |
|
"grad_norm": 4.207257270812988, |
|
"learning_rate": 5.537333333333334e-06, |
|
"loss": 0.165, |
|
"step": 3850 |
|
}, |
|
{ |
|
"epoch": 0.484375, |
|
"grad_norm": 2.4130444526672363, |
|
"learning_rate": 5.504e-06, |
|
"loss": 0.1558, |
|
"step": 3875 |
|
}, |
|
{ |
|
"epoch": 0.4875, |
|
"grad_norm": 2.3981151580810547, |
|
"learning_rate": 5.4706666666666674e-06, |
|
"loss": 0.1096, |
|
"step": 3900 |
|
}, |
|
{ |
|
"epoch": 0.490625, |
|
"grad_norm": 2.2837915420532227, |
|
"learning_rate": 5.437333333333333e-06, |
|
"loss": 0.0937, |
|
"step": 3925 |
|
}, |
|
{ |
|
"epoch": 0.49375, |
|
"grad_norm": 2.6647775173187256, |
|
"learning_rate": 5.404e-06, |
|
"loss": 0.0876, |
|
"step": 3950 |
|
}, |
|
{ |
|
"epoch": 0.496875, |
|
"grad_norm": 3.7677643299102783, |
|
"learning_rate": 5.3706666666666675e-06, |
|
"loss": 0.15, |
|
"step": 3975 |
|
}, |
|
{ |
|
"epoch": 0.5, |
|
"grad_norm": 3.542175769805908, |
|
"learning_rate": 5.337333333333333e-06, |
|
"loss": 0.1925, |
|
"step": 4000 |
|
}, |
|
{ |
|
"epoch": 0.5, |
|
"eval_loss": 0.25648659467697144, |
|
"eval_runtime": 150.6646, |
|
"eval_samples_per_second": 13.965, |
|
"eval_steps_per_second": 0.876, |
|
"eval_wer": 12.7372160418809, |
|
"step": 4000 |
|
}, |
|
{ |
|
"epoch": 0.503125, |
|
"grad_norm": 2.5672571659088135, |
|
"learning_rate": 5.304e-06, |
|
"loss": 0.1434, |
|
"step": 4025 |
|
}, |
|
{ |
|
"epoch": 0.50625, |
|
"grad_norm": 4.591808319091797, |
|
"learning_rate": 5.270666666666668e-06, |
|
"loss": 0.2075, |
|
"step": 4050 |
|
}, |
|
{ |
|
"epoch": 0.509375, |
|
"grad_norm": 3.485185146331787, |
|
"learning_rate": 5.237333333333334e-06, |
|
"loss": 0.1478, |
|
"step": 4075 |
|
}, |
|
{ |
|
"epoch": 0.5125, |
|
"grad_norm": 2.5995991230010986, |
|
"learning_rate": 5.2040000000000005e-06, |
|
"loss": 0.1383, |
|
"step": 4100 |
|
}, |
|
{ |
|
"epoch": 0.515625, |
|
"grad_norm": 2.4682819843292236, |
|
"learning_rate": 5.170666666666667e-06, |
|
"loss": 0.0959, |
|
"step": 4125 |
|
}, |
|
{ |
|
"epoch": 0.51875, |
|
"grad_norm": 2.436518669128418, |
|
"learning_rate": 5.137333333333334e-06, |
|
"loss": 0.0857, |
|
"step": 4150 |
|
}, |
|
{ |
|
"epoch": 0.521875, |
|
"grad_norm": 2.0344107151031494, |
|
"learning_rate": 5.104e-06, |
|
"loss": 0.0862, |
|
"step": 4175 |
|
}, |
|
{ |
|
"epoch": 0.525, |
|
"grad_norm": 1.6771937608718872, |
|
"learning_rate": 5.070666666666667e-06, |
|
"loss": 0.0808, |
|
"step": 4200 |
|
}, |
|
{ |
|
"epoch": 0.528125, |
|
"grad_norm": 1.7831439971923828, |
|
"learning_rate": 5.037333333333334e-06, |
|
"loss": 0.0872, |
|
"step": 4225 |
|
}, |
|
{ |
|
"epoch": 0.53125, |
|
"grad_norm": 2.228795051574707, |
|
"learning_rate": 5.004e-06, |
|
"loss": 0.0832, |
|
"step": 4250 |
|
}, |
|
{ |
|
"epoch": 0.534375, |
|
"grad_norm": 3.1402647495269775, |
|
"learning_rate": 4.970666666666667e-06, |
|
"loss": 0.0927, |
|
"step": 4275 |
|
}, |
|
{ |
|
"epoch": 0.5375, |
|
"grad_norm": 3.662506580352783, |
|
"learning_rate": 4.937333333333334e-06, |
|
"loss": 0.1477, |
|
"step": 4300 |
|
}, |
|
{ |
|
"epoch": 0.540625, |
|
"grad_norm": 2.865934371948242, |
|
"learning_rate": 4.904000000000001e-06, |
|
"loss": 0.1262, |
|
"step": 4325 |
|
}, |
|
{ |
|
"epoch": 0.54375, |
|
"grad_norm": 3.2233200073242188, |
|
"learning_rate": 4.870666666666667e-06, |
|
"loss": 0.1329, |
|
"step": 4350 |
|
}, |
|
{ |
|
"epoch": 0.546875, |
|
"grad_norm": 2.093703269958496, |
|
"learning_rate": 4.837333333333334e-06, |
|
"loss": 0.0795, |
|
"step": 4375 |
|
}, |
|
{ |
|
"epoch": 0.55, |
|
"grad_norm": 1.7601807117462158, |
|
"learning_rate": 4.804e-06, |
|
"loss": 0.0715, |
|
"step": 4400 |
|
}, |
|
{ |
|
"epoch": 0.553125, |
|
"grad_norm": 2.1606643199920654, |
|
"learning_rate": 4.770666666666667e-06, |
|
"loss": 0.0797, |
|
"step": 4425 |
|
}, |
|
{ |
|
"epoch": 0.55625, |
|
"grad_norm": 2.565343141555786, |
|
"learning_rate": 4.737333333333334e-06, |
|
"loss": 0.0883, |
|
"step": 4450 |
|
}, |
|
{ |
|
"epoch": 0.559375, |
|
"grad_norm": 2.062619924545288, |
|
"learning_rate": 4.704e-06, |
|
"loss": 0.0965, |
|
"step": 4475 |
|
}, |
|
{ |
|
"epoch": 0.5625, |
|
"grad_norm": 2.2219879627227783, |
|
"learning_rate": 4.6706666666666675e-06, |
|
"loss": 0.0891, |
|
"step": 4500 |
|
}, |
|
{ |
|
"epoch": 0.565625, |
|
"grad_norm": 2.857029676437378, |
|
"learning_rate": 4.637333333333334e-06, |
|
"loss": 0.1147, |
|
"step": 4525 |
|
}, |
|
{ |
|
"epoch": 0.56875, |
|
"grad_norm": 3.090247392654419, |
|
"learning_rate": 4.604e-06, |
|
"loss": 0.144, |
|
"step": 4550 |
|
}, |
|
{ |
|
"epoch": 0.571875, |
|
"grad_norm": 3.8906264305114746, |
|
"learning_rate": 4.570666666666667e-06, |
|
"loss": 0.1451, |
|
"step": 4575 |
|
}, |
|
{ |
|
"epoch": 0.575, |
|
"grad_norm": 3.7733590602874756, |
|
"learning_rate": 4.537333333333334e-06, |
|
"loss": 0.1475, |
|
"step": 4600 |
|
}, |
|
{ |
|
"epoch": 0.578125, |
|
"grad_norm": 3.379163980484009, |
|
"learning_rate": 4.504e-06, |
|
"loss": 0.1509, |
|
"step": 4625 |
|
}, |
|
{ |
|
"epoch": 0.58125, |
|
"grad_norm": 3.4210824966430664, |
|
"learning_rate": 4.470666666666667e-06, |
|
"loss": 0.1444, |
|
"step": 4650 |
|
}, |
|
{ |
|
"epoch": 0.584375, |
|
"grad_norm": 3.7809910774230957, |
|
"learning_rate": 4.437333333333333e-06, |
|
"loss": 0.1295, |
|
"step": 4675 |
|
}, |
|
{ |
|
"epoch": 0.5875, |
|
"grad_norm": 2.537574052810669, |
|
"learning_rate": 4.4040000000000005e-06, |
|
"loss": 0.1158, |
|
"step": 4700 |
|
}, |
|
{ |
|
"epoch": 0.590625, |
|
"grad_norm": 3.482285261154175, |
|
"learning_rate": 4.370666666666667e-06, |
|
"loss": 0.1249, |
|
"step": 4725 |
|
}, |
|
{ |
|
"epoch": 0.59375, |
|
"grad_norm": 3.0114011764526367, |
|
"learning_rate": 4.337333333333334e-06, |
|
"loss": 0.1238, |
|
"step": 4750 |
|
}, |
|
{ |
|
"epoch": 0.596875, |
|
"grad_norm": 2.117215394973755, |
|
"learning_rate": 4.304000000000001e-06, |
|
"loss": 0.0888, |
|
"step": 4775 |
|
}, |
|
{ |
|
"epoch": 0.6, |
|
"grad_norm": 2.0158379077911377, |
|
"learning_rate": 4.270666666666667e-06, |
|
"loss": 0.0972, |
|
"step": 4800 |
|
}, |
|
{ |
|
"epoch": 0.603125, |
|
"grad_norm": 2.5208640098571777, |
|
"learning_rate": 4.2373333333333335e-06, |
|
"loss": 0.0793, |
|
"step": 4825 |
|
}, |
|
{ |
|
"epoch": 0.60625, |
|
"grad_norm": 2.820002555847168, |
|
"learning_rate": 4.204e-06, |
|
"loss": 0.1035, |
|
"step": 4850 |
|
}, |
|
{ |
|
"epoch": 0.609375, |
|
"grad_norm": 3.1144282817840576, |
|
"learning_rate": 4.170666666666667e-06, |
|
"loss": 0.1128, |
|
"step": 4875 |
|
}, |
|
{ |
|
"epoch": 0.6125, |
|
"grad_norm": 3.1345527172088623, |
|
"learning_rate": 4.137333333333334e-06, |
|
"loss": 0.1217, |
|
"step": 4900 |
|
}, |
|
{ |
|
"epoch": 0.615625, |
|
"grad_norm": 2.2702696323394775, |
|
"learning_rate": 4.104e-06, |
|
"loss": 0.1061, |
|
"step": 4925 |
|
}, |
|
{ |
|
"epoch": 0.61875, |
|
"grad_norm": 2.714102268218994, |
|
"learning_rate": 4.072e-06, |
|
"loss": 0.0919, |
|
"step": 4950 |
|
}, |
|
{ |
|
"epoch": 0.621875, |
|
"grad_norm": 2.448854923248291, |
|
"learning_rate": 4.0386666666666666e-06, |
|
"loss": 0.0855, |
|
"step": 4975 |
|
}, |
|
{ |
|
"epoch": 0.625, |
|
"grad_norm": 2.9392127990722656, |
|
"learning_rate": 4.005333333333334e-06, |
|
"loss": 0.0818, |
|
"step": 5000 |
|
}, |
|
{ |
|
"epoch": 0.625, |
|
"eval_loss": 0.2562941014766693, |
|
"eval_runtime": 160.0125, |
|
"eval_samples_per_second": 13.149, |
|
"eval_steps_per_second": 0.825, |
|
"eval_wer": 11.942600729176405, |
|
"step": 5000 |
|
}, |
|
{ |
|
"epoch": 0.628125, |
|
"grad_norm": 2.4964210987091064, |
|
"learning_rate": 3.972e-06, |
|
"loss": 0.1203, |
|
"step": 5025 |
|
}, |
|
{ |
|
"epoch": 0.63125, |
|
"grad_norm": 3.330078125, |
|
"learning_rate": 3.938666666666667e-06, |
|
"loss": 0.111, |
|
"step": 5050 |
|
}, |
|
{ |
|
"epoch": 0.634375, |
|
"grad_norm": 3.6872191429138184, |
|
"learning_rate": 3.905333333333334e-06, |
|
"loss": 0.164, |
|
"step": 5075 |
|
}, |
|
{ |
|
"epoch": 0.6375, |
|
"grad_norm": 3.728769063949585, |
|
"learning_rate": 3.872e-06, |
|
"loss": 0.1515, |
|
"step": 5100 |
|
}, |
|
{ |
|
"epoch": 0.640625, |
|
"grad_norm": 3.4183156490325928, |
|
"learning_rate": 3.838666666666667e-06, |
|
"loss": 0.1334, |
|
"step": 5125 |
|
}, |
|
{ |
|
"epoch": 0.64375, |
|
"grad_norm": 3.4580440521240234, |
|
"learning_rate": 3.8053333333333336e-06, |
|
"loss": 0.134, |
|
"step": 5150 |
|
}, |
|
{ |
|
"epoch": 0.646875, |
|
"grad_norm": 2.2719855308532715, |
|
"learning_rate": 3.772e-06, |
|
"loss": 0.1088, |
|
"step": 5175 |
|
}, |
|
{ |
|
"epoch": 0.65, |
|
"grad_norm": 2.3186910152435303, |
|
"learning_rate": 3.7386666666666673e-06, |
|
"loss": 0.0724, |
|
"step": 5200 |
|
}, |
|
{ |
|
"epoch": 0.653125, |
|
"grad_norm": 1.8175565004348755, |
|
"learning_rate": 3.7053333333333337e-06, |
|
"loss": 0.0759, |
|
"step": 5225 |
|
}, |
|
{ |
|
"epoch": 0.65625, |
|
"grad_norm": 2.0874826908111572, |
|
"learning_rate": 3.6720000000000006e-06, |
|
"loss": 0.0813, |
|
"step": 5250 |
|
}, |
|
{ |
|
"epoch": 0.659375, |
|
"grad_norm": 1.9950120449066162, |
|
"learning_rate": 3.638666666666667e-06, |
|
"loss": 0.0824, |
|
"step": 5275 |
|
}, |
|
{ |
|
"epoch": 0.6625, |
|
"grad_norm": 2.6349194049835205, |
|
"learning_rate": 3.6053333333333334e-06, |
|
"loss": 0.0835, |
|
"step": 5300 |
|
}, |
|
{ |
|
"epoch": 0.665625, |
|
"grad_norm": 2.7667415142059326, |
|
"learning_rate": 3.5720000000000003e-06, |
|
"loss": 0.0823, |
|
"step": 5325 |
|
}, |
|
{ |
|
"epoch": 0.66875, |
|
"grad_norm": 3.617748260498047, |
|
"learning_rate": 3.538666666666667e-06, |
|
"loss": 0.1077, |
|
"step": 5350 |
|
}, |
|
{ |
|
"epoch": 0.671875, |
|
"grad_norm": 3.2603073120117188, |
|
"learning_rate": 3.5053333333333335e-06, |
|
"loss": 0.1268, |
|
"step": 5375 |
|
}, |
|
{ |
|
"epoch": 0.675, |
|
"grad_norm": 2.9681355953216553, |
|
"learning_rate": 3.4720000000000004e-06, |
|
"loss": 0.1206, |
|
"step": 5400 |
|
}, |
|
{ |
|
"epoch": 0.678125, |
|
"grad_norm": 4.156548500061035, |
|
"learning_rate": 3.438666666666667e-06, |
|
"loss": 0.1279, |
|
"step": 5425 |
|
}, |
|
{ |
|
"epoch": 0.68125, |
|
"grad_norm": 3.2013888359069824, |
|
"learning_rate": 3.4053333333333337e-06, |
|
"loss": 0.1177, |
|
"step": 5450 |
|
}, |
|
{ |
|
"epoch": 0.684375, |
|
"grad_norm": 3.299403190612793, |
|
"learning_rate": 3.372e-06, |
|
"loss": 0.0946, |
|
"step": 5475 |
|
}, |
|
{ |
|
"epoch": 0.6875, |
|
"grad_norm": 2.39630389213562, |
|
"learning_rate": 3.338666666666667e-06, |
|
"loss": 0.0944, |
|
"step": 5500 |
|
}, |
|
{ |
|
"epoch": 0.690625, |
|
"grad_norm": 3.7624928951263428, |
|
"learning_rate": 3.3053333333333338e-06, |
|
"loss": 0.1149, |
|
"step": 5525 |
|
}, |
|
{ |
|
"epoch": 0.69375, |
|
"grad_norm": 3.3170886039733887, |
|
"learning_rate": 3.272e-06, |
|
"loss": 0.1373, |
|
"step": 5550 |
|
}, |
|
{ |
|
"epoch": 0.696875, |
|
"grad_norm": 2.2296531200408936, |
|
"learning_rate": 3.238666666666667e-06, |
|
"loss": 0.1056, |
|
"step": 5575 |
|
}, |
|
{ |
|
"epoch": 0.7, |
|
"grad_norm": 1.8995999097824097, |
|
"learning_rate": 3.2053333333333334e-06, |
|
"loss": 0.0724, |
|
"step": 5600 |
|
}, |
|
{ |
|
"epoch": 0.703125, |
|
"grad_norm": 2.3782520294189453, |
|
"learning_rate": 3.172e-06, |
|
"loss": 0.0604, |
|
"step": 5625 |
|
}, |
|
{ |
|
"epoch": 0.70625, |
|
"grad_norm": 2.2558810710906982, |
|
"learning_rate": 3.138666666666667e-06, |
|
"loss": 0.0581, |
|
"step": 5650 |
|
}, |
|
{ |
|
"epoch": 0.709375, |
|
"grad_norm": 2.4040448665618896, |
|
"learning_rate": 3.1053333333333336e-06, |
|
"loss": 0.0713, |
|
"step": 5675 |
|
}, |
|
{ |
|
"epoch": 0.7125, |
|
"grad_norm": 2.5696732997894287, |
|
"learning_rate": 3.072e-06, |
|
"loss": 0.0773, |
|
"step": 5700 |
|
}, |
|
{ |
|
"epoch": 0.715625, |
|
"grad_norm": 2.237166404724121, |
|
"learning_rate": 3.038666666666667e-06, |
|
"loss": 0.0765, |
|
"step": 5725 |
|
}, |
|
{ |
|
"epoch": 0.71875, |
|
"grad_norm": 1.8783671855926514, |
|
"learning_rate": 3.0053333333333332e-06, |
|
"loss": 0.0779, |
|
"step": 5750 |
|
}, |
|
{ |
|
"epoch": 0.721875, |
|
"grad_norm": 2.096334457397461, |
|
"learning_rate": 2.9720000000000005e-06, |
|
"loss": 0.0751, |
|
"step": 5775 |
|
}, |
|
{ |
|
"epoch": 0.725, |
|
"grad_norm": 2.0362164974212646, |
|
"learning_rate": 2.938666666666667e-06, |
|
"loss": 0.0711, |
|
"step": 5800 |
|
}, |
|
{ |
|
"epoch": 0.728125, |
|
"grad_norm": 1.7136311531066895, |
|
"learning_rate": 2.9053333333333334e-06, |
|
"loss": 0.0635, |
|
"step": 5825 |
|
}, |
|
{ |
|
"epoch": 0.73125, |
|
"grad_norm": 2.754848003387451, |
|
"learning_rate": 2.872e-06, |
|
"loss": 0.0698, |
|
"step": 5850 |
|
}, |
|
{ |
|
"epoch": 0.734375, |
|
"grad_norm": 2.058065176010132, |
|
"learning_rate": 2.8386666666666666e-06, |
|
"loss": 0.0741, |
|
"step": 5875 |
|
}, |
|
{ |
|
"epoch": 0.7375, |
|
"grad_norm": 3.0389583110809326, |
|
"learning_rate": 2.805333333333334e-06, |
|
"loss": 0.0938, |
|
"step": 5900 |
|
}, |
|
{ |
|
"epoch": 0.740625, |
|
"grad_norm": 3.4811720848083496, |
|
"learning_rate": 2.7720000000000003e-06, |
|
"loss": 0.1387, |
|
"step": 5925 |
|
}, |
|
{ |
|
"epoch": 0.74375, |
|
"grad_norm": 3.2388477325439453, |
|
"learning_rate": 2.7386666666666667e-06, |
|
"loss": 0.1283, |
|
"step": 5950 |
|
}, |
|
{ |
|
"epoch": 0.746875, |
|
"grad_norm": 3.083925247192383, |
|
"learning_rate": 2.7053333333333336e-06, |
|
"loss": 0.1073, |
|
"step": 5975 |
|
}, |
|
{ |
|
"epoch": 0.75, |
|
"grad_norm": 2.6847918033599854, |
|
"learning_rate": 2.672e-06, |
|
"loss": 0.1038, |
|
"step": 6000 |
|
}, |
|
{ |
|
"epoch": 0.75, |
|
"eval_loss": 0.23902159929275513, |
|
"eval_runtime": 158.0693, |
|
"eval_samples_per_second": 13.311, |
|
"eval_steps_per_second": 0.835, |
|
"eval_wer": 11.07319809292325, |
|
"step": 6000 |
|
}, |
|
{ |
|
"epoch": 0.753125, |
|
"grad_norm": 2.7315189838409424, |
|
"learning_rate": 2.6386666666666673e-06, |
|
"loss": 0.0987, |
|
"step": 6025 |
|
}, |
|
{ |
|
"epoch": 0.75625, |
|
"grad_norm": 2.3389735221862793, |
|
"learning_rate": 2.6053333333333337e-06, |
|
"loss": 0.0858, |
|
"step": 6050 |
|
}, |
|
{ |
|
"epoch": 0.759375, |
|
"grad_norm": 1.982534646987915, |
|
"learning_rate": 2.572e-06, |
|
"loss": 0.0764, |
|
"step": 6075 |
|
}, |
|
{ |
|
"epoch": 0.7625, |
|
"grad_norm": 1.9040074348449707, |
|
"learning_rate": 2.538666666666667e-06, |
|
"loss": 0.0731, |
|
"step": 6100 |
|
}, |
|
{ |
|
"epoch": 0.765625, |
|
"grad_norm": 2.654710054397583, |
|
"learning_rate": 2.5053333333333334e-06, |
|
"loss": 0.0758, |
|
"step": 6125 |
|
}, |
|
{ |
|
"epoch": 0.76875, |
|
"grad_norm": 2.6400296688079834, |
|
"learning_rate": 2.4720000000000002e-06, |
|
"loss": 0.0824, |
|
"step": 6150 |
|
}, |
|
{ |
|
"epoch": 0.771875, |
|
"grad_norm": 7.269197463989258, |
|
"learning_rate": 2.438666666666667e-06, |
|
"loss": 0.0822, |
|
"step": 6175 |
|
}, |
|
{ |
|
"epoch": 0.775, |
|
"grad_norm": 2.363656520843506, |
|
"learning_rate": 2.4053333333333335e-06, |
|
"loss": 0.0818, |
|
"step": 6200 |
|
}, |
|
{ |
|
"epoch": 0.778125, |
|
"grad_norm": 2.4660115242004395, |
|
"learning_rate": 2.3720000000000003e-06, |
|
"loss": 0.0768, |
|
"step": 6225 |
|
}, |
|
{ |
|
"epoch": 0.78125, |
|
"grad_norm": 3.3116371631622314, |
|
"learning_rate": 2.3386666666666668e-06, |
|
"loss": 0.0783, |
|
"step": 6250 |
|
}, |
|
{ |
|
"epoch": 0.784375, |
|
"grad_norm": 2.595853090286255, |
|
"learning_rate": 2.3053333333333336e-06, |
|
"loss": 0.0899, |
|
"step": 6275 |
|
}, |
|
{ |
|
"epoch": 0.7875, |
|
"grad_norm": 2.709597587585449, |
|
"learning_rate": 2.2720000000000004e-06, |
|
"loss": 0.0953, |
|
"step": 6300 |
|
}, |
|
{ |
|
"epoch": 0.790625, |
|
"grad_norm": 2.4446637630462646, |
|
"learning_rate": 2.238666666666667e-06, |
|
"loss": 0.1249, |
|
"step": 6325 |
|
}, |
|
{ |
|
"epoch": 0.79375, |
|
"grad_norm": 3.4412341117858887, |
|
"learning_rate": 2.2053333333333333e-06, |
|
"loss": 0.1171, |
|
"step": 6350 |
|
}, |
|
{ |
|
"epoch": 0.796875, |
|
"grad_norm": 2.2719008922576904, |
|
"learning_rate": 2.172e-06, |
|
"loss": 0.1065, |
|
"step": 6375 |
|
}, |
|
{ |
|
"epoch": 0.8, |
|
"grad_norm": 1.9873290061950684, |
|
"learning_rate": 2.138666666666667e-06, |
|
"loss": 0.0872, |
|
"step": 6400 |
|
}, |
|
{ |
|
"epoch": 0.803125, |
|
"grad_norm": 2.487403392791748, |
|
"learning_rate": 2.1053333333333334e-06, |
|
"loss": 0.0765, |
|
"step": 6425 |
|
}, |
|
{ |
|
"epoch": 0.80625, |
|
"grad_norm": 2.4424736499786377, |
|
"learning_rate": 2.0720000000000002e-06, |
|
"loss": 0.0736, |
|
"step": 6450 |
|
}, |
|
{ |
|
"epoch": 0.809375, |
|
"grad_norm": 3.1507577896118164, |
|
"learning_rate": 2.0386666666666667e-06, |
|
"loss": 0.1064, |
|
"step": 6475 |
|
}, |
|
{ |
|
"epoch": 0.8125, |
|
"grad_norm": 2.6285648345947266, |
|
"learning_rate": 2.0053333333333335e-06, |
|
"loss": 0.0993, |
|
"step": 6500 |
|
}, |
|
{ |
|
"epoch": 0.815625, |
|
"grad_norm": 4.1934967041015625, |
|
"learning_rate": 1.972e-06, |
|
"loss": 0.1299, |
|
"step": 6525 |
|
}, |
|
{ |
|
"epoch": 0.81875, |
|
"grad_norm": 3.031852960586548, |
|
"learning_rate": 1.9386666666666668e-06, |
|
"loss": 0.1195, |
|
"step": 6550 |
|
}, |
|
{ |
|
"epoch": 0.821875, |
|
"grad_norm": 2.9288837909698486, |
|
"learning_rate": 1.9053333333333334e-06, |
|
"loss": 0.1197, |
|
"step": 6575 |
|
}, |
|
{ |
|
"epoch": 0.825, |
|
"grad_norm": 2.890054225921631, |
|
"learning_rate": 1.8720000000000002e-06, |
|
"loss": 0.1127, |
|
"step": 6600 |
|
}, |
|
{ |
|
"epoch": 0.828125, |
|
"grad_norm": 3.130406618118286, |
|
"learning_rate": 1.8386666666666669e-06, |
|
"loss": 0.1155, |
|
"step": 6625 |
|
}, |
|
{ |
|
"epoch": 0.83125, |
|
"grad_norm": 2.7169485092163086, |
|
"learning_rate": 1.8053333333333333e-06, |
|
"loss": 0.1291, |
|
"step": 6650 |
|
}, |
|
{ |
|
"epoch": 0.834375, |
|
"grad_norm": 2.7390034198760986, |
|
"learning_rate": 1.7720000000000001e-06, |
|
"loss": 0.1097, |
|
"step": 6675 |
|
}, |
|
{ |
|
"epoch": 0.8375, |
|
"grad_norm": 2.161604166030884, |
|
"learning_rate": 1.7386666666666668e-06, |
|
"loss": 0.1022, |
|
"step": 6700 |
|
}, |
|
{ |
|
"epoch": 0.840625, |
|
"grad_norm": 2.210451126098633, |
|
"learning_rate": 1.7053333333333336e-06, |
|
"loss": 0.0779, |
|
"step": 6725 |
|
}, |
|
{ |
|
"epoch": 0.84375, |
|
"grad_norm": 2.426438808441162, |
|
"learning_rate": 1.672e-06, |
|
"loss": 0.0728, |
|
"step": 6750 |
|
}, |
|
{ |
|
"epoch": 0.846875, |
|
"grad_norm": 2.8744237422943115, |
|
"learning_rate": 1.6386666666666667e-06, |
|
"loss": 0.0859, |
|
"step": 6775 |
|
}, |
|
{ |
|
"epoch": 0.85, |
|
"grad_norm": 2.8165483474731445, |
|
"learning_rate": 1.6053333333333335e-06, |
|
"loss": 0.1496, |
|
"step": 6800 |
|
}, |
|
{ |
|
"epoch": 0.853125, |
|
"grad_norm": 4.0077738761901855, |
|
"learning_rate": 1.5720000000000002e-06, |
|
"loss": 0.1343, |
|
"step": 6825 |
|
}, |
|
{ |
|
"epoch": 0.85625, |
|
"grad_norm": 3.8011586666107178, |
|
"learning_rate": 1.538666666666667e-06, |
|
"loss": 0.1397, |
|
"step": 6850 |
|
}, |
|
{ |
|
"epoch": 0.859375, |
|
"grad_norm": 2.7379047870635986, |
|
"learning_rate": 1.5053333333333334e-06, |
|
"loss": 0.1262, |
|
"step": 6875 |
|
}, |
|
{ |
|
"epoch": 0.8625, |
|
"grad_norm": 3.250950574874878, |
|
"learning_rate": 1.472e-06, |
|
"loss": 0.1188, |
|
"step": 6900 |
|
}, |
|
{ |
|
"epoch": 0.865625, |
|
"grad_norm": 2.782945156097412, |
|
"learning_rate": 1.438666666666667e-06, |
|
"loss": 0.1103, |
|
"step": 6925 |
|
}, |
|
{ |
|
"epoch": 0.86875, |
|
"grad_norm": 3.08154034614563, |
|
"learning_rate": 1.4053333333333335e-06, |
|
"loss": 0.1147, |
|
"step": 6950 |
|
}, |
|
{ |
|
"epoch": 0.871875, |
|
"grad_norm": 3.5768070220947266, |
|
"learning_rate": 1.372e-06, |
|
"loss": 0.1332, |
|
"step": 6975 |
|
}, |
|
{ |
|
"epoch": 0.875, |
|
"grad_norm": 3.155341863632202, |
|
"learning_rate": 1.3386666666666668e-06, |
|
"loss": 0.1282, |
|
"step": 7000 |
|
}, |
|
{ |
|
"epoch": 0.875, |
|
"eval_loss": 0.23438745737075806, |
|
"eval_runtime": 154.8314, |
|
"eval_samples_per_second": 13.589, |
|
"eval_steps_per_second": 0.853, |
|
"eval_wer": 11.391044218005048, |
|
"step": 7000 |
|
}, |
|
{ |
|
"epoch": 0.878125, |
|
"grad_norm": 11.062019348144531, |
|
"learning_rate": 1.308e-06, |
|
"loss": 0.2406, |
|
"step": 7025 |
|
}, |
|
{ |
|
"epoch": 0.88125, |
|
"grad_norm": 4.648179531097412, |
|
"learning_rate": 1.2746666666666669e-06, |
|
"loss": 0.3469, |
|
"step": 7050 |
|
}, |
|
{ |
|
"epoch": 0.884375, |
|
"grad_norm": 4.388245105743408, |
|
"learning_rate": 1.2413333333333335e-06, |
|
"loss": 0.3421, |
|
"step": 7075 |
|
}, |
|
{ |
|
"epoch": 0.8875, |
|
"grad_norm": 4.806427478790283, |
|
"learning_rate": 1.2080000000000001e-06, |
|
"loss": 0.2847, |
|
"step": 7100 |
|
}, |
|
{ |
|
"epoch": 0.890625, |
|
"grad_norm": 3.0818049907684326, |
|
"learning_rate": 1.1746666666666668e-06, |
|
"loss": 0.1671, |
|
"step": 7125 |
|
}, |
|
{ |
|
"epoch": 0.89375, |
|
"grad_norm": 4.117819309234619, |
|
"learning_rate": 1.1413333333333334e-06, |
|
"loss": 0.1313, |
|
"step": 7150 |
|
}, |
|
{ |
|
"epoch": 0.896875, |
|
"grad_norm": 2.8558835983276367, |
|
"learning_rate": 1.108e-06, |
|
"loss": 0.1177, |
|
"step": 7175 |
|
}, |
|
{ |
|
"epoch": 0.9, |
|
"grad_norm": 3.0425021648406982, |
|
"learning_rate": 1.0746666666666669e-06, |
|
"loss": 0.0911, |
|
"step": 7200 |
|
}, |
|
{ |
|
"epoch": 0.903125, |
|
"grad_norm": 2.6587588787078857, |
|
"learning_rate": 1.0413333333333333e-06, |
|
"loss": 0.0898, |
|
"step": 7225 |
|
}, |
|
{ |
|
"epoch": 0.90625, |
|
"grad_norm": 1.7572664022445679, |
|
"learning_rate": 1.0080000000000001e-06, |
|
"loss": 0.0922, |
|
"step": 7250 |
|
}, |
|
{ |
|
"epoch": 0.909375, |
|
"grad_norm": 2.00393009185791, |
|
"learning_rate": 9.746666666666668e-07, |
|
"loss": 0.0753, |
|
"step": 7275 |
|
}, |
|
{ |
|
"epoch": 0.9125, |
|
"grad_norm": 1.845981478691101, |
|
"learning_rate": 9.413333333333334e-07, |
|
"loss": 0.0628, |
|
"step": 7300 |
|
}, |
|
{ |
|
"epoch": 0.915625, |
|
"grad_norm": 2.008112907409668, |
|
"learning_rate": 9.080000000000001e-07, |
|
"loss": 0.0696, |
|
"step": 7325 |
|
}, |
|
{ |
|
"epoch": 0.91875, |
|
"grad_norm": 2.837357759475708, |
|
"learning_rate": 8.746666666666668e-07, |
|
"loss": 0.0897, |
|
"step": 7350 |
|
}, |
|
{ |
|
"epoch": 0.921875, |
|
"grad_norm": 2.4842417240142822, |
|
"learning_rate": 8.413333333333334e-07, |
|
"loss": 0.1227, |
|
"step": 7375 |
|
}, |
|
{ |
|
"epoch": 0.925, |
|
"grad_norm": 2.7866716384887695, |
|
"learning_rate": 8.08e-07, |
|
"loss": 0.1012, |
|
"step": 7400 |
|
}, |
|
{ |
|
"epoch": 0.928125, |
|
"grad_norm": 2.1826930046081543, |
|
"learning_rate": 7.746666666666668e-07, |
|
"loss": 0.1141, |
|
"step": 7425 |
|
}, |
|
{ |
|
"epoch": 0.93125, |
|
"grad_norm": 2.014090061187744, |
|
"learning_rate": 7.413333333333333e-07, |
|
"loss": 0.0754, |
|
"step": 7450 |
|
}, |
|
{ |
|
"epoch": 0.934375, |
|
"grad_norm": 2.1539175510406494, |
|
"learning_rate": 7.08e-07, |
|
"loss": 0.0736, |
|
"step": 7475 |
|
}, |
|
{ |
|
"epoch": 0.9375, |
|
"grad_norm": 2.712541341781616, |
|
"learning_rate": 6.746666666666667e-07, |
|
"loss": 0.0684, |
|
"step": 7500 |
|
}, |
|
{ |
|
"epoch": 0.940625, |
|
"grad_norm": 3.281242847442627, |
|
"learning_rate": 6.413333333333334e-07, |
|
"loss": 0.1414, |
|
"step": 7525 |
|
}, |
|
{ |
|
"epoch": 0.94375, |
|
"grad_norm": 4.088025093078613, |
|
"learning_rate": 6.08e-07, |
|
"loss": 0.1895, |
|
"step": 7550 |
|
}, |
|
{ |
|
"epoch": 0.946875, |
|
"grad_norm": 4.144560813903809, |
|
"learning_rate": 5.746666666666667e-07, |
|
"loss": 0.222, |
|
"step": 7575 |
|
}, |
|
{ |
|
"epoch": 0.95, |
|
"grad_norm": 1.8468823432922363, |
|
"learning_rate": 5.413333333333334e-07, |
|
"loss": 0.1349, |
|
"step": 7600 |
|
}, |
|
{ |
|
"epoch": 0.953125, |
|
"grad_norm": 2.5354621410369873, |
|
"learning_rate": 5.08e-07, |
|
"loss": 0.0872, |
|
"step": 7625 |
|
}, |
|
{ |
|
"epoch": 0.95625, |
|
"grad_norm": 1.83882737159729, |
|
"learning_rate": 4.746666666666667e-07, |
|
"loss": 0.0725, |
|
"step": 7650 |
|
}, |
|
{ |
|
"epoch": 0.959375, |
|
"grad_norm": 3.42556095123291, |
|
"learning_rate": 4.413333333333333e-07, |
|
"loss": 0.0988, |
|
"step": 7675 |
|
}, |
|
{ |
|
"epoch": 0.9625, |
|
"grad_norm": 2.682558059692383, |
|
"learning_rate": 4.0800000000000005e-07, |
|
"loss": 0.1166, |
|
"step": 7700 |
|
}, |
|
{ |
|
"epoch": 0.965625, |
|
"grad_norm": 3.2471797466278076, |
|
"learning_rate": 3.7466666666666674e-07, |
|
"loss": 0.1257, |
|
"step": 7725 |
|
}, |
|
{ |
|
"epoch": 0.96875, |
|
"grad_norm": 2.4202020168304443, |
|
"learning_rate": 3.4133333333333337e-07, |
|
"loss": 0.1114, |
|
"step": 7750 |
|
}, |
|
{ |
|
"epoch": 0.971875, |
|
"grad_norm": 2.8282711505889893, |
|
"learning_rate": 3.0800000000000006e-07, |
|
"loss": 0.0811, |
|
"step": 7775 |
|
}, |
|
{ |
|
"epoch": 0.975, |
|
"grad_norm": 4.20676326751709, |
|
"learning_rate": 2.746666666666667e-07, |
|
"loss": 0.104, |
|
"step": 7800 |
|
}, |
|
{ |
|
"epoch": 0.978125, |
|
"grad_norm": 4.955998420715332, |
|
"learning_rate": 2.413333333333333e-07, |
|
"loss": 0.2773, |
|
"step": 7825 |
|
}, |
|
{ |
|
"epoch": 0.98125, |
|
"grad_norm": 2.0168468952178955, |
|
"learning_rate": 2.08e-07, |
|
"loss": 0.1105, |
|
"step": 7850 |
|
}, |
|
{ |
|
"epoch": 0.984375, |
|
"grad_norm": 1.6335862874984741, |
|
"learning_rate": 1.7466666666666667e-07, |
|
"loss": 0.0808, |
|
"step": 7875 |
|
}, |
|
{ |
|
"epoch": 0.9875, |
|
"grad_norm": 2.269954204559326, |
|
"learning_rate": 1.4133333333333333e-07, |
|
"loss": 0.0786, |
|
"step": 7900 |
|
}, |
|
{ |
|
"epoch": 0.990625, |
|
"grad_norm": 2.0813560485839844, |
|
"learning_rate": 1.0800000000000001e-07, |
|
"loss": 0.0801, |
|
"step": 7925 |
|
}, |
|
{ |
|
"epoch": 0.99375, |
|
"grad_norm": 1.6093230247497559, |
|
"learning_rate": 7.466666666666667e-08, |
|
"loss": 0.0687, |
|
"step": 7950 |
|
}, |
|
{ |
|
"epoch": 0.996875, |
|
"grad_norm": 1.730695366859436, |
|
"learning_rate": 4.133333333333334e-08, |
|
"loss": 0.0814, |
|
"step": 7975 |
|
}, |
|
{ |
|
"epoch": 1.0, |
|
"grad_norm": 3.418311595916748, |
|
"learning_rate": 8e-09, |
|
"loss": 0.0959, |
|
"step": 8000 |
|
}, |
|
{ |
|
"epoch": 1.0, |
|
"eval_loss": 0.1835634410381317, |
|
"eval_runtime": 154.4338, |
|
"eval_samples_per_second": 13.624, |
|
"eval_steps_per_second": 0.855, |
|
"eval_wer": 10.886229784051602, |
|
"step": 8000 |
|
}, |
|
{ |
|
"epoch": 1.0, |
|
"step": 8000, |
|
"total_flos": 7.387786248192e+19, |
|
"train_loss": 0.17036041705310345, |
|
"train_runtime": 11036.9074, |
|
"train_samples_per_second": 23.195, |
|
"train_steps_per_second": 0.725 |
|
} |
|
], |
|
"logging_steps": 25, |
|
"max_steps": 8000, |
|
"num_input_tokens_seen": 0, |
|
"num_train_epochs": 9223372036854775807, |
|
"save_steps": 1000, |
|
"stateful_callbacks": { |
|
"TrainerControl": { |
|
"args": { |
|
"should_epoch_stop": false, |
|
"should_evaluate": false, |
|
"should_log": false, |
|
"should_save": true, |
|
"should_training_stop": true |
|
}, |
|
"attributes": {} |
|
} |
|
}, |
|
"total_flos": 7.387786248192e+19, |
|
"train_batch_size": 32, |
|
"trial_name": null, |
|
"trial_params": null |
|
} |
|
|