End of training

4b7b659 verified 7 days ago

19.4 kB

	{
	"best_metric": 0.8117647058823529,
	"best_model_checkpoint": "swinv2-tiny-patch4-window8-256-dmae-humeda-DAV23/checkpoint-170",
	"epoch": 37.666666666666664,
	"eval_steps": 500,
	"global_step": 640,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.7272727272727273,
	"grad_norm": 10.422093391418457,
	"learning_rate": 9.375000000000001e-06,
	"loss": 6.4493,
	"step": 12
	},
	{
	"epoch": 1.0,
	"eval_accuracy": 0.29411764705882354,
	"eval_loss": 1.5280741453170776,
	"eval_runtime": 1.7296,
	"eval_samples_per_second": 49.145,
	"eval_steps_per_second": 1.735,
	"step": 17
	},
	{
	"epoch": 1.4242424242424243,
	"grad_norm": 14.379430770874023,
	"learning_rate": 1.8750000000000002e-05,
	"loss": 5.7922,
	"step": 24
	},
	{
	"epoch": 2.0,
	"eval_accuracy": 0.38823529411764707,
	"eval_loss": 1.317600965499878,
	"eval_runtime": 1.301,
	"eval_samples_per_second": 65.332,
	"eval_steps_per_second": 2.306,
	"step": 34
	},
	{
	"epoch": 2.121212121212121,
	"grad_norm": 28.70977783203125,
	"learning_rate": 2.8125000000000003e-05,
	"loss": 5.0076,
	"step": 36
	},
	{
	"epoch": 2.8484848484848486,
	"grad_norm": 24.181316375732422,
	"learning_rate": 3.7500000000000003e-05,
	"loss": 4.2502,
	"step": 48
	},
	{
	"epoch": 3.0,
	"eval_accuracy": 0.43529411764705883,
	"eval_loss": 1.2014732360839844,
	"eval_runtime": 1.3256,
	"eval_samples_per_second": 64.12,
	"eval_steps_per_second": 2.263,
	"step": 51
	},
	{
	"epoch": 3.5454545454545454,
	"grad_norm": 29.8701171875,
	"learning_rate": 4.6875e-05,
	"loss": 3.2402,
	"step": 60
	},
	{
	"epoch": 4.0,
	"eval_accuracy": 0.7176470588235294,
	"eval_loss": 0.8901777267456055,
	"eval_runtime": 1.6039,
	"eval_samples_per_second": 52.995,
	"eval_steps_per_second": 1.87,
	"step": 68
	},
	{
	"epoch": 4.242424242424242,
	"grad_norm": 43.26256561279297,
	"learning_rate": 4.930555555555556e-05,
	"loss": 2.8895,
	"step": 72
	},
	{
	"epoch": 4.96969696969697,
	"grad_norm": 38.71839904785156,
	"learning_rate": 4.8263888888888895e-05,
	"loss": 2.5386,
	"step": 84
	},
	{
	"epoch": 5.0,
	"eval_accuracy": 0.7764705882352941,
	"eval_loss": 0.6509169340133667,
	"eval_runtime": 1.3254,
	"eval_samples_per_second": 64.131,
	"eval_steps_per_second": 2.263,
	"step": 85
	},
	{
	"epoch": 5.666666666666667,
	"grad_norm": 35.30036544799805,
	"learning_rate": 4.722222222222222e-05,
	"loss": 2.0351,
	"step": 96
	},
	{
	"epoch": 6.0,
	"eval_accuracy": 0.7647058823529411,
	"eval_loss": 0.6758585572242737,
	"eval_runtime": 1.3401,
	"eval_samples_per_second": 63.43,
	"eval_steps_per_second": 2.239,
	"step": 102
	},
	{
	"epoch": 6.363636363636363,
	"grad_norm": 36.81019973754883,
	"learning_rate": 4.618055555555556e-05,
	"loss": 1.8225,
	"step": 108
	},
	{
	"epoch": 7.0,
	"eval_accuracy": 0.7764705882352941,
	"eval_loss": 0.6606881022453308,
	"eval_runtime": 1.7388,
	"eval_samples_per_second": 48.883,
	"eval_steps_per_second": 1.725,
	"step": 119
	},
	{
	"epoch": 7.0606060606060606,
	"grad_norm": 38.81963348388672,
	"learning_rate": 4.5138888888888894e-05,
	"loss": 1.5799,
	"step": 120
	},
	{
	"epoch": 7.787878787878788,
	"grad_norm": 34.68444061279297,
	"learning_rate": 4.4097222222222226e-05,
	"loss": 1.4778,
	"step": 132
	},
	{
	"epoch": 8.0,
	"eval_accuracy": 0.7529411764705882,
	"eval_loss": 0.7161939740180969,
	"eval_runtime": 1.3317,
	"eval_samples_per_second": 63.829,
	"eval_steps_per_second": 2.253,
	"step": 136
	},
	{
	"epoch": 8.484848484848484,
	"grad_norm": 33.96342849731445,
	"learning_rate": 4.305555555555556e-05,
	"loss": 1.4076,
	"step": 144
	},
	{
	"epoch": 9.0,
	"eval_accuracy": 0.7294117647058823,
	"eval_loss": 0.9084261059761047,
	"eval_runtime": 1.3286,
	"eval_samples_per_second": 63.976,
	"eval_steps_per_second": 2.258,
	"step": 153
	},
	{
	"epoch": 9.181818181818182,
	"grad_norm": 51.935420989990234,
	"learning_rate": 4.201388888888889e-05,
	"loss": 1.3522,
	"step": 156
	},
	{
	"epoch": 9.909090909090908,
	"grad_norm": 35.646156311035156,
	"learning_rate": 4.0972222222222225e-05,
	"loss": 1.2056,
	"step": 168
	},
	{
	"epoch": 10.0,
	"eval_accuracy": 0.8117647058823529,
	"eval_loss": 0.6900736689567566,
	"eval_runtime": 1.3237,
	"eval_samples_per_second": 64.212,
	"eval_steps_per_second": 2.266,
	"step": 170
	},
	{
	"epoch": 10.606060606060606,
	"grad_norm": 39.277122497558594,
	"learning_rate": 3.993055555555556e-05,
	"loss": 0.9552,
	"step": 180
	},
	{
	"epoch": 11.0,
	"eval_accuracy": 0.7764705882352941,
	"eval_loss": 0.9153303503990173,
	"eval_runtime": 1.3258,
	"eval_samples_per_second": 64.11,
	"eval_steps_per_second": 2.263,
	"step": 187
	},
	{
	"epoch": 11.303030303030303,
	"grad_norm": 32.70234298706055,
	"learning_rate": 3.888888888888889e-05,
	"loss": 1.0259,
	"step": 192
	},
	{
	"epoch": 12.0,
	"grad_norm": 27.082563400268555,
	"learning_rate": 3.7847222222222224e-05,
	"loss": 0.9859,
	"step": 204
	},
	{
	"epoch": 12.0,
	"eval_accuracy": 0.7529411764705882,
	"eval_loss": 0.8693907856941223,
	"eval_runtime": 1.3304,
	"eval_samples_per_second": 63.892,
	"eval_steps_per_second": 2.255,
	"step": 204
	},
	{
	"epoch": 12.727272727272727,
	"grad_norm": 25.17854881286621,
	"learning_rate": 3.6805555555555556e-05,
	"loss": 0.8309,
	"step": 216
	},
	{
	"epoch": 13.0,
	"eval_accuracy": 0.8,
	"eval_loss": 0.7666147351264954,
	"eval_runtime": 1.5029,
	"eval_samples_per_second": 56.559,
	"eval_steps_per_second": 1.996,
	"step": 221
	},
	{
	"epoch": 13.424242424242424,
	"grad_norm": 42.24884033203125,
	"learning_rate": 3.576388888888889e-05,
	"loss": 0.7722,
	"step": 228
	},
	{
	"epoch": 14.0,
	"eval_accuracy": 0.7529411764705882,
	"eval_loss": 0.9117515087127686,
	"eval_runtime": 1.4392,
	"eval_samples_per_second": 59.061,
	"eval_steps_per_second": 2.085,
	"step": 238
	},
	{
	"epoch": 14.121212121212121,
	"grad_norm": 25.000560760498047,
	"learning_rate": 3.472222222222222e-05,
	"loss": 0.7479,
	"step": 240
	},
	{
	"epoch": 14.848484848484848,
	"grad_norm": 23.831018447875977,
	"learning_rate": 3.368055555555556e-05,
	"loss": 0.7632,
	"step": 252
	},
	{
	"epoch": 15.0,
	"eval_accuracy": 0.7529411764705882,
	"eval_loss": 0.89529949426651,
	"eval_runtime": 1.3464,
	"eval_samples_per_second": 63.129,
	"eval_steps_per_second": 2.228,
	"step": 255
	},
	{
	"epoch": 15.545454545454545,
	"grad_norm": 37.80634689331055,
	"learning_rate": 3.263888888888889e-05,
	"loss": 0.5868,
	"step": 264
	},
	{
	"epoch": 16.0,
	"eval_accuracy": 0.7529411764705882,
	"eval_loss": 0.9678363800048828,
	"eval_runtime": 1.3437,
	"eval_samples_per_second": 63.259,
	"eval_steps_per_second": 2.233,
	"step": 272
	},
	{
	"epoch": 16.242424242424242,
	"grad_norm": 31.965198516845703,
	"learning_rate": 3.159722222222222e-05,
	"loss": 0.8369,
	"step": 276
	},
	{
	"epoch": 16.96969696969697,
	"grad_norm": 43.057701110839844,
	"learning_rate": 3.055555555555556e-05,
	"loss": 0.6577,
	"step": 288
	},
	{
	"epoch": 17.0,
	"eval_accuracy": 0.7764705882352941,
	"eval_loss": 1.0502737760543823,
	"eval_runtime": 1.7574,
	"eval_samples_per_second": 48.368,
	"eval_steps_per_second": 1.707,
	"step": 289
	},
	{
	"epoch": 17.666666666666668,
	"grad_norm": 22.851730346679688,
	"learning_rate": 2.951388888888889e-05,
	"loss": 0.5816,
	"step": 300
	},
	{
	"epoch": 18.0,
	"eval_accuracy": 0.7294117647058823,
	"eval_loss": 1.0601861476898193,
	"eval_runtime": 1.4181,
	"eval_samples_per_second": 59.94,
	"eval_steps_per_second": 2.116,
	"step": 306
	},
	{
	"epoch": 18.363636363636363,
	"grad_norm": 24.805330276489258,
	"learning_rate": 2.8472222222222223e-05,
	"loss": 0.6222,
	"step": 312
	},
	{
	"epoch": 19.0,
	"eval_accuracy": 0.7764705882352941,
	"eval_loss": 1.1542593240737915,
	"eval_runtime": 1.3489,
	"eval_samples_per_second": 63.014,
	"eval_steps_per_second": 2.224,
	"step": 323
	},
	{
	"epoch": 19.060606060606062,
	"grad_norm": 24.57158851623535,
	"learning_rate": 2.743055555555556e-05,
	"loss": 0.6667,
	"step": 324
	},
	{
	"epoch": 19.78787878787879,
	"grad_norm": 52.441471099853516,
	"learning_rate": 2.6388888888888892e-05,
	"loss": 0.4861,
	"step": 336
	},
	{
	"epoch": 20.0,
	"eval_accuracy": 0.8117647058823529,
	"eval_loss": 0.9739417433738708,
	"eval_runtime": 1.3332,
	"eval_samples_per_second": 63.755,
	"eval_steps_per_second": 2.25,
	"step": 340
	},
	{
	"epoch": 20.484848484848484,
	"grad_norm": 20.256858825683594,
	"learning_rate": 2.534722222222222e-05,
	"loss": 0.4422,
	"step": 348
	},
	{
	"epoch": 21.0,
	"eval_accuracy": 0.8,
	"eval_loss": 1.035377860069275,
	"eval_runtime": 1.7575,
	"eval_samples_per_second": 48.365,
	"eval_steps_per_second": 1.707,
	"step": 357
	},
	{
	"epoch": 21.181818181818183,
	"grad_norm": 30.408321380615234,
	"learning_rate": 2.4305555555555558e-05,
	"loss": 0.5374,
	"step": 360
	},
	{
	"epoch": 21.90909090909091,
	"grad_norm": 16.08924102783203,
	"learning_rate": 2.326388888888889e-05,
	"loss": 0.506,
	"step": 372
	},
	{
	"epoch": 22.0,
	"eval_accuracy": 0.8117647058823529,
	"eval_loss": 1.109660029411316,
	"eval_runtime": 1.3601,
	"eval_samples_per_second": 62.497,
	"eval_steps_per_second": 2.206,
	"step": 374
	},
	{
	"epoch": 22.606060606060606,
	"grad_norm": 19.899555206298828,
	"learning_rate": 2.2222222222222223e-05,
	"loss": 0.3833,
	"step": 384
	},
	{
	"epoch": 23.0,
	"eval_accuracy": 0.7764705882352941,
	"eval_loss": 1.2008516788482666,
	"eval_runtime": 1.3596,
	"eval_samples_per_second": 62.517,
	"eval_steps_per_second": 2.206,
	"step": 391
	},
	{
	"epoch": 23.303030303030305,
	"grad_norm": 23.089004516601562,
	"learning_rate": 2.1180555555555556e-05,
	"loss": 0.5273,
	"step": 396
	},
	{
	"epoch": 24.0,
	"grad_norm": 12.893085479736328,
	"learning_rate": 2.013888888888889e-05,
	"loss": 0.4574,
	"step": 408
	},
	{
	"epoch": 24.0,
	"eval_accuracy": 0.7764705882352941,
	"eval_loss": 1.1365725994110107,
	"eval_runtime": 1.3252,
	"eval_samples_per_second": 64.141,
	"eval_steps_per_second": 2.264,
	"step": 408
	},
	{
	"epoch": 24.727272727272727,
	"grad_norm": 29.011215209960938,
	"learning_rate": 1.9097222222222222e-05,
	"loss": 0.4467,
	"step": 420
	},
	{
	"epoch": 25.0,
	"eval_accuracy": 0.8117647058823529,
	"eval_loss": 1.0601016283035278,
	"eval_runtime": 1.4691,
	"eval_samples_per_second": 57.86,
	"eval_steps_per_second": 2.042,
	"step": 425
	},
	{
	"epoch": 25.424242424242426,
	"grad_norm": 37.92557907104492,
	"learning_rate": 1.8055555555555555e-05,
	"loss": 0.4451,
	"step": 432
	},
	{
	"epoch": 26.0,
	"eval_accuracy": 0.7764705882352941,
	"eval_loss": 1.0934613943099976,
	"eval_runtime": 1.3569,
	"eval_samples_per_second": 62.643,
	"eval_steps_per_second": 2.211,
	"step": 442
	},
	{
	"epoch": 26.12121212121212,
	"grad_norm": 29.263154983520508,
	"learning_rate": 1.701388888888889e-05,
	"loss": 0.483,
	"step": 444
	},
	{
	"epoch": 26.848484848484848,
	"grad_norm": 20.336957931518555,
	"learning_rate": 1.597222222222222e-05,
	"loss": 0.4384,
	"step": 456
	},
	{
	"epoch": 27.0,
	"eval_accuracy": 0.7647058823529411,
	"eval_loss": 1.1616755723953247,
	"eval_runtime": 1.3388,
	"eval_samples_per_second": 63.492,
	"eval_steps_per_second": 2.241,
	"step": 459
	},
	{
	"epoch": 27.545454545454547,
	"grad_norm": 26.435325622558594,
	"learning_rate": 1.4930555555555557e-05,
	"loss": 0.4321,
	"step": 468
	},
	{
	"epoch": 28.0,
	"eval_accuracy": 0.7764705882352941,
	"eval_loss": 1.1012462377548218,
	"eval_runtime": 1.7645,
	"eval_samples_per_second": 48.171,
	"eval_steps_per_second": 1.7,
	"step": 476
	},
	{
	"epoch": 28.242424242424242,
	"grad_norm": 35.24657440185547,
	"learning_rate": 1.388888888888889e-05,
	"loss": 0.4068,
	"step": 480
	},
	{
	"epoch": 28.96969696969697,
	"grad_norm": 29.191991806030273,
	"learning_rate": 1.2847222222222222e-05,
	"loss": 0.4398,
	"step": 492
	},
	{
	"epoch": 29.0,
	"eval_accuracy": 0.788235294117647,
	"eval_loss": 1.082492709159851,
	"eval_runtime": 1.3299,
	"eval_samples_per_second": 63.914,
	"eval_steps_per_second": 2.256,
	"step": 493
	},
	{
	"epoch": 29.666666666666668,
	"grad_norm": 26.035062789916992,
	"learning_rate": 1.1805555555555555e-05,
	"loss": 0.361,
	"step": 504
	},
	{
	"epoch": 30.0,
	"eval_accuracy": 0.7647058823529411,
	"eval_loss": 1.112740397453308,
	"eval_runtime": 1.3356,
	"eval_samples_per_second": 63.641,
	"eval_steps_per_second": 2.246,
	"step": 510
	},
	{
	"epoch": 30.363636363636363,
	"grad_norm": 24.128007888793945,
	"learning_rate": 1.076388888888889e-05,
	"loss": 0.4428,
	"step": 516
	},
	{
	"epoch": 31.0,
	"eval_accuracy": 0.7529411764705882,
	"eval_loss": 1.2024400234222412,
	"eval_runtime": 1.8084,
	"eval_samples_per_second": 47.003,
	"eval_steps_per_second": 1.659,
	"step": 527
	},
	{
	"epoch": 31.060606060606062,
	"grad_norm": 29.159976959228516,
	"learning_rate": 9.722222222222223e-06,
	"loss": 0.4293,
	"step": 528
	},
	{
	"epoch": 31.78787878787879,
	"grad_norm": 19.373197555541992,
	"learning_rate": 8.680555555555556e-06,
	"loss": 0.451,
	"step": 540
	},
	{
	"epoch": 32.0,
	"eval_accuracy": 0.7647058823529411,
	"eval_loss": 1.1550030708312988,
	"eval_runtime": 1.3443,
	"eval_samples_per_second": 63.23,
	"eval_steps_per_second": 2.232,
	"step": 544
	},
	{
	"epoch": 32.484848484848484,
	"grad_norm": 12.227431297302246,
	"learning_rate": 7.63888888888889e-06,
	"loss": 0.403,
	"step": 552
	},
	{
	"epoch": 33.0,
	"eval_accuracy": 0.7764705882352941,
	"eval_loss": 1.1645594835281372,
	"eval_runtime": 1.3526,
	"eval_samples_per_second": 62.842,
	"eval_steps_per_second": 2.218,
	"step": 561
	},
	{
	"epoch": 33.18181818181818,
	"grad_norm": 20.577377319335938,
	"learning_rate": 6.597222222222223e-06,
	"loss": 0.4113,
	"step": 564
	},
	{
	"epoch": 33.90909090909091,
	"grad_norm": 24.493812561035156,
	"learning_rate": 5.555555555555556e-06,
	"loss": 0.3059,
	"step": 576
	},
	{
	"epoch": 34.0,
	"eval_accuracy": 0.7764705882352941,
	"eval_loss": 1.2441880702972412,
	"eval_runtime": 1.3246,
	"eval_samples_per_second": 64.172,
	"eval_steps_per_second": 2.265,
	"step": 578
	},
	{
	"epoch": 34.60606060606061,
	"grad_norm": 28.553544998168945,
	"learning_rate": 4.513888888888889e-06,
	"loss": 0.3022,
	"step": 588
	},
	{
	"epoch": 35.0,
	"eval_accuracy": 0.7764705882352941,
	"eval_loss": 1.1975644826889038,
	"eval_runtime": 1.5644,
	"eval_samples_per_second": 54.334,
	"eval_steps_per_second": 1.918,
	"step": 595
	},
	{
	"epoch": 35.303030303030305,
	"grad_norm": 17.071916580200195,
	"learning_rate": 3.4722222222222224e-06,
	"loss": 0.3343,
	"step": 600
	},
	{
	"epoch": 36.0,
	"grad_norm": 10.918073654174805,
	"learning_rate": 2.4305555555555557e-06,
	"loss": 0.319,
	"step": 612
	},
	{
	"epoch": 36.0,
	"eval_accuracy": 0.7764705882352941,
	"eval_loss": 1.1564186811447144,
	"eval_runtime": 1.4741,
	"eval_samples_per_second": 57.663,
	"eval_steps_per_second": 2.035,
	"step": 612
	},
	{
	"epoch": 36.72727272727273,
	"grad_norm": 8.741593360900879,
	"learning_rate": 1.388888888888889e-06,
	"loss": 0.3737,
	"step": 624
	},
	{
	"epoch": 37.0,
	"eval_accuracy": 0.7764705882352941,
	"eval_loss": 1.1857171058654785,
	"eval_runtime": 1.3517,
	"eval_samples_per_second": 62.883,
	"eval_steps_per_second": 2.219,
	"step": 629
	},
	{
	"epoch": 37.42424242424242,
	"grad_norm": 20.94017219543457,
	"learning_rate": 3.4722222222222224e-07,
	"loss": 0.3063,
	"step": 636
	},
	{
	"epoch": 37.666666666666664,
	"eval_accuracy": 0.7764705882352941,
	"eval_loss": 1.193001627922058,
	"eval_runtime": 1.6167,
	"eval_samples_per_second": 52.578,
	"eval_steps_per_second": 1.856,
	"step": 640
	},
	{
	"epoch": 37.666666666666664,
	"step": 640,
	"total_flos": 2.572737077098709e+18,
	"train_loss": 1.1635722614824773,
	"train_runtime": 1917.6947,
	"train_samples_per_second": 43.782,
	"train_steps_per_second": 0.334
	}
	],
	"logging_steps": 12,
	"max_steps": 640,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 40,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 2.572737077098709e+18,
	"train_batch_size": 32,
	"trial_name": null,
	"trial_params": null
	}