Training in progress, step 50, checkpoint

f15d881 verified about 2 months ago

10.2 kB

	{
	"best_metric": 1.7998709678649902,
	"best_model_checkpoint": "miner_id_24/checkpoint-50",
	"epoch": 0.5698005698005698,
	"eval_steps": 25,
	"global_step": 50,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.011396011396011397,
	"grad_norm": 1.2519962787628174,
	"learning_rate": 2.9999999999999997e-05,
	"loss": 2.4206,
	"step": 1
	},
	{
	"epoch": 0.011396011396011397,
	"eval_loss": 3.1777703762054443,
	"eval_runtime": 2.6753,
	"eval_samples_per_second": 18.689,
	"eval_steps_per_second": 2.617,
	"step": 1
	},
	{
	"epoch": 0.022792022792022793,
	"grad_norm": 1.8308161497116089,
	"learning_rate": 5.9999999999999995e-05,
	"loss": 2.5791,
	"step": 2
	},
	{
	"epoch": 0.03418803418803419,
	"grad_norm": 2.0269980430603027,
	"learning_rate": 8.999999999999999e-05,
	"loss": 2.6558,
	"step": 3
	},
	{
	"epoch": 0.045584045584045586,
	"grad_norm": 2.5735702514648438,
	"learning_rate": 0.00011999999999999999,
	"loss": 2.8524,
	"step": 4
	},
	{
	"epoch": 0.05698005698005698,
	"grad_norm": 2.610076904296875,
	"learning_rate": 0.00015,
	"loss": 2.6163,
	"step": 5
	},
	{
	"epoch": 0.06837606837606838,
	"grad_norm": 2.135373830795288,
	"learning_rate": 0.00017999999999999998,
	"loss": 2.5374,
	"step": 6
	},
	{
	"epoch": 0.07977207977207977,
	"grad_norm": 1.9062364101409912,
	"learning_rate": 0.00020999999999999998,
	"loss": 2.6469,
	"step": 7
	},
	{
	"epoch": 0.09116809116809117,
	"grad_norm": 1.4977805614471436,
	"learning_rate": 0.00023999999999999998,
	"loss": 2.2611,
	"step": 8
	},
	{
	"epoch": 0.10256410256410256,
	"grad_norm": 1.4389641284942627,
	"learning_rate": 0.00027,
	"loss": 2.2009,
	"step": 9
	},
	{
	"epoch": 0.11396011396011396,
	"grad_norm": 1.9085431098937988,
	"learning_rate": 0.0003,
	"loss": 2.2492,
	"step": 10
	},
	{
	"epoch": 0.12535612535612536,
	"grad_norm": 1.7611523866653442,
	"learning_rate": 0.0002999731384004606,
	"loss": 2.2406,
	"step": 11
	},
	{
	"epoch": 0.13675213675213677,
	"grad_norm": 1.9762187004089355,
	"learning_rate": 0.0002998925632224497,
	"loss": 2.21,
	"step": 12
	},
	{
	"epoch": 0.14814814814814814,
	"grad_norm": 1.983385443687439,
	"learning_rate": 0.00029975830332434265,
	"loss": 1.9138,
	"step": 13
	},
	{
	"epoch": 0.15954415954415954,
	"grad_norm": 2.5348525047302246,
	"learning_rate": 0.00029957040679194776,
	"loss": 2.0607,
	"step": 14
	},
	{
	"epoch": 0.17094017094017094,
	"grad_norm": 1.8772743940353394,
	"learning_rate": 0.00029932894092128383,
	"loss": 1.7761,
	"step": 15
	},
	{
	"epoch": 0.18233618233618235,
	"grad_norm": 1.8809691667556763,
	"learning_rate": 0.0002990339921944777,
	"loss": 1.7878,
	"step": 16
	},
	{
	"epoch": 0.19373219373219372,
	"grad_norm": 2.102220296859741,
	"learning_rate": 0.00029868566624879054,
	"loss": 2.2667,
	"step": 17
	},
	{
	"epoch": 0.20512820512820512,
	"grad_norm": 2.032646894454956,
	"learning_rate": 0.00029828408783878324,
	"loss": 1.6751,
	"step": 18
	},
	{
	"epoch": 0.21652421652421652,
	"grad_norm": 2.541229486465454,
	"learning_rate": 0.00029782940079163485,
	"loss": 1.3936,
	"step": 19
	},
	{
	"epoch": 0.22792022792022792,
	"grad_norm": 3.479897975921631,
	"learning_rate": 0.00029732176795563037,
	"loss": 1.7468,
	"step": 20
	},
	{
	"epoch": 0.23931623931623933,
	"grad_norm": 4.591503143310547,
	"learning_rate": 0.0002967613711418359,
	"loss": 2.2668,
	"step": 21
	},
	{
	"epoch": 0.25071225071225073,
	"grad_norm": 7.106602668762207,
	"learning_rate": 0.000296148411058982,
	"loss": 2.8446,
	"step": 22
	},
	{
	"epoch": 0.2621082621082621,
	"grad_norm": 4.072912693023682,
	"learning_rate": 0.00029548310724157904,
	"loss": 2.4782,
	"step": 23
	},
	{
	"epoch": 0.27350427350427353,
	"grad_norm": 3.0776100158691406,
	"learning_rate": 0.0002947656979712899,
	"loss": 2.3275,
	"step": 24
	},
	{
	"epoch": 0.2849002849002849,
	"grad_norm": 1.9854662418365479,
	"learning_rate": 0.0002939964401915884,
	"loss": 2.2914,
	"step": 25
	},
	{
	"epoch": 0.2849002849002849,
	"eval_loss": 2.036309242248535,
	"eval_runtime": 1.6991,
	"eval_samples_per_second": 29.427,
	"eval_steps_per_second": 4.12,
	"step": 25
	},
	{
	"epoch": 0.2962962962962963,
	"grad_norm": 1.2816338539123535,
	"learning_rate": 0.0002931756094157332,
	"loss": 2.0158,
	"step": 26
	},
	{
	"epoch": 0.3076923076923077,
	"grad_norm": 1.3689543008804321,
	"learning_rate": 0.0002923034996280924,
	"loss": 1.9286,
	"step": 27
	},
	{
	"epoch": 0.3190883190883191,
	"grad_norm": 1.3031697273254395,
	"learning_rate": 0.0002913804231788509,
	"loss": 2.0447,
	"step": 28
	},
	{
	"epoch": 0.33048433048433046,
	"grad_norm": 1.2884080410003662,
	"learning_rate": 0.00029040671067214087,
	"loss": 1.7308,
	"step": 29
	},
	{
	"epoch": 0.3418803418803419,
	"grad_norm": 1.2418413162231445,
	"learning_rate": 0.0002893827108476348,
	"loss": 1.7873,
	"step": 30
	},
	{
	"epoch": 0.35327635327635326,
	"grad_norm": 1.2331762313842773,
	"learning_rate": 0.000288308790455642,
	"loss": 1.8249,
	"step": 31
	},
	{
	"epoch": 0.3646723646723647,
	"grad_norm": 1.3798717260360718,
	"learning_rate": 0.00028718533412575606,
	"loss": 1.6925,
	"step": 32
	},
	{
	"epoch": 0.37606837606837606,
	"grad_norm": 1.2883918285369873,
	"learning_rate": 0.00028601274422909733,
	"loss": 1.6585,
	"step": 33
	},
	{
	"epoch": 0.38746438746438744,
	"grad_norm": 1.4337915182113647,
	"learning_rate": 0.00028479144073420234,
	"loss": 1.6603,
	"step": 34
	},
	{
	"epoch": 0.39886039886039887,
	"grad_norm": 1.4459898471832275,
	"learning_rate": 0.0002835218610566095,
	"loss": 1.811,
	"step": 35
	},
	{
	"epoch": 0.41025641025641024,
	"grad_norm": 1.5042760372161865,
	"learning_rate": 0.0002822044599021973,
	"loss": 1.5776,
	"step": 36
	},
	{
	"epoch": 0.42165242165242167,
	"grad_norm": 1.721915364265442,
	"learning_rate": 0.0002808397091043291,
	"loss": 1.5148,
	"step": 37
	},
	{
	"epoch": 0.43304843304843305,
	"grad_norm": 1.7263678312301636,
	"learning_rate": 0.00027942809745486343,
	"loss": 1.6432,
	"step": 38
	},
	{
	"epoch": 0.4444444444444444,
	"grad_norm": 1.4137566089630127,
	"learning_rate": 0.0002779701305290915,
	"loss": 1.1639,
	"step": 39
	},
	{
	"epoch": 0.45584045584045585,
	"grad_norm": 1.5665677785873413,
	"learning_rate": 0.00027646633050466265,
	"loss": 1.2632,
	"step": 40
	},
	{
	"epoch": 0.4672364672364672,
	"grad_norm": 2.0215096473693848,
	"learning_rate": 0.0002749172359745641,
	"loss": 1.3551,
	"step": 41
	},
	{
	"epoch": 0.47863247863247865,
	"grad_norm": 4.784286975860596,
	"learning_rate": 0.0002733234017542215,
	"loss": 2.3304,
	"step": 42
	},
	{
	"epoch": 0.49002849002849,
	"grad_norm": 4.08688497543335,
	"learning_rate": 0.0002716853986827888,
	"loss": 2.402,
	"step": 43
	},
	{
	"epoch": 0.5014245014245015,
	"grad_norm": 2.5830602645874023,
	"learning_rate": 0.0002700038134187002,
	"loss": 2.3759,
	"step": 44
	},
	{
	"epoch": 0.5128205128205128,
	"grad_norm": 2.1645848751068115,
	"learning_rate": 0.00026827924822955487,
	"loss": 2.1305,
	"step": 45
	},
	{
	"epoch": 0.5242165242165242,
	"grad_norm": 1.5849443674087524,
	"learning_rate": 0.0002665123207764128,
	"loss": 1.9809,
	"step": 46
	},
	{
	"epoch": 0.5356125356125356,
	"grad_norm": 1.2589260339736938,
	"learning_rate": 0.00026470366389257614,
	"loss": 1.706,
	"step": 47
	},
	{
	"epoch": 0.5470085470085471,
	"grad_norm": 1.0531516075134277,
	"learning_rate": 0.0002628539253569372,
	"loss": 1.9793,
	"step": 48
	},
	{
	"epoch": 0.5584045584045584,
	"grad_norm": 1.193375587463379,
	"learning_rate": 0.00026096376766197307,
	"loss": 1.9775,
	"step": 49
	},
	{
	"epoch": 0.5698005698005698,
	"grad_norm": 1.1033531427383423,
	"learning_rate": 0.00025903386777647154,
	"loss": 1.8742,
	"step": 50
	},
	{
	"epoch": 0.5698005698005698,
	"eval_loss": 1.7998709678649902,
	"eval_runtime": 1.7036,
	"eval_samples_per_second": 29.349,
	"eval_steps_per_second": 4.109,
	"step": 50
	}
	],
	"logging_steps": 1,
	"max_steps": 176,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 50,
	"stateful_callbacks": {
	"EarlyStoppingCallback": {
	"args": {
	"early_stopping_patience": 1,
	"early_stopping_threshold": 0.0
	},
	"attributes": {
	"early_stopping_patience_counter": 0
	}
	},
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 1.2522914467282944e+16,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}