|
{ |
|
"best_metric": 1.1908053159713745, |
|
"best_model_checkpoint": "miner_id_24/checkpoint-50", |
|
"epoch": 2.0, |
|
"eval_steps": 25, |
|
"global_step": 60, |
|
"is_hyper_param_search": false, |
|
"is_local_process_zero": true, |
|
"is_world_process_zero": true, |
|
"log_history": [ |
|
{ |
|
"epoch": 0.03333333333333333, |
|
"grad_norm": 1.1649612188339233, |
|
"learning_rate": 0.00015, |
|
"loss": 1.8793, |
|
"step": 1 |
|
}, |
|
{ |
|
"epoch": 0.03333333333333333, |
|
"eval_loss": 1.7751548290252686, |
|
"eval_runtime": 0.4726, |
|
"eval_samples_per_second": 105.805, |
|
"eval_steps_per_second": 6.348, |
|
"step": 1 |
|
}, |
|
{ |
|
"epoch": 0.06666666666666667, |
|
"grad_norm": 1.2148895263671875, |
|
"learning_rate": 0.0003, |
|
"loss": 1.8439, |
|
"step": 2 |
|
}, |
|
{ |
|
"epoch": 0.1, |
|
"grad_norm": 0.8562850952148438, |
|
"learning_rate": 0.0002998020108699017, |
|
"loss": 1.7412, |
|
"step": 3 |
|
}, |
|
{ |
|
"epoch": 0.13333333333333333, |
|
"grad_norm": 1.841414213180542, |
|
"learning_rate": 0.00029920862421583855, |
|
"loss": 1.572, |
|
"step": 4 |
|
}, |
|
{ |
|
"epoch": 0.16666666666666666, |
|
"grad_norm": 2.673600196838379, |
|
"learning_rate": 0.00029822158054310604, |
|
"loss": 1.534, |
|
"step": 5 |
|
}, |
|
{ |
|
"epoch": 0.2, |
|
"grad_norm": 0.8854407072067261, |
|
"learning_rate": 0.00029684377502086165, |
|
"loss": 1.4862, |
|
"step": 6 |
|
}, |
|
{ |
|
"epoch": 0.23333333333333334, |
|
"grad_norm": 0.5617110133171082, |
|
"learning_rate": 0.00029507924899009505, |
|
"loss": 1.2026, |
|
"step": 7 |
|
}, |
|
{ |
|
"epoch": 0.26666666666666666, |
|
"grad_norm": 0.960807204246521, |
|
"learning_rate": 0.0002929331781096783, |
|
"loss": 1.4424, |
|
"step": 8 |
|
}, |
|
{ |
|
"epoch": 0.3, |
|
"grad_norm": 0.5167911052703857, |
|
"learning_rate": 0.0002904118571752668, |
|
"loss": 1.4908, |
|
"step": 9 |
|
}, |
|
{ |
|
"epoch": 0.3333333333333333, |
|
"grad_norm": 0.4166538715362549, |
|
"learning_rate": 0.00028752268165557917, |
|
"loss": 1.4629, |
|
"step": 10 |
|
}, |
|
{ |
|
"epoch": 0.36666666666666664, |
|
"grad_norm": 0.39409634470939636, |
|
"learning_rate": 0.0002842741260002131, |
|
"loss": 1.4152, |
|
"step": 11 |
|
}, |
|
{ |
|
"epoch": 0.4, |
|
"grad_norm": 0.36886128783226013, |
|
"learning_rate": 0.00028067571878262454, |
|
"loss": 1.3248, |
|
"step": 12 |
|
}, |
|
{ |
|
"epoch": 0.43333333333333335, |
|
"grad_norm": 0.4231835603713989, |
|
"learning_rate": 0.0002767380147511802, |
|
"loss": 1.3428, |
|
"step": 13 |
|
}, |
|
{ |
|
"epoch": 0.4666666666666667, |
|
"grad_norm": 0.54258131980896, |
|
"learning_rate": 0.00027247256387026185, |
|
"loss": 1.1574, |
|
"step": 14 |
|
}, |
|
{ |
|
"epoch": 0.5, |
|
"grad_norm": 0.42828983068466187, |
|
"learning_rate": 0.0002678918774422309, |
|
"loss": 1.2429, |
|
"step": 15 |
|
}, |
|
{ |
|
"epoch": 0.5333333333333333, |
|
"grad_norm": 0.510733962059021, |
|
"learning_rate": 0.0002630093914096226, |
|
"loss": 1.3712, |
|
"step": 16 |
|
}, |
|
{ |
|
"epoch": 0.5666666666666667, |
|
"grad_norm": 0.38883981108665466, |
|
"learning_rate": 0.00025783942694521214, |
|
"loss": 1.3532, |
|
"step": 17 |
|
}, |
|
{ |
|
"epoch": 0.6, |
|
"grad_norm": 0.38674357533454895, |
|
"learning_rate": 0.0002523971484455467, |
|
"loss": 1.3874, |
|
"step": 18 |
|
}, |
|
{ |
|
"epoch": 0.6333333333333333, |
|
"grad_norm": 0.4017699658870697, |
|
"learning_rate": 0.0002466985190511583, |
|
"loss": 1.3387, |
|
"step": 19 |
|
}, |
|
{ |
|
"epoch": 0.6666666666666666, |
|
"grad_norm": 0.34502148628234863, |
|
"learning_rate": 0.00024076025382392162, |
|
"loss": 1.3144, |
|
"step": 20 |
|
}, |
|
{ |
|
"epoch": 0.7, |
|
"grad_norm": 0.39896753430366516, |
|
"learning_rate": 0.0002345997707188979, |
|
"loss": 1.1387, |
|
"step": 21 |
|
}, |
|
{ |
|
"epoch": 0.7333333333333333, |
|
"grad_norm": 0.4034166634082794, |
|
"learning_rate": 0.00022823513949447166, |
|
"loss": 1.1162, |
|
"step": 22 |
|
}, |
|
{ |
|
"epoch": 0.7666666666666667, |
|
"grad_norm": 0.3926554024219513, |
|
"learning_rate": 0.0002216850287106357, |
|
"loss": 1.394, |
|
"step": 23 |
|
}, |
|
{ |
|
"epoch": 0.8, |
|
"grad_norm": 0.4053841233253479, |
|
"learning_rate": 0.00021496865097088845, |
|
"loss": 1.2963, |
|
"step": 24 |
|
}, |
|
{ |
|
"epoch": 0.8333333333333334, |
|
"grad_norm": 0.37235623598098755, |
|
"learning_rate": 0.00020810570656835728, |
|
"loss": 1.3407, |
|
"step": 25 |
|
}, |
|
{ |
|
"epoch": 0.8333333333333334, |
|
"eval_loss": 1.232896327972412, |
|
"eval_runtime": 0.4712, |
|
"eval_samples_per_second": 106.115, |
|
"eval_steps_per_second": 6.367, |
|
"step": 25 |
|
}, |
|
{ |
|
"epoch": 0.8666666666666667, |
|
"grad_norm": 0.3176923990249634, |
|
"learning_rate": 0.00020111632570144484, |
|
"loss": 1.249, |
|
"step": 26 |
|
}, |
|
{ |
|
"epoch": 0.9, |
|
"grad_norm": 0.36373481154441833, |
|
"learning_rate": 0.00019402100942848827, |
|
"loss": 1.274, |
|
"step": 27 |
|
}, |
|
{ |
|
"epoch": 0.9333333333333333, |
|
"grad_norm": 0.38271331787109375, |
|
"learning_rate": 0.00018684056953462326, |
|
"loss": 1.2326, |
|
"step": 28 |
|
}, |
|
{ |
|
"epoch": 0.9666666666666667, |
|
"grad_norm": 0.42604008316993713, |
|
"learning_rate": 0.00017959606748723213, |
|
"loss": 0.869, |
|
"step": 29 |
|
}, |
|
{ |
|
"epoch": 1.0, |
|
"grad_norm": 0.3387948274612427, |
|
"learning_rate": 0.00017230875265903138, |
|
"loss": 1.2436, |
|
"step": 30 |
|
}, |
|
{ |
|
"epoch": 1.0333333333333334, |
|
"grad_norm": 0.3846060633659363, |
|
"learning_rate": 0.000165, |
|
"loss": 1.2802, |
|
"step": 31 |
|
}, |
|
{ |
|
"epoch": 1.0666666666666667, |
|
"grad_norm": 0.32592591643333435, |
|
"learning_rate": 0.00015769124734096862, |
|
"loss": 1.2533, |
|
"step": 32 |
|
}, |
|
{ |
|
"epoch": 1.1, |
|
"grad_norm": 0.3346901834011078, |
|
"learning_rate": 0.00015040393251276787, |
|
"loss": 1.2372, |
|
"step": 33 |
|
}, |
|
{ |
|
"epoch": 1.1333333333333333, |
|
"grad_norm": 0.3435336947441101, |
|
"learning_rate": 0.00014315943046537674, |
|
"loss": 1.2176, |
|
"step": 34 |
|
}, |
|
{ |
|
"epoch": 1.1666666666666667, |
|
"grad_norm": 0.35683509707450867, |
|
"learning_rate": 0.00013597899057151173, |
|
"loss": 1.1962, |
|
"step": 35 |
|
}, |
|
{ |
|
"epoch": 1.2, |
|
"grad_norm": 0.3767106533050537, |
|
"learning_rate": 0.0001288836742985552, |
|
"loss": 1.1275, |
|
"step": 36 |
|
}, |
|
{ |
|
"epoch": 1.2333333333333334, |
|
"grad_norm": 0.3831377327442169, |
|
"learning_rate": 0.00012189429343164274, |
|
"loss": 0.9059, |
|
"step": 37 |
|
}, |
|
{ |
|
"epoch": 1.2666666666666666, |
|
"grad_norm": 0.40120962262153625, |
|
"learning_rate": 0.00011503134902911152, |
|
"loss": 1.1578, |
|
"step": 38 |
|
}, |
|
{ |
|
"epoch": 1.3, |
|
"grad_norm": 0.4257172644138336, |
|
"learning_rate": 0.00010831497128936428, |
|
"loss": 1.2312, |
|
"step": 39 |
|
}, |
|
{ |
|
"epoch": 1.3333333333333333, |
|
"grad_norm": 0.42169681191444397, |
|
"learning_rate": 0.00010176486050552833, |
|
"loss": 1.2531, |
|
"step": 40 |
|
}, |
|
{ |
|
"epoch": 1.3666666666666667, |
|
"grad_norm": 0.327210932970047, |
|
"learning_rate": 9.540022928110205e-05, |
|
"loss": 1.1882, |
|
"step": 41 |
|
}, |
|
{ |
|
"epoch": 1.4, |
|
"grad_norm": 0.35897940397262573, |
|
"learning_rate": 8.92397461760784e-05, |
|
"loss": 1.1956, |
|
"step": 42 |
|
}, |
|
{ |
|
"epoch": 1.4333333333333333, |
|
"grad_norm": 0.4178498387336731, |
|
"learning_rate": 8.330148094884174e-05, |
|
"loss": 1.0847, |
|
"step": 43 |
|
}, |
|
{ |
|
"epoch": 1.4666666666666668, |
|
"grad_norm": 0.4059729278087616, |
|
"learning_rate": 7.760285155445327e-05, |
|
"loss": 0.8813, |
|
"step": 44 |
|
}, |
|
{ |
|
"epoch": 1.5, |
|
"grad_norm": 0.33809366822242737, |
|
"learning_rate": 7.216057305478784e-05, |
|
"loss": 1.114, |
|
"step": 45 |
|
}, |
|
{ |
|
"epoch": 1.5333333333333332, |
|
"grad_norm": 0.310451477766037, |
|
"learning_rate": 6.699060859037736e-05, |
|
"loss": 1.2373, |
|
"step": 46 |
|
}, |
|
{ |
|
"epoch": 1.5666666666666667, |
|
"grad_norm": 0.3143308162689209, |
|
"learning_rate": 6.210812255776909e-05, |
|
"loss": 1.2314, |
|
"step": 47 |
|
}, |
|
{ |
|
"epoch": 1.6, |
|
"grad_norm": 0.32428622245788574, |
|
"learning_rate": 5.752743612973809e-05, |
|
"loss": 1.1577, |
|
"step": 48 |
|
}, |
|
{ |
|
"epoch": 1.6333333333333333, |
|
"grad_norm": 0.3528636395931244, |
|
"learning_rate": 5.326198524881979e-05, |
|
"loss": 1.1424, |
|
"step": 49 |
|
}, |
|
{ |
|
"epoch": 1.6666666666666665, |
|
"grad_norm": 0.34576407074928284, |
|
"learning_rate": 4.9324281217375474e-05, |
|
"loss": 1.1361, |
|
"step": 50 |
|
}, |
|
{ |
|
"epoch": 1.6666666666666665, |
|
"eval_loss": 1.1908053159713745, |
|
"eval_runtime": 0.4711, |
|
"eval_samples_per_second": 106.143, |
|
"eval_steps_per_second": 6.369, |
|
"step": 50 |
|
}, |
|
{ |
|
"epoch": 1.7, |
|
"grad_norm": 0.36414432525634766, |
|
"learning_rate": 4.572587399978692e-05, |
|
"loss": 1.0088, |
|
"step": 51 |
|
}, |
|
{ |
|
"epoch": 1.7333333333333334, |
|
"grad_norm": 0.3594570755958557, |
|
"learning_rate": 4.247731834442082e-05, |
|
"loss": 0.9032, |
|
"step": 52 |
|
}, |
|
{ |
|
"epoch": 1.7666666666666666, |
|
"grad_norm": 0.35137939453125, |
|
"learning_rate": 3.958814282473316e-05, |
|
"loss": 1.2234, |
|
"step": 53 |
|
}, |
|
{ |
|
"epoch": 1.8, |
|
"grad_norm": 0.32212600111961365, |
|
"learning_rate": 3.7066821890321684e-05, |
|
"loss": 1.2155, |
|
"step": 54 |
|
}, |
|
{ |
|
"epoch": 1.8333333333333335, |
|
"grad_norm": 0.3211708068847656, |
|
"learning_rate": 3.4920751009904904e-05, |
|
"loss": 1.175, |
|
"step": 55 |
|
}, |
|
{ |
|
"epoch": 1.8666666666666667, |
|
"grad_norm": 0.3339647352695465, |
|
"learning_rate": 3.3156224979138305e-05, |
|
"loss": 1.1879, |
|
"step": 56 |
|
}, |
|
{ |
|
"epoch": 1.9, |
|
"grad_norm": 0.35156139731407166, |
|
"learning_rate": 3.177841945689397e-05, |
|
"loss": 1.1383, |
|
"step": 57 |
|
}, |
|
{ |
|
"epoch": 1.9333333333333333, |
|
"grad_norm": 0.3672747313976288, |
|
"learning_rate": 3.0791375784161455e-05, |
|
"loss": 1.0794, |
|
"step": 58 |
|
}, |
|
{ |
|
"epoch": 1.9666666666666668, |
|
"grad_norm": 0.41336578130722046, |
|
"learning_rate": 3.0197989130098285e-05, |
|
"loss": 0.8133, |
|
"step": 59 |
|
}, |
|
{ |
|
"epoch": 2.0, |
|
"grad_norm": 0.34079939126968384, |
|
"learning_rate": 2.9999999999999997e-05, |
|
"loss": 1.1395, |
|
"step": 60 |
|
} |
|
], |
|
"logging_steps": 1, |
|
"max_steps": 60, |
|
"num_input_tokens_seen": 0, |
|
"num_train_epochs": 2, |
|
"save_steps": 50, |
|
"stateful_callbacks": { |
|
"EarlyStoppingCallback": { |
|
"args": { |
|
"early_stopping_patience": 1, |
|
"early_stopping_threshold": 0.0 |
|
}, |
|
"attributes": { |
|
"early_stopping_patience_counter": 0 |
|
} |
|
}, |
|
"TrainerControl": { |
|
"args": { |
|
"should_epoch_stop": false, |
|
"should_evaluate": false, |
|
"should_log": false, |
|
"should_save": true, |
|
"should_training_stop": true |
|
}, |
|
"attributes": {} |
|
} |
|
}, |
|
"total_flos": 9.422813710516224e+16, |
|
"train_batch_size": 6, |
|
"trial_name": null, |
|
"trial_params": null |
|
} |
|
|