Training in progress, epoch 0, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_config.json +4 -4
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +417 -417
last-checkpoint/training_args.bin +1 -1

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -20,13 +20,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "k_proj",
-    "down_proj",
     "up_proj",
-    "gate_proj",
-    "o_proj",
     "v_proj",
-    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "q_proj",
     "k_proj",
     "up_proj",
     "v_proj",
+    "down_proj",
+    "gate_proj",
+    "o_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7ee93c022f8ffc3acce2277304bf58df4df22be26d6abf74a5f3c20bafe90046
 size 80013120

 version https://git-lfs.github.com/spec/v1
+oid sha256:1f2c54b3cff7229bba3a337321576ca3fbedcde46f10b6c700245830c01cb495
 size 80013120

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:58e6129f935b6e1eb106a4d35b353cecba548d9909665a3ed5a8128bafce50d7
 size 41119636

 version https://git-lfs.github.com/spec/v1
+oid sha256:79bc646c7471cb3943c0b5456f615d091883e21fcd695a7c0aa6311ff2dd361a
 size 41119636

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2e33ec2d279a54b31bcbd59efbda4ed3412f13129417ee23eb1d555b2fb4c15c
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:b5da8984c55f90689ec5dc6254808c095ed22f24233bafba7be5034f696b9c85
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:49d60a69e2379be2053e816cbaff31e6c931b5922dd86c71c9eaf473299cbf62
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a9299ec7d0989f843c66221f6a5f12c76f22cfda8e3a2897dd9a527db5b37854
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.8379156847342236,
   "eval_steps": 50,
   "global_step": 100,
   "is_hyper_param_search": false,
@@ -9,727 +9,727 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.008379156847342237,
-      "grad_norm": 0.5054947733879089,
-      "learning_rate": 1e-05,
-      "loss": 2.9505,
       "step": 1
     },
     {
-      "epoch": 0.008379156847342237,
-      "eval_loss": 3.054915428161621,
-      "eval_runtime": 43.2673,
-      "eval_samples_per_second": 4.669,
-      "eval_steps_per_second": 4.669,
       "step": 1
     },
     {
-      "epoch": 0.016758313694684474,
-      "grad_norm": 0.3709588348865509,
-      "learning_rate": 2e-05,
-      "loss": 2.8603,
       "step": 2
     },
     {
-      "epoch": 0.02513747054202671,
-      "grad_norm": 0.5003033876419067,
-      "learning_rate": 3e-05,
-      "loss": 2.8325,
       "step": 3
     },
     {
-      "epoch": 0.03351662738936895,
-      "grad_norm": 0.3898451328277588,
-      "learning_rate": 4e-05,
-      "loss": 2.7888,
       "step": 4
     },
     {
-      "epoch": 0.041895784236711184,
-      "grad_norm": 0.4698517918586731,
-      "learning_rate": 5e-05,
-      "loss": 2.8257,
       "step": 5
     },
     {
-      "epoch": 0.05027494108405342,
-      "grad_norm": 0.4781450927257538,
-      "learning_rate": 6e-05,
-      "loss": 2.9094,
       "step": 6
     },
     {
-      "epoch": 0.05865409793139565,
-      "grad_norm": 0.6419183015823364,
-      "learning_rate": 7e-05,
-      "loss": 2.8045,
       "step": 7
     },
     {
-      "epoch": 0.0670332547787379,
-      "grad_norm": 0.7329452633857727,
-      "learning_rate": 8e-05,
-      "loss": 2.7656,
       "step": 8
     },
     {
-      "epoch": 0.07541241162608013,
-      "grad_norm": 0.8872014284133911,
-      "learning_rate": 9e-05,
-      "loss": 2.9754,
       "step": 9
     },
     {
-      "epoch": 0.08379156847342237,
-      "grad_norm": 1.0049771070480347,
-      "learning_rate": 0.0001,
-      "loss": 2.7885,
       "step": 10
     },
     {
-      "epoch": 0.0921707253207646,
-      "grad_norm": 1.288948655128479,
-      "learning_rate": 9.99695413509548e-05,
-      "loss": 2.862,
       "step": 11
     },
     {
-      "epoch": 0.10054988216810684,
-      "grad_norm": 1.6090466976165771,
-      "learning_rate": 9.987820251299122e-05,
-      "loss": 2.9898,
       "step": 12
     },
     {
-      "epoch": 0.10892903901544906,
-      "grad_norm": 1.5656819343566895,
-      "learning_rate": 9.972609476841367e-05,
-      "loss": 2.8883,
       "step": 13
     },
     {
-      "epoch": 0.1173081958627913,
-      "grad_norm": 1.6467982530593872,
-      "learning_rate": 9.951340343707852e-05,
-      "loss": 2.7058,
       "step": 14
     },
     {
-      "epoch": 0.12568735271013354,
-      "grad_norm": 2.0958547592163086,
-      "learning_rate": 9.924038765061042e-05,
-      "loss": 2.7129,
       "step": 15
     },
     {
-      "epoch": 0.1340665095574758,
-      "grad_norm": 1.0730005502700806,
-      "learning_rate": 9.890738003669029e-05,
-      "loss": 2.7274,
       "step": 16
     },
     {
-      "epoch": 0.142445666404818,
-      "grad_norm": 1.0618668794631958,
-      "learning_rate": 9.851478631379982e-05,
-      "loss": 2.5979,
       "step": 17
     },
     {
-      "epoch": 0.15082482325216026,
-      "grad_norm": 0.4424041211605072,
-      "learning_rate": 9.806308479691595e-05,
-      "loss": 2.5467,
       "step": 18
     },
     {
-      "epoch": 0.15920398009950248,
-      "grad_norm": 0.5938422679901123,
-      "learning_rate": 9.755282581475769e-05,
-      "loss": 2.6563,
       "step": 19
     },
     {
-      "epoch": 0.16758313694684474,
-      "grad_norm": 0.5060924291610718,
-      "learning_rate": 9.698463103929542e-05,
-      "loss": 2.6239,
       "step": 20
     },
     {
-      "epoch": 0.17596229379418696,
-      "grad_norm": 0.5067716836929321,
-      "learning_rate": 9.635919272833938e-05,
-      "loss": 2.5558,
       "step": 21
     },
     {
-      "epoch": 0.1843414506415292,
-      "grad_norm": 0.5283418297767639,
-      "learning_rate": 9.567727288213005e-05,
-      "loss": 2.6283,
       "step": 22
     },
     {
-      "epoch": 0.19272060748887143,
-      "grad_norm": 0.5521147847175598,
-      "learning_rate": 9.493970231495835e-05,
-      "loss": 2.5582,
       "step": 23
     },
     {
-      "epoch": 0.20109976433621368,
-      "grad_norm": 0.6335211396217346,
-      "learning_rate": 9.414737964294636e-05,
-      "loss": 2.6768,
       "step": 24
     },
     {
-      "epoch": 0.2094789211835559,
-      "grad_norm": 1.2375539541244507,
-      "learning_rate": 9.330127018922194e-05,
-      "loss": 2.6038,
       "step": 25
     },
     {
-      "epoch": 0.21785807803089813,
-      "grad_norm": 1.3271223306655884,
-      "learning_rate": 9.24024048078213e-05,
-      "loss": 2.5917,
       "step": 26
     },
     {
-      "epoch": 0.22623723487824038,
-      "grad_norm": 0.4055769145488739,
-      "learning_rate": 9.145187862775209e-05,
-      "loss": 2.3628,
       "step": 27
     },
     {
-      "epoch": 0.2346163917255826,
-      "grad_norm": 0.964474081993103,
-      "learning_rate": 9.045084971874738e-05,
-      "loss": 2.5157,
       "step": 28
     },
     {
-      "epoch": 0.24299554857292485,
-      "grad_norm": 0.6849140524864197,
-      "learning_rate": 8.940053768033609e-05,
-      "loss": 2.6839,
       "step": 29
     },
     {
-      "epoch": 0.2513747054202671,
-      "grad_norm": 0.4390021562576294,
-      "learning_rate": 8.83022221559489e-05,
-      "loss": 2.5509,
       "step": 30
     },
     {
-      "epoch": 0.2597538622676093,
-      "grad_norm": 0.7394634485244751,
-      "learning_rate": 8.715724127386972e-05,
-      "loss": 2.5447,
       "step": 31
     },
     {
-      "epoch": 0.2681330191149516,
-      "grad_norm": 0.45920076966285706,
-      "learning_rate": 8.596699001693255e-05,
-      "loss": 2.5397,
       "step": 32
     },
     {
-      "epoch": 0.27651217596229377,
-      "grad_norm": 0.43246570229530334,
-      "learning_rate": 8.473291852294987e-05,
-      "loss": 2.6423,
       "step": 33
     },
     {
-      "epoch": 0.284891332809636,
-      "grad_norm": 0.38203856348991394,
-      "learning_rate": 8.345653031794292e-05,
-      "loss": 2.4129,
       "step": 34
     },
     {
-      "epoch": 0.2932704896569783,
-      "grad_norm": 0.37578803300857544,
-      "learning_rate": 8.213938048432697e-05,
-      "loss": 2.5367,
       "step": 35
     },
     {
-      "epoch": 0.3016496465043205,
-      "grad_norm": 0.6231028437614441,
-      "learning_rate": 8.07830737662829e-05,
-      "loss": 2.504,
       "step": 36
     },
     {
-      "epoch": 0.3100288033516627,
-      "grad_norm": 0.48215481638908386,
-      "learning_rate": 7.938926261462366e-05,
-      "loss": 2.5128,
       "step": 37
     },
     {
-      "epoch": 0.31840796019900497,
-      "grad_norm": 0.8526724576950073,
-      "learning_rate": 7.795964517353735e-05,
-      "loss": 2.4417,
       "step": 38
     },
     {
-      "epoch": 0.3267871170463472,
-      "grad_norm": 0.42325401306152344,
-      "learning_rate": 7.649596321166024e-05,
-      "loss": 2.484,
       "step": 39
     },
     {
-      "epoch": 0.33516627389368947,
-      "grad_norm": 0.45637720823287964,
-      "learning_rate": 7.500000000000001e-05,
-      "loss": 2.4911,
       "step": 40
     },
     {
-      "epoch": 0.34354543074103167,
-      "grad_norm": 0.5629859566688538,
-      "learning_rate": 7.347357813929454e-05,
-      "loss": 2.4716,
       "step": 41
     },
     {
-      "epoch": 0.3519245875883739,
-      "grad_norm": 0.6218668222427368,
-      "learning_rate": 7.191855733945387e-05,
-      "loss": 2.3725,
       "step": 42
     },
     {
-      "epoch": 0.36030374443571617,
-      "grad_norm": 0.5280422568321228,
-      "learning_rate": 7.033683215379002e-05,
-      "loss": 2.6807,
       "step": 43
     },
     {
-      "epoch": 0.3686829012830584,
-      "grad_norm": 0.4046926200389862,
-      "learning_rate": 6.873032967079561e-05,
-      "loss": 2.4806,
       "step": 44
     },
     {
-      "epoch": 0.3770620581304006,
-      "grad_norm": 0.3766598701477051,
-      "learning_rate": 6.710100716628344e-05,
-      "loss": 2.2953,
       "step": 45
     },
     {
-      "epoch": 0.38544121497774286,
-      "grad_norm": 0.5563957691192627,
-      "learning_rate": 6.545084971874738e-05,
-      "loss": 2.5368,
       "step": 46
     },
     {
-      "epoch": 0.3938203718250851,
-      "grad_norm": 0.403656542301178,
-      "learning_rate": 6.378186779084995e-05,
-      "loss": 2.4207,
       "step": 47
     },
     {
-      "epoch": 0.40219952867242736,
-      "grad_norm": 0.4429378807544708,
-      "learning_rate": 6.209609477998338e-05,
-      "loss": 2.637,
       "step": 48
     },
     {
-      "epoch": 0.41057868551976956,
-      "grad_norm": 0.46513986587524414,
-      "learning_rate": 6.0395584540887963e-05,
-      "loss": 2.3988,
       "step": 49
     },
     {
-      "epoch": 0.4189578423671118,
-      "grad_norm": 0.4939236640930176,
-      "learning_rate": 5.868240888334653e-05,
-      "loss": 2.6023,
       "step": 50
     },
     {
-      "epoch": 0.4189578423671118,
-      "eval_loss": 2.578394889831543,
-      "eval_runtime": 42.4269,
-      "eval_samples_per_second": 4.761,
-      "eval_steps_per_second": 4.761,
       "step": 50
     },
     {
-      "epoch": 0.42733699921445406,
-      "grad_norm": 0.4209323823451996,
-      "learning_rate": 5.695865504800327e-05,
-      "loss": 2.4749,
       "step": 51
     },
     {
-      "epoch": 0.43571615606179626,
-      "grad_norm": 0.4266431927680969,
-      "learning_rate": 5.522642316338268e-05,
-      "loss": 2.4692,
       "step": 52
     },
     {
-      "epoch": 0.4440953129091385,
-      "grad_norm": 0.3953860402107239,
-      "learning_rate": 5.348782368720626e-05,
-      "loss": 2.3527,
       "step": 53
     },
     {
-      "epoch": 0.45247446975648076,
-      "grad_norm": 0.4726410210132599,
-      "learning_rate": 5.174497483512506e-05,
-      "loss": 2.4229,
       "step": 54
     },
     {
-      "epoch": 0.460853626603823,
-      "grad_norm": 0.4370991289615631,
-      "learning_rate": 5e-05,
-      "loss": 2.5421,
       "step": 55
     },
     {
-      "epoch": 0.4692327834511652,
-      "grad_norm": 0.4647808074951172,
-      "learning_rate": 4.825502516487497e-05,
-      "loss": 2.5684,
       "step": 56
     },
     {
-      "epoch": 0.47761194029850745,
-      "grad_norm": 0.4097454249858856,
-      "learning_rate": 4.6512176312793736e-05,
-      "loss": 2.4871,
       "step": 57
     },
     {
-      "epoch": 0.4859910971458497,
-      "grad_norm": 0.4504952132701874,
-      "learning_rate": 4.477357683661734e-05,
-      "loss": 2.4055,
       "step": 58
     },
     {
-      "epoch": 0.49437025399319195,
-      "grad_norm": 0.461972177028656,
-      "learning_rate": 4.3041344951996746e-05,
-      "loss": 2.5632,
       "step": 59
     },
     {
-      "epoch": 0.5027494108405341,
-      "grad_norm": 0.42533305287361145,
-      "learning_rate": 4.131759111665349e-05,
-      "loss": 2.4914,
       "step": 60
     },
     {
-      "epoch": 0.5111285676878764,
-      "grad_norm": 0.4510684311389923,
-      "learning_rate": 3.960441545911204e-05,
-      "loss": 2.5091,
       "step": 61
     },
     {
-      "epoch": 0.5195077245352187,
-      "grad_norm": 0.42407482862472534,
-      "learning_rate": 3.790390522001662e-05,
-      "loss": 2.3668,
       "step": 62
     },
     {
-      "epoch": 0.5278868813825609,
-      "grad_norm": 0.431485116481781,
-      "learning_rate": 3.6218132209150045e-05,
-      "loss": 2.4541,
       "step": 63
     },
     {
-      "epoch": 0.5362660382299032,
-      "grad_norm": 0.4215572774410248,
-      "learning_rate": 3.4549150281252636e-05,
-      "loss": 2.3595,
       "step": 64
     },
     {
-      "epoch": 0.5446451950772454,
-      "grad_norm": 0.5403610467910767,
-      "learning_rate": 3.289899283371657e-05,
-      "loss": 2.7011,
       "step": 65
     },
     {
-      "epoch": 0.5530243519245875,
-      "grad_norm": 0.43399372696876526,
-      "learning_rate": 3.12696703292044e-05,
-      "loss": 2.367,
       "step": 66
     },
     {
-      "epoch": 0.5614035087719298,
-      "grad_norm": 0.49265211820602417,
-      "learning_rate": 2.9663167846209998e-05,
-      "loss": 2.3943,
       "step": 67
     },
     {
-      "epoch": 0.569782665619272,
-      "grad_norm": 0.4823525547981262,
-      "learning_rate": 2.8081442660546125e-05,
-      "loss": 2.3512,
       "step": 68
     },
     {
-      "epoch": 0.5781618224666143,
-      "grad_norm": 0.4148399829864502,
-      "learning_rate": 2.6526421860705473e-05,
-      "loss": 2.4461,
       "step": 69
     },
     {
-      "epoch": 0.5865409793139565,
-      "grad_norm": 0.45690131187438965,
-      "learning_rate": 2.500000000000001e-05,
-      "loss": 2.3753,
       "step": 70
     },
     {
-      "epoch": 0.5949201361612988,
-      "grad_norm": 0.3864487111568451,
-      "learning_rate": 2.350403678833976e-05,
-      "loss": 2.3544,
       "step": 71
     },
     {
-      "epoch": 0.603299293008641,
-      "grad_norm": 0.4677547812461853,
-      "learning_rate": 2.2040354826462668e-05,
-      "loss": 2.5031,
       "step": 72
     },
     {
-      "epoch": 0.6116784498559832,
-      "grad_norm": 0.37837573885917664,
-      "learning_rate": 2.061073738537635e-05,
-      "loss": 2.3215,
       "step": 73
     },
     {
-      "epoch": 0.6200576067033254,
-      "grad_norm": 0.47641924023628235,
-      "learning_rate": 1.9216926233717085e-05,
-      "loss": 2.4183,
       "step": 74
     },
     {
-      "epoch": 0.6284367635506677,
-      "grad_norm": 0.5523366928100586,
-      "learning_rate": 1.7860619515673033e-05,
-      "loss": 2.5932,
       "step": 75
     },
     {
-      "epoch": 0.6368159203980099,
-      "grad_norm": 0.42463499307632446,
-      "learning_rate": 1.6543469682057106e-05,
-      "loss": 2.4165,
       "step": 76
     },
     {
-      "epoch": 0.6451950772453522,
-      "grad_norm": 0.5442836284637451,
-      "learning_rate": 1.526708147705013e-05,
-      "loss": 2.5349,
       "step": 77
     },
     {
-      "epoch": 0.6535742340926944,
-      "grad_norm": 0.40604889392852783,
-      "learning_rate": 1.4033009983067452e-05,
-      "loss": 2.4106,
       "step": 78
     },
     {
-      "epoch": 0.6619533909400367,
-      "grad_norm": 0.4163293242454529,
-      "learning_rate": 1.2842758726130283e-05,
-      "loss": 2.3373,
       "step": 79
     },
     {
-      "epoch": 0.6703325477873789,
-      "grad_norm": 0.48656710982322693,
-      "learning_rate": 1.1697777844051105e-05,
-      "loss": 2.5337,
       "step": 80
     },
     {
-      "epoch": 0.6787117046347211,
-      "grad_norm": 0.4434641897678375,
-      "learning_rate": 1.0599462319663905e-05,
-      "loss": 2.4307,
       "step": 81
     },
     {
-      "epoch": 0.6870908614820633,
-      "grad_norm": 0.4347304105758667,
-      "learning_rate": 9.549150281252633e-06,
-      "loss": 2.3949,
       "step": 82
     },
     {
-      "epoch": 0.6954700183294056,
-      "grad_norm": 0.4212183952331543,
-      "learning_rate": 8.548121372247918e-06,
-      "loss": 2.3767,
       "step": 83
     },
     {
-      "epoch": 0.7038491751767478,
-      "grad_norm": 0.44238415360450745,
-      "learning_rate": 7.597595192178702e-06,
-      "loss": 2.612,
       "step": 84
     },
     {
-      "epoch": 0.7122283320240901,
-      "grad_norm": 0.44845736026763916,
-      "learning_rate": 6.698729810778065e-06,
-      "loss": 2.2322,
       "step": 85
     },
     {
-      "epoch": 0.7206074888714323,
-      "grad_norm": 0.4716636836528778,
-      "learning_rate": 5.852620357053651e-06,
-      "loss": 2.5347,
       "step": 86
     },
     {
-      "epoch": 0.7289866457187746,
-      "grad_norm": 0.5085580945014954,
-      "learning_rate": 5.060297685041659e-06,
-      "loss": 2.4772,
       "step": 87
     },
     {
-      "epoch": 0.7373658025661168,
-      "grad_norm": 0.455152302980423,
-      "learning_rate": 4.322727117869951e-06,
-      "loss": 2.3143,
       "step": 88
     },
     {
-      "epoch": 0.745744959413459,
-      "grad_norm": 0.48934170603752136,
-      "learning_rate": 3.6408072716606346e-06,
-      "loss": 2.3811,
       "step": 89
     },
     {
-      "epoch": 0.7541241162608012,
-      "grad_norm": 0.4595421552658081,
-      "learning_rate": 3.0153689607045845e-06,
-      "loss": 2.4414,
       "step": 90
     },
     {
-      "epoch": 0.7625032731081435,
-      "grad_norm": 0.5183727741241455,
-      "learning_rate": 2.4471741852423237e-06,
-      "loss": 2.5257,
       "step": 91
     },
     {
-      "epoch": 0.7708824299554857,
-      "grad_norm": 0.42374536395072937,
-      "learning_rate": 1.9369152030840556e-06,
-      "loss": 2.4218,
       "step": 92
     },
     {
-      "epoch": 0.779261586802828,
-      "grad_norm": 0.45261675119400024,
-      "learning_rate": 1.4852136862001764e-06,
-      "loss": 2.4601,
       "step": 93
     },
     {
-      "epoch": 0.7876407436501702,
-      "grad_norm": 0.4387091100215912,
-      "learning_rate": 1.0926199633097157e-06,
-      "loss": 2.5303,
       "step": 94
     },
     {
-      "epoch": 0.7960199004975125,
-      "grad_norm": 0.42841577529907227,
-      "learning_rate": 7.596123493895991e-07,
-      "loss": 2.3097,
       "step": 95
     },
     {
-      "epoch": 0.8043990573448547,
-      "grad_norm": 0.47183293104171753,
-      "learning_rate": 4.865965629214819e-07,
-      "loss": 2.4747,
       "step": 96
     },
     {
-      "epoch": 0.8127782141921969,
-      "grad_norm": 0.5696967840194702,
-      "learning_rate": 2.7390523158633554e-07,
-      "loss": 2.4984,
       "step": 97
     },
     {
-      "epoch": 0.8211573710395391,
-      "grad_norm": 0.4509386718273163,
-      "learning_rate": 1.2179748700879012e-07,
-      "loss": 2.2953,
       "step": 98
     },
     {
-      "epoch": 0.8295365278868814,
-      "grad_norm": 0.5444111227989197,
-      "learning_rate": 3.04586490452119e-08,
-      "loss": 2.5414,
       "step": 99
     },
     {
-      "epoch": 0.8379156847342236,
-      "grad_norm": 0.4556747078895569,
       "learning_rate": 0.0,
-      "loss": 2.4252,
       "step": 100
     },
     {
-      "epoch": 0.8379156847342236,
-      "eval_loss": 2.5602805614471436,
-      "eval_runtime": 45.2034,
-      "eval_samples_per_second": 4.469,
-      "eval_steps_per_second": 4.469,
       "step": 100
     }
   ],
@@ -737,7 +737,7 @@
   "max_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
-  "save_steps": 25,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
@@ -750,7 +750,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.51499696816128e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.2,
   "eval_steps": 50,
   "global_step": 100,
   "is_hyper_param_search": false,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.002,
+      "grad_norm": 0.3986969590187073,
+      "learning_rate": 0.0001,
+      "loss": 2.7769,
       "step": 1
     },
     {
+      "epoch": 0.002,
+      "eval_loss": 3.0125324726104736,
+      "eval_runtime": 4.8013,
+      "eval_samples_per_second": 4.374,
+      "eval_steps_per_second": 4.374,
       "step": 1
     },
     {
+      "epoch": 0.004,
+      "grad_norm": 0.5986809730529785,
+      "learning_rate": 0.0002,
+      "loss": 2.9521,
       "step": 2
     },
     {
+      "epoch": 0.006,
+      "grad_norm": 0.595142662525177,
+      "learning_rate": 0.0003,
+      "loss": 2.955,
       "step": 3
     },
     {
+      "epoch": 0.008,
+      "grad_norm": 0.7013932466506958,
+      "learning_rate": 0.0004,
+      "loss": 2.9037,
       "step": 4
     },
     {
+      "epoch": 0.01,
+      "grad_norm": 1.5847638845443726,
+      "learning_rate": 0.0005,
+      "loss": 2.9706,
       "step": 5
     },
     {
+      "epoch": 0.012,
+      "grad_norm": 1.6309813261032104,
+      "learning_rate": 0.0006,
+      "loss": 2.75,
       "step": 6
     },
     {
+      "epoch": 0.014,
+      "grad_norm": 1.3442208766937256,
+      "learning_rate": 0.0007,
+      "loss": 2.5161,
       "step": 7
     },
     {
+      "epoch": 0.016,
+      "grad_norm": 0.900488018989563,
+      "learning_rate": 0.0008,
+      "loss": 2.2906,
       "step": 8
     },
     {
+      "epoch": 0.018,
+      "grad_norm": 2.340869903564453,
+      "learning_rate": 0.0009000000000000001,
+      "loss": 2.6079,
       "step": 9
     },
     {
+      "epoch": 0.02,
+      "grad_norm": 2.987302303314209,
+      "learning_rate": 0.001,
+      "loss": 2.5506,
       "step": 10
     },
     {
+      "epoch": 0.022,
+      "grad_norm": 1.844685673713684,
+      "learning_rate": 0.0009996954135095479,
+      "loss": 2.7146,
       "step": 11
     },
     {
+      "epoch": 0.024,
+      "grad_norm": 0.9662850499153137,
+      "learning_rate": 0.0009987820251299122,
+      "loss": 2.6323,
       "step": 12
     },
     {
+      "epoch": 0.026,
+      "grad_norm": 3.0721042156219482,
+      "learning_rate": 0.0009972609476841367,
+      "loss": 2.1718,
       "step": 13
     },
     {
+      "epoch": 0.028,
+      "grad_norm": 1.0009405612945557,
+      "learning_rate": 0.0009951340343707852,
+      "loss": 2.6348,
       "step": 14
     },
     {
+      "epoch": 0.03,
+      "grad_norm": 14.435264587402344,
+      "learning_rate": 0.000992403876506104,
+      "loss": 2.5352,
       "step": 15
     },
     {
+      "epoch": 0.032,
+      "grad_norm": 5.060039520263672,
+      "learning_rate": 0.0009890738003669028,
+      "loss": 2.708,
       "step": 16
     },
     {
+      "epoch": 0.034,
+      "grad_norm": 1.6351608037948608,
+      "learning_rate": 0.0009851478631379982,
+      "loss": 2.3905,
       "step": 17
     },
     {
+      "epoch": 0.036,
+      "grad_norm": 2.9582386016845703,
+      "learning_rate": 0.0009806308479691594,
+      "loss": 2.5147,
       "step": 18
     },
     {
+      "epoch": 0.038,
+      "grad_norm": 1.8205921649932861,
+      "learning_rate": 0.0009755282581475768,
+      "loss": 2.766,
       "step": 19
     },
     {
+      "epoch": 0.04,
+      "grad_norm": 1.1158825159072876,
+      "learning_rate": 0.0009698463103929542,
+      "loss": 2.7895,
       "step": 20
     },
     {
+      "epoch": 0.042,
+      "grad_norm": 1.1689060926437378,
+      "learning_rate": 0.0009635919272833937,
+      "loss": 2.6373,
       "step": 21
     },
     {
+      "epoch": 0.044,
+      "grad_norm": 0.8205438256263733,
+      "learning_rate": 0.0009567727288213005,
+      "loss": 2.4038,
       "step": 22
     },
     {
+      "epoch": 0.046,
+      "grad_norm": 1.2794568538665771,
+      "learning_rate": 0.0009493970231495835,
+      "loss": 2.3676,
       "step": 23
     },
     {
+      "epoch": 0.048,
+      "grad_norm": 0.822256863117218,
+      "learning_rate": 0.0009414737964294635,
+      "loss": 2.327,
       "step": 24
     },
     {
+      "epoch": 0.05,
+      "grad_norm": 1.986864447593689,
+      "learning_rate": 0.0009330127018922195,
+      "loss": 2.4431,
       "step": 25
     },
     {
+      "epoch": 0.052,
+      "grad_norm": 3.7959301471710205,
+      "learning_rate": 0.0009240240480782129,
+      "loss": 2.6657,
       "step": 26
     },
     {
+      "epoch": 0.054,
+      "grad_norm": 2.489267587661743,
+      "learning_rate": 0.0009145187862775209,
+      "loss": 2.5005,
       "step": 27
     },
     {
+      "epoch": 0.056,
+      "grad_norm": 2.1583516597747803,
+      "learning_rate": 0.0009045084971874737,
+      "loss": 2.5402,
       "step": 28
     },
     {
+      "epoch": 0.058,
+      "grad_norm": 4.524465084075928,
+      "learning_rate": 0.0008940053768033609,
+      "loss": 2.2461,
       "step": 29
     },
     {
+      "epoch": 0.06,
+      "grad_norm": 1.3595800399780273,
+      "learning_rate": 0.000883022221559489,
+      "loss": 2.331,
       "step": 30
     },
     {
+      "epoch": 0.062,
+      "grad_norm": 0.9844056367874146,
+      "learning_rate": 0.0008715724127386971,
+      "loss": 2.3781,
       "step": 31
     },
     {
+      "epoch": 0.064,
+      "grad_norm": 1.117148518562317,
+      "learning_rate": 0.0008596699001693256,
+      "loss": 2.4258,
       "step": 32
     },
     {
+      "epoch": 0.066,
+      "grad_norm": 0.7900739312171936,
+      "learning_rate": 0.0008473291852294987,
+      "loss": 2.437,
       "step": 33
     },
     {
+      "epoch": 0.068,
+      "grad_norm": 0.8672456741333008,
+      "learning_rate": 0.0008345653031794292,
+      "loss": 2.8025,
       "step": 34
     },
     {
+      "epoch": 0.07,
+      "grad_norm": 0.816504716873169,
+      "learning_rate": 0.0008213938048432696,
+      "loss": 2.5078,
       "step": 35
     },
     {
+      "epoch": 0.072,
+      "grad_norm": 1.0574641227722168,
+      "learning_rate": 0.0008078307376628291,
+      "loss": 2.6408,
       "step": 36
     },
     {
+      "epoch": 0.074,
+      "grad_norm": 0.6753240823745728,
+      "learning_rate": 0.0007938926261462366,
+      "loss": 2.2858,
       "step": 37
     },
     {
+      "epoch": 0.076,
+      "grad_norm": 0.9166250824928284,
+      "learning_rate": 0.0007795964517353734,
+      "loss": 2.7091,
       "step": 38
     },
     {
+      "epoch": 0.078,
+      "grad_norm": 0.9022424221038818,
+      "learning_rate": 0.0007649596321166025,
+      "loss": 2.6459,
       "step": 39
     },
     {
+      "epoch": 0.08,
+      "grad_norm": 0.7723848223686218,
+      "learning_rate": 0.00075,
+      "loss": 2.4329,
       "step": 40
     },
     {
+      "epoch": 0.082,
+      "grad_norm": 0.8669672012329102,
+      "learning_rate": 0.0007347357813929454,
+      "loss": 2.3661,
       "step": 41
     },
     {
+      "epoch": 0.084,
+      "grad_norm": 0.9701873660087585,
+      "learning_rate": 0.0007191855733945387,
+      "loss": 2.6723,
       "step": 42
     },
     {
+      "epoch": 0.086,
+      "grad_norm": 0.8038893342018127,
+      "learning_rate": 0.0007033683215379002,
+      "loss": 2.7652,
       "step": 43
     },
     {
+      "epoch": 0.088,
+      "grad_norm": 0.6812747716903687,
+      "learning_rate": 0.0006873032967079561,
+      "loss": 2.4019,
       "step": 44
     },
     {
+      "epoch": 0.09,
+      "grad_norm": 0.8909493088722229,
+      "learning_rate": 0.0006710100716628344,
+      "loss": 2.349,
       "step": 45
     },
     {
+      "epoch": 0.092,
+      "grad_norm": 0.9887206554412842,
+      "learning_rate": 0.0006545084971874737,
+      "loss": 2.5577,
       "step": 46
     },
     {
+      "epoch": 0.094,
+      "grad_norm": 0.7749077081680298,
+      "learning_rate": 0.0006378186779084996,
+      "loss": 2.2903,
       "step": 47
     },
     {
+      "epoch": 0.096,
+      "grad_norm": 1.0913500785827637,
+      "learning_rate": 0.0006209609477998338,
+      "loss": 2.3697,
       "step": 48
     },
     {
+      "epoch": 0.098,
+      "grad_norm": 0.894119381904602,
+      "learning_rate": 0.0006039558454088796,
+      "loss": 2.5167,
       "step": 49
     },
     {
+      "epoch": 0.1,
+      "grad_norm": 1.159035325050354,
+      "learning_rate": 0.0005868240888334653,
+      "loss": 2.4637,
       "step": 50
     },
     {
+      "epoch": 0.1,
+      "eval_loss": 2.5838444232940674,
+      "eval_runtime": 4.8707,
+      "eval_samples_per_second": 4.311,
+      "eval_steps_per_second": 4.311,
       "step": 50
     },
     {
+      "epoch": 0.102,
+      "grad_norm": 0.6844251751899719,
+      "learning_rate": 0.0005695865504800327,
+      "loss": 2.4118,
       "step": 51
     },
     {
+      "epoch": 0.104,
+      "grad_norm": 1.1709848642349243,
+      "learning_rate": 0.0005522642316338268,
+      "loss": 2.444,
       "step": 52
     },
     {
+      "epoch": 0.106,
+      "grad_norm": 0.9435467720031738,
+      "learning_rate": 0.0005348782368720626,
+      "loss": 2.5568,
       "step": 53
     },
     {
+      "epoch": 0.108,
+      "grad_norm": 1.0800719261169434,
+      "learning_rate": 0.0005174497483512506,
+      "loss": 2.5766,
       "step": 54
     },
     {
+      "epoch": 0.11,
+      "grad_norm": 1.001356840133667,
+      "learning_rate": 0.0005,
+      "loss": 2.2205,
       "step": 55
     },
     {
+      "epoch": 0.112,
+      "grad_norm": 1.4582829475402832,
+      "learning_rate": 0.0004825502516487497,
+      "loss": 2.7271,
       "step": 56
     },
     {
+      "epoch": 0.114,
+      "grad_norm": 0.8312236666679382,
+      "learning_rate": 0.00046512176312793734,
+      "loss": 2.3204,
       "step": 57
     },
     {
+      "epoch": 0.116,
+      "grad_norm": 1.2127161026000977,
+      "learning_rate": 0.00044773576836617336,
+      "loss": 2.0169,
       "step": 58
     },
     {
+      "epoch": 0.118,
+      "grad_norm": 1.6428215503692627,
+      "learning_rate": 0.0004304134495199674,
+      "loss": 2.4521,
       "step": 59
     },
     {
+      "epoch": 0.12,
+      "grad_norm": 1.7682443857192993,
+      "learning_rate": 0.00041317591116653486,
+      "loss": 2.6753,
       "step": 60
     },
     {
+      "epoch": 0.122,
+      "grad_norm": 1.0919681787490845,
+      "learning_rate": 0.0003960441545911204,
+      "loss": 2.4022,
       "step": 61
     },
     {
+      "epoch": 0.124,
+      "grad_norm": 2.5304136276245117,
+      "learning_rate": 0.0003790390522001662,
+      "loss": 2.4325,
       "step": 62
     },
     {
+      "epoch": 0.126,
+      "grad_norm": 1.1737953424453735,
+      "learning_rate": 0.00036218132209150044,
+      "loss": 2.2653,
       "step": 63
     },
     {
+      "epoch": 0.128,
+      "grad_norm": 0.7943472862243652,
+      "learning_rate": 0.00034549150281252633,
+      "loss": 2.6079,
       "step": 64
     },
     {
+      "epoch": 0.13,
+      "grad_norm": 1.3269349336624146,
+      "learning_rate": 0.0003289899283371657,
+      "loss": 2.3745,
       "step": 65
     },
     {
+      "epoch": 0.132,
+      "grad_norm": 0.8898394107818604,
+      "learning_rate": 0.00031269670329204396,
+      "loss": 2.3862,
       "step": 66
     },
     {
+      "epoch": 0.134,
+      "grad_norm": 0.8309778571128845,
+      "learning_rate": 0.0002966316784621,
+      "loss": 2.5131,
       "step": 67
     },
     {
+      "epoch": 0.136,
+      "grad_norm": 1.2103646993637085,
+      "learning_rate": 0.00028081442660546124,
+      "loss": 2.5138,
       "step": 68
     },
     {
+      "epoch": 0.138,
+      "grad_norm": 0.9281813502311707,
+      "learning_rate": 0.00026526421860705474,
+      "loss": 2.5798,
       "step": 69
     },
     {
+      "epoch": 0.14,
+      "grad_norm": 0.8275775909423828,
+      "learning_rate": 0.0002500000000000001,
+      "loss": 2.5348,
       "step": 70
     },
     {
+      "epoch": 0.142,
+      "grad_norm": 1.5009329319000244,
+      "learning_rate": 0.0002350403678833976,
+      "loss": 2.5156,
       "step": 71
     },
     {
+      "epoch": 0.144,
+      "grad_norm": 1.4796998500823975,
+      "learning_rate": 0.00022040354826462666,
+      "loss": 2.3567,
       "step": 72
     },
     {
+      "epoch": 0.146,
+      "grad_norm": 0.7437081933021545,
+      "learning_rate": 0.00020610737385376348,
+      "loss": 2.4399,
       "step": 73
     },
     {
+      "epoch": 0.148,
+      "grad_norm": 0.7033576369285583,
+      "learning_rate": 0.00019216926233717085,
+      "loss": 2.3149,
       "step": 74
     },
     {
+      "epoch": 0.15,
+      "grad_norm": 0.9651651978492737,
+      "learning_rate": 0.0001786061951567303,
+      "loss": 2.5816,
       "step": 75
     },
     {
+      "epoch": 0.152,
+      "grad_norm": 1.0059478282928467,
+      "learning_rate": 0.00016543469682057105,
+      "loss": 2.6395,
       "step": 76
     },
     {
+      "epoch": 0.154,
+      "grad_norm": 1.6795697212219238,
+      "learning_rate": 0.00015267081477050133,
+      "loss": 2.3551,
       "step": 77
     },
     {
+      "epoch": 0.156,
+      "grad_norm": 0.7962441444396973,
+      "learning_rate": 0.00014033009983067452,
+      "loss": 2.2151,
       "step": 78
     },
     {
+      "epoch": 0.158,
+      "grad_norm": 0.880089282989502,
+      "learning_rate": 0.00012842758726130281,
+      "loss": 2.4376,
       "step": 79
     },
     {
+      "epoch": 0.16,
+      "grad_norm": 1.0629572868347168,
+      "learning_rate": 0.00011697777844051105,
+      "loss": 2.6063,
       "step": 80
     },
     {
+      "epoch": 0.162,
+      "grad_norm": 0.8691402077674866,
+      "learning_rate": 0.00010599462319663906,
+      "loss": 2.4764,
       "step": 81
     },
     {
+      "epoch": 0.164,
+      "grad_norm": 0.8258126378059387,
+      "learning_rate": 9.549150281252633e-05,
+      "loss": 2.3996,
       "step": 82
     },
     {
+      "epoch": 0.166,
+      "grad_norm": 2.253006935119629,
+      "learning_rate": 8.548121372247918e-05,
+      "loss": 2.7106,
       "step": 83
     },
     {
+      "epoch": 0.168,
+      "grad_norm": 0.9351361393928528,
+      "learning_rate": 7.597595192178702e-05,
+      "loss": 2.3613,
       "step": 84
     },
     {
+      "epoch": 0.17,
+      "grad_norm": 0.8624694347381592,
+      "learning_rate": 6.698729810778065e-05,
+      "loss": 2.4328,
       "step": 85
     },
     {
+      "epoch": 0.172,
+      "grad_norm": 0.6949071884155273,
+      "learning_rate": 5.852620357053651e-05,
+      "loss": 2.4157,
       "step": 86
     },
     {
+      "epoch": 0.174,
+      "grad_norm": 0.7830259203910828,
+      "learning_rate": 5.060297685041659e-05,
+      "loss": 2.2797,
       "step": 87
     },
     {
+      "epoch": 0.176,
+      "grad_norm": 1.3727121353149414,
+      "learning_rate": 4.322727117869951e-05,
+      "loss": 2.6155,
       "step": 88
     },
     {
+      "epoch": 0.178,
+      "grad_norm": 0.6731472611427307,
+      "learning_rate": 3.6408072716606344e-05,
+      "loss": 2.4149,
       "step": 89
     },
     {
+      "epoch": 0.18,
+      "grad_norm": 0.846976101398468,
+      "learning_rate": 3.0153689607045842e-05,
+      "loss": 2.3137,
       "step": 90
     },
     {
+      "epoch": 0.182,
+      "grad_norm": 0.9294453859329224,
+      "learning_rate": 2.4471741852423235e-05,
+      "loss": 2.5798,
       "step": 91
     },
     {
+      "epoch": 0.184,
+      "grad_norm": 0.766918957233429,
+      "learning_rate": 1.9369152030840554e-05,
+      "loss": 2.6766,
       "step": 92
     },
     {
+      "epoch": 0.186,
+      "grad_norm": 1.3079534769058228,
+      "learning_rate": 1.4852136862001764e-05,
+      "loss": 2.6047,
       "step": 93
     },
     {
+      "epoch": 0.188,
+      "grad_norm": 1.1351994276046753,
+      "learning_rate": 1.0926199633097156e-05,
+      "loss": 2.6034,
       "step": 94
     },
     {
+      "epoch": 0.19,
+      "grad_norm": 0.8010856509208679,
+      "learning_rate": 7.59612349389599e-06,
+      "loss": 2.2994,
       "step": 95
     },
     {
+      "epoch": 0.192,
+      "grad_norm": 0.9184717535972595,
+      "learning_rate": 4.865965629214819e-06,
+      "loss": 2.5489,
       "step": 96
     },
     {
+      "epoch": 0.194,
+      "grad_norm": 0.9543655514717102,
+      "learning_rate": 2.739052315863355e-06,
+      "loss": 2.5186,
       "step": 97
     },
     {
+      "epoch": 0.196,
+      "grad_norm": 0.9216803908348083,
+      "learning_rate": 1.2179748700879012e-06,
+      "loss": 2.5627,
       "step": 98
     },
     {
+      "epoch": 0.198,
+      "grad_norm": 0.8810911178588867,
+      "learning_rate": 3.0458649045211895e-07,
+      "loss": 2.6527,
       "step": 99
     },
     {
+      "epoch": 0.2,
+      "grad_norm": 0.7426478266716003,
       "learning_rate": 0.0,
+      "loss": 2.1737,
       "step": 100
     },
     {
+      "epoch": 0.2,
+      "eval_loss": 2.527949094772339,
+      "eval_runtime": 4.9855,
+      "eval_samples_per_second": 4.212,
+      "eval_steps_per_second": 4.212,
       "step": 100
     }
   ],
   "max_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
+  "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
       "attributes": {}
     }
   },
+  "total_flos": 1.62874924204032e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fa520e0ab0f5bd3a71845480ebc126400483d3f8f3790806982217002921d912
 size 6776

 version https://git-lfs.github.com/spec/v1
+oid sha256:b8d9124138abd44af04b2c60a935bcab4ff5cdb3ea64e57559b87dc3f7e79065
 size 6776