Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +371 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:86a95ee50d53d666d92f9e1a15dae6f309bfaa9f9a13dff74f5f74e21f0f83c6
 size 222865880

 version https://git-lfs.github.com/spec/v1
+oid sha256:9d5bdf2858907cb5b0c2571e454d78a64e05cf660a6f040b717f3bbcb72ce9eb
 size 222865880

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f9c8a4b1acd5aec135ceeee71b35cbb9658e7b5ee7a4182d45c580fad4e386e2
 size 445914554

 version https://git-lfs.github.com/spec/v1
+oid sha256:d14b8b0eab1204c35c183a2014820ae61879edcb1beb06127cbe0cd03e38c863
 size 445914554

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f1a15d4c80c71e2136fd3e3354e4f09b34ed9470ffd02075e60ec49e45630cbc
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:99c550f2754b8fcc0f720ea8c793843fd0f02a611c3d6eb617352a83a7b5ae17
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c5d2a6c6aafc669cea03b9634666f204de949a3d45ce2f48a07e7e3eaf18c715
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:e70710c409284f74d525f8db5cfaccc22a8afd29416f19c595da9242ec92d936
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.9876666069030762,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.6060606060606061,
   "eval_steps": 25,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -747,6 +747,372 @@
       "eval_samples_per_second": 5.671,
       "eval_steps_per_second": 0.794,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -775,7 +1141,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.893580599296e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.9506127238273621,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 0.9090909090909091,
   "eval_steps": 25,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.671,
       "eval_steps_per_second": 0.794,
       "step": 100
+    },
+    {
+      "epoch": 0.6121212121212121,
+      "grad_norm": 1.087836503982544,
+      "learning_rate": 0.0001599135876488549,
+      "loss": 3.5446,
+      "step": 101
+    },
+    {
+      "epoch": 0.6181818181818182,
+      "grad_norm": 1.0186785459518433,
+      "learning_rate": 0.00015743756320098332,
+      "loss": 4.3509,
+      "step": 102
+    },
+    {
+      "epoch": 0.6242424242424243,
+      "grad_norm": 1.0360673666000366,
+      "learning_rate": 0.0001549595053975962,
+      "loss": 3.8389,
+      "step": 103
+    },
+    {
+      "epoch": 0.6303030303030303,
+      "grad_norm": 1.106460690498352,
+      "learning_rate": 0.00015248009171495378,
+      "loss": 3.6617,
+      "step": 104
+    },
+    {
+      "epoch": 0.6363636363636364,
+      "grad_norm": 1.2066973447799683,
+      "learning_rate": 0.00015,
+      "loss": 3.4257,
+      "step": 105
+    },
+    {
+      "epoch": 0.6424242424242425,
+      "grad_norm": 1.3430566787719727,
+      "learning_rate": 0.00014751990828504622,
+      "loss": 3.6877,
+      "step": 106
+    },
+    {
+      "epoch": 0.6484848484848484,
+      "grad_norm": 1.2599773406982422,
+      "learning_rate": 0.00014504049460240375,
+      "loss": 4.1472,
+      "step": 107
+    },
+    {
+      "epoch": 0.6545454545454545,
+      "grad_norm": 1.4013822078704834,
+      "learning_rate": 0.00014256243679901663,
+      "loss": 3.7716,
+      "step": 108
+    },
+    {
+      "epoch": 0.6606060606060606,
+      "grad_norm": 1.6531068086624146,
+      "learning_rate": 0.00014008641235114508,
+      "loss": 3.8997,
+      "step": 109
+    },
+    {
+      "epoch": 0.6666666666666666,
+      "grad_norm": 1.2556439638137817,
+      "learning_rate": 0.00013761309817915014,
+      "loss": 3.4263,
+      "step": 110
+    },
+    {
+      "epoch": 0.6727272727272727,
+      "grad_norm": 1.1586471796035767,
+      "learning_rate": 0.00013514317046243058,
+      "loss": 3.9411,
+      "step": 111
+    },
+    {
+      "epoch": 0.6787878787878788,
+      "grad_norm": 1.1945208311080933,
+      "learning_rate": 0.00013267730445456208,
+      "loss": 3.8398,
+      "step": 112
+    },
+    {
+      "epoch": 0.6848484848484848,
+      "grad_norm": 1.3857640027999878,
+      "learning_rate": 0.00013021617429868963,
+      "loss": 3.4325,
+      "step": 113
+    },
+    {
+      "epoch": 0.6909090909090909,
+      "grad_norm": 1.3398420810699463,
+      "learning_rate": 0.00012776045284322368,
+      "loss": 3.75,
+      "step": 114
+    },
+    {
+      "epoch": 0.696969696969697,
+      "grad_norm": 1.5814698934555054,
+      "learning_rate": 0.00012531081145788987,
+      "loss": 3.8676,
+      "step": 115
+    },
+    {
+      "epoch": 0.703030303030303,
+      "grad_norm": 1.3087879419326782,
+      "learning_rate": 0.00012286791985018355,
+      "loss": 3.8505,
+      "step": 116
+    },
+    {
+      "epoch": 0.7090909090909091,
+      "grad_norm": 1.168992280960083,
+      "learning_rate": 0.00012043244588227796,
+      "loss": 3.4915,
+      "step": 117
+    },
+    {
+      "epoch": 0.7151515151515152,
+      "grad_norm": 1.402132511138916,
+      "learning_rate": 0.00011800505538843798,
+      "loss": 4.2502,
+      "step": 118
+    },
+    {
+      "epoch": 0.7212121212121212,
+      "grad_norm": 1.338773250579834,
+      "learning_rate": 0.00011558641199298727,
+      "loss": 4.3477,
+      "step": 119
+    },
+    {
+      "epoch": 0.7272727272727273,
+      "grad_norm": 1.3770555257797241,
+      "learning_rate": 0.00011317717692888012,
+      "loss": 4.0962,
+      "step": 120
+    },
+    {
+      "epoch": 0.7333333333333333,
+      "grad_norm": 1.5494691133499146,
+      "learning_rate": 0.00011077800885692702,
+      "loss": 4.1531,
+      "step": 121
+    },
+    {
+      "epoch": 0.7393939393939394,
+      "grad_norm": 1.306699275970459,
+      "learning_rate": 0.00010838956368572334,
+      "loss": 3.9953,
+      "step": 122
+    },
+    {
+      "epoch": 0.7454545454545455,
+      "grad_norm": 6.255343914031982,
+      "learning_rate": 0.0001060124943923303,
+      "loss": 5.1458,
+      "step": 123
+    },
+    {
+      "epoch": 0.7515151515151515,
+      "grad_norm": 0.7911396026611328,
+      "learning_rate": 0.0001036474508437579,
+      "loss": 2.3816,
+      "step": 124
+    },
+    {
+      "epoch": 0.7575757575757576,
+      "grad_norm": 0.829796314239502,
+      "learning_rate": 0.00010129507961929748,
+      "loss": 2.5348,
+      "step": 125
+    },
+    {
+      "epoch": 0.7575757575757576,
+      "eval_loss": 0.9475884437561035,
+      "eval_runtime": 8.8169,
+      "eval_samples_per_second": 5.671,
+      "eval_steps_per_second": 0.794,
+      "step": 125
+    },
+    {
+      "epoch": 0.7636363636363637,
+      "grad_norm": 0.708293080329895,
+      "learning_rate": 9.895602383375353e-05,
+      "loss": 2.2235,
+      "step": 126
+    },
+    {
+      "epoch": 0.7696969696969697,
+      "grad_norm": 0.834475576877594,
+      "learning_rate": 9.663092296162251e-05,
+      "loss": 2.9316,
+      "step": 127
+    },
+    {
+      "epoch": 0.7757575757575758,
+      "grad_norm": 0.5371659994125366,
+      "learning_rate": 9.432041266226686e-05,
+      "loss": 2.9679,
+      "step": 128
+    },
+    {
+      "epoch": 0.7818181818181819,
+      "grad_norm": 0.6697002053260803,
+      "learning_rate": 9.202512460613219e-05,
+      "loss": 3.8351,
+      "step": 129
+    },
+    {
+      "epoch": 0.7878787878787878,
+      "grad_norm": 0.6024027466773987,
+      "learning_rate": 8.97456863020546e-05,
+      "loss": 4.0773,
+      "step": 130
+    },
+    {
+      "epoch": 0.793939393939394,
+      "grad_norm": 0.5722142457962036,
+      "learning_rate": 8.748272092570646e-05,
+      "loss": 4.4074,
+      "step": 131
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.5958192944526672,
+      "learning_rate": 8.523684714922608e-05,
+      "loss": 4.657,
+      "step": 132
+    },
+    {
+      "epoch": 0.806060606060606,
+      "grad_norm": 0.5286346077919006,
+      "learning_rate": 8.300867897207903e-05,
+      "loss": 3.7848,
+      "step": 133
+    },
+    {
+      "epoch": 0.8121212121212121,
+      "grad_norm": 0.5522734522819519,
+      "learning_rate": 8.079882555319684e-05,
+      "loss": 4.7628,
+      "step": 134
+    },
+    {
+      "epoch": 0.8181818181818182,
+      "grad_norm": 0.5736743807792664,
+      "learning_rate": 7.860789104443896e-05,
+      "loss": 4.6601,
+      "step": 135
+    },
+    {
+      "epoch": 0.8242424242424242,
+      "grad_norm": 0.4430980384349823,
+      "learning_rate": 7.643647442542382e-05,
+      "loss": 4.655,
+      "step": 136
+    },
+    {
+      "epoch": 0.8303030303030303,
+      "grad_norm": 0.5080361366271973,
+      "learning_rate": 7.428516933977347e-05,
+      "loss": 4.5731,
+      "step": 137
+    },
+    {
+      "epoch": 0.8363636363636363,
+      "grad_norm": 0.7352221608161926,
+      "learning_rate": 7.215456393281776e-05,
+      "loss": 4.3219,
+      "step": 138
+    },
+    {
+      "epoch": 0.8424242424242424,
+      "grad_norm": 1.1054418087005615,
+      "learning_rate": 7.004524069080096e-05,
+      "loss": 3.4271,
+      "step": 139
+    },
+    {
+      "epoch": 0.8484848484848485,
+      "grad_norm": 1.1359199285507202,
+      "learning_rate": 6.795777628163599e-05,
+      "loss": 3.4999,
+      "step": 140
+    },
+    {
+      "epoch": 0.8545454545454545,
+      "grad_norm": 1.0794568061828613,
+      "learning_rate": 6.58927413972491e-05,
+      "loss": 3.5732,
+      "step": 141
+    },
+    {
+      "epoch": 0.8606060606060606,
+      "grad_norm": 1.0967761278152466,
+      "learning_rate": 6.385070059755846e-05,
+      "loss": 3.3325,
+      "step": 142
+    },
+    {
+      "epoch": 0.8666666666666667,
+      "grad_norm": 1.059601902961731,
+      "learning_rate": 6.183221215612904e-05,
+      "loss": 3.3545,
+      "step": 143
+    },
+    {
+      "epoch": 0.8727272727272727,
+      "grad_norm": 1.0655397176742554,
+      "learning_rate": 5.983782790754623e-05,
+      "loss": 3.8531,
+      "step": 144
+    },
+    {
+      "epoch": 0.8787878787878788,
+      "grad_norm": 1.1529344320297241,
+      "learning_rate": 5.786809309654982e-05,
+      "loss": 3.737,
+      "step": 145
+    },
+    {
+      "epoch": 0.8848484848484849,
+      "grad_norm": 1.377535343170166,
+      "learning_rate": 5.592354622896944e-05,
+      "loss": 4.1927,
+      "step": 146
+    },
+    {
+      "epoch": 0.8909090909090909,
+      "grad_norm": 1.2239060401916504,
+      "learning_rate": 5.40047189245025e-05,
+      "loss": 3.6735,
+      "step": 147
+    },
+    {
+      "epoch": 0.896969696969697,
+      "grad_norm": 1.1639585494995117,
+      "learning_rate": 5.211213577137469e-05,
+      "loss": 3.3595,
+      "step": 148
+    },
+    {
+      "epoch": 0.9030303030303031,
+      "grad_norm": 1.2083743810653687,
+      "learning_rate": 5.024631418292274e-05,
+      "loss": 3.6973,
+      "step": 149
+    },
+    {
+      "epoch": 0.9090909090909091,
+      "grad_norm": 1.2493572235107422,
+      "learning_rate": 4.840776425613886e-05,
+      "loss": 3.6517,
+      "step": 150
+    },
+    {
+      "epoch": 0.9090909090909091,
+      "eval_loss": 0.9506127238273621,
+      "eval_runtime": 8.8109,
+      "eval_samples_per_second": 5.675,
+      "eval_steps_per_second": 0.794,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 4.340370898944e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null