Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:63222f9575e4a76657789df5414997dce9a2f3795b919aeb972562a9f6606a33
 size 121155320

 version https://git-lfs.github.com/spec/v1
+oid sha256:bbdfdd14303a3493ed1c88ce4845ca6ae3d3f619f5720ecbe4b52eac39f2c284
 size 121155320

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:88b3161612fce1048a25930d254926d11834ffea594700b1887b17a94c0056ba
 size 61896852

 version https://git-lfs.github.com/spec/v1
+oid sha256:fd8908f21e6d9971e8bea1c14924f7220b74c01ef0d1176236409386695bf173
 size 61896852

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4e9902bdff7b3e836da8f0c1f2001a2bc19643ce24384c7b211e1ca3e8ac9fff
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:da6a669540b834525114db676bae55c5b4ac96066b7b06b95d7497c0959fd400
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0ddb9588ea654e56e83effcf81a2bc03480954babcf6415cb44d41d3bfb8039f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d8ce05761f46e7cf72fb17a02e3a0ca15c9d25ce3babf590eeb40568923b8bac
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 3.7914316654205322,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.1037344398340249,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 61.184,
       "eval_steps_per_second": 15.296,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6658776367104000.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 3.443917751312256,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 0.15560165975103735,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 61.184,
       "eval_steps_per_second": 15.296,
       "step": 100
+    },
+    {
+      "epoch": 0.10477178423236515,
+      "grad_norm": 8.166366577148438,
+      "learning_rate": 5.330452921628497e-05,
+      "loss": 3.8268,
+      "step": 101
+    },
+    {
+      "epoch": 0.10580912863070539,
+      "grad_norm": 6.857130527496338,
+      "learning_rate": 5.247918773366112e-05,
+      "loss": 3.7574,
+      "step": 102
+    },
+    {
+      "epoch": 0.10684647302904564,
+      "grad_norm": 6.688436985015869,
+      "learning_rate": 5.165316846586541e-05,
+      "loss": 3.7533,
+      "step": 103
+    },
+    {
+      "epoch": 0.1078838174273859,
+      "grad_norm": 6.446659564971924,
+      "learning_rate": 5.0826697238317935e-05,
+      "loss": 3.9865,
+      "step": 104
+    },
+    {
+      "epoch": 0.10892116182572614,
+      "grad_norm": 5.080942153930664,
+      "learning_rate": 5e-05,
+      "loss": 3.4969,
+      "step": 105
+    },
+    {
+      "epoch": 0.10995850622406639,
+      "grad_norm": 4.44970703125,
+      "learning_rate": 4.917330276168208e-05,
+      "loss": 3.5119,
+      "step": 106
+    },
+    {
+      "epoch": 0.11099585062240663,
+      "grad_norm": 3.998990058898926,
+      "learning_rate": 4.834683153413459e-05,
+      "loss": 3.6256,
+      "step": 107
+    },
+    {
+      "epoch": 0.11203319502074689,
+      "grad_norm": 3.2981390953063965,
+      "learning_rate": 4.7520812266338885e-05,
+      "loss": 3.4402,
+      "step": 108
+    },
+    {
+      "epoch": 0.11307053941908714,
+      "grad_norm": 3.044083833694458,
+      "learning_rate": 4.669547078371504e-05,
+      "loss": 3.5525,
+      "step": 109
+    },
+    {
+      "epoch": 0.11410788381742738,
+      "grad_norm": 2.891031503677368,
+      "learning_rate": 4.5871032726383386e-05,
+      "loss": 3.1974,
+      "step": 110
+    },
+    {
+      "epoch": 0.11514522821576763,
+      "grad_norm": 2.743988037109375,
+      "learning_rate": 4.504772348747687e-05,
+      "loss": 3.2082,
+      "step": 111
+    },
+    {
+      "epoch": 0.11618257261410789,
+      "grad_norm": 2.7417633533477783,
+      "learning_rate": 4.4225768151520694e-05,
+      "loss": 3.0046,
+      "step": 112
+    },
+    {
+      "epoch": 0.11721991701244813,
+      "grad_norm": 2.6141929626464844,
+      "learning_rate": 4.3405391432896555e-05,
+      "loss": 3.1606,
+      "step": 113
+    },
+    {
+      "epoch": 0.11825726141078838,
+      "grad_norm": 2.5122275352478027,
+      "learning_rate": 4.2586817614407895e-05,
+      "loss": 3.4908,
+      "step": 114
+    },
+    {
+      "epoch": 0.11929460580912864,
+      "grad_norm": 2.8065576553344727,
+      "learning_rate": 4.17702704859633e-05,
+      "loss": 3.5437,
+      "step": 115
+    },
+    {
+      "epoch": 0.12033195020746888,
+      "grad_norm": 2.443136692047119,
+      "learning_rate": 4.095597328339452e-05,
+      "loss": 3.4685,
+      "step": 116
+    },
+    {
+      "epoch": 0.12136929460580913,
+      "grad_norm": 2.5843472480773926,
+      "learning_rate": 4.0144148627425993e-05,
+      "loss": 3.319,
+      "step": 117
+    },
+    {
+      "epoch": 0.12240663900414937,
+      "grad_norm": 2.6064820289611816,
+      "learning_rate": 3.933501846281267e-05,
+      "loss": 3.3902,
+      "step": 118
+    },
+    {
+      "epoch": 0.12344398340248963,
+      "grad_norm": 2.74259352684021,
+      "learning_rate": 3.852880399766243e-05,
+      "loss": 3.81,
+      "step": 119
+    },
+    {
+      "epoch": 0.12448132780082988,
+      "grad_norm": 2.7329461574554443,
+      "learning_rate": 3.772572564296005e-05,
+      "loss": 3.4747,
+      "step": 120
+    },
+    {
+      "epoch": 0.12551867219917012,
+      "grad_norm": 2.7343878746032715,
+      "learning_rate": 3.6926002952309016e-05,
+      "loss": 3.5092,
+      "step": 121
+    },
+    {
+      "epoch": 0.12655601659751037,
+      "grad_norm": 2.749302625656128,
+      "learning_rate": 3.612985456190778e-05,
+      "loss": 3.8106,
+      "step": 122
+    },
+    {
+      "epoch": 0.1275933609958506,
+      "grad_norm": 3.006464719772339,
+      "learning_rate": 3.533749813077677e-05,
+      "loss": 3.6465,
+      "step": 123
+    },
+    {
+      "epoch": 0.12863070539419086,
+      "grad_norm": 2.8483219146728516,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 3.3153,
+      "step": 124
+    },
+    {
+      "epoch": 0.12966804979253113,
+      "grad_norm": 3.621854782104492,
+      "learning_rate": 3.3765026539765834e-05,
+      "loss": 3.0212,
+      "step": 125
+    },
+    {
+      "epoch": 0.13070539419087138,
+      "grad_norm": 2.9148917198181152,
+      "learning_rate": 3.298534127791785e-05,
+      "loss": 3.2572,
+      "step": 126
+    },
+    {
+      "epoch": 0.13174273858921162,
+      "grad_norm": 2.9206199645996094,
+      "learning_rate": 3.221030765387417e-05,
+      "loss": 3.4323,
+      "step": 127
+    },
+    {
+      "epoch": 0.13278008298755187,
+      "grad_norm": 3.293531656265259,
+      "learning_rate": 3.144013755408895e-05,
+      "loss": 3.4568,
+      "step": 128
+    },
+    {
+      "epoch": 0.1338174273858921,
+      "grad_norm": 2.9713733196258545,
+      "learning_rate": 3.0675041535377405e-05,
+      "loss": 3.4724,
+      "step": 129
+    },
+    {
+      "epoch": 0.13485477178423236,
+      "grad_norm": 3.215953826904297,
+      "learning_rate": 2.991522876735154e-05,
+      "loss": 3.6332,
+      "step": 130
+    },
+    {
+      "epoch": 0.1358921161825726,
+      "grad_norm": 3.0868947505950928,
+      "learning_rate": 2.916090697523549e-05,
+      "loss": 3.4988,
+      "step": 131
+    },
+    {
+      "epoch": 0.13692946058091288,
+      "grad_norm": 3.1920242309570312,
+      "learning_rate": 2.8412282383075363e-05,
+      "loss": 3.3852,
+      "step": 132
+    },
+    {
+      "epoch": 0.13796680497925312,
+      "grad_norm": 3.4271225929260254,
+      "learning_rate": 2.766955965735968e-05,
+      "loss": 3.8709,
+      "step": 133
+    },
+    {
+      "epoch": 0.13900414937759337,
+      "grad_norm": 3.4510085582733154,
+      "learning_rate": 2.693294185106562e-05,
+      "loss": 3.4216,
+      "step": 134
+    },
+    {
+      "epoch": 0.1400414937759336,
+      "grad_norm": 3.2544167041778564,
+      "learning_rate": 2.6202630348146324e-05,
+      "loss": 3.5809,
+      "step": 135
+    },
+    {
+      "epoch": 0.14107883817427386,
+      "grad_norm": 3.22052001953125,
+      "learning_rate": 2.547882480847461e-05,
+      "loss": 3.2472,
+      "step": 136
+    },
+    {
+      "epoch": 0.1421161825726141,
+      "grad_norm": 3.308317184448242,
+      "learning_rate": 2.476172311325783e-05,
+      "loss": 3.5626,
+      "step": 137
+    },
+    {
+      "epoch": 0.14315352697095435,
+      "grad_norm": 3.3772473335266113,
+      "learning_rate": 2.405152131093926e-05,
+      "loss": 3.2607,
+      "step": 138
+    },
+    {
+      "epoch": 0.1441908713692946,
+      "grad_norm": 3.1532044410705566,
+      "learning_rate": 2.3348413563600325e-05,
+      "loss": 3.5309,
+      "step": 139
+    },
+    {
+      "epoch": 0.14522821576763487,
+      "grad_norm": 3.440068006515503,
+      "learning_rate": 2.2652592093878666e-05,
+      "loss": 3.5348,
+      "step": 140
+    },
+    {
+      "epoch": 0.1462655601659751,
+      "grad_norm": 3.2612829208374023,
+      "learning_rate": 2.196424713241637e-05,
+      "loss": 3.5397,
+      "step": 141
+    },
+    {
+      "epoch": 0.14730290456431536,
+      "grad_norm": 3.7282817363739014,
+      "learning_rate": 2.128356686585282e-05,
+      "loss": 3.7273,
+      "step": 142
+    },
+    {
+      "epoch": 0.1483402489626556,
+      "grad_norm": 3.4528229236602783,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 3.3793,
+      "step": 143
+    },
+    {
+      "epoch": 0.14937759336099585,
+      "grad_norm": 3.423583507537842,
+      "learning_rate": 1.9945942635848748e-05,
+      "loss": 3.2933,
+      "step": 144
+    },
+    {
+      "epoch": 0.1504149377593361,
+      "grad_norm": 3.6867237091064453,
+      "learning_rate": 1.928936436551661e-05,
+      "loss": 3.8415,
+      "step": 145
+    },
+    {
+      "epoch": 0.15145228215767634,
+      "grad_norm": 4.240562438964844,
+      "learning_rate": 1.8641182076323148e-05,
+      "loss": 3.9054,
+      "step": 146
+    },
+    {
+      "epoch": 0.1524896265560166,
+      "grad_norm": 4.737523078918457,
+      "learning_rate": 1.800157297483417e-05,
+      "loss": 3.7616,
+      "step": 147
+    },
+    {
+      "epoch": 0.15352697095435686,
+      "grad_norm": 4.262228965759277,
+      "learning_rate": 1.7370711923791567e-05,
+      "loss": 3.6418,
+      "step": 148
+    },
+    {
+      "epoch": 0.1545643153526971,
+      "grad_norm": 4.715056896209717,
+      "learning_rate": 1.6748771394307585e-05,
+      "loss": 3.796,
+      "step": 149
+    },
+    {
+      "epoch": 0.15560165975103735,
+      "grad_norm": 6.44474983215332,
+      "learning_rate": 1.6135921418712956e-05,
+      "loss": 4.0393,
+      "step": 150
+    },
+    {
+      "epoch": 0.15560165975103735,
+      "eval_loss": 3.443917751312256,
+      "eval_runtime": 26.554,
+      "eval_samples_per_second": 61.158,
+      "eval_steps_per_second": 15.29,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 9988164550656000.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null