Training in progress, step 100, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +371 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:edbe32a76c5eeb2f8ad91d32a12ce98652fe7a185a61b4fdd0cee38e13206aa7
 size 13587864

 version https://git-lfs.github.com/spec/v1
+oid sha256:4b271712254e01f3a756f80c9d91649a68f589f8083c68e28efa6bf81649af5f
 size 13587864

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cd5421d26883dfe758f02f7809e34d4af60d4cbcb6c1a9a39dd2122798acf5f5
 size 27273018

 version https://git-lfs.github.com/spec/v1
+oid sha256:4d70e0c506c43b6dd7bfc52aa23ed7049ddf97443e93d45fefb733a105c2b0c8
 size 27273018

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d41027b1107f70688b49e11ac3acba1ad49990a97dde70368c847788acbafa22
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:c4fea74c51f4405caaaae971a4ccfc94a699f62e8257c2d08259a26bff3fc4eb
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:da3caf01e5476197ff734fa4d21d7a64cc29034ee82407e7813c64a66980430e
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:8287c8e13a42f467f666595aef17b0751f60576eb55d01ba59d28223687d2973
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7516e1415c24b35958baff6e9c4d3edca58fd3a76104c481f6630885714cc2a7
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:b840cecfb7dec70c76a70327d64f5f23b2d66b0b6a1f665ecb2134abed6ccdbb
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6ee98dbbdbada8bae41a60d283e699a374fc4ccfdefd92d90ca37436383d0d30
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:841574a58757d90b95116e1fd5d2951f131533acbad72a77bcd1a82810ab44b9
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c02a460177c98dec6f7d22d0a863ffd20f73da06cb1991cfe95edd9fb85df0db
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:1b421b30093a741efda571bdeb6770d480a0573a9ee33dd469ec29cc944e02e2
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 2.2425832748413086,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.6517311608961304,
   "eval_steps": 25,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -381,6 +381,372 @@
       "eval_samples_per_second": 178.69,
       "eval_steps_per_second": 46.46,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -409,7 +775,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.22140137734144e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.9786142110824585,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 1.3034623217922607,
   "eval_steps": 25,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 178.69,
       "eval_steps_per_second": 46.46,
       "step": 50
+    },
+    {
+      "epoch": 0.664765784114053,
+      "grad_norm": 1.1472358703613281,
+      "learning_rate": 0.00023970785914785144,
+      "loss": 2.2791,
+      "step": 51
+    },
+    {
+      "epoch": 0.6778004073319756,
+      "grad_norm": 1.3499984741210938,
+      "learning_rate": 0.00023733661732216452,
+      "loss": 2.3292,
+      "step": 52
+    },
+    {
+      "epoch": 0.6908350305498981,
+      "grad_norm": 1.2178796529769897,
+      "learning_rate": 0.00023493364626537257,
+      "loss": 2.2938,
+      "step": 53
+    },
+    {
+      "epoch": 0.7038696537678207,
+      "grad_norm": 0.9463868737220764,
+      "learning_rate": 0.00023249999999999999,
+      "loss": 2.2173,
+      "step": 54
+    },
+    {
+      "epoch": 0.7169042769857433,
+      "grad_norm": 0.5750055909156799,
+      "learning_rate": 0.00023003674600373153,
+      "loss": 2.2036,
+      "step": 55
+    },
+    {
+      "epoch": 0.729938900203666,
+      "grad_norm": 0.3371862769126892,
+      "learning_rate": 0.00022754496474118133,
+      "loss": 2.167,
+      "step": 56
+    },
+    {
+      "epoch": 0.7429735234215886,
+      "grad_norm": 0.6258431673049927,
+      "learning_rate": 0.00022502574918996517,
+      "loss": 2.2211,
+      "step": 57
+    },
+    {
+      "epoch": 0.7560081466395112,
+      "grad_norm": 0.7280526161193848,
+      "learning_rate": 0.00022248020436128478,
+      "loss": 2.2122,
+      "step": 58
+    },
+    {
+      "epoch": 0.7690427698574338,
+      "grad_norm": 0.8275133371353149,
+      "learning_rate": 0.00021990944681523302,
+      "loss": 2.2137,
+      "step": 59
+    },
+    {
+      "epoch": 0.7820773930753564,
+      "grad_norm": 0.8840050101280212,
+      "learning_rate": 0.0002173146041710339,
+      "loss": 2.2311,
+      "step": 60
+    },
+    {
+      "epoch": 0.795112016293279,
+      "grad_norm": 0.957916796207428,
+      "learning_rate": 0.00021469681461243153,
+      "loss": 2.2478,
+      "step": 61
+    },
+    {
+      "epoch": 0.8081466395112016,
+      "grad_norm": 1.0393691062927246,
+      "learning_rate": 0.00021205722638844505,
+      "loss": 2.2579,
+      "step": 62
+    },
+    {
+      "epoch": 0.8211812627291243,
+      "grad_norm": 0.3389835059642792,
+      "learning_rate": 0.00020939699730970873,
+      "loss": 2.1799,
+      "step": 63
+    },
+    {
+      "epoch": 0.8342158859470469,
+      "grad_norm": 0.5756048560142517,
+      "learning_rate": 0.00020671729424061788,
+      "loss": 2.1684,
+      "step": 64
+    },
+    {
+      "epoch": 0.8472505091649695,
+      "grad_norm": 0.7830222249031067,
+      "learning_rate": 0.00020401929258750365,
+      "loss": 2.1438,
+      "step": 65
+    },
+    {
+      "epoch": 0.8602851323828921,
+      "grad_norm": 0.8117411732673645,
+      "learning_rate": 0.00020130417578306082,
+      "loss": 2.1536,
+      "step": 66
+    },
+    {
+      "epoch": 0.8733197556008147,
+      "grad_norm": 0.7848119735717773,
+      "learning_rate": 0.0001985731347672554,
+      "loss": 2.129,
+      "step": 67
+    },
+    {
+      "epoch": 0.8863543788187372,
+      "grad_norm": 0.6703603863716125,
+      "learning_rate": 0.00019582736746493853,
+      "loss": 2.152,
+      "step": 68
+    },
+    {
+      "epoch": 0.8993890020366598,
+      "grad_norm": 0.4845719635486603,
+      "learning_rate": 0.00019306807826039747,
+      "loss": 2.1237,
+      "step": 69
+    },
+    {
+      "epoch": 0.9124236252545825,
+      "grad_norm": 0.3355918228626251,
+      "learning_rate": 0.00019029647746907283,
+      "loss": 2.0711,
+      "step": 70
+    },
+    {
+      "epoch": 0.9254582484725051,
+      "grad_norm": 0.33707523345947266,
+      "learning_rate": 0.00018751378080667378,
+      "loss": 2.1033,
+      "step": 71
+    },
+    {
+      "epoch": 0.9384928716904277,
+      "grad_norm": 0.5474686622619629,
+      "learning_rate": 0.00018472120885592555,
+      "loss": 2.0707,
+      "step": 72
+    },
+    {
+      "epoch": 0.9515274949083503,
+      "grad_norm": 0.71000075340271,
+      "learning_rate": 0.00018191998653118108,
+      "loss": 2.1169,
+      "step": 73
+    },
+    {
+      "epoch": 0.9645621181262729,
+      "grad_norm": 0.8560431003570557,
+      "learning_rate": 0.0001791113425411332,
+      "loss": 2.176,
+      "step": 74
+    },
+    {
+      "epoch": 0.9775967413441955,
+      "grad_norm": 1.2276349067687988,
+      "learning_rate": 0.0001762965088498626,
+      "loss": 2.2966,
+      "step": 75
+    },
+    {
+      "epoch": 0.9775967413441955,
+      "eval_loss": 2.044175148010254,
+      "eval_runtime": 0.2806,
+      "eval_samples_per_second": 178.197,
+      "eval_steps_per_second": 46.331,
+      "step": 75
+    },
+    {
+      "epoch": 0.9906313645621181,
+      "grad_norm": 0.28324252367019653,
+      "learning_rate": 0.0001734767201364573,
+      "loss": 2.0594,
+      "step": 76
+    },
+    {
+      "epoch": 1.0036659877800407,
+      "grad_norm": 0.4252139627933502,
+      "learning_rate": 0.00017065321325344194,
+      "loss": 2.9023,
+      "step": 77
+    },
+    {
+      "epoch": 1.0167006109979633,
+      "grad_norm": 0.532595157623291,
+      "learning_rate": 0.00016782722668425316,
+      "loss": 1.9476,
+      "step": 78
+    },
+    {
+      "epoch": 1.0297352342158859,
+      "grad_norm": 0.696269690990448,
+      "learning_rate": 0.000165,
+      "loss": 2.089,
+      "step": 79
+    },
+    {
+      "epoch": 1.0427698574338085,
+      "grad_norm": 0.6571292281150818,
+      "learning_rate": 0.00016217277331574678,
+      "loss": 2.0514,
+      "step": 80
+    },
+    {
+      "epoch": 1.055804480651731,
+      "grad_norm": 0.5735260248184204,
+      "learning_rate": 0.00015934678674655805,
+      "loss": 2.0645,
+      "step": 81
+    },
+    {
+      "epoch": 1.0688391038696539,
+      "grad_norm": 0.418550968170166,
+      "learning_rate": 0.0001565232798635427,
+      "loss": 2.0639,
+      "step": 82
+    },
+    {
+      "epoch": 1.0818737270875765,
+      "grad_norm": 0.32165512442588806,
+      "learning_rate": 0.00015370349115013742,
+      "loss": 2.0412,
+      "step": 83
+    },
+    {
+      "epoch": 1.094908350305499,
+      "grad_norm": 0.3411344289779663,
+      "learning_rate": 0.0001508886574588668,
+      "loss": 2.0738,
+      "step": 84
+    },
+    {
+      "epoch": 1.1079429735234216,
+      "grad_norm": 0.4526989459991455,
+      "learning_rate": 0.0001480800134688189,
+      "loss": 2.0482,
+      "step": 85
+    },
+    {
+      "epoch": 1.1209775967413442,
+      "grad_norm": 0.5264050960540771,
+      "learning_rate": 0.00014527879114407445,
+      "loss": 2.0155,
+      "step": 86
+    },
+    {
+      "epoch": 1.1340122199592668,
+      "grad_norm": 0.6333541870117188,
+      "learning_rate": 0.0001424862191933262,
+      "loss": 2.029,
+      "step": 87
+    },
+    {
+      "epoch": 1.1470468431771894,
+      "grad_norm": 0.6475998759269714,
+      "learning_rate": 0.00013970352253092714,
+      "loss": 2.0732,
+      "step": 88
+    },
+    {
+      "epoch": 1.160081466395112,
+      "grad_norm": 0.5682183504104614,
+      "learning_rate": 0.00013693192173960253,
+      "loss": 1.6717,
+      "step": 89
+    },
+    {
+      "epoch": 1.1731160896130346,
+      "grad_norm": 0.48593777418136597,
+      "learning_rate": 0.00013417263253506147,
+      "loss": 2.5498,
+      "step": 90
+    },
+    {
+      "epoch": 1.1861507128309572,
+      "grad_norm": 0.517917811870575,
+      "learning_rate": 0.00013142686523274463,
+      "loss": 2.0097,
+      "step": 91
+    },
+    {
+      "epoch": 1.1991853360488798,
+      "grad_norm": 0.5828862190246582,
+      "learning_rate": 0.00012869582421693912,
+      "loss": 1.9987,
+      "step": 92
+    },
+    {
+      "epoch": 1.2122199592668024,
+      "grad_norm": 0.5273678302764893,
+      "learning_rate": 0.00012598070741249632,
+      "loss": 2.0205,
+      "step": 93
+    },
+    {
+      "epoch": 1.225254582484725,
+      "grad_norm": 0.49020346999168396,
+      "learning_rate": 0.00012328270575938212,
+      "loss": 1.9981,
+      "step": 94
+    },
+    {
+      "epoch": 1.2382892057026478,
+      "grad_norm": 0.35303086042404175,
+      "learning_rate": 0.00012060300269029128,
+      "loss": 1.9699,
+      "step": 95
+    },
+    {
+      "epoch": 1.2513238289205701,
+      "grad_norm": 0.27531367540359497,
+      "learning_rate": 0.00011794277361155495,
+      "loss": 2.0035,
+      "step": 96
+    },
+    {
+      "epoch": 1.264358452138493,
+      "grad_norm": 0.31903597712516785,
+      "learning_rate": 0.00011530318538756846,
+      "loss": 1.9783,
+      "step": 97
+    },
+    {
+      "epoch": 1.2773930753564156,
+      "grad_norm": 0.43081673979759216,
+      "learning_rate": 0.0001126853958289661,
+      "loss": 2.0053,
+      "step": 98
+    },
+    {
+      "epoch": 1.2904276985743381,
+      "grad_norm": 0.5114902257919312,
+      "learning_rate": 0.00011009055318476698,
+      "loss": 2.0032,
+      "step": 99
+    },
+    {
+      "epoch": 1.3034623217922607,
+      "grad_norm": 0.6454872488975525,
+      "learning_rate": 0.00010751979563871518,
+      "loss": 2.0436,
+      "step": 100
+    },
+    {
+      "epoch": 1.3034623217922607,
+      "eval_loss": 1.9786142110824585,
+      "eval_runtime": 0.2787,
+      "eval_samples_per_second": 179.386,
+      "eval_steps_per_second": 46.64,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 4.44280275468288e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null