Training in progress, step 150, checkpoint

Browse files

Files changed (12) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e150424fba149f9feba1858803ff6ab46942ab8fec86117acbd07b4f2993fff9
 size 138995824

 version https://git-lfs.github.com/spec/v1
+oid sha256:8638b7954d9c1f2fe60bede3d7a4b50cc014b85a1815d78ac5c061265f65e0f8
 size 138995824

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d41e6f10e41d467f7a5505ba4ba5e0ad553f159b80a89b67ce9b7c1fcaa23971
 size 71077780

 version https://git-lfs.github.com/spec/v1
+oid sha256:63366d7cc954d47a7b2733e2d651cf73d84dc42c4bbefb3066ea963f0db6574b
 size 71077780

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:06dbf6779baa36433547d8aeeccc861b12f94ec17263114ec4a977eca85fd49c
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:349dea0d239ae1677aa66454bd0fd4ef91728525407d36492e8250374fc2069e
 size 15984

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:33d7684dd513b6e5c166a4e399664b67fedcae8e60c041083572b7acbe501900
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:cba439ba426e7e73db788416d0cc9aeb77950dc972434443006442f97f7cd8f7
 size 15984

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5d78c3829948a73746d0113a89daa425bc631ecef6fa1e6462047f5115bccf26
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:4aaf1f9a4ea718f13dd818771a4295f463658a2c7c8230086799fee34ada6da5
 size 15984

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ec176d5d4daadfce72de71942ec2427128060e5123a85dffaadbf428b8d9bcaa
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:d316aea143e5b297e6360773e7b74d2698399e9826476802cf37588cccfe102a
 size 15984

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:00630e67d4528bfd3be24d22917ce83226fd7d2e2969bf1a14b0aaadbf62b4e0
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:5dbbe56f3587983b2728d27dd49143cf631b8a390e0c0d5da231dd901d54ff9f
 size 15984

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5482fb9b07567aaf88e1b92ab3c7ede27144d213a846dcb766e9bf723cfbf4cc
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:182a60769f71e4caca6e4c09da81f4e4ea1aec5e0bf10e80d61da199b19acfe3
 size 15984

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:23b07f74839115bb41bef10206aeeeb52ce6c1c12d1a98f06304817864d5c60b
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:f19d38cb3e8bfd8f312eed9561ddc5be8324423dc89e3b9982fbad5710a93eba
 size 15984

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:629097aec5245a39291725e580513c87359a111f42769f36e0f2648d7a958775
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:2a9f2caa5963767ab8f5ea757ac0f32d6a123100593bfa711b5e27b396507c7d
 size 15984

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f6b2f615f21faa4fde4442b48613d92f84c55cd5ef4fb4d04d8e3f819305ce14
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:7d606eeb1aa97b417de3c30d0a970be83ac979e2c7cc0fa41135c63d459909e5
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 2.824101209640503,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.5502063273727648,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 360.291,
       "eval_steps_per_second": 11.337,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.4951036321792e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 2.7699949741363525,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 0.8253094910591472,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 360.291,
       "eval_steps_per_second": 11.337,
       "step": 100
+    },
+    {
+      "epoch": 0.5557083906464925,
+      "grad_norm": 0.34858810901641846,
+      "learning_rate": 5.262631578947368e-05,
+      "loss": 2.8144,
+      "step": 101
+    },
+    {
+      "epoch": 0.5612104539202201,
+      "grad_norm": 0.3956449031829834,
+      "learning_rate": 5.209473684210527e-05,
+      "loss": 2.7376,
+      "step": 102
+    },
+    {
+      "epoch": 0.5667125171939478,
+      "grad_norm": 0.3142583668231964,
+      "learning_rate": 5.1563157894736844e-05,
+      "loss": 2.7467,
+      "step": 103
+    },
+    {
+      "epoch": 0.5722145804676754,
+      "grad_norm": 0.28212493658065796,
+      "learning_rate": 5.1031578947368426e-05,
+      "loss": 2.8129,
+      "step": 104
+    },
+    {
+      "epoch": 0.5777166437414031,
+      "grad_norm": 0.3358825743198395,
+      "learning_rate": 5.05e-05,
+      "loss": 2.8636,
+      "step": 105
+    },
+    {
+      "epoch": 0.5832187070151307,
+      "grad_norm": 0.5382664799690247,
+      "learning_rate": 4.9968421052631576e-05,
+      "loss": 2.8049,
+      "step": 106
+    },
+    {
+      "epoch": 0.5887207702888583,
+      "grad_norm": 0.5411241054534912,
+      "learning_rate": 4.943684210526316e-05,
+      "loss": 2.7898,
+      "step": 107
+    },
+    {
+      "epoch": 0.594222833562586,
+      "grad_norm": 0.6359642148017883,
+      "learning_rate": 4.890526315789474e-05,
+      "loss": 2.7842,
+      "step": 108
+    },
+    {
+      "epoch": 0.5997248968363136,
+      "grad_norm": 0.4363643229007721,
+      "learning_rate": 4.8373684210526316e-05,
+      "loss": 2.7142,
+      "step": 109
+    },
+    {
+      "epoch": 0.6052269601100413,
+      "grad_norm": 0.3082638084888458,
+      "learning_rate": 4.784210526315789e-05,
+      "loss": 2.8622,
+      "step": 110
+    },
+    {
+      "epoch": 0.6107290233837689,
+      "grad_norm": 0.36496034264564514,
+      "learning_rate": 4.731052631578947e-05,
+      "loss": 2.8707,
+      "step": 111
+    },
+    {
+      "epoch": 0.6162310866574966,
+      "grad_norm": 0.6148244738578796,
+      "learning_rate": 4.6778947368421055e-05,
+      "loss": 2.822,
+      "step": 112
+    },
+    {
+      "epoch": 0.6217331499312242,
+      "grad_norm": 0.4229172170162201,
+      "learning_rate": 4.624736842105263e-05,
+      "loss": 2.9304,
+      "step": 113
+    },
+    {
+      "epoch": 0.6272352132049519,
+      "grad_norm": 0.35635635256767273,
+      "learning_rate": 4.571578947368421e-05,
+      "loss": 2.6977,
+      "step": 114
+    },
+    {
+      "epoch": 0.6327372764786795,
+      "grad_norm": 0.3787790834903717,
+      "learning_rate": 4.518421052631579e-05,
+      "loss": 2.7788,
+      "step": 115
+    },
+    {
+      "epoch": 0.6382393397524071,
+      "grad_norm": 0.3218351900577545,
+      "learning_rate": 4.465263157894737e-05,
+      "loss": 2.8026,
+      "step": 116
+    },
+    {
+      "epoch": 0.6437414030261348,
+      "grad_norm": 0.340280145406723,
+      "learning_rate": 4.412105263157895e-05,
+      "loss": 2.8456,
+      "step": 117
+    },
+    {
+      "epoch": 0.6492434662998624,
+      "grad_norm": 0.47292360663414,
+      "learning_rate": 4.358947368421053e-05,
+      "loss": 2.8296,
+      "step": 118
+    },
+    {
+      "epoch": 0.6547455295735901,
+      "grad_norm": 0.4561541974544525,
+      "learning_rate": 4.30578947368421e-05,
+      "loss": 2.8534,
+      "step": 119
+    },
+    {
+      "epoch": 0.6602475928473177,
+      "grad_norm": 0.6516445875167847,
+      "learning_rate": 4.2526315789473685e-05,
+      "loss": 2.7088,
+      "step": 120
+    },
+    {
+      "epoch": 0.6657496561210454,
+      "grad_norm": 0.6562978625297546,
+      "learning_rate": 4.199473684210527e-05,
+      "loss": 2.7653,
+      "step": 121
+    },
+    {
+      "epoch": 0.671251719394773,
+      "grad_norm": 0.4485410451889038,
+      "learning_rate": 4.146315789473684e-05,
+      "loss": 2.7488,
+      "step": 122
+    },
+    {
+      "epoch": 0.6767537826685007,
+      "grad_norm": 0.30714529752731323,
+      "learning_rate": 4.093157894736842e-05,
+      "loss": 2.8164,
+      "step": 123
+    },
+    {
+      "epoch": 0.6822558459422283,
+      "grad_norm": 0.4019254148006439,
+      "learning_rate": 4.0400000000000006e-05,
+      "loss": 2.8171,
+      "step": 124
+    },
+    {
+      "epoch": 0.687757909215956,
+      "grad_norm": 0.8390946388244629,
+      "learning_rate": 3.986842105263158e-05,
+      "loss": 2.7773,
+      "step": 125
+    },
+    {
+      "epoch": 0.6932599724896836,
+      "grad_norm": 0.41926607489585876,
+      "learning_rate": 3.933684210526316e-05,
+      "loss": 2.7653,
+      "step": 126
+    },
+    {
+      "epoch": 0.6987620357634112,
+      "grad_norm": 0.33970800042152405,
+      "learning_rate": 3.880526315789473e-05,
+      "loss": 2.6788,
+      "step": 127
+    },
+    {
+      "epoch": 0.7042640990371389,
+      "grad_norm": 0.37370553612709045,
+      "learning_rate": 3.827368421052632e-05,
+      "loss": 2.7859,
+      "step": 128
+    },
+    {
+      "epoch": 0.7097661623108665,
+      "grad_norm": 0.3301040828227997,
+      "learning_rate": 3.7742105263157896e-05,
+      "loss": 2.7552,
+      "step": 129
+    },
+    {
+      "epoch": 0.7152682255845942,
+      "grad_norm": 0.33396825194358826,
+      "learning_rate": 3.721052631578947e-05,
+      "loss": 2.8731,
+      "step": 130
+    },
+    {
+      "epoch": 0.7207702888583218,
+      "grad_norm": 0.5443733334541321,
+      "learning_rate": 3.6678947368421054e-05,
+      "loss": 2.834,
+      "step": 131
+    },
+    {
+      "epoch": 0.7262723521320495,
+      "grad_norm": 0.3872360587120056,
+      "learning_rate": 3.6147368421052636e-05,
+      "loss": 2.7519,
+      "step": 132
+    },
+    {
+      "epoch": 0.7317744154057771,
+      "grad_norm": 0.41256576776504517,
+      "learning_rate": 3.561578947368421e-05,
+      "loss": 2.6659,
+      "step": 133
+    },
+    {
+      "epoch": 0.7372764786795049,
+      "grad_norm": 0.43341293931007385,
+      "learning_rate": 3.508421052631579e-05,
+      "loss": 2.7159,
+      "step": 134
+    },
+    {
+      "epoch": 0.7427785419532325,
+      "grad_norm": 0.3737362325191498,
+      "learning_rate": 3.455263157894737e-05,
+      "loss": 2.8111,
+      "step": 135
+    },
+    {
+      "epoch": 0.7482806052269602,
+      "grad_norm": 0.32392141222953796,
+      "learning_rate": 3.402105263157895e-05,
+      "loss": 2.8288,
+      "step": 136
+    },
+    {
+      "epoch": 0.7537826685006878,
+      "grad_norm": 0.5164781212806702,
+      "learning_rate": 3.3489473684210526e-05,
+      "loss": 2.8044,
+      "step": 137
+    },
+    {
+      "epoch": 0.7592847317744154,
+      "grad_norm": 0.37287527322769165,
+      "learning_rate": 3.295789473684211e-05,
+      "loss": 2.698,
+      "step": 138
+    },
+    {
+      "epoch": 0.7647867950481431,
+      "grad_norm": 0.3489149808883667,
+      "learning_rate": 3.242631578947368e-05,
+      "loss": 2.775,
+      "step": 139
+    },
+    {
+      "epoch": 0.7702888583218707,
+      "grad_norm": 0.31786078214645386,
+      "learning_rate": 3.1894736842105265e-05,
+      "loss": 2.6869,
+      "step": 140
+    },
+    {
+      "epoch": 0.7757909215955984,
+      "grad_norm": 0.29137033224105835,
+      "learning_rate": 3.136315789473685e-05,
+      "loss": 2.7781,
+      "step": 141
+    },
+    {
+      "epoch": 0.781292984869326,
+      "grad_norm": 0.38083139061927795,
+      "learning_rate": 3.083157894736842e-05,
+      "loss": 2.8099,
+      "step": 142
+    },
+    {
+      "epoch": 0.7867950481430537,
+      "grad_norm": 0.45200973749160767,
+      "learning_rate": 3.0299999999999998e-05,
+      "loss": 2.7964,
+      "step": 143
+    },
+    {
+      "epoch": 0.7922971114167813,
+      "grad_norm": 0.477425754070282,
+      "learning_rate": 2.9768421052631577e-05,
+      "loss": 2.8416,
+      "step": 144
+    },
+    {
+      "epoch": 0.797799174690509,
+      "grad_norm": 0.3879892826080322,
+      "learning_rate": 2.923684210526316e-05,
+      "loss": 2.65,
+      "step": 145
+    },
+    {
+      "epoch": 0.8033012379642366,
+      "grad_norm": 0.32230129837989807,
+      "learning_rate": 2.8705263157894737e-05,
+      "loss": 2.6491,
+      "step": 146
+    },
+    {
+      "epoch": 0.8088033012379643,
+      "grad_norm": 0.34207046031951904,
+      "learning_rate": 2.8173684210526313e-05,
+      "loss": 2.7093,
+      "step": 147
+    },
+    {
+      "epoch": 0.8143053645116919,
+      "grad_norm": 0.3115675747394562,
+      "learning_rate": 2.7642105263157898e-05,
+      "loss": 2.7619,
+      "step": 148
+    },
+    {
+      "epoch": 0.8198074277854195,
+      "grad_norm": 0.3595292270183563,
+      "learning_rate": 2.7110526315789473e-05,
+      "loss": 2.836,
+      "step": 149
+    },
+    {
+      "epoch": 0.8253094910591472,
+      "grad_norm": 0.7873729467391968,
+      "learning_rate": 2.6578947368421052e-05,
+      "loss": 2.8467,
+      "step": 150
+    },
+    {
+      "epoch": 0.8253094910591472,
+      "eval_loss": 2.7699949741363525,
+      "eval_runtime": 6.5603,
+      "eval_samples_per_second": 373.002,
+      "eval_steps_per_second": 11.737,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 8.2426554482688e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null