Training in progress, step 20, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:660ebde14eb0b0d23c86d84ab790def188301655ab75710a1ec01f70ab6f6197
 size 80013120

 version https://git-lfs.github.com/spec/v1
+oid sha256:a7e3a18032838911f3dc162b698ed56ea8d5da9da15753852efc6a87bbb4e69c
 size 80013120

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:852d674f0994e7b05eca00d64a0c24f6affd3456dc0957c6715ac8095eade7f1
 size 41119636

 version https://git-lfs.github.com/spec/v1
+oid sha256:95e3a50153eee94369c164a2ad6ef16f06487b1c1d858a45e79804e4a81d7abb
 size 41119636

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a9fd1eba0d3bb053e0189f060dd78f34d5ef4516bef04e9bbe26f023278958ce
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:96bed5e9409a5474c041e9db4e77eb04b3c5fff13152d8b5b346e827ef7638f0
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bb578e75c11a81e85dda67a691f96ba4793a02960f1409fd3e1511aac873491a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:1d95f3fb1f9df4cdd5f470d1684a242bf1d1940d47b9622802f603a91ffa5bc0
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.8564950227737427,
-  "best_model_checkpoint": "miner_id_24/checkpoint-10",
-  "epoch": 0.01737619461337967,
   "eval_steps": 5,
-  "global_step": 10,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -101,6 +101,92 @@
       "eval_samples_per_second": 3.507,
       "eval_steps_per_second": 1.761,
       "step": 10
     }
   ],
   "logging_steps": 1,
@@ -129,7 +215,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2100974227292160.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.6087056398391724,
+  "best_model_checkpoint": "miner_id_24/checkpoint-20",
+  "epoch": 0.03475238922675934,
   "eval_steps": 5,
+  "global_step": 20,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 3.507,
       "eval_steps_per_second": 1.761,
       "step": 10
+    },
+    {
+      "epoch": 0.019113814074717638,
+      "grad_norm": 0.5945761799812317,
+      "learning_rate": 0.00019781476007338058,
+      "loss": 1.8057,
+      "step": 11
+    },
+    {
+      "epoch": 0.020851433536055605,
+      "grad_norm": 1.0553749799728394,
+      "learning_rate": 0.0001913545457642601,
+      "loss": 1.9281,
+      "step": 12
+    },
+    {
+      "epoch": 0.022589052997393572,
+      "grad_norm": 0.8017647862434387,
+      "learning_rate": 0.00018090169943749476,
+      "loss": 1.7854,
+      "step": 13
+    },
+    {
+      "epoch": 0.02432667245873154,
+      "grad_norm": 0.8131036758422852,
+      "learning_rate": 0.00016691306063588583,
+      "loss": 1.8849,
+      "step": 14
+    },
+    {
+      "epoch": 0.026064291920069503,
+      "grad_norm": 0.7698544263839722,
+      "learning_rate": 0.00015000000000000001,
+      "loss": 1.5259,
+      "step": 15
+    },
+    {
+      "epoch": 0.026064291920069503,
+      "eval_loss": 1.663969874382019,
+      "eval_runtime": 69.1246,
+      "eval_samples_per_second": 3.515,
+      "eval_steps_per_second": 1.765,
+      "step": 15
+    },
+    {
+      "epoch": 0.02780191138140747,
+      "grad_norm": 0.6345564723014832,
+      "learning_rate": 0.00013090169943749476,
+      "loss": 1.5678,
+      "step": 16
+    },
+    {
+      "epoch": 0.029539530842745437,
+      "grad_norm": 0.6471442580223083,
+      "learning_rate": 0.00011045284632676536,
+      "loss": 1.7016,
+      "step": 17
+    },
+    {
+      "epoch": 0.03127715030408341,
+      "grad_norm": 0.6346880793571472,
+      "learning_rate": 8.954715367323468e-05,
+      "loss": 1.6915,
+      "step": 18
+    },
+    {
+      "epoch": 0.03301476976542137,
+      "grad_norm": 1.3961195945739746,
+      "learning_rate": 6.909830056250527e-05,
+      "loss": 1.5982,
+      "step": 19
+    },
+    {
+      "epoch": 0.03475238922675934,
+      "grad_norm": 0.6392167806625366,
+      "learning_rate": 5.000000000000002e-05,
+      "loss": 1.3933,
+      "step": 20
+    },
+    {
+      "epoch": 0.03475238922675934,
+      "eval_loss": 1.6087056398391724,
+      "eval_runtime": 69.6659,
+      "eval_samples_per_second": 3.488,
+      "eval_steps_per_second": 1.751,
+      "step": 20
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 3913579442995200.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null