Training in progress, step 130, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b2508f90eb61b7bd9b166d1fa329b629bcde6d993f69cb3bb72b7dbc1db24df2
 size 125048

 version https://git-lfs.github.com/spec/v1
+oid sha256:f266404b11f932cd639e83d974de617b4287bb271af343f15c1f9f42c44ba741
 size 125048

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b2804e1a21b5a74c0549bffca0ed140c171b41145b99683637f8580788f846fd
 size 162868

 version https://git-lfs.github.com/spec/v1
+oid sha256:98b00e17d0227c53fea69ecfa2d1996d9c919078652de27239147f7c82b52cef
 size 162868

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c8a971b3f240c33c89e901f8be5e254f5380f922f188a9eada4d5bb95507b511
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:f8a0058f5e4eaf51e57150546d35540d117144afacffb0c679cba8d6cbe11058
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7e549a35cd7e532c378c88126565a201f68fd1d73868bbbba082980ce1de2c27
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:3511d75105f53c278279e3dade6f856082c8693b0424c0bf567bdcf23028dd2b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 11.029101371765137,
-  "best_model_checkpoint": "miner_id_24/checkpoint-120",
-  "epoch": 0.005423606246186527,
   "eval_steps": 5,
-  "global_step": 120,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1047,6 +1047,92 @@
       "eval_samples_per_second": 52.838,
       "eval_steps_per_second": 26.422,
       "step": 120
     }
   ],
   "logging_steps": 1,
@@ -1075,7 +1161,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1260807782400.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 11.027961730957031,
+  "best_model_checkpoint": "miner_id_24/checkpoint-130",
+  "epoch": 0.005875573433368738,
   "eval_steps": 5,
+  "global_step": 130,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 52.838,
       "eval_steps_per_second": 26.422,
       "step": 120
+    },
+    {
+      "epoch": 0.005468802964904748,
+      "grad_norm": 0.43057698011398315,
+      "learning_rate": 0.00017572742764761055,
+      "loss": 44.1271,
+      "step": 121
+    },
+    {
+      "epoch": 0.005513999683622969,
+      "grad_norm": 0.5054545402526855,
+      "learning_rate": 0.00017530714660036112,
+      "loss": 44.1574,
+      "step": 122
+    },
+    {
+      "epoch": 0.00555919640234119,
+      "grad_norm": 0.47395941615104675,
+      "learning_rate": 0.00017488376997127283,
+      "loss": 44.0802,
+      "step": 123
+    },
+    {
+      "epoch": 0.005604393121059411,
+      "grad_norm": 0.5438507795333862,
+      "learning_rate": 0.0001744573151637007,
+      "loss": 44.0974,
+      "step": 124
+    },
+    {
+      "epoch": 0.005649589839777632,
+      "grad_norm": 0.5694723129272461,
+      "learning_rate": 0.00017402779970753155,
+      "loss": 44.1329,
+      "step": 125
+    },
+    {
+      "epoch": 0.005649589839777632,
+      "eval_loss": 11.028435707092285,
+      "eval_runtime": 176.0545,
+      "eval_samples_per_second": 52.921,
+      "eval_steps_per_second": 26.463,
+      "step": 125
+    },
+    {
+      "epoch": 0.005694786558495853,
+      "grad_norm": 0.49188655614852905,
+      "learning_rate": 0.0001735952412584635,
+      "loss": 44.0859,
+      "step": 126
+    },
+    {
+      "epoch": 0.005739983277214074,
+      "grad_norm": 0.5955361127853394,
+      "learning_rate": 0.00017315965759728014,
+      "loss": 44.0938,
+      "step": 127
+    },
+    {
+      "epoch": 0.0057851799959322955,
+      "grad_norm": 0.4358704090118408,
+      "learning_rate": 0.00017272106662911973,
+      "loss": 44.1165,
+      "step": 128
+    },
+    {
+      "epoch": 0.005830376714650517,
+      "grad_norm": 0.4302980899810791,
+      "learning_rate": 0.00017227948638273916,
+      "loss": 44.1088,
+      "step": 129
+    },
+    {
+      "epoch": 0.005875573433368738,
+      "grad_norm": 0.5749801397323608,
+      "learning_rate": 0.00017183493500977278,
+      "loss": 44.1311,
+      "step": 130
+    },
+    {
+      "epoch": 0.005875573433368738,
+      "eval_loss": 11.027961730957031,
+      "eval_runtime": 176.2218,
+      "eval_samples_per_second": 52.871,
+      "eval_steps_per_second": 26.438,
+      "step": 130
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1365875097600.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null