Training in progress, step 140, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f266404b11f932cd639e83d974de617b4287bb271af343f15c1f9f42c44ba741
 size 125048

 version https://git-lfs.github.com/spec/v1
+oid sha256:ee338dc939b7c042fee22bc3023129715453e09ab7503d0fbab68f2a9d9e7429
 size 125048

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:98b00e17d0227c53fea69ecfa2d1996d9c919078652de27239147f7c82b52cef
 size 162868

 version https://git-lfs.github.com/spec/v1
+oid sha256:1685e33900566f466c94654c0999c9110defe07d1d83c288d3920ab9d12b2a82
 size 162868

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f8a0058f5e4eaf51e57150546d35540d117144afacffb0c679cba8d6cbe11058
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:07dfcab91d136e6f3877a1517e4a4558c6ab33a709be94712f36072861ae0974
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3511d75105f53c278279e3dade6f856082c8693b0424c0bf567bdcf23028dd2b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:c049ad9892b8ae242eb26f06a6af3edec6b865f6613ddc97103e21f4231f6420
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 11.027961730957031,
-  "best_model_checkpoint": "miner_id_24/checkpoint-130",
-  "epoch": 0.005875573433368738,
   "eval_steps": 5,
-  "global_step": 130,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1133,6 +1133,92 @@
       "eval_samples_per_second": 52.871,
       "eval_steps_per_second": 26.438,
       "step": 130
     }
   ],
   "logging_steps": 1,
@@ -1161,7 +1247,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1365875097600.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 11.026728630065918,
+  "best_model_checkpoint": "miner_id_24/checkpoint-140",
+  "epoch": 0.006327540620550948,
   "eval_steps": 5,
+  "global_step": 140,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 52.871,
       "eval_steps_per_second": 26.438,
       "step": 130
+    },
+    {
+      "epoch": 0.005920770152086958,
+      "grad_norm": 0.4459182620048523,
+      "learning_rate": 0.0001713874307839863,
+      "loss": 44.0874,
+      "step": 131
+    },
+    {
+      "epoch": 0.005965966870805179,
+      "grad_norm": 0.5632774233818054,
+      "learning_rate": 0.0001709369921005258,
+      "loss": 44.1085,
+      "step": 132
+    },
+    {
+      "epoch": 0.0060111635895234005,
+      "grad_norm": 0.5518532991409302,
+      "learning_rate": 0.00017048363747516117,
+      "loss": 44.0409,
+      "step": 133
+    },
+    {
+      "epoch": 0.006056360308241622,
+      "grad_norm": 0.5138490200042725,
+      "learning_rate": 0.00017002738554352552,
+      "loss": 44.1078,
+      "step": 134
+    },
+    {
+      "epoch": 0.006101557026959843,
+      "grad_norm": 0.44584622979164124,
+      "learning_rate": 0.00016956825506034867,
+      "loss": 44.1152,
+      "step": 135
+    },
+    {
+      "epoch": 0.006101557026959843,
+      "eval_loss": 11.027368545532227,
+      "eval_runtime": 175.9823,
+      "eval_samples_per_second": 52.943,
+      "eval_steps_per_second": 26.474,
+      "step": 135
+    },
+    {
+      "epoch": 0.006146753745678064,
+      "grad_norm": 0.5159522294998169,
+      "learning_rate": 0.00016910626489868649,
+      "loss": 44.0946,
+      "step": 136
+    },
+    {
+      "epoch": 0.006191950464396285,
+      "grad_norm": 0.4725247323513031,
+      "learning_rate": 0.00016864143404914504,
+      "loss": 44.1131,
+      "step": 137
+    },
+    {
+      "epoch": 0.0062371471831145055,
+      "grad_norm": 0.5374069213867188,
+      "learning_rate": 0.00016817378161909996,
+      "loss": 44.1304,
+      "step": 138
+    },
+    {
+      "epoch": 0.006282343901832727,
+      "grad_norm": 0.44262439012527466,
+      "learning_rate": 0.00016770332683191096,
+      "loss": 44.065,
+      "step": 139
+    },
+    {
+      "epoch": 0.006327540620550948,
+      "grad_norm": 0.5221428871154785,
+      "learning_rate": 0.0001672300890261317,
+      "loss": 44.1053,
+      "step": 140
+    },
+    {
+      "epoch": 0.006327540620550948,
+      "eval_loss": 11.026728630065918,
+      "eval_runtime": 176.1986,
+      "eval_samples_per_second": 52.878,
+      "eval_steps_per_second": 26.442,
+      "step": 140
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1470942412800.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null