Training in progress, step 310, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5cd7e82b02fdb1fc211ba8cfc78c940346dac0e57cf3b9fa129b21a5999b2993
 size 125048

 version https://git-lfs.github.com/spec/v1
+oid sha256:a8043d411e54c3df1ebca409696347b8e9a385dabbcffd552e858ae07b989cbf
 size 125048

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:401b7cff7a753623117fa84b165624b04510bb6a1ade9be169f1a8be1a9413f1
 size 162868

 version https://git-lfs.github.com/spec/v1
+oid sha256:a8fc14c40c058613fe56fd7b9d5397288001f7e3fc116344b43062f632ff8265
 size 162868

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:04fa9e95bd7c12dd6aadf40d93322ffe6416ce0beade0e6a39e0e8c9d50f3d43
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:314e02efe1b3db288f9e9c8ca583964838ea24b3581864ee7ae9f30730c12eb3
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ae6873a9dc297bddde060ab581654fd818f7b1bcaf7ce11d1538178040ff306d
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:7c463750d3752994b4ac9a5cae2d97850942d858f0130dada5f5e81e74ee4daf
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 11.019237518310547,
-  "best_model_checkpoint": "miner_id_24/checkpoint-300",
-  "epoch": 0.013559015615466317,
   "eval_steps": 5,
-  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2595,6 +2595,92 @@
       "eval_samples_per_second": 52.809,
       "eval_steps_per_second": 26.407,
       "step": 300
     }
   ],
   "logging_steps": 1,
@@ -2623,7 +2709,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3152019456000.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 11.018967628479004,
+  "best_model_checkpoint": "miner_id_24/checkpoint-310",
+  "epoch": 0.014010982802648527,
   "eval_steps": 5,
+  "global_step": 310,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 52.809,
       "eval_steps_per_second": 26.407,
       "step": 300
+    },
+    {
+      "epoch": 0.013604212334184539,
+      "grad_norm": 0.49278682470321655,
+      "learning_rate": 7.093318872950665e-05,
+      "loss": 44.0319,
+      "step": 301
+    },
+    {
+      "epoch": 0.01364940905290276,
+      "grad_norm": 0.5009450316429138,
+      "learning_rate": 7.032033094488095e-05,
+      "loss": 44.0988,
+      "step": 302
+    },
+    {
+      "epoch": 0.013694605771620981,
+      "grad_norm": 0.4270615577697754,
+      "learning_rate": 6.97086931752028e-05,
+      "loss": 44.1025,
+      "step": 303
+    },
+    {
+      "epoch": 0.013739802490339202,
+      "grad_norm": 0.49744102358818054,
+      "learning_rate": 6.909830056250527e-05,
+      "loss": 44.0652,
+      "step": 304
+    },
+    {
+      "epoch": 0.013784999209057422,
+      "grad_norm": 0.48600587248802185,
+      "learning_rate": 6.848917819763793e-05,
+      "loss": 44.1292,
+      "step": 305
+    },
+    {
+      "epoch": 0.013784999209057422,
+      "eval_loss": 11.01909351348877,
+      "eval_runtime": 176.1259,
+      "eval_samples_per_second": 52.9,
+      "eval_steps_per_second": 26.453,
+      "step": 305
+    },
+    {
+      "epoch": 0.013830195927775643,
+      "grad_norm": 0.4116569459438324,
+      "learning_rate": 6.788135111923545e-05,
+      "loss": 44.0897,
+      "step": 306
+    },
+    {
+      "epoch": 0.013875392646493864,
+      "grad_norm": 0.4364916682243347,
+      "learning_rate": 6.72748443126883e-05,
+      "loss": 44.1195,
+      "step": 307
+    },
+    {
+      "epoch": 0.013920589365212085,
+      "grad_norm": 0.5589216351509094,
+      "learning_rate": 6.666968270911584e-05,
+      "loss": 44.0911,
+      "step": 308
+    },
+    {
+      "epoch": 0.013965786083930306,
+      "grad_norm": 0.5414496064186096,
+      "learning_rate": 6.606589118434126e-05,
+      "loss": 44.1532,
+      "step": 309
+    },
+    {
+      "epoch": 0.014010982802648527,
+      "grad_norm": 0.4488687515258789,
+      "learning_rate": 6.546349455786926e-05,
+      "loss": 44.0637,
+      "step": 310
+    },
+    {
+      "epoch": 0.014010982802648527,
+      "eval_loss": 11.018967628479004,
+      "eval_runtime": 176.4018,
+      "eval_samples_per_second": 52.817,
+      "eval_steps_per_second": 26.411,
+      "step": 310
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 3257086771200.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null