Training in progress, step 2250, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:344e59bc78799202e4281f32ff32ec9afbe2bffaf62d018b9713f07526c9ffd7
 size 653434568

 version https://git-lfs.github.com/spec/v1
+oid sha256:b50df0d26d180087225139d1cbccb1e4f8988f3ba78da80175de8d2ccb715425
 size 653434568

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a021549015dfb97be1e802ae8c40492f2707149eb971b9e7ac1a848051d11f9a
 size 1288533754

 version https://git-lfs.github.com/spec/v1
+oid sha256:1349d7c7820ba989d22e9c3dafb981ed735ef01b3315b8e5cfd62c75bb5677b0
 size 1288533754

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3c3977d0af1ade9045b3a39ec32003586e6a5b397305b71605a9903ef5005b58
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:2aee148c55266a4fa01d336e6c825eb6826c0bacd0e25635305678a84af39fc7
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1fb4bc4166507f8f33f2952bbfed6bcfe1fc38cebd715a42a7763a997fdb86c8
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:a5c8c9c4d7ddd30debc6fb341973ff9c39ea0dc55bc39bc535243ffe8a16ce90
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.6301392316818237,
-  "best_model_checkpoint": "./output/checkpoint-2100",
-  "epoch": 0.1862032275226104,
   "eval_steps": 150,
-  "global_step": 2100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1589,6 +1589,119 @@
       "eval_samples_per_second": 8.411,
       "eval_steps_per_second": 8.411,
       "step": 2100
     }
   ],
   "logging_steps": 10,
@@ -1608,7 +1721,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.071503650259927e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.5997846126556396,
+  "best_model_checkpoint": "./output/checkpoint-2250",
+  "epoch": 0.19950345805993971,
   "eval_steps": 150,
+  "global_step": 2250,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 8.411,
       "eval_steps_per_second": 8.411,
       "step": 2100
+    },
+    {
+      "epoch": 0.18708990955843235,
+      "grad_norm": 8.962486267089844,
+      "learning_rate": 6.391876823712319e-05,
+      "loss": 1.4843,
+      "step": 2110
+    },
+    {
+      "epoch": 0.1879765915942543,
+      "grad_norm": 10.67493724822998,
+      "learning_rate": 6.361058499664857e-05,
+      "loss": 1.6638,
+      "step": 2120
+    },
+    {
+      "epoch": 0.18886327363007627,
+      "grad_norm": 8.06369686126709,
+      "learning_rate": 6.330184227833377e-05,
+      "loss": 1.6439,
+      "step": 2130
+    },
+    {
+      "epoch": 0.1897499556658982,
+      "grad_norm": 9.005534172058105,
+      "learning_rate": 6.299255277338267e-05,
+      "loss": 1.5289,
+      "step": 2140
+    },
+    {
+      "epoch": 0.19063663770172015,
+      "grad_norm": 9.255204200744629,
+      "learning_rate": 6.268272919547539e-05,
+      "loss": 1.46,
+      "step": 2150
+    },
+    {
+      "epoch": 0.1915233197375421,
+      "grad_norm": 7.344980239868164,
+      "learning_rate": 6.237238428024573e-05,
+      "loss": 1.4932,
+      "step": 2160
+    },
+    {
+      "epoch": 0.19241000177336406,
+      "grad_norm": 8.692234992980957,
+      "learning_rate": 6.206153078475765e-05,
+      "loss": 1.6582,
+      "step": 2170
+    },
+    {
+      "epoch": 0.19329668380918602,
+      "grad_norm": 7.381601333618164,
+      "learning_rate": 6.175018148698078e-05,
+      "loss": 1.5007,
+      "step": 2180
+    },
+    {
+      "epoch": 0.19418336584500798,
+      "grad_norm": 7.794239044189453,
+      "learning_rate": 6.143834918526529e-05,
+      "loss": 1.6501,
+      "step": 2190
+    },
+    {
+      "epoch": 0.19507004788082993,
+      "grad_norm": 8.13096809387207,
+      "learning_rate": 6.112604669781574e-05,
+      "loss": 1.6862,
+      "step": 2200
+    },
+    {
+      "epoch": 0.1959567299166519,
+      "grad_norm": 6.846219539642334,
+      "learning_rate": 6.081328686216419e-05,
+      "loss": 1.5702,
+      "step": 2210
+    },
+    {
+      "epoch": 0.19684341195247385,
+      "grad_norm": 8.771533966064453,
+      "learning_rate": 6.0500082534642485e-05,
+      "loss": 1.6259,
+      "step": 2220
+    },
+    {
+      "epoch": 0.1977300939882958,
+      "grad_norm": 6.50418758392334,
+      "learning_rate": 6.01864465898538e-05,
+      "loss": 1.6948,
+      "step": 2230
+    },
+    {
+      "epoch": 0.19861677602411776,
+      "grad_norm": 8.83719539642334,
+      "learning_rate": 5.987239192014337e-05,
+      "loss": 1.643,
+      "step": 2240
+    },
+    {
+      "epoch": 0.19950345805993971,
+      "grad_norm": 7.24541711807251,
+      "learning_rate": 5.955793143506864e-05,
+      "loss": 1.624,
+      "step": 2250
+    },
+    {
+      "epoch": 0.19950345805993971,
+      "eval_loss": 1.5997846126556396,
+      "eval_runtime": 59.4561,
+      "eval_samples_per_second": 8.41,
+      "eval_steps_per_second": 8.41,
+      "step": 2250
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 7.577803153093755e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null