Training in progress, step 340, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +88 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d6d1c4fde2f266b83ee75a31f2c1cac5711ee98e37af42b245790580334c90c2
 size 161533192

 version https://git-lfs.github.com/spec/v1
+oid sha256:7926dd99c73d35a13f1101207b9754cfc1916a65b0abe3790ea09597e34ef6fb
 size 161533192

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3166a88f4138ad1a95a566b53036461b3f0a9a711d159eb1e425081fb035c0c3
 size 82461044

 version https://git-lfs.github.com/spec/v1
+oid sha256:28165d9a0a9493a5d11b701db688ae529827d3d964848bb01ffd43a109f6204d
 size 82461044

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:54cea1660f239fc9f7c87fe7973e1ccf8c48c0413ce43e9a2a732dfb23d322f6
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:0c10ef2dae6ff9f7e69def029d8126d94a9148c8620584ca8bb5b004d68fc930
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:542eeb761eff9bd2c88163850a5018d7ed947bdab57ea917e6e376b6cb0c0259
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:e6999f9aad8d44fbf7db1d80d56ad86630abb8e28a7187e80ed24f8546462146
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.10316925151719487,
   "eval_steps": 34,
-  "global_step": 306,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -801,6 +801,91 @@
       "eval_samples_per_second": 14.618,
       "eval_steps_per_second": 1.829,
       "step": 306
     }
   ],
   "logging_steps": 3,
@@ -820,7 +905,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.27811680316031e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.11463250168577209,
   "eval_steps": 34,
+  "global_step": 340,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 14.618,
       "eval_steps_per_second": 1.829,
       "step": 306
+    },
+    {
+      "epoch": 0.10418071476736346,
+      "grad_norm": 1.1861456632614136,
+      "learning_rate": 6.421379363065142e-06,
+      "loss": 0.3585,
+      "step": 309
+    },
+    {
+      "epoch": 0.10519217801753203,
+      "grad_norm": 1.4933161735534668,
+      "learning_rate": 6.022586521156715e-06,
+      "loss": 0.3932,
+      "step": 312
+    },
+    {
+      "epoch": 0.10620364126770061,
+      "grad_norm": 1.3899950981140137,
+      "learning_rate": 5.634875954308638e-06,
+      "loss": 0.5755,
+      "step": 315
+    },
+    {
+      "epoch": 0.10721510451786918,
+      "grad_norm": 1.18565833568573,
+      "learning_rate": 5.258474074573877e-06,
+      "loss": 0.3489,
+      "step": 318
+    },
+    {
+      "epoch": 0.10822656776803777,
+      "grad_norm": 1.3438397645950317,
+      "learning_rate": 4.893600690050579e-06,
+      "loss": 0.3942,
+      "step": 321
+    },
+    {
+      "epoch": 0.10923803101820634,
+      "grad_norm": 1.1274303197860718,
+      "learning_rate": 4.540468876520323e-06,
+      "loss": 0.3829,
+      "step": 324
+    },
+    {
+      "epoch": 0.11024949426837491,
+      "grad_norm": 1.4088205099105835,
+      "learning_rate": 4.199284853017896e-06,
+      "loss": 0.4908,
+      "step": 327
+    },
+    {
+      "epoch": 0.1112609575185435,
+      "grad_norm": 1.07282292842865,
+      "learning_rate": 3.8702478614051355e-06,
+      "loss": 0.4099,
+      "step": 330
+    },
+    {
+      "epoch": 0.11227242076871206,
+      "grad_norm": 1.2825994491577148,
+      "learning_rate": 3.5535500500193357e-06,
+      "loss": 0.4394,
+      "step": 333
+    },
+    {
+      "epoch": 0.11328388401888065,
+      "grad_norm": 1.3308430910110474,
+      "learning_rate": 3.249376361464021e-06,
+      "loss": 0.4331,
+      "step": 336
+    },
+    {
+      "epoch": 0.11429534726904922,
+      "grad_norm": 1.5105128288269043,
+      "learning_rate": 2.957904424607652e-06,
+      "loss": 0.4308,
+      "step": 339
+    },
+    {
+      "epoch": 0.11463250168577209,
+      "eval_loss": 0.4016662836074829,
+      "eval_runtime": 341.6809,
+      "eval_samples_per_second": 14.619,
+      "eval_steps_per_second": 1.829,
+      "step": 340
     }
   ],
   "logging_steps": 3,
       "attributes": {}
     }
   },
+  "total_flos": 4.7534631146225664e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null