Training in progress, step 2550, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +116 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6a8c4d05cebc8a6230506025ac32b92b43f97706b15c5ef0630b359fcedb61fd
 size 524363632

 version https://git-lfs.github.com/spec/v1
+oid sha256:f287e10b3519c25fc83edd7acd8cc7cd1c222a41d94fdee3bad4cce6af776567
 size 524363632

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d0768f36181b7ac2e23e854e832362cdba94250b37612dba5c19cd4985727d9a
-size 1049049442

 version https://git-lfs.github.com/spec/v1
+oid sha256:a2fb02b6a02ceadae09c2702b5172cbc44178e9b1056a25f944bb6996f32c4a8
+size 1049049378

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fc077b33af19e58da72048d8d3eba838a65dd66577cf1fffba1ce82ab86f524d
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:65ad7e6d1a2a4a73b6262b8f73328a902c07cad4e904b1d224f6efe38cd6b2de
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e289fadf25e00f6e814140ec41c4ae5fbbf1fcf1f7907f11f4e9d252c610f893
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:3a0eec867f87d3a5ffc128abe2e98cc84850220a61f050e675a6109f6d217117
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 1.2038679122924805,
   "best_model_checkpoint": "./output/checkpoint-2400",
-  "epoch": 0.10750279955207166,
   "eval_steps": 150,
-  "global_step": 2400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1815,6 +1815,119 @@
       "eval_samples_per_second": 9.666,
       "eval_steps_per_second": 9.666,
       "step": 2400
     }
   ],
   "logging_steps": 10,
@@ -1834,7 +1947,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.109754858840064e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 1.2038679122924805,
   "best_model_checkpoint": "./output/checkpoint-2400",
+  "epoch": 0.11422172452407615,
   "eval_steps": 150,
+  "global_step": 2550,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 9.666,
       "eval_steps_per_second": 9.666,
       "step": 2400
+    },
+    {
+      "epoch": 0.10795072788353863,
+      "grad_norm": 3.8270246982574463,
+      "learning_rate": 4.0861474083878765e-06,
+      "loss": 1.0918,
+      "step": 2410
+    },
+    {
+      "epoch": 0.10839865621500559,
+      "grad_norm": 5.627485752105713,
+      "learning_rate": 4.062194651918585e-06,
+      "loss": 1.257,
+      "step": 2420
+    },
+    {
+      "epoch": 0.10884658454647256,
+      "grad_norm": 4.910660743713379,
+      "learning_rate": 4.0382290623499384e-06,
+      "loss": 1.2748,
+      "step": 2430
+    },
+    {
+      "epoch": 0.10929451287793952,
+      "grad_norm": 2.3609941005706787,
+      "learning_rate": 4.014251624813453e-06,
+      "loss": 0.9422,
+      "step": 2440
+    },
+    {
+      "epoch": 0.10974244120940649,
+      "grad_norm": 3.063828706741333,
+      "learning_rate": 3.990263324927675e-06,
+      "loss": 1.1829,
+      "step": 2450
+    },
+    {
+      "epoch": 0.11019036954087345,
+      "grad_norm": 2.658452033996582,
+      "learning_rate": 3.966265148757655e-06,
+      "loss": 1.0062,
+      "step": 2460
+    },
+    {
+      "epoch": 0.11063829787234042,
+      "grad_norm": 6.130062103271484,
+      "learning_rate": 3.9422580827744224e-06,
+      "loss": 1.1504,
+      "step": 2470
+    },
+    {
+      "epoch": 0.11108622620380738,
+      "grad_norm": 3.3496034145355225,
+      "learning_rate": 3.9182431138144315e-06,
+      "loss": 0.8731,
+      "step": 2480
+    },
+    {
+      "epoch": 0.11153415453527436,
+      "grad_norm": 3.8455569744110107,
+      "learning_rate": 3.894221229038995e-06,
+      "loss": 1.0125,
+      "step": 2490
+    },
+    {
+      "epoch": 0.11198208286674133,
+      "grad_norm": 4.499962329864502,
+      "learning_rate": 3.870193415893709e-06,
+      "loss": 1.0228,
+      "step": 2500
+    },
+    {
+      "epoch": 0.1124300111982083,
+      "grad_norm": 6.230105876922607,
+      "learning_rate": 3.846160662067859e-06,
+      "loss": 1.1794,
+      "step": 2510
+    },
+    {
+      "epoch": 0.11287793952967526,
+      "grad_norm": 7.316727638244629,
+      "learning_rate": 3.8221239554538275e-06,
+      "loss": 1.2728,
+      "step": 2520
+    },
+    {
+      "epoch": 0.11332586786114222,
+      "grad_norm": 3.291714906692505,
+      "learning_rate": 3.798084284106478e-06,
+      "loss": 1.167,
+      "step": 2530
+    },
+    {
+      "epoch": 0.11377379619260919,
+      "grad_norm": 5.075141429901123,
+      "learning_rate": 3.7740426362025424e-06,
+      "loss": 1.0547,
+      "step": 2540
+    },
+    {
+      "epoch": 0.11422172452407615,
+      "grad_norm": 3.961540937423706,
+      "learning_rate": 3.7500000000000005e-06,
+      "loss": 1.0713,
+      "step": 2550
+    },
+    {
+      "epoch": 0.11422172452407615,
+      "eval_loss": 1.2046430110931396,
+      "eval_runtime": 51.7175,
+      "eval_samples_per_second": 9.668,
+      "eval_steps_per_second": 9.668,
+      "step": 2550
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 3.2997299945472e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null