Training in progress, step 3150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e76345f809b53997ae5b0156376662cc932fae1628a32a6daa74b18bf353691c
 size 69527352

 version https://git-lfs.github.com/spec/v1
+oid sha256:704458e22083d426be5e0b2430ec99e95658e2146eeda1abbadddcef1b66afa0
 size 69527352

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9350ab8952c9068ba9cb6662b755e3ae064e0864a10cc19275a73e3493f1d699
 size 139313554

 version https://git-lfs.github.com/spec/v1
+oid sha256:516e6b0d7cfd706f5b04b458cc6f13af606fbcb05d80be45f02aa990d2fa7939
 size 139313554

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:221fbae6356b068d1a273b00f61f9d4825a8ecf84836f89b11a087624e7b10f1
 size 14308

 version https://git-lfs.github.com/spec/v1
+oid sha256:f7a7bdab08336c0f7233e606ce96075425fa9cf729719c53f2840e05d72ac534
 size 14308

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:125a0482b0838ad97cbdd22589ee6289ec41c1a06bf562da8714c95f5c3581c0
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:c2ad8a27e92c879b969b5845f60871e76a73be3547e482cc45027df5fe072f15
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.8055340647697449,
-  "best_model_checkpoint": "./output/checkpoint-3000",
-  "epoch": 0.37294878170064644,
   "eval_steps": 150,
-  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2267,6 +2267,119 @@
       "eval_samples_per_second": 9.152,
       "eval_steps_per_second": 9.152,
       "step": 3000
     }
   ],
   "logging_steps": 10,
@@ -2286,7 +2399,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.0423543389447168e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.801069974899292,
+  "best_model_checkpoint": "./output/checkpoint-3150",
+  "epoch": 0.39159622078567874,
   "eval_steps": 150,
+  "global_step": 3150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 9.152,
       "eval_steps_per_second": 9.152,
       "step": 3000
+    },
+    {
+      "epoch": 0.37419194430631525,
+      "grad_norm": 1.3308610916137695,
+      "learning_rate": 4.433324295594166e-05,
+      "loss": 0.6302,
+      "step": 3010
+    },
+    {
+      "epoch": 0.37543510691198406,
+      "grad_norm": 1.3117073774337769,
+      "learning_rate": 4.3950206840550585e-05,
+      "loss": 0.5286,
+      "step": 3020
+    },
+    {
+      "epoch": 0.37667826951765293,
+      "grad_norm": 1.3257042169570923,
+      "learning_rate": 4.3567933234501746e-05,
+      "loss": 0.6227,
+      "step": 3030
+    },
+    {
+      "epoch": 0.37792143212332174,
+      "grad_norm": 1.614931583404541,
+      "learning_rate": 4.318643785156579e-05,
+      "loss": 0.5531,
+      "step": 3040
+    },
+    {
+      "epoch": 0.37916459472899056,
+      "grad_norm": 1.4024949073791504,
+      "learning_rate": 4.280573637352371e-05,
+      "loss": 0.6107,
+      "step": 3050
+    },
+    {
+      "epoch": 0.38040775733465937,
+      "grad_norm": 1.3442318439483643,
+      "learning_rate": 4.242584444952216e-05,
+      "loss": 0.619,
+      "step": 3060
+    },
+    {
+      "epoch": 0.3816509199403282,
+      "grad_norm": 1.6472797393798828,
+      "learning_rate": 4.204677769543019e-05,
+      "loss": 0.6219,
+      "step": 3070
+    },
+    {
+      "epoch": 0.382894082545997,
+      "grad_norm": 1.226382851600647,
+      "learning_rate": 4.16685516931974e-05,
+      "loss": 0.5669,
+      "step": 3080
+    },
+    {
+      "epoch": 0.38413724515166586,
+      "grad_norm": 1.2685925960540771,
+      "learning_rate": 4.1291181990213286e-05,
+      "loss": 0.5875,
+      "step": 3090
+    },
+    {
+      "epoch": 0.3853804077573347,
+      "grad_norm": 2.1690385341644287,
+      "learning_rate": 4.0914684098668286e-05,
+      "loss": 0.6366,
+      "step": 3100
+    },
+    {
+      "epoch": 0.3866235703630035,
+      "grad_norm": 1.2350751161575317,
+      "learning_rate": 4.053907349491608e-05,
+      "loss": 0.6034,
+      "step": 3110
+    },
+    {
+      "epoch": 0.3878667329686723,
+      "grad_norm": 1.4489704370498657,
+      "learning_rate": 4.016436561883746e-05,
+      "loss": 0.6346,
+      "step": 3120
+    },
+    {
+      "epoch": 0.3891098955743411,
+      "grad_norm": 1.332980990409851,
+      "learning_rate": 3.979057587320554e-05,
+      "loss": 0.5858,
+      "step": 3130
+    },
+    {
+      "epoch": 0.3903530581800099,
+      "grad_norm": 1.391718864440918,
+      "learning_rate": 3.941771962305274e-05,
+      "loss": 0.7218,
+      "step": 3140
+    },
+    {
+      "epoch": 0.39159622078567874,
+      "grad_norm": 1.269722819328308,
+      "learning_rate": 3.9045812195039125e-05,
+      "loss": 0.5846,
+      "step": 3150
+    },
+    {
+      "epoch": 0.39159622078567874,
+      "eval_loss": 0.801069974899292,
+      "eval_runtime": 56.6006,
+      "eval_samples_per_second": 8.834,
+      "eval_steps_per_second": 8.834,
+      "step": 3150
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.0945600710137856e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null