Training in progress, step 3750, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:81a67abcc251ee8774cf1f939d25bdb948c3090e27c09b7dd067fcc374015634
 size 69527352

 version https://git-lfs.github.com/spec/v1
+oid sha256:3974b1bb4f346d15b63d67a72929b7007ca3f86b53199a1fd7e5e099e9c14afa
 size 69527352

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dd4d64756ff00ff120e2d59178ccf226833b52a51e47002c1ca458e16a29bf2b
 size 139313554

 version https://git-lfs.github.com/spec/v1
+oid sha256:474b61e6b7c602c238188085fc11f74c10ee7fc4e1df53ec4af036170a9079c5
 size 139313554

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:100af15346f38893ee7a78a6ec3be82fa1fb054726f2de1c68aa0d2ed7d8c61c
 size 14308

 version https://git-lfs.github.com/spec/v1
+oid sha256:ba2a26069fc52ae057d8721b042adddf9f086526ef980fe3ff35c4c5a9d329e8
 size 14308

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a1545736a5eb621f68b649a1ca6120c7dd4b230823d94d8efa1cacfea47cc556
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:607202c5623a0d7c32f1c23cdb843f56835e006025f9cf66875098e00a1be2b7
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.7831114530563354,
-  "best_model_checkpoint": "./output/checkpoint-3600",
-  "epoch": 0.44753853804077576,
   "eval_steps": 150,
-  "global_step": 3600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2719,6 +2719,119 @@
       "eval_samples_per_second": 8.968,
       "eval_steps_per_second": 8.968,
       "step": 3600
     }
   ],
   "logging_steps": 10,
@@ -2738,7 +2851,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.25205215952384e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.7807769775390625,
+  "best_model_checkpoint": "./output/checkpoint-3750",
+  "epoch": 0.46618597712580806,
   "eval_steps": 150,
+  "global_step": 3750,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 8.968,
       "eval_steps_per_second": 8.968,
       "step": 3600
+    },
+    {
+      "epoch": 0.44878170064644457,
+      "grad_norm": 1.402942419052124,
+      "learning_rate": 2.3219400131992273e-05,
+      "loss": 0.6078,
+      "step": 3610
+    },
+    {
+      "epoch": 0.4500248632521134,
+      "grad_norm": 0.9987258315086365,
+      "learning_rate": 2.2908527551764404e-05,
+      "loss": 0.5269,
+      "step": 3620
+    },
+    {
+      "epoch": 0.4512680258577822,
+      "grad_norm": 1.655179500579834,
+      "learning_rate": 2.259928242189966e-05,
+      "loss": 0.5955,
+      "step": 3630
+    },
+    {
+      "epoch": 0.452511188463451,
+      "grad_norm": 1.3401436805725098,
+      "learning_rate": 2.2291677454254136e-05,
+      "loss": 0.6061,
+      "step": 3640
+    },
+    {
+      "epoch": 0.4537543510691198,
+      "grad_norm": 1.766615629196167,
+      "learning_rate": 2.1985725293263237e-05,
+      "loss": 0.6185,
+      "step": 3650
+    },
+    {
+      "epoch": 0.4549975136747887,
+      "grad_norm": 1.7541744709014893,
+      "learning_rate": 2.1681438515421953e-05,
+      "loss": 0.5724,
+      "step": 3660
+    },
+    {
+      "epoch": 0.4562406762804575,
+      "grad_norm": 1.9028109312057495,
+      "learning_rate": 2.1378829628767965e-05,
+      "loss": 0.5688,
+      "step": 3670
+    },
+    {
+      "epoch": 0.4574838388861263,
+      "grad_norm": 1.54623281955719,
+      "learning_rate": 2.1077911072367317e-05,
+      "loss": 0.6044,
+      "step": 3680
+    },
+    {
+      "epoch": 0.4587270014917951,
+      "grad_norm": 1.4844456911087036,
+      "learning_rate": 2.077869521580325e-05,
+      "loss": 0.5635,
+      "step": 3690
+    },
+    {
+      "epoch": 0.45997016409746394,
+      "grad_norm": 1.464686632156372,
+      "learning_rate": 2.0481194358667695e-05,
+      "loss": 0.5237,
+      "step": 3700
+    },
+    {
+      "epoch": 0.46121332670313275,
+      "grad_norm": 1.3379572629928589,
+      "learning_rate": 2.018542073005567e-05,
+      "loss": 0.5913,
+      "step": 3710
+    },
+    {
+      "epoch": 0.46245648930880157,
+      "grad_norm": 1.292743444442749,
+      "learning_rate": 1.9891386488062538e-05,
+      "loss": 0.5878,
+      "step": 3720
+    },
+    {
+      "epoch": 0.46369965191447043,
+      "grad_norm": 1.7692592144012451,
+      "learning_rate": 1.959910371928436e-05,
+      "loss": 0.5772,
+      "step": 3730
+    },
+    {
+      "epoch": 0.46494281452013925,
+      "grad_norm": 1.5741891860961914,
+      "learning_rate": 1.930858443832096e-05,
+      "loss": 0.5899,
+      "step": 3740
+    },
+    {
+      "epoch": 0.46618597712580806,
+      "grad_norm": 2.228027105331421,
+      "learning_rate": 1.90198405872821e-05,
+      "loss": 0.6182,
+      "step": 3750
+    },
+    {
+      "epoch": 0.46618597712580806,
+      "eval_loss": 0.7807769775390625,
+      "eval_runtime": 54.8116,
+      "eval_samples_per_second": 9.122,
+      "eval_steps_per_second": 9.122,
+      "step": 3750
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.3044092846143488e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null