Training in progress, epoch 1, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/README.md +0 -7
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +301 -19
last-checkpoint/training_args.bin +1 -1

last-checkpoint/README.md CHANGED Viewed

@@ -204,11 +204,4 @@ Carbon emissions can be estimated using the [Machine Learning Impact calculator]
 ### Framework versions
-- PEFT 0.6.0
-## Training procedure
-### Framework versions
 - PEFT 0.6.0


204	### Framework versions
205
206







207	- PEFT 0.6.0

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ebcfdcdfa3bdc7a757e7a09d4af0930bb0ab6ae427582caca3e7e4491aaf78b8
 size 18915040

 version https://git-lfs.github.com/spec/v1
+oid sha256:a7a96565adb18def37a1340113d75649638f134820ae5a4e392f65280e9a5caa
 size 18915040

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d7d2b1f4649fb7a0161e536a860fec72b1a52fca6f2468305dd94b096031f471
 size 2603258

 version https://git-lfs.github.com/spec/v1
+oid sha256:e6d4a935399a73989d68a6b900b12edf4ca9281c8ca4e998c60b9d245163b3c7
 size 2603258

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ae28f9b2f5015b95ad2f650d54d1979a68d40e31cc70d2fd5c54ddf3ae4a6519
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:f38cdf3aedf46cd440f3f4dbc850109a1d275c7ba23da0f6101854bd55819b97
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:57695ed4dda5b134b6f2bba8cf8471ac59a4530c5d9c347e44749e6041039a0e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:7d2b68cfebeb5175d553b1427044f3f0df89ff55d6dafbbecb0ca12fed4d4dc5
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,37 +1,319 @@
 {
-  "best_metric": 2.240180015563965,
-  "best_model_checkpoint": "dq158/pingusPongus/checkpoint-1581",
   "epoch": 1.0,
   "eval_steps": 500,
-  "global_step": 1581,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.32,
-      "learning_rate": 0.0005,
-      "loss": 2.8358,
       "step": 500
     },
     {
-      "epoch": 0.63,
-      "learning_rate": 0.0004943963563220183,
-      "loss": 2.4569,
       "step": 1000
     },
     {
-      "epoch": 0.95,
-      "learning_rate": 0.0004778366318678313,
-      "loss": 2.3821,
       "step": 1500
     },
     {
       "epoch": 1.0,
       "eval_bleu": 1.0,
       "eval_brevity_penalty": 1.0,
       "eval_length_ratio": 1.0,
-      "eval_loss": 2.240180015563965,
       "eval_precisions": [
         1.0,
         1.0,
@@ -39,16 +321,16 @@
         1.0
       ],
       "eval_reference_length": 1439232,
-      "eval_runtime": 880.2333,
-      "eval_samples_per_second": 3.193,
-      "eval_steps_per_second": 0.2,
       "eval_translation_length": 1439232,
-      "step": 1581
     }
   ],
   "logging_steps": 500,
-  "max_steps": 7905,
-  "num_train_epochs": 5,
   "save_steps": 500,
   "total_flos": 2.1666322696686797e+17,
   "trial_name": null,

 {
+  "best_metric": 2.452415943145752,
+  "best_model_checkpoint": "dq158/pingusPongus/checkpoint-25291",
   "epoch": 1.0,
   "eval_steps": 500,
+  "global_step": 25291,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 3.2511,
       "step": 500
     },
     {
+      "epoch": 0.04,
+      "learning_rate": 0.0003999995708217828,
+      "loss": 2.8938,
       "step": 1000
     },
     {
+      "epoch": 0.06,
+      "learning_rate": 0.00039999828328897294,
+      "loss": 2.7835,
       "step": 1500
     },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.00039999613740709635,
+      "loss": 2.7405,
+      "step": 2000
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.00039999313318536277,
+      "loss": 2.6816,
+      "step": 2500
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00039998927063666543,
+      "loss": 2.7085,
+      "step": 3000
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00039998454977758173,
+      "loss": 2.7713,
+      "step": 3500
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0003999789706283725,
+      "loss": 2.6722,
+      "step": 4000
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0003999725332129823,
+      "loss": 2.6873,
+      "step": 4500
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.000399965237559039,
+      "loss": 2.6403,
+      "step": 5000
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00039995708369785403,
+      "loss": 2.6328,
+      "step": 5500
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.000399948071664422,
+      "loss": 2.6212,
+      "step": 6000
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0003999382014974206,
+      "loss": 2.581,
+      "step": 6500
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00039992747323921036,
+      "loss": 2.6699,
+      "step": 7000
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0003999158869358347,
+      "loss": 2.6095,
+      "step": 7500
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.00039990344263701955,
+      "loss": 2.6429,
+      "step": 8000
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.00039989014039617295,
+      "loss": 2.6528,
+      "step": 8500
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0003998759802703854,
+      "loss": 2.5395,
+      "step": 9000
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.000399860962320429,
+      "loss": 2.6032,
+      "step": 9500
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00039984508661075754,
+      "loss": 2.6129,
+      "step": 10000
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0003998283532095061,
+      "loss": 2.584,
+      "step": 10500
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00039981076218849077,
+      "loss": 2.6327,
+      "step": 11000
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.00039979231362320845,
+      "loss": 2.6264,
+      "step": 11500
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.00039977300759283627,
+      "loss": 2.6226,
+      "step": 12000
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.0003997528441802316,
+      "loss": 2.5442,
+      "step": 12500
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.0003997318234719313,
+      "loss": 2.622,
+      "step": 13000
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.0003997099455581518,
+      "loss": 2.5825,
+      "step": 13500
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.0003996872105327882,
+      "loss": 2.6382,
+      "step": 14000
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.0003996636184934145,
+      "loss": 2.5633,
+      "step": 14500
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00039963916954128235,
+      "loss": 2.5505,
+      "step": 15000
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.0003996138637813214,
+      "loss": 2.5991,
+      "step": 15500
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00039958770132213857,
+      "loss": 2.5736,
+      "step": 16000
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.00039956068227601734,
+      "loss": 2.5436,
+      "step": 16500
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.0003995328067589175,
+      "loss": 2.5502,
+      "step": 17000
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.00039950407489047486,
+      "loss": 2.5067,
+      "step": 17500
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.00039947448679400027,
+      "loss": 2.6009,
+      "step": 18000
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.00039944404259647934,
+      "loss": 2.5333,
+      "step": 18500
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.00039941274242857205,
+      "loss": 2.5414,
+      "step": 19000
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.00039938058642461174,
+      "loss": 2.5632,
+      "step": 19500
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.0003993475747226051,
+      "loss": 2.5763,
+      "step": 20000
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.0003993137074642312,
+      "loss": 2.619,
+      "step": 20500
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 0.00039927898479484076,
+      "loss": 2.5508,
+      "step": 21000
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 0.0003992434068634561,
+      "loss": 2.5927,
+      "step": 21500
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 0.00039920697382276986,
+      "loss": 2.5342,
+      "step": 22000
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 0.0003991696858291447,
+      "loss": 2.5948,
+      "step": 22500
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 0.0003991315430426126,
+      "loss": 2.5893,
+      "step": 23000
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 0.0003990925456268741,
+      "loss": 2.5284,
+      "step": 23500
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 0.0003990526937492976,
+      "loss": 2.5097,
+      "step": 24000
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 0.0003990119875809187,
+      "loss": 2.6065,
+      "step": 24500
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 0.00039897042729643934,
+      "loss": 2.5628,
+      "step": 25000
+    },
     {
       "epoch": 1.0,
       "eval_bleu": 1.0,
       "eval_brevity_penalty": 1.0,
       "eval_length_ratio": 1.0,
+      "eval_loss": 2.452415943145752,
       "eval_precisions": [
         1.0,
         1.0,
         1.0
       ],
       "eval_reference_length": 1439232,
+      "eval_runtime": 2451.7899,
+      "eval_samples_per_second": 1.147,
+      "eval_steps_per_second": 1.147,
       "eval_translation_length": 1439232,
+      "step": 25291
     }
   ],
   "logging_steps": 500,
+  "max_steps": 758730,
+  "num_train_epochs": 30,
   "save_steps": 500,
   "total_flos": 2.1666322696686797e+17,
   "trial_name": null,

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3e3543db1b51c5d7f6f63f268f46bee0582a3b0fa6f02c3500965ec94f79e65a
 size 4728

 version https://git-lfs.github.com/spec/v1
+oid sha256:703f54bdd3d2d84d639a2e91c0daab39fba039bc62b2aa3775d8910005bb9a6c
 size 4728