Training in progress, epoch 1, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_config.json +2 -2
last-checkpoint/adapter_model.safetensors +2 -2
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +171 -184
last-checkpoint/training_args.bin +1 -1

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -8,11 +8,11 @@
   "init_lora_weights": true,
   "layers_pattern": null,
   "layers_to_transform": null,
-  "lora_alpha": 32,
   "lora_dropout": 0.1,
   "modules_to_save": null,
   "peft_type": "LORA",
-  "r": 8,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [

   "init_lora_weights": true,
   "layers_pattern": null,
   "layers_to_transform": null,
+  "lora_alpha": 16,
   "lora_dropout": 0.1,
   "modules_to_save": null,
   "peft_type": "LORA",
+  "r": 16,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:70b4707eb6c214911672a8f3db9b0750144a4f27155736566a9396deed071d8a
-size 18915040

 version https://git-lfs.github.com/spec/v1
+oid sha256:cddb389ec996ea222ea64641ad82e971004bea1a36efb3d928b06ad37549e06d
+size 37789864

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c15b00248d28cdc84ab89f0c61c238b907e5551894b6c2da4c580a4d0f3bf06a
-size 2603258

 version https://git-lfs.github.com/spec/v1
+oid sha256:c259c7c1ce376b53b2cf2ff8b278c69f6087c2c35acfc297be97140fc4da3060
+size 2621690

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2ba8427ac6eea57ec5734699585fe0dd282eb1503ee998fdc4232e54bb7d6354
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:47993ea280f151c8fcf3c46332c56341dd2d240bb3795a6056a9ef944063ec76
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6bf6b8361429219bc23dcf3f544eb0a05c3c81c223b22ff1dbb678c4e9f08edf
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:656702f08fe7bcfeb7d3951bb3d0043f064f7f8af02274d11f1f24636dc15019
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,357 +1,344 @@
 {
-  "best_metric": 2.3343088626861572,
-  "best_model_checkpoint": "dq158/pingusPongus/checkpoint-25292",
-  "epoch": 2.0,
   "eval_steps": 500,
-  "global_step": 25292,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.04,
-      "learning_rate": 8e-05,
-      "loss": 3.4297,
       "step": 500
     },
     {
-      "epoch": 0.08,
-      "learning_rate": 7.999965623174768e-05,
-      "loss": 2.9121,
       "step": 1000
     },
     {
-      "epoch": 0.12,
-      "learning_rate": 7.999862493289958e-05,
-      "loss": 2.8542,
       "step": 1500
     },
     {
-      "epoch": 0.16,
-      "learning_rate": 7.999690612118205e-05,
-      "loss": 2.7645,
       "step": 2000
     },
     {
-      "epoch": 0.2,
-      "learning_rate": 7.999449982613875e-05,
-      "loss": 2.7235,
       "step": 2500
     },
     {
-      "epoch": 0.24,
-      "learning_rate": 7.99914060891301e-05,
-      "loss": 2.712,
       "step": 3000
     },
     {
-      "epoch": 0.28,
-      "learning_rate": 7.998762496333249e-05,
-      "loss": 2.6692,
       "step": 3500
     },
     {
-      "epoch": 0.32,
-      "learning_rate": 7.998315651373749e-05,
-      "loss": 2.6532,
       "step": 4000
     },
     {
-      "epoch": 0.36,
-      "learning_rate": 7.997800081715064e-05,
-      "loss": 2.6572,
       "step": 4500
     },
     {
-      "epoch": 0.4,
-      "learning_rate": 7.99721579621902e-05,
-      "loss": 2.6498,
       "step": 5000
     },
     {
-      "epoch": 0.43,
-      "learning_rate": 7.996562804928555e-05,
-      "loss": 2.6156,
       "step": 5500
     },
     {
-      "epoch": 0.47,
-      "learning_rate": 7.995841119067557e-05,
-      "loss": 2.6079,
       "step": 6000
     },
     {
-      "epoch": 0.51,
-      "learning_rate": 7.995050751040655e-05,
-      "loss": 2.5754,
       "step": 6500
     },
     {
-      "epoch": 0.55,
-      "learning_rate": 7.994191714433023e-05,
-      "loss": 2.5303,
       "step": 7000
     },
     {
-      "epoch": 0.59,
-      "learning_rate": 7.993264024010138e-05,
-      "loss": 2.6282,
       "step": 7500
     },
     {
-      "epoch": 0.63,
-      "learning_rate": 7.992267695717525e-05,
-      "loss": 2.558,
       "step": 8000
     },
     {
-      "epoch": 0.67,
-      "learning_rate": 7.991202746680485e-05,
-      "loss": 2.57,
       "step": 8500
     },
     {
-      "epoch": 0.71,
-      "learning_rate": 7.9900691952038e-05,
-      "loss": 2.6049,
       "step": 9000
     },
     {
-      "epoch": 0.75,
-      "learning_rate": 7.988867060771425e-05,
-      "loss": 2.6004,
       "step": 9500
     },
     {
-      "epoch": 0.79,
-      "learning_rate": 7.987596364046138e-05,
-      "loss": 2.5497,
       "step": 10000
     },
     {
-      "epoch": 0.83,
-      "learning_rate": 7.986257126869202e-05,
-      "loss": 2.5397,
       "step": 10500
     },
     {
-      "epoch": 0.87,
-      "learning_rate": 7.984849372259976e-05,
-      "loss": 2.5058,
       "step": 11000
     },
     {
-      "epoch": 0.91,
-      "learning_rate": 7.983373124415528e-05,
-      "loss": 2.5385,
       "step": 11500
     },
     {
-      "epoch": 0.95,
-      "learning_rate": 7.981828408710215e-05,
-      "loss": 2.523,
       "step": 12000
     },
     {
-      "epoch": 0.99,
-      "learning_rate": 7.980215251695248e-05,
-      "loss": 2.5043,
       "step": 12500
     },
     {
-      "epoch": 1.0,
-      "eval_bleu": 1.0,
-      "eval_brevity_penalty": 1.0,
-      "eval_length_ratio": 1.0,
-      "eval_loss": 2.393324613571167,
-      "eval_precisions": [
-        1.0,
-        1.0,
-        1.0,
-        1.0
-      ],
-      "eval_reference_length": 1439232,
-      "eval_runtime": 1581.2805,
-      "eval_samples_per_second": 1.778,
-      "eval_steps_per_second": 0.889,
-      "eval_translation_length": 1439232,
-      "step": 12646
-    },
-    {
-      "epoch": 1.03,
-      "learning_rate": 7.978533681098235e-05,
-      "loss": 2.4976,
       "step": 13000
     },
     {
-      "epoch": 1.07,
-      "learning_rate": 7.976783725822707e-05,
-      "loss": 2.4559,
       "step": 13500
     },
     {
-      "epoch": 1.11,
-      "learning_rate": 7.974965415947614e-05,
-      "loss": 2.5159,
       "step": 14000
     },
     {
-      "epoch": 1.15,
-      "learning_rate": 7.97307878272682e-05,
-      "loss": 2.4853,
       "step": 14500
     },
     {
-      "epoch": 1.19,
-      "learning_rate": 7.971123858588551e-05,
-      "loss": 2.5642,
       "step": 15000
     },
     {
-      "epoch": 1.23,
-      "learning_rate": 7.969100677134854e-05,
-      "loss": 2.4762,
       "step": 15500
     },
     {
-      "epoch": 1.27,
-      "learning_rate": 7.967009273141005e-05,
-      "loss": 2.4515,
       "step": 16000
     },
     {
-      "epoch": 1.3,
-      "learning_rate": 7.964849682554919e-05,
-      "loss": 2.5239,
       "step": 16500
     },
     {
-      "epoch": 1.34,
-      "learning_rate": 7.962621942496528e-05,
-      "loss": 2.4723,
       "step": 17000
     },
     {
-      "epoch": 1.38,
-      "learning_rate": 7.96032609125715e-05,
-      "loss": 2.5052,
       "step": 17500
     },
     {
-      "epoch": 1.42,
-      "learning_rate": 7.957962168298823e-05,
-      "loss": 2.4817,
       "step": 18000
     },
     {
-      "epoch": 1.46,
-      "learning_rate": 7.95553021425363e-05,
-      "loss": 2.505,
       "step": 18500
     },
     {
-      "epoch": 1.5,
-      "learning_rate": 7.953030270922999e-05,
-      "loss": 2.5106,
       "step": 19000
     },
     {
-      "epoch": 1.54,
-      "learning_rate": 7.950462381276989e-05,
-      "loss": 2.4658,
       "step": 19500
     },
     {
-      "epoch": 1.58,
-      "learning_rate": 7.947826589453548e-05,
-      "loss": 2.4544,
       "step": 20000
     },
     {
-      "epoch": 1.62,
-      "learning_rate": 7.94512294075775e-05,
-      "loss": 2.462,
       "step": 20500
     },
     {
-      "epoch": 1.66,
-      "learning_rate": 7.942351481661027e-05,
-      "loss": 2.4447,
       "step": 21000
     },
     {
-      "epoch": 1.7,
-      "learning_rate": 7.93951225980036e-05,
-      "loss": 2.4918,
       "step": 21500
     },
     {
-      "epoch": 1.74,
-      "learning_rate": 7.936605323977468e-05,
-      "loss": 2.4594,
       "step": 22000
     },
     {
-      "epoch": 1.78,
-      "learning_rate": 7.933630724157962e-05,
-      "loss": 2.5028,
       "step": 22500
     },
     {
-      "epoch": 1.82,
-      "learning_rate": 7.93058851147049e-05,
-      "loss": 2.4924,
       "step": 23000
     },
     {
-      "epoch": 1.86,
-      "learning_rate": 7.92747873820586e-05,
-      "loss": 2.4138,
       "step": 23500
     },
     {
-      "epoch": 1.9,
-      "learning_rate": 7.924301457816139e-05,
-      "loss": 2.4198,
       "step": 24000
     },
     {
-      "epoch": 1.94,
-      "learning_rate": 7.921056724913732e-05,
-      "loss": 2.4524,
       "step": 24500
     },
     {
-      "epoch": 1.98,
-      "learning_rate": 7.917744595270448e-05,
-      "loss": 2.4497,
       "step": 25000
     },
     {
-      "epoch": 2.0,
       "eval_bleu": 1.0,
       "eval_brevity_penalty": 1.0,
       "eval_length_ratio": 1.0,
-      "eval_loss": 2.3343088626861572,
       "eval_precisions": [
         1.0,
         1.0,
         1.0,
         1.0
       ],
-      "eval_reference_length": 1439232,
-      "eval_runtime": 1578.692,
-      "eval_samples_per_second": 1.781,
-      "eval_steps_per_second": 0.891,
-      "eval_translation_length": 1439232,
-      "step": 25292
     }
   ],
   "logging_steps": 500,
-  "max_steps": 379380,
   "num_train_epochs": 30,
-  "save_steps": 500,
-  "total_flos": 4.3332645393373594e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 3.196232318878174,
+  "best_model_checkpoint": "dq158/pingusPongus/checkpoint-25511",
+  "epoch": 1.0,
   "eval_steps": 500,
+  "global_step": 25511,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.02,
+      "learning_rate": 1e-05,
+      "loss": 4.6736,
       "step": 500
     },
     {
+      "epoch": 0.04,
+      "learning_rate": 9.999989454922376e-06,
+      "loss": 4.4654,
       "step": 1000
     },
     {
+      "epoch": 0.06,
+      "learning_rate": 9.999957819733985e-06,
+      "loss": 4.1542,
       "step": 1500
     },
     {
+      "epoch": 0.08,
+      "learning_rate": 9.999905094568263e-06,
+      "loss": 3.9815,
       "step": 2000
     },
     {
+      "epoch": 0.1,
+      "learning_rate": 9.999831279647608e-06,
+      "loss": 3.8519,
       "step": 2500
     },
     {
+      "epoch": 0.12,
+      "learning_rate": 9.999736375283374e-06,
+      "loss": 3.8266,
       "step": 3000
     },
     {
+      "epoch": 0.14,
+      "learning_rate": 9.999620381875868e-06,
+      "loss": 3.7361,
       "step": 3500
     },
     {
+      "epoch": 0.16,
+      "learning_rate": 9.999483299914356e-06,
+      "loss": 3.7198,
       "step": 4000
     },
     {
+      "epoch": 0.18,
+      "learning_rate": 9.999325129977053e-06,
+      "loss": 3.5977,
       "step": 4500
     },
     {
+      "epoch": 0.2,
+      "learning_rate": 9.999145872731126e-06,
+      "loss": 3.6686,
       "step": 5000
     },
     {
+      "epoch": 0.22,
+      "learning_rate": 9.998945528932687e-06,
+      "loss": 3.5862,
       "step": 5500
     },
     {
+      "epoch": 0.24,
+      "learning_rate": 9.998724099426791e-06,
+      "loss": 3.568,
       "step": 6000
     },
     {
+      "epoch": 0.25,
+      "learning_rate": 9.998481585147437e-06,
+      "loss": 3.6352,
       "step": 6500
     },
     {
+      "epoch": 0.27,
+      "learning_rate": 9.998217987117555e-06,
+      "loss": 3.5982,
       "step": 7000
     },
     {
+      "epoch": 0.29,
+      "learning_rate": 9.997933306449012e-06,
+      "loss": 3.5048,
       "step": 7500
     },
     {
+      "epoch": 0.31,
+      "learning_rate": 9.9976275443426e-06,
+      "loss": 3.4998,
       "step": 8000
     },
     {
+      "epoch": 0.33,
+      "learning_rate": 9.99730070208803e-06,
+      "loss": 3.5354,
       "step": 8500
     },
     {
+      "epoch": 0.35,
+      "learning_rate": 9.996952781063936e-06,
+      "loss": 3.5451,
       "step": 9000
     },
     {
+      "epoch": 0.37,
+      "learning_rate": 9.996583782737858e-06,
+      "loss": 3.5485,
       "step": 9500
     },
     {
+      "epoch": 0.39,
+      "learning_rate": 9.996193708666245e-06,
+      "loss": 3.4183,
       "step": 10000
     },
     {
+      "epoch": 0.41,
+      "learning_rate": 9.995782560494436e-06,
+      "loss": 3.481,
       "step": 10500
     },
     {
+      "epoch": 0.43,
+      "learning_rate": 9.995350339956672e-06,
+      "loss": 3.4403,
       "step": 11000
     },
     {
+      "epoch": 0.45,
+      "learning_rate": 9.994897048876073e-06,
+      "loss": 3.4325,
       "step": 11500
     },
     {
+      "epoch": 0.47,
+      "learning_rate": 9.99442268916463e-06,
+      "loss": 3.4591,
       "step": 12000
     },
     {
+      "epoch": 0.49,
+      "learning_rate": 9.99392726282321e-06,
+      "loss": 3.4338,
       "step": 12500
     },
     {
+      "epoch": 0.51,
+      "learning_rate": 9.993410771941536e-06,
+      "loss": 3.3885,
       "step": 13000
     },
     {
+      "epoch": 0.53,
+      "learning_rate": 9.992873218698184e-06,
+      "loss": 3.4316,
       "step": 13500
     },
     {
+      "epoch": 0.55,
+      "learning_rate": 9.992314605360569e-06,
+      "loss": 3.3734,
       "step": 14000
     },
     {
+      "epoch": 0.57,
+      "learning_rate": 9.99173493428494e-06,
+      "loss": 3.4548,
       "step": 14500
     },
     {
+      "epoch": 0.59,
+      "learning_rate": 9.991134207916368e-06,
+      "loss": 3.3727,
       "step": 15000
     },
     {
+      "epoch": 0.61,
+      "learning_rate": 9.990512428788733e-06,
+      "loss": 3.4138,
       "step": 15500
     },
     {
+      "epoch": 0.63,
+      "learning_rate": 9.989869599524722e-06,
+      "loss": 3.4315,
       "step": 16000
     },
     {
+      "epoch": 0.65,
+      "learning_rate": 9.989205722835806e-06,
+      "loss": 3.3758,
       "step": 16500
     },
     {
+      "epoch": 0.67,
+      "learning_rate": 9.988520801522239e-06,
+      "loss": 3.4039,
       "step": 17000
     },
     {
+      "epoch": 0.69,
+      "learning_rate": 9.98781483847304e-06,
+      "loss": 3.3775,
       "step": 17500
     },
     {
+      "epoch": 0.71,
+      "learning_rate": 9.987087836665983e-06,
+      "loss": 3.3514,
       "step": 18000
     },
     {
+      "epoch": 0.73,
+      "learning_rate": 9.986339799167584e-06,
+      "loss": 3.4121,
       "step": 18500
     },
     {
+      "epoch": 0.74,
+      "learning_rate": 9.98557072913309e-06,
+      "loss": 3.3279,
       "step": 19000
     },
     {
+      "epoch": 0.76,
+      "learning_rate": 9.98478062980646e-06,
+      "loss": 3.4495,
       "step": 19500
     },
     {
+      "epoch": 0.78,
+      "learning_rate": 9.983969504520359e-06,
+      "loss": 3.4009,
       "step": 20000
     },
     {
+      "epoch": 0.8,
+      "learning_rate": 9.983137356696137e-06,
+      "loss": 3.4006,
       "step": 20500
     },
     {
+      "epoch": 0.82,
+      "learning_rate": 9.982284189843823e-06,
+      "loss": 3.3278,
       "step": 21000
     },
     {
+      "epoch": 0.84,
+      "learning_rate": 9.981410007562096e-06,
+      "loss": 3.3682,
       "step": 21500
     },
     {
+      "epoch": 0.86,
+      "learning_rate": 9.980514813538288e-06,
+      "loss": 3.3481,
       "step": 22000
     },
     {
+      "epoch": 0.88,
+      "learning_rate": 9.979598611548355e-06,
+      "loss": 3.2805,
       "step": 22500
     },
     {
+      "epoch": 0.9,
+      "learning_rate": 9.978661405456862e-06,
+      "loss": 3.3311,
       "step": 23000
     },
     {
+      "epoch": 0.92,
+      "learning_rate": 9.977703199216976e-06,
+      "loss": 3.2987,
       "step": 23500
     },
     {
+      "epoch": 0.94,
+      "learning_rate": 9.976723996870443e-06,
+      "loss": 3.3607,
       "step": 24000
     },
     {
+      "epoch": 0.96,
+      "learning_rate": 9.975723802547566e-06,
+      "loss": 3.318,
       "step": 24500
     },
     {
+      "epoch": 0.98,
+      "learning_rate": 9.974702620467194e-06,
+      "loss": 3.2996,
       "step": 25000
     },
     {
+      "epoch": 1.0,
+      "learning_rate": 9.973660454936708e-06,
+      "loss": 3.2939,
+      "step": 25500
+    },
+    {
+      "epoch": 1.0,
       "eval_bleu": 1.0,
       "eval_brevity_penalty": 1.0,
       "eval_length_ratio": 1.0,
+      "eval_loss": 3.196232318878174,
       "eval_precisions": [
         1.0,
         1.0,
         1.0,
         1.0
       ],
+      "eval_reference_length": 5805056,
+      "eval_runtime": 9534.1717,
+      "eval_samples_per_second": 1.189,
+      "eval_steps_per_second": 0.297,
+      "eval_translation_length": 5805056,
+      "step": 25511
     }
   ],
   "logging_steps": 500,
+  "max_steps": 765330,
   "num_train_epochs": 30,
+  "save_steps": 1000,
+  "total_flos": 8.756537195747082e+17,
   "trial_name": null,
   "trial_params": null
 }

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:24ee12b5b09ba5eb0b3c9a6d80467a1a4ad850b0cfd569800e5c0f0898b97979
 size 4728

 version https://git-lfs.github.com/spec/v1
+oid sha256:823454cc09bc87998bcf33516d9aabd69b9b7b70be73426c4423a590fb9bf54a
 size 4728