Training in progress, epoch 5, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +330 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:96a7404b8a9bf4f3429340685e7b73eeabd93d59ae6548dc2c60b1db6f076d93
 size 37789864

 version https://git-lfs.github.com/spec/v1
+oid sha256:b127cfb645d1c75f132a876553609b5374befd9def67d558e5974fa97067d21c
 size 37789864

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:330d9e1204813ac3853aa721f905d8c6b2cb7ac5600d6e2c7c1e574f2fdb63b6
 size 2622266

 version https://git-lfs.github.com/spec/v1
+oid sha256:54d9a221b97b4a103c3bbd0fd8abf8231538258d0486fa04d26296da0b8c69c4
 size 2622266

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3e7f9a5c7d8d5bfdb0fe5d750f5f6aec4fd34af75f1125908370bc0f6572779a
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:9c9b188ef411c860fa162f3665ea4a77b4e06ff07ab727a5f17c10e78d9237ed
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1e3ba21b67351b0add0fbc5afde8275e09da00755e1bac11b87c285f4525c581
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:29fd4cd191139dd97c05600899e5a66a54004c5898470ac779c283abb76b7689
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 2.8476955890655518,
-  "best_model_checkpoint": "dq158/pingusPongus/checkpoint-102044",
-  "epoch": 4.0,
   "eval_steps": 500,
-  "global_step": 102044,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1307,13 +1307,338 @@
       "eval_steps_per_second": 0.291,
       "eval_translation_length": 5805056,
       "step": 102044
     }
   ],
   "logging_steps": 500,
   "max_steps": 765330,
   "num_train_epochs": 30,
   "save_steps": 1000,
-  "total_flos": 3.502614878298833e+18,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 2.8255138397216797,
+  "best_model_checkpoint": "dq158/pingusPongus/checkpoint-127555",
+  "epoch": 5.0,
   "eval_steps": 500,
+  "global_step": 127555,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 0.291,
       "eval_translation_length": 5805056,
       "step": 102044
+    },
+    {
+      "epoch": 4.02,
+      "learning_rate": 7.65403033800726e-05,
+      "loss": 2.9547,
+      "step": 102500
+    },
+    {
+      "epoch": 4.04,
+      "learning_rate": 7.6506805368716e-05,
+      "loss": 2.8596,
+      "step": 103000
+    },
+    {
+      "epoch": 4.06,
+      "learning_rate": 7.647315337052083e-05,
+      "loss": 2.9155,
+      "step": 103500
+    },
+    {
+      "epoch": 4.08,
+      "learning_rate": 7.643934752743228e-05,
+      "loss": 2.8802,
+      "step": 104000
+    },
+    {
+      "epoch": 4.1,
+      "learning_rate": 7.640538798204443e-05,
+      "loss": 2.9248,
+      "step": 104500
+    },
+    {
+      "epoch": 4.12,
+      "learning_rate": 7.63712748775997e-05,
+      "loss": 2.8865,
+      "step": 105000
+    },
+    {
+      "epoch": 4.14,
+      "learning_rate": 7.633700835798824e-05,
+      "loss": 2.9383,
+      "step": 105500
+    },
+    {
+      "epoch": 4.16,
+      "learning_rate": 7.630258856774726e-05,
+      "loss": 2.8581,
+      "step": 106000
+    },
+    {
+      "epoch": 4.17,
+      "learning_rate": 7.626801565206054e-05,
+      "loss": 2.9359,
+      "step": 106500
+    },
+    {
+      "epoch": 4.19,
+      "learning_rate": 7.623328975675768e-05,
+      "loss": 2.9459,
+      "step": 107000
+    },
+    {
+      "epoch": 4.21,
+      "learning_rate": 7.619841102831362e-05,
+      "loss": 2.9888,
+      "step": 107500
+    },
+    {
+      "epoch": 4.23,
+      "learning_rate": 7.616337961384787e-05,
+      "loss": 2.8815,
+      "step": 108000
+    },
+    {
+      "epoch": 4.25,
+      "learning_rate": 7.612819566112408e-05,
+      "loss": 2.9105,
+      "step": 108500
+    },
+    {
+      "epoch": 4.27,
+      "learning_rate": 7.609285931854922e-05,
+      "loss": 2.9028,
+      "step": 109000
+    },
+    {
+      "epoch": 4.29,
+      "learning_rate": 7.605737073517308e-05,
+      "loss": 2.9141,
+      "step": 109500
+    },
+    {
+      "epoch": 4.31,
+      "learning_rate": 7.602173006068763e-05,
+      "loss": 2.9244,
+      "step": 110000
+    },
+    {
+      "epoch": 4.33,
+      "learning_rate": 7.598593744542632e-05,
+      "loss": 2.8534,
+      "step": 110500
+    },
+    {
+      "epoch": 4.35,
+      "learning_rate": 7.594999304036352e-05,
+      "loss": 2.8936,
+      "step": 111000
+    },
+    {
+      "epoch": 4.37,
+      "learning_rate": 7.591389699711384e-05,
+      "loss": 2.8866,
+      "step": 111500
+    },
+    {
+      "epoch": 4.39,
+      "learning_rate": 7.587764946793153e-05,
+      "loss": 2.9335,
+      "step": 112000
+    },
+    {
+      "epoch": 4.41,
+      "learning_rate": 7.584125060570976e-05,
+      "loss": 2.7982,
+      "step": 112500
+    },
+    {
+      "epoch": 4.43,
+      "learning_rate": 7.58047005639801e-05,
+      "loss": 2.8565,
+      "step": 113000
+    },
+    {
+      "epoch": 4.45,
+      "learning_rate": 7.576799949691174e-05,
+      "loss": 2.8682,
+      "step": 113500
+    },
+    {
+      "epoch": 4.47,
+      "learning_rate": 7.573114755931093e-05,
+      "loss": 2.887,
+      "step": 114000
+    },
+    {
+      "epoch": 4.49,
+      "learning_rate": 7.569414490662027e-05,
+      "loss": 2.9001,
+      "step": 114500
+    },
+    {
+      "epoch": 4.51,
+      "learning_rate": 7.565699169491811e-05,
+      "loss": 2.8804,
+      "step": 115000
+    },
+    {
+      "epoch": 4.53,
+      "learning_rate": 7.561968808091784e-05,
+      "loss": 2.9395,
+      "step": 115500
+    },
+    {
+      "epoch": 4.55,
+      "learning_rate": 7.558223422196728e-05,
+      "loss": 2.922,
+      "step": 116000
+    },
+    {
+      "epoch": 4.57,
+      "learning_rate": 7.554463027604798e-05,
+      "loss": 2.8777,
+      "step": 116500
+    },
+    {
+      "epoch": 4.59,
+      "learning_rate": 7.550687640177451e-05,
+      "loss": 2.8746,
+      "step": 117000
+    },
+    {
+      "epoch": 4.61,
+      "learning_rate": 7.54689727583939e-05,
+      "loss": 2.9362,
+      "step": 117500
+    },
+    {
+      "epoch": 4.63,
+      "learning_rate": 7.543091950578492e-05,
+      "loss": 2.8282,
+      "step": 118000
+    },
+    {
+      "epoch": 4.65,
+      "learning_rate": 7.539271680445734e-05,
+      "loss": 2.8902,
+      "step": 118500
+    },
+    {
+      "epoch": 4.66,
+      "learning_rate": 7.535436481555135e-05,
+      "loss": 2.9123,
+      "step": 119000
+    },
+    {
+      "epoch": 4.68,
+      "learning_rate": 7.531586370083684e-05,
+      "loss": 2.847,
+      "step": 119500
+    },
+    {
+      "epoch": 4.7,
+      "learning_rate": 7.527721362271269e-05,
+      "loss": 2.8664,
+      "step": 120000
+    },
+    {
+      "epoch": 4.72,
+      "learning_rate": 7.523841474420614e-05,
+      "loss": 2.9341,
+      "step": 120500
+    },
+    {
+      "epoch": 4.74,
+      "learning_rate": 7.519946722897209e-05,
+      "loss": 2.8942,
+      "step": 121000
+    },
+    {
+      "epoch": 4.76,
+      "learning_rate": 7.516037124129231e-05,
+      "loss": 2.9092,
+      "step": 121500
+    },
+    {
+      "epoch": 4.78,
+      "learning_rate": 7.512112694607494e-05,
+      "loss": 2.8891,
+      "step": 122000
+    },
+    {
+      "epoch": 4.8,
+      "learning_rate": 7.508173450885361e-05,
+      "loss": 2.9581,
+      "step": 122500
+    },
+    {
+      "epoch": 4.82,
+      "learning_rate": 7.504219409578685e-05,
+      "loss": 3.0015,
+      "step": 123000
+    },
+    {
+      "epoch": 4.84,
+      "learning_rate": 7.500250587365735e-05,
+      "loss": 2.9472,
+      "step": 123500
+    },
+    {
+      "epoch": 4.86,
+      "learning_rate": 7.496267000987127e-05,
+      "loss": 2.8975,
+      "step": 124000
+    },
+    {
+      "epoch": 4.88,
+      "learning_rate": 7.49226866724575e-05,
+      "loss": 2.8226,
+      "step": 124500
+    },
+    {
+      "epoch": 4.9,
+      "learning_rate": 7.488255603006703e-05,
+      "loss": 2.8738,
+      "step": 125000
+    },
+    {
+      "epoch": 4.92,
+      "learning_rate": 7.484227825197214e-05,
+      "loss": 2.9323,
+      "step": 125500
+    },
+    {
+      "epoch": 4.94,
+      "learning_rate": 7.480185350806574e-05,
+      "loss": 2.9436,
+      "step": 126000
+    },
+    {
+      "epoch": 4.96,
+      "learning_rate": 7.476128196886067e-05,
+      "loss": 2.8861,
+      "step": 126500
+    },
+    {
+      "epoch": 4.98,
+      "learning_rate": 7.472056380548893e-05,
+      "loss": 2.9255,
+      "step": 127000
+    },
+    {
+      "epoch": 5.0,
+      "learning_rate": 7.467969918970099e-05,
+      "loss": 2.8591,
+      "step": 127500
+    },
+    {
+      "epoch": 5.0,
+      "eval_bleu": 1.0,
+      "eval_brevity_penalty": 1.0,
+      "eval_length_ratio": 1.0,
+      "eval_loss": 2.8255138397216797,
+      "eval_precisions": [
+        1.0,
+        1.0,
+        1.0,
+        1.0
+      ],
+      "eval_reference_length": 5805056,
+      "eval_runtime": 10189.5043,
+      "eval_samples_per_second": 1.113,
+      "eval_steps_per_second": 0.278,
+      "eval_translation_length": 5805056,
+      "step": 127555
     }
   ],
   "logging_steps": 500,
   "max_steps": 765330,
   "num_train_epochs": 30,
   "save_steps": 1000,
+  "total_flos": 4.378268597873541e+18,
   "trial_name": null,
   "trial_params": null
 }