Training in progress, step 100, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/README.md +38 -0
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +10 -570
last-checkpoint/training_args.bin +1 -1

last-checkpoint/README.md CHANGED Viewed

@@ -216,4 +216,42 @@ The following `bitsandbytes` quantization config was used during training:
 ### Framework versions
 - PEFT 0.7.0.dev0

 ### Framework versions
+- PEFT 0.7.0.dev0
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: True
+- load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+### Framework versions
+- PEFT 0.7.0.dev0
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: True
+- load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+### Framework versions
 - PEFT 0.7.0.dev0

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5a2a4b8d2b037148236b0292be96b6f20382f391c14a3f0a30006aeb1e987fb8
 size 9444296

 version https://git-lfs.github.com/spec/v1
+oid sha256:436ac47f550180c481cd11c0ce4b4e5b4b28617cba70726682d529c5278ee00f
 size 9444296

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:12540fe9cfb0f889d8fed8fda45e9c6894f50517bf8c44deb785e581448efd66
 size 18902665

 version https://git-lfs.github.com/spec/v1
+oid sha256:64cc9defec0add6325a218977493d532d8056c94a70a3e0dc85e33d4d306115d
 size 18902665

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c3dc329a0255f098244dba06047a5cfcf6462bf87da74eba7aead60769732677
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:7393dbde4bffa4ea759a39a2e6dd5d0164b7e91c9e8ab3bfffc0ca38d5daac71
 size 14575

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1ef51ed05818f33aebca9592cb64baf0df006aad2a34a7cf944f4a48b70afce3
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:216f76b8039f833c337db298c81f13b12082d5fd4f9d866cecd34b2ca7550b37
 size 627

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.9820196628570557,
-  "best_model_checkpoint": "./outputs/checkpoint-4100",
-  "epoch": 2.987249544626594,
   "eval_steps": 100,
-  "global_step": 4100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -11,583 +11,23 @@
     {
       "epoch": 0.07,
       "learning_rate": 0.0002,
-      "loss": 2.7398,
       "step": 100
     },
     {
       "epoch": 0.07,
-      "eval_loss": 2.641923666000366,
-      "eval_runtime": 206.8135,
-      "eval_samples_per_second": 30.337,
-      "eval_steps_per_second": 3.796,
       "step": 100
-    },
-    {
-      "epoch": 0.15,
-      "learning_rate": 0.0002,
-      "loss": 2.6046,
-      "step": 200
-    },
-    {
-      "epoch": 0.15,
-      "eval_loss": 2.592717409133911,
-      "eval_runtime": 207.0706,
-      "eval_samples_per_second": 30.299,
-      "eval_steps_per_second": 3.791,
-      "step": 200
-    },
-    {
-      "epoch": 0.22,
-      "learning_rate": 0.0002,
-      "loss": 2.5628,
-      "step": 300
-    },
-    {
-      "epoch": 0.22,
-      "eval_loss": 2.5575265884399414,
-      "eval_runtime": 206.3145,
-      "eval_samples_per_second": 30.41,
-      "eval_steps_per_second": 3.805,
-      "step": 300
-    },
-    {
-      "epoch": 0.29,
-      "learning_rate": 0.0002,
-      "loss": 2.5372,
-      "step": 400
-    },
-    {
-      "epoch": 0.29,
-      "eval_loss": 2.525071859359741,
-      "eval_runtime": 206.5249,
-      "eval_samples_per_second": 30.379,
-      "eval_steps_per_second": 3.801,
-      "step": 400
-    },
-    {
-      "epoch": 0.36,
-      "learning_rate": 0.0002,
-      "loss": 2.4945,
-      "step": 500
-    },
-    {
-      "epoch": 0.36,
-      "eval_loss": 2.4999899864196777,
-      "eval_runtime": 206.4967,
-      "eval_samples_per_second": 30.383,
-      "eval_steps_per_second": 3.802,
-      "step": 500
-    },
-    {
-      "epoch": 0.44,
-      "learning_rate": 0.0002,
-      "loss": 2.4681,
-      "step": 600
-    },
-    {
-      "epoch": 0.44,
-      "eval_loss": 2.474062919616699,
-      "eval_runtime": 206.9377,
-      "eval_samples_per_second": 30.318,
-      "eval_steps_per_second": 3.793,
-      "step": 600
-    },
-    {
-      "epoch": 0.51,
-      "learning_rate": 0.0002,
-      "loss": 2.4511,
-      "step": 700
-    },
-    {
-      "epoch": 0.51,
-      "eval_loss": 2.4490628242492676,
-      "eval_runtime": 206.1477,
-      "eval_samples_per_second": 30.434,
-      "eval_steps_per_second": 3.808,
-      "step": 700
-    },
-    {
-      "epoch": 0.58,
-      "learning_rate": 0.0002,
-      "loss": 2.428,
-      "step": 800
-    },
-    {
-      "epoch": 0.58,
-      "eval_loss": 2.4292285442352295,
-      "eval_runtime": 206.472,
-      "eval_samples_per_second": 30.387,
-      "eval_steps_per_second": 3.802,
-      "step": 800
-    },
-    {
-      "epoch": 0.66,
-      "learning_rate": 0.0002,
-      "loss": 2.3917,
-      "step": 900
-    },
-    {
-      "epoch": 0.66,
-      "eval_loss": 2.4080374240875244,
-      "eval_runtime": 206.5411,
-      "eval_samples_per_second": 30.377,
-      "eval_steps_per_second": 3.801,
-      "step": 900
-    },
-    {
-      "epoch": 0.73,
-      "learning_rate": 0.0002,
-      "loss": 2.3881,
-      "step": 1000
-    },
-    {
-      "epoch": 0.73,
-      "eval_loss": 2.3876078128814697,
-      "eval_runtime": 206.4718,
-      "eval_samples_per_second": 30.387,
-      "eval_steps_per_second": 3.802,
-      "step": 1000
-    },
-    {
-      "epoch": 0.8,
-      "learning_rate": 0.0002,
-      "loss": 2.3815,
-      "step": 1100
-    },
-    {
-      "epoch": 0.8,
-      "eval_loss": 2.3660354614257812,
-      "eval_runtime": 206.9685,
-      "eval_samples_per_second": 30.314,
-      "eval_steps_per_second": 3.793,
-      "step": 1100
-    },
-    {
-      "epoch": 0.87,
-      "learning_rate": 0.0002,
-      "loss": 2.3383,
-      "step": 1200
-    },
-    {
-      "epoch": 0.87,
-      "eval_loss": 2.3476908206939697,
-      "eval_runtime": 206.7525,
-      "eval_samples_per_second": 30.345,
-      "eval_steps_per_second": 3.797,
-      "step": 1200
-    },
-    {
-      "epoch": 0.95,
-      "learning_rate": 0.0002,
-      "loss": 2.3498,
-      "step": 1300
-    },
-    {
-      "epoch": 0.95,
-      "eval_loss": 2.3309385776519775,
-      "eval_runtime": 206.5818,
-      "eval_samples_per_second": 30.371,
-      "eval_steps_per_second": 3.8,
-      "step": 1300
-    },
-    {
-      "epoch": 1.02,
-      "learning_rate": 0.0002,
-      "loss": 2.2994,
-      "step": 1400
-    },
-    {
-      "epoch": 1.02,
-      "eval_loss": 2.3077964782714844,
-      "eval_runtime": 206.4915,
-      "eval_samples_per_second": 30.384,
-      "eval_steps_per_second": 3.802,
-      "step": 1400
-    },
-    {
-      "epoch": 1.09,
-      "learning_rate": 0.0002,
-      "loss": 2.2611,
-      "step": 1500
-    },
-    {
-      "epoch": 1.09,
-      "eval_loss": 2.290616989135742,
-      "eval_runtime": 206.9291,
-      "eval_samples_per_second": 30.32,
-      "eval_steps_per_second": 3.794,
-      "step": 1500
-    },
-    {
-      "epoch": 1.17,
-      "learning_rate": 0.0002,
-      "loss": 2.2529,
-      "step": 1600
-    },
-    {
-      "epoch": 1.17,
-      "eval_loss": 2.2742502689361572,
-      "eval_runtime": 207.033,
-      "eval_samples_per_second": 30.304,
-      "eval_steps_per_second": 3.792,
-      "step": 1600
-    },
-    {
-      "epoch": 1.24,
-      "learning_rate": 0.0002,
-      "loss": 2.2533,
-      "step": 1700
-    },
-    {
-      "epoch": 1.24,
-      "eval_loss": 2.2574470043182373,
-      "eval_runtime": 206.7407,
-      "eval_samples_per_second": 30.347,
-      "eval_steps_per_second": 3.797,
-      "step": 1700
-    },
-    {
-      "epoch": 1.31,
-      "learning_rate": 0.0002,
-      "loss": 2.214,
-      "step": 1800
-    },
-    {
-      "epoch": 1.31,
-      "eval_loss": 2.241929769515991,
-      "eval_runtime": 206.7574,
-      "eval_samples_per_second": 30.345,
-      "eval_steps_per_second": 3.797,
-      "step": 1800
-    },
-    {
-      "epoch": 1.38,
-      "learning_rate": 0.0002,
-      "loss": 2.199,
-      "step": 1900
-    },
-    {
-      "epoch": 1.38,
-      "eval_loss": 2.2262773513793945,
-      "eval_runtime": 206.8241,
-      "eval_samples_per_second": 30.335,
-      "eval_steps_per_second": 3.795,
-      "step": 1900
-    },
-    {
-      "epoch": 1.46,
-      "learning_rate": 0.0002,
-      "loss": 2.1938,
-      "step": 2000
-    },
-    {
-      "epoch": 1.46,
-      "eval_loss": 2.2117421627044678,
-      "eval_runtime": 207.1013,
-      "eval_samples_per_second": 30.294,
-      "eval_steps_per_second": 3.79,
-      "step": 2000
-    },
-    {
-      "epoch": 1.53,
-      "learning_rate": 0.0002,
-      "loss": 2.1761,
-      "step": 2100
-    },
-    {
-      "epoch": 1.53,
-      "eval_loss": 2.1993796825408936,
-      "eval_runtime": 207.1774,
-      "eval_samples_per_second": 30.283,
-      "eval_steps_per_second": 3.789,
-      "step": 2100
-    },
-    {
-      "epoch": 1.6,
-      "learning_rate": 0.0002,
-      "loss": 2.159,
-      "step": 2200
-    },
-    {
-      "epoch": 1.6,
-      "eval_loss": 2.1830873489379883,
-      "eval_runtime": 207.1307,
-      "eval_samples_per_second": 30.29,
-      "eval_steps_per_second": 3.79,
-      "step": 2200
-    },
-    {
-      "epoch": 1.68,
-      "learning_rate": 0.0002,
-      "loss": 2.1497,
-      "step": 2300
-    },
-    {
-      "epoch": 1.68,
-      "eval_loss": 2.1709437370300293,
-      "eval_runtime": 207.0264,
-      "eval_samples_per_second": 30.305,
-      "eval_steps_per_second": 3.792,
-      "step": 2300
-    },
-    {
-      "epoch": 1.75,
-      "learning_rate": 0.0002,
-      "loss": 2.1548,
-      "step": 2400
-    },
-    {
-      "epoch": 1.75,
-      "eval_loss": 2.1570258140563965,
-      "eval_runtime": 207.0802,
-      "eval_samples_per_second": 30.297,
-      "eval_steps_per_second": 3.791,
-      "step": 2400
-    },
-    {
-      "epoch": 1.82,
-      "learning_rate": 0.0002,
-      "loss": 2.1218,
-      "step": 2500
-    },
-    {
-      "epoch": 1.82,
-      "eval_loss": 2.1442573070526123,
-      "eval_runtime": 207.3061,
-      "eval_samples_per_second": 30.264,
-      "eval_steps_per_second": 3.787,
-      "step": 2500
-    },
-    {
-      "epoch": 1.89,
-      "learning_rate": 0.0002,
-      "loss": 2.1246,
-      "step": 2600
-    },
-    {
-      "epoch": 1.89,
-      "eval_loss": 2.1329336166381836,
-      "eval_runtime": 206.7598,
-      "eval_samples_per_second": 30.344,
-      "eval_steps_per_second": 3.797,
-      "step": 2600
-    },
-    {
-      "epoch": 1.97,
-      "learning_rate": 0.0002,
-      "loss": 2.1067,
-      "step": 2700
-    },
-    {
-      "epoch": 1.97,
-      "eval_loss": 2.117797374725342,
-      "eval_runtime": 207.3313,
-      "eval_samples_per_second": 30.261,
-      "eval_steps_per_second": 3.786,
-      "step": 2700
-    },
-    {
-      "epoch": 2.04,
-      "learning_rate": 0.0002,
-      "loss": 2.0643,
-      "step": 2800
-    },
-    {
-      "epoch": 2.04,
-      "eval_loss": 2.111072540283203,
-      "eval_runtime": 312.3448,
-      "eval_samples_per_second": 20.087,
-      "eval_steps_per_second": 2.513,
-      "step": 2800
-    },
-    {
-      "epoch": 2.11,
-      "learning_rate": 0.0002,
-      "loss": 2.0379,
-      "step": 2900
-    },
-    {
-      "epoch": 2.11,
-      "eval_loss": 2.097459554672241,
-      "eval_runtime": 207.1063,
-      "eval_samples_per_second": 30.294,
-      "eval_steps_per_second": 3.79,
-      "step": 2900
-    },
-    {
-      "epoch": 2.19,
-      "learning_rate": 0.0002,
-      "loss": 2.0567,
-      "step": 3000
-    },
-    {
-      "epoch": 2.19,
-      "eval_loss": 2.0867855548858643,
-      "eval_runtime": 207.096,
-      "eval_samples_per_second": 30.295,
-      "eval_steps_per_second": 3.791,
-      "step": 3000
-    },
-    {
-      "epoch": 2.26,
-      "learning_rate": 0.0002,
-      "loss": 2.0243,
-      "step": 3100
-    },
-    {
-      "epoch": 2.26,
-      "eval_loss": 2.0787196159362793,
-      "eval_runtime": 207.0741,
-      "eval_samples_per_second": 30.298,
-      "eval_steps_per_second": 3.791,
-      "step": 3100
-    },
-    {
-      "epoch": 2.33,
-      "learning_rate": 0.0002,
-      "loss": 2.0407,
-      "step": 3200
-    },
-    {
-      "epoch": 2.33,
-      "eval_loss": 2.066490888595581,
-      "eval_runtime": 207.3107,
-      "eval_samples_per_second": 30.264,
-      "eval_steps_per_second": 3.787,
-      "step": 3200
-    },
-    {
-      "epoch": 2.4,
-      "learning_rate": 0.0002,
-      "loss": 2.009,
-      "step": 3300
-    },
-    {
-      "epoch": 2.4,
-      "eval_loss": 2.0566089153289795,
-      "eval_runtime": 207.0074,
-      "eval_samples_per_second": 30.308,
-      "eval_steps_per_second": 3.792,
-      "step": 3300
-    },
-    {
-      "epoch": 2.48,
-      "learning_rate": 0.0002,
-      "loss": 2.002,
-      "step": 3400
-    },
-    {
-      "epoch": 2.48,
-      "eval_loss": 2.0491139888763428,
-      "eval_runtime": 207.1382,
-      "eval_samples_per_second": 30.289,
-      "eval_steps_per_second": 3.79,
-      "step": 3400
-    },
-    {
-      "epoch": 2.55,
-      "learning_rate": 0.0002,
-      "loss": 2.0002,
-      "step": 3500
-    },
-    {
-      "epoch": 2.55,
-      "eval_loss": 2.0374956130981445,
-      "eval_runtime": 207.2444,
-      "eval_samples_per_second": 30.273,
-      "eval_steps_per_second": 3.788,
-      "step": 3500
-    },
-    {
-      "epoch": 2.62,
-      "learning_rate": 0.0002,
-      "loss": 1.9945,
-      "step": 3600
-    },
-    {
-      "epoch": 2.62,
-      "eval_loss": 2.027383804321289,
-      "eval_runtime": 207.1782,
-      "eval_samples_per_second": 30.283,
-      "eval_steps_per_second": 3.789,
-      "step": 3600
-    },
-    {
-      "epoch": 2.7,
-      "learning_rate": 0.0002,
-      "loss": 1.9759,
-      "step": 3700
-    },
-    {
-      "epoch": 2.7,
-      "eval_loss": 2.0199601650238037,
-      "eval_runtime": 207.4478,
-      "eval_samples_per_second": 30.244,
-      "eval_steps_per_second": 3.784,
-      "step": 3700
-    },
-    {
-      "epoch": 2.77,
-      "learning_rate": 0.0002,
-      "loss": 1.9675,
-      "step": 3800
-    },
-    {
-      "epoch": 2.77,
-      "eval_loss": 2.0125296115875244,
-      "eval_runtime": 207.2437,
-      "eval_samples_per_second": 30.274,
-      "eval_steps_per_second": 3.788,
-      "step": 3800
-    },
-    {
-      "epoch": 2.84,
-      "learning_rate": 0.0002,
-      "loss": 1.9542,
-      "step": 3900
-    },
-    {
-      "epoch": 2.84,
-      "eval_loss": 1.9999363422393799,
-      "eval_runtime": 206.9139,
-      "eval_samples_per_second": 30.322,
-      "eval_steps_per_second": 3.794,
-      "step": 3900
-    },
-    {
-      "epoch": 2.91,
-      "learning_rate": 0.0002,
-      "loss": 1.9555,
-      "step": 4000
-    },
-    {
-      "epoch": 2.91,
-      "eval_loss": 1.9915796518325806,
-      "eval_runtime": 208.2968,
-      "eval_samples_per_second": 30.12,
-      "eval_steps_per_second": 3.769,
-      "step": 4000
-    },
-    {
-      "epoch": 2.99,
-      "learning_rate": 0.0002,
-      "loss": 1.9575,
-      "step": 4100
-    },
-    {
-      "epoch": 2.99,
-      "eval_loss": 1.9820196628570557,
-      "eval_runtime": 208.7546,
-      "eval_samples_per_second": 30.054,
-      "eval_steps_per_second": 3.76,
-      "step": 4100
     }
   ],
   "logging_steps": 100,
   "max_steps": 4116,
   "num_train_epochs": 3,
   "save_steps": 100,
-  "total_flos": 1.1959366338920448e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 2.6418025493621826,
+  "best_model_checkpoint": "./outputs/checkpoint-100",
+  "epoch": 0.07285974499089254,
   "eval_steps": 100,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     {
       "epoch": 0.07,
       "learning_rate": 0.0002,
+      "loss": 2.7388,
       "step": 100
     },
     {
       "epoch": 0.07,
+      "eval_loss": 2.6418025493621826,
+      "eval_runtime": 204.724,
+      "eval_samples_per_second": 30.646,
+      "eval_steps_per_second": 3.834,
       "step": 100
     }
   ],
   "logging_steps": 100,
   "max_steps": 4116,
   "num_train_epochs": 3,
   "save_steps": 100,
+  "total_flos": 2917794121482240.0,
   "trial_name": null,
   "trial_params": null
 }

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:963b5340f9275a8f4e3af4913bb0548e0c58e3569b30756aa104b0b5d6b5f8a2
 size 4219

 version https://git-lfs.github.com/spec/v1
+oid sha256:c66c4c8ecfd84aad650ec729a9571031304ebef290f19f46a950adc124725eb2
 size 4219