Training in progress, step 100, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/README.md +19 -0
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/tokenizer.json +2 -2
last-checkpoint/trainer_state.json +10 -304
last-checkpoint/training_args.bin +1 -1

last-checkpoint/README.md CHANGED Viewed

@@ -217,4 +217,23 @@ The following `bitsandbytes` quantization config was used during training:
 ### Framework versions
 - PEFT 0.6.3.dev0

 ### Framework versions
+- PEFT 0.6.3.dev0
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: True
+- load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+### Framework versions
 - PEFT 0.6.3.dev0

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:257f019123780b1c55e505466089f8e97774256b5162ff2a9dd9c53ad0981724
 size 9444296

 version https://git-lfs.github.com/spec/v1
+oid sha256:05aa022c54cc3af0df746afc7a430ec7202a1ad889fa763bfbf083dac63b6a81
 size 9444296

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c55efb4794097377f43111558386aeebe7c8a2539fb41154eb47915789b79b92
 size 18902665

 version https://git-lfs.github.com/spec/v1
+oid sha256:44dc5565906114330048a0088ffbb5bd8f8fce97f07e62ec2eafa6ff3e3a4fd0
 size 18902665

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:828c793974c0f73b777262e329ad095566fad802fa73d655e45ae82e9eed4154
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:e2d13059a2d496303aa065549223e9500326c02d6d5046828f86e7c592e199d5
 size 14575

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f10a983aa914555fea6e5c0db8d7ddbaebbe7e28546c78ee0e93ac76cbc28436
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:216f76b8039f833c337db298c81f13b12082d5fd4f9d866cecd34b2ca7550b37
 size 627

last-checkpoint/tokenizer.json CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5d81d9b2c9d9db79ea02c00d4c7e79bb77a718dc57ab01f5f3b1cd6649f08993
-size 14500569

 version https://git-lfs.github.com/spec/v1
+oid sha256:490b3432398e9c45dda0581bf34f6daa9411bda59cd0cd831670d7c86f90d2dd
+size 14500570

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.2910176515579224,
-  "best_model_checkpoint": "./outputs/checkpoint-2200",
-  "epoch": 2.9333333333333336,
   "eval_steps": 100,
-  "global_step": 2200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -11,310 +11,16 @@
     {
       "epoch": 0.13,
       "learning_rate": 0.0002,
-      "loss": 1.855,
       "step": 100
     },
     {
       "epoch": 0.13,
-      "eval_loss": 1.4976259469985962,
-      "eval_runtime": 47.2737,
-      "eval_samples_per_second": 30.694,
-      "eval_steps_per_second": 3.85,
       "step": 100
-    },
-    {
-      "epoch": 0.27,
-      "learning_rate": 0.0002,
-      "loss": 1.5891,
-      "step": 200
-    },
-    {
-      "epoch": 0.27,
-      "eval_loss": 1.4663879871368408,
-      "eval_runtime": 47.1865,
-      "eval_samples_per_second": 30.75,
-      "eval_steps_per_second": 3.857,
-      "step": 200
-    },
-    {
-      "epoch": 0.4,
-      "learning_rate": 0.0002,
-      "loss": 1.5693,
-      "step": 300
-    },
-    {
-      "epoch": 0.4,
-      "eval_loss": 1.4471981525421143,
-      "eval_runtime": 47.1683,
-      "eval_samples_per_second": 30.762,
-      "eval_steps_per_second": 3.859,
-      "step": 300
-    },
-    {
-      "epoch": 0.53,
-      "learning_rate": 0.0002,
-      "loss": 1.5495,
-      "step": 400
-    },
-    {
-      "epoch": 0.53,
-      "eval_loss": 1.4266287088394165,
-      "eval_runtime": 47.1866,
-      "eval_samples_per_second": 30.75,
-      "eval_steps_per_second": 3.857,
-      "step": 400
-    },
-    {
-      "epoch": 0.67,
-      "learning_rate": 0.0002,
-      "loss": 1.5354,
-      "step": 500
-    },
-    {
-      "epoch": 0.67,
-      "eval_loss": 1.410528540611267,
-      "eval_runtime": 47.2451,
-      "eval_samples_per_second": 30.712,
-      "eval_steps_per_second": 3.852,
-      "step": 500
-    },
-    {
-      "epoch": 0.8,
-      "learning_rate": 0.0002,
-      "loss": 1.5198,
-      "step": 600
-    },
-    {
-      "epoch": 0.8,
-      "eval_loss": 1.4007145166397095,
-      "eval_runtime": 46.9739,
-      "eval_samples_per_second": 30.89,
-      "eval_steps_per_second": 3.874,
-      "step": 600
-    },
-    {
-      "epoch": 0.93,
-      "learning_rate": 0.0002,
-      "loss": 1.5095,
-      "step": 700
-    },
-    {
-      "epoch": 0.93,
-      "eval_loss": 1.388436198234558,
-      "eval_runtime": 47.0302,
-      "eval_samples_per_second": 30.853,
-      "eval_steps_per_second": 3.87,
-      "step": 700
-    },
-    {
-      "epoch": 1.07,
-      "learning_rate": 0.0002,
-      "loss": 1.488,
-      "step": 800
-    },
-    {
-      "epoch": 1.07,
-      "eval_loss": 1.3770211935043335,
-      "eval_runtime": 47.1554,
-      "eval_samples_per_second": 30.771,
-      "eval_steps_per_second": 3.86,
-      "step": 800
-    },
-    {
-      "epoch": 1.2,
-      "learning_rate": 0.0002,
-      "loss": 1.4685,
-      "step": 900
-    },
-    {
-      "epoch": 1.2,
-      "eval_loss": 1.3670101165771484,
-      "eval_runtime": 47.4079,
-      "eval_samples_per_second": 30.607,
-      "eval_steps_per_second": 3.839,
-      "step": 900
-    },
-    {
-      "epoch": 1.33,
-      "learning_rate": 0.0002,
-      "loss": 1.4583,
-      "step": 1000
-    },
-    {
-      "epoch": 1.33,
-      "eval_loss": 1.3592472076416016,
-      "eval_runtime": 47.3317,
-      "eval_samples_per_second": 30.656,
-      "eval_steps_per_second": 3.845,
-      "step": 1000
-    },
-    {
-      "epoch": 1.47,
-      "learning_rate": 0.0002,
-      "loss": 1.4546,
-      "step": 1100
-    },
-    {
-      "epoch": 1.47,
-      "eval_loss": 1.3527010679244995,
-      "eval_runtime": 47.2776,
-      "eval_samples_per_second": 30.691,
-      "eval_steps_per_second": 3.85,
-      "step": 1100
-    },
-    {
-      "epoch": 1.6,
-      "learning_rate": 0.0002,
-      "loss": 1.4392,
-      "step": 1200
-    },
-    {
-      "epoch": 1.6,
-      "eval_loss": 1.3437373638153076,
-      "eval_runtime": 47.1936,
-      "eval_samples_per_second": 30.746,
-      "eval_steps_per_second": 3.856,
-      "step": 1200
-    },
-    {
-      "epoch": 1.73,
-      "learning_rate": 0.0002,
-      "loss": 1.45,
-      "step": 1300
-    },
-    {
-      "epoch": 1.73,
-      "eval_loss": 1.3367496728897095,
-      "eval_runtime": 47.2517,
-      "eval_samples_per_second": 30.708,
-      "eval_steps_per_second": 3.852,
-      "step": 1300
-    },
-    {
-      "epoch": 1.87,
-      "learning_rate": 0.0002,
-      "loss": 1.4321,
-      "step": 1400
-    },
-    {
-      "epoch": 1.87,
-      "eval_loss": 1.3307961225509644,
-      "eval_runtime": 47.1256,
-      "eval_samples_per_second": 30.79,
-      "eval_steps_per_second": 3.862,
-      "step": 1400
-    },
-    {
-      "epoch": 2.0,
-      "learning_rate": 0.0002,
-      "loss": 1.4336,
-      "step": 1500
-    },
-    {
-      "epoch": 2.0,
-      "eval_loss": 1.3263577222824097,
-      "eval_runtime": 47.1607,
-      "eval_samples_per_second": 30.767,
-      "eval_steps_per_second": 3.859,
-      "step": 1500
-    },
-    {
-      "epoch": 2.13,
-      "learning_rate": 0.0002,
-      "loss": 1.3981,
-      "step": 1600
-    },
-    {
-      "epoch": 2.13,
-      "eval_loss": 1.319887638092041,
-      "eval_runtime": 47.019,
-      "eval_samples_per_second": 30.86,
-      "eval_steps_per_second": 3.871,
-      "step": 1600
-    },
-    {
-      "epoch": 2.27,
-      "learning_rate": 0.0002,
-      "loss": 1.3969,
-      "step": 1700
-    },
-    {
-      "epoch": 2.27,
-      "eval_loss": 1.3168717622756958,
-      "eval_runtime": 47.2245,
-      "eval_samples_per_second": 30.726,
-      "eval_steps_per_second": 3.854,
-      "step": 1700
-    },
-    {
-      "epoch": 2.4,
-      "learning_rate": 0.0002,
-      "loss": 1.3862,
-      "step": 1800
-    },
-    {
-      "epoch": 2.4,
-      "eval_loss": 1.3101677894592285,
-      "eval_runtime": 47.1712,
-      "eval_samples_per_second": 30.76,
-      "eval_steps_per_second": 3.858,
-      "step": 1800
-    },
-    {
-      "epoch": 2.53,
-      "learning_rate": 0.0002,
-      "loss": 1.3863,
-      "step": 1900
-    },
-    {
-      "epoch": 2.53,
-      "eval_loss": 1.304863691329956,
-      "eval_runtime": 47.3226,
-      "eval_samples_per_second": 30.662,
-      "eval_steps_per_second": 3.846,
-      "step": 1900
-    },
-    {
-      "epoch": 2.67,
-      "learning_rate": 0.0002,
-      "loss": 1.3918,
-      "step": 2000
-    },
-    {
-      "epoch": 2.67,
-      "eval_loss": 1.2992783784866333,
-      "eval_runtime": 47.3036,
-      "eval_samples_per_second": 30.674,
-      "eval_steps_per_second": 3.847,
-      "step": 2000
-    },
-    {
-      "epoch": 2.8,
-      "learning_rate": 0.0002,
-      "loss": 1.3869,
-      "step": 2100
-    },
-    {
-      "epoch": 2.8,
-      "eval_loss": 1.2948063611984253,
-      "eval_runtime": 47.587,
-      "eval_samples_per_second": 30.492,
-      "eval_steps_per_second": 3.825,
-      "step": 2100
-    },
-    {
-      "epoch": 2.93,
-      "learning_rate": 0.0002,
-      "loss": 1.3818,
-      "step": 2200
-    },
-    {
-      "epoch": 2.93,
-      "eval_loss": 1.2910176515579224,
-      "eval_runtime": 47.3703,
-      "eval_samples_per_second": 30.631,
-      "eval_steps_per_second": 3.842,
-      "step": 2200
     }
   ],
   "logging_steps": 100,
@@ -322,7 +28,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 100,
-  "total_flos": 7.376989486841856e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 1.567879319190979,
+  "best_model_checkpoint": "./outputs/checkpoint-100",
+  "epoch": 0.13333333333333333,
   "eval_steps": 100,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     {
       "epoch": 0.13,
       "learning_rate": 0.0002,
+      "loss": 1.4578,
       "step": 100
     },
     {
       "epoch": 0.13,
+      "eval_loss": 1.567879319190979,
+      "eval_runtime": 93.4626,
+      "eval_samples_per_second": 15.525,
+      "eval_steps_per_second": 1.947,
       "step": 100
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 100,
+  "total_flos": 5840664718049280.0,
   "trial_name": null,
   "trial_params": null
 }

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9adcbc18933134cacfbe21bf9e53fed6d4bf177703cbf6a315aac272cf5f9925
 size 4283

 version https://git-lfs.github.com/spec/v1
+oid sha256:872967956433a8e00b1b42d36058c7ecb4b8e0f5bd219cf9544c0b5bab765459
 size 4283