Training in progress, step 100, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/README.md +19 -0
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +10 -304
last-checkpoint/training_args.bin +1 -1

last-checkpoint/README.md CHANGED Viewed

@@ -236,4 +236,23 @@ The following `bitsandbytes` quantization config was used during training:
 ### Framework versions
 - PEFT 0.6.3.dev0

 ### Framework versions
+- PEFT 0.6.3.dev0
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: True
+- load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+### Framework versions
 - PEFT 0.6.3.dev0

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e1489584661a145618f26da9edffe21542c0e6654208c4eac8ad109fa1b04c97
 size 9444296

 version https://git-lfs.github.com/spec/v1
+oid sha256:aacbf34fb992bb8dc5e57b13720c266487032710f51d5b6c711007d5d5513f8e
 size 9444296

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3c348e4fe6c89cc2cb07f20e2d3f6659d899437689a688748aea10f07481f708
 size 18902665

 version https://git-lfs.github.com/spec/v1
+oid sha256:1dc382a687d06d81f31e38fee76f898054cf75d838954a57b9c91cb8ae8d8c99
 size 18902665

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0ac8a1ed22dccfd0b73fde0039db75261c479f8649c9b62376ee4e503343b09a
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:e2d13059a2d496303aa065549223e9500326c02d6d5046828f86e7c592e199d5
 size 14575

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f10a983aa914555fea6e5c0db8d7ddbaebbe7e28546c78ee0e93ac76cbc28436
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:216f76b8039f833c337db298c81f13b12082d5fd4f9d866cecd34b2ca7550b37
 size 627

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.360133409500122,
-  "best_model_checkpoint": "./outputs/checkpoint-2200",
-  "epoch": 2.9333333333333336,
   "eval_steps": 100,
-  "global_step": 2200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -11,310 +11,16 @@
     {
       "epoch": 0.13,
       "learning_rate": 0.0002,
-      "loss": 1.4578,
       "step": 100
     },
     {
       "epoch": 0.13,
-      "eval_loss": 1.567879319190979,
-      "eval_runtime": 93.4626,
-      "eval_samples_per_second": 15.525,
-      "eval_steps_per_second": 1.947,
       "step": 100
-    },
-    {
-      "epoch": 0.27,
-      "learning_rate": 0.0002,
-      "loss": 1.2977,
-      "step": 200
-    },
-    {
-      "epoch": 0.27,
-      "eval_loss": 1.5340639352798462,
-      "eval_runtime": 93.3831,
-      "eval_samples_per_second": 15.538,
-      "eval_steps_per_second": 1.949,
-      "step": 200
-    },
-    {
-      "epoch": 0.4,
-      "learning_rate": 0.0002,
-      "loss": 1.2762,
-      "step": 300
-    },
-    {
-      "epoch": 0.4,
-      "eval_loss": 1.5129507780075073,
-      "eval_runtime": 93.3176,
-      "eval_samples_per_second": 15.549,
-      "eval_steps_per_second": 1.95,
-      "step": 300
-    },
-    {
-      "epoch": 0.53,
-      "learning_rate": 0.0002,
-      "loss": 1.2673,
-      "step": 400
-    },
-    {
-      "epoch": 0.53,
-      "eval_loss": 1.4979034662246704,
-      "eval_runtime": 93.4276,
-      "eval_samples_per_second": 15.531,
-      "eval_steps_per_second": 1.948,
-      "step": 400
-    },
-    {
-      "epoch": 0.67,
-      "learning_rate": 0.0002,
-      "loss": 1.2497,
-      "step": 500
-    },
-    {
-      "epoch": 0.67,
-      "eval_loss": 1.4787811040878296,
-      "eval_runtime": 93.1297,
-      "eval_samples_per_second": 15.58,
-      "eval_steps_per_second": 1.954,
-      "step": 500
-    },
-    {
-      "epoch": 0.8,
-      "learning_rate": 0.0002,
-      "loss": 1.2326,
-      "step": 600
-    },
-    {
-      "epoch": 0.8,
-      "eval_loss": 1.4662799835205078,
-      "eval_runtime": 93.3055,
-      "eval_samples_per_second": 15.551,
-      "eval_steps_per_second": 1.951,
-      "step": 600
-    },
-    {
-      "epoch": 0.93,
-      "learning_rate": 0.0002,
-      "loss": 1.2216,
-      "step": 700
-    },
-    {
-      "epoch": 0.93,
-      "eval_loss": 1.455640435218811,
-      "eval_runtime": 93.4836,
-      "eval_samples_per_second": 15.521,
-      "eval_steps_per_second": 1.947,
-      "step": 700
-    },
-    {
-      "epoch": 1.07,
-      "learning_rate": 0.0002,
-      "loss": 1.2091,
-      "step": 800
-    },
-    {
-      "epoch": 1.07,
-      "eval_loss": 1.446093201637268,
-      "eval_runtime": 93.3855,
-      "eval_samples_per_second": 15.538,
-      "eval_steps_per_second": 1.949,
-      "step": 800
-    },
-    {
-      "epoch": 1.2,
-      "learning_rate": 0.0002,
-      "loss": 1.1928,
-      "step": 900
-    },
-    {
-      "epoch": 1.2,
-      "eval_loss": 1.4368518590927124,
-      "eval_runtime": 93.1897,
-      "eval_samples_per_second": 15.57,
-      "eval_steps_per_second": 1.953,
-      "step": 900
-    },
-    {
-      "epoch": 1.33,
-      "learning_rate": 0.0002,
-      "loss": 1.1859,
-      "step": 1000
-    },
-    {
-      "epoch": 1.33,
-      "eval_loss": 1.4286835193634033,
-      "eval_runtime": 93.2996,
-      "eval_samples_per_second": 15.552,
-      "eval_steps_per_second": 1.951,
-      "step": 1000
-    },
-    {
-      "epoch": 1.47,
-      "learning_rate": 0.0002,
-      "loss": 1.1844,
-      "step": 1100
-    },
-    {
-      "epoch": 1.47,
-      "eval_loss": 1.4184046983718872,
-      "eval_runtime": 93.2489,
-      "eval_samples_per_second": 15.56,
-      "eval_steps_per_second": 1.952,
-      "step": 1100
-    },
-    {
-      "epoch": 1.6,
-      "learning_rate": 0.0002,
-      "loss": 1.1698,
-      "step": 1200
-    },
-    {
-      "epoch": 1.6,
-      "eval_loss": 1.4164544343948364,
-      "eval_runtime": 93.4373,
-      "eval_samples_per_second": 15.529,
-      "eval_steps_per_second": 1.948,
-      "step": 1200
-    },
-    {
-      "epoch": 1.73,
-      "learning_rate": 0.0002,
-      "loss": 1.1838,
-      "step": 1300
-    },
-    {
-      "epoch": 1.73,
-      "eval_loss": 1.4063118696212769,
-      "eval_runtime": 93.4223,
-      "eval_samples_per_second": 15.532,
-      "eval_steps_per_second": 1.948,
-      "step": 1300
-    },
-    {
-      "epoch": 1.87,
-      "learning_rate": 0.0002,
-      "loss": 1.1689,
-      "step": 1400
-    },
-    {
-      "epoch": 1.87,
-      "eval_loss": 1.3972649574279785,
-      "eval_runtime": 93.3855,
-      "eval_samples_per_second": 15.538,
-      "eval_steps_per_second": 1.949,
-      "step": 1400
-    },
-    {
-      "epoch": 2.0,
-      "learning_rate": 0.0002,
-      "loss": 1.1682,
-      "step": 1500
-    },
-    {
-      "epoch": 2.0,
-      "eval_loss": 1.3931400775909424,
-      "eval_runtime": 93.322,
-      "eval_samples_per_second": 15.548,
-      "eval_steps_per_second": 1.95,
-      "step": 1500
-    },
-    {
-      "epoch": 2.13,
-      "learning_rate": 0.0002,
-      "loss": 1.1454,
-      "step": 1600
-    },
-    {
-      "epoch": 2.13,
-      "eval_loss": 1.3893111944198608,
-      "eval_runtime": 93.4672,
-      "eval_samples_per_second": 15.524,
-      "eval_steps_per_second": 1.947,
-      "step": 1600
-    },
-    {
-      "epoch": 2.27,
-      "learning_rate": 0.0002,
-      "loss": 1.1347,
-      "step": 1700
-    },
-    {
-      "epoch": 2.27,
-      "eval_loss": 1.384419560432434,
-      "eval_runtime": 93.2606,
-      "eval_samples_per_second": 15.559,
-      "eval_steps_per_second": 1.952,
-      "step": 1700
-    },
-    {
-      "epoch": 2.4,
-      "learning_rate": 0.0002,
-      "loss": 1.1295,
-      "step": 1800
-    },
-    {
-      "epoch": 2.4,
-      "eval_loss": 1.3802986145019531,
-      "eval_runtime": 93.2911,
-      "eval_samples_per_second": 15.553,
-      "eval_steps_per_second": 1.951,
-      "step": 1800
-    },
-    {
-      "epoch": 2.53,
-      "learning_rate": 0.0002,
-      "loss": 1.1358,
-      "step": 1900
-    },
-    {
-      "epoch": 2.53,
-      "eval_loss": 1.371971845626831,
-      "eval_runtime": 93.1978,
-      "eval_samples_per_second": 15.569,
-      "eval_steps_per_second": 1.953,
-      "step": 1900
-    },
-    {
-      "epoch": 2.67,
-      "learning_rate": 0.0002,
-      "loss": 1.1351,
-      "step": 2000
-    },
-    {
-      "epoch": 2.67,
-      "eval_loss": 1.3672411441802979,
-      "eval_runtime": 93.2635,
-      "eval_samples_per_second": 15.558,
-      "eval_steps_per_second": 1.951,
-      "step": 2000
-    },
-    {
-      "epoch": 2.8,
-      "learning_rate": 0.0002,
-      "loss": 1.1338,
-      "step": 2100
-    },
-    {
-      "epoch": 2.8,
-      "eval_loss": 1.361167311668396,
-      "eval_runtime": 93.3675,
-      "eval_samples_per_second": 15.541,
-      "eval_steps_per_second": 1.949,
-      "step": 2100
-    },
-    {
-      "epoch": 2.93,
-      "learning_rate": 0.0002,
-      "loss": 1.1185,
-      "step": 2200
-    },
-    {
-      "epoch": 2.93,
-      "eval_loss": 1.360133409500122,
-      "eval_runtime": 93.453,
-      "eval_samples_per_second": 15.527,
-      "eval_steps_per_second": 1.948,
-      "step": 2200
     }
   ],
   "logging_steps": 100,
@@ -322,7 +28,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 100,
-  "total_flos": 1.2864184157454336e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 1.5645889043807983,
+  "best_model_checkpoint": "./outputs/checkpoint-100",
+  "epoch": 0.13333333333333333,
   "eval_steps": 100,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     {
       "epoch": 0.13,
       "learning_rate": 0.0002,
+      "loss": 1.4574,
       "step": 100
     },
     {
       "epoch": 0.13,
+      "eval_loss": 1.5645889043807983,
+      "eval_runtime": 93.6488,
+      "eval_samples_per_second": 15.494,
+      "eval_steps_per_second": 1.943,
       "step": 100
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 100,
+  "total_flos": 5840664718049280.0,
   "trial_name": null,
   "trial_params": null
 }

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:872967956433a8e00b1b42d36058c7ecb4b8e0f5bd219cf9544c0b5bab765459
 size 4283

 version https://git-lfs.github.com/spec/v1
+oid sha256:41885a31fff2260d7edee64e97bbc2b6e32bcd72e50bae7f734f834ae0cf56b3
 size 4283