Training in progress, step 100, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/README.md +38 -0
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +10 -570
last-checkpoint/training_args.bin +1 -1

last-checkpoint/README.md CHANGED Viewed

@@ -235,4 +235,42 @@ The following `bitsandbytes` quantization config was used during training:
 ### Framework versions
 - PEFT 0.7.0.dev0

 ### Framework versions
+- PEFT 0.7.0.dev0
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: True
+- load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+### Framework versions
+- PEFT 0.7.0.dev0
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: True
+- load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+### Framework versions
 - PEFT 0.7.0.dev0

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:facb4953527ef2a72f7097b2260301ef40ba3f92fde62ec32dec1280d1216f22
 size 9444296

 version https://git-lfs.github.com/spec/v1
+oid sha256:d9b60ebd90cdc77a5c92b5e516cdc5217025917f9b4a38fbb7fc8148c978a4bc
 size 9444296

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:405e61edf5bc6d737498b5cd55301a14544ce038584a7ecf5e3185e70e52bc9e
 size 18902665

 version https://git-lfs.github.com/spec/v1
+oid sha256:b4ab16eed712dca3e7c4b0ba41f1ea368f4a6bfd4ade1db47855863db83a0791
 size 18902665

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c3dc329a0255f098244dba06047a5cfcf6462bf87da74eba7aead60769732677
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:7393dbde4bffa4ea759a39a2e6dd5d0164b7e91c9e8ab3bfffc0ca38d5daac71
 size 14575

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f55ebe991e4838deda9ff3044672335e03697b65b3fe0753cca61998e974ee51
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:216f76b8039f833c337db298c81f13b12082d5fd4f9d866cecd34b2ca7550b37
 size 627

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.9765580892562866,
-  "best_model_checkpoint": "./outputs/checkpoint-4100",
-  "epoch": 2.987249544626594,
   "eval_steps": 100,
-  "global_step": 4100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -11,583 +11,23 @@
     {
       "epoch": 0.07,
       "learning_rate": 0.0002,
-      "loss": 2.7388,
       "step": 100
     },
     {
       "epoch": 0.07,
-      "eval_loss": 2.6418025493621826,
-      "eval_runtime": 204.724,
-      "eval_samples_per_second": 30.646,
-      "eval_steps_per_second": 3.834,
       "step": 100
-    },
-    {
-      "epoch": 0.15,
-      "learning_rate": 0.0002,
-      "loss": 2.6062,
-      "step": 200
-    },
-    {
-      "epoch": 0.15,
-      "eval_loss": 2.5927724838256836,
-      "eval_runtime": 204.9305,
-      "eval_samples_per_second": 30.615,
-      "eval_steps_per_second": 3.831,
-      "step": 200
-    },
-    {
-      "epoch": 0.22,
-      "learning_rate": 0.0002,
-      "loss": 2.5642,
-      "step": 300
-    },
-    {
-      "epoch": 0.22,
-      "eval_loss": 2.558490037918091,
-      "eval_runtime": 204.7576,
-      "eval_samples_per_second": 30.641,
-      "eval_steps_per_second": 3.834,
-      "step": 300
-    },
-    {
-      "epoch": 0.29,
-      "learning_rate": 0.0002,
-      "loss": 2.5376,
-      "step": 400
-    },
-    {
-      "epoch": 0.29,
-      "eval_loss": 2.524869680404663,
-      "eval_runtime": 204.9523,
-      "eval_samples_per_second": 30.612,
-      "eval_steps_per_second": 3.83,
-      "step": 400
-    },
-    {
-      "epoch": 0.36,
-      "learning_rate": 0.0002,
-      "loss": 2.495,
-      "step": 500
-    },
-    {
-      "epoch": 0.36,
-      "eval_loss": 2.498537063598633,
-      "eval_runtime": 204.9395,
-      "eval_samples_per_second": 30.614,
-      "eval_steps_per_second": 3.83,
-      "step": 500
-    },
-    {
-      "epoch": 0.44,
-      "learning_rate": 0.0002,
-      "loss": 2.4683,
-      "step": 600
-    },
-    {
-      "epoch": 0.44,
-      "eval_loss": 2.4743199348449707,
-      "eval_runtime": 204.8329,
-      "eval_samples_per_second": 30.63,
-      "eval_steps_per_second": 3.832,
-      "step": 600
-    },
-    {
-      "epoch": 0.51,
-      "learning_rate": 0.0002,
-      "loss": 2.4514,
-      "step": 700
-    },
-    {
-      "epoch": 0.51,
-      "eval_loss": 2.4477486610412598,
-      "eval_runtime": 214.8068,
-      "eval_samples_per_second": 29.208,
-      "eval_steps_per_second": 3.654,
-      "step": 700
-    },
-    {
-      "epoch": 0.58,
-      "learning_rate": 0.0002,
-      "loss": 2.429,
-      "step": 800
-    },
-    {
-      "epoch": 0.58,
-      "eval_loss": 2.4267146587371826,
-      "eval_runtime": 205.5874,
-      "eval_samples_per_second": 30.517,
-      "eval_steps_per_second": 3.818,
-      "step": 800
-    },
-    {
-      "epoch": 0.66,
-      "learning_rate": 0.0002,
-      "loss": 2.3934,
-      "step": 900
-    },
-    {
-      "epoch": 0.66,
-      "eval_loss": 2.4048709869384766,
-      "eval_runtime": 205.5816,
-      "eval_samples_per_second": 30.518,
-      "eval_steps_per_second": 3.818,
-      "step": 900
-    },
-    {
-      "epoch": 0.73,
-      "learning_rate": 0.0002,
-      "loss": 2.3892,
-      "step": 1000
-    },
-    {
-      "epoch": 0.73,
-      "eval_loss": 2.3864357471466064,
-      "eval_runtime": 205.3459,
-      "eval_samples_per_second": 30.553,
-      "eval_steps_per_second": 3.823,
-      "step": 1000
-    },
-    {
-      "epoch": 0.8,
-      "learning_rate": 0.0002,
-      "loss": 2.3832,
-      "step": 1100
-    },
-    {
-      "epoch": 0.8,
-      "eval_loss": 2.3633956909179688,
-      "eval_runtime": 205.2812,
-      "eval_samples_per_second": 30.563,
-      "eval_steps_per_second": 3.824,
-      "step": 1100
-    },
-    {
-      "epoch": 0.87,
-      "learning_rate": 0.0002,
-      "loss": 2.3381,
-      "step": 1200
-    },
-    {
-      "epoch": 0.87,
-      "eval_loss": 2.3467960357666016,
-      "eval_runtime": 205.4974,
-      "eval_samples_per_second": 30.531,
-      "eval_steps_per_second": 3.82,
-      "step": 1200
-    },
-    {
-      "epoch": 0.95,
-      "learning_rate": 0.0002,
-      "loss": 2.3498,
-      "step": 1300
-    },
-    {
-      "epoch": 0.95,
-      "eval_loss": 2.32894229888916,
-      "eval_runtime": 205.5366,
-      "eval_samples_per_second": 30.525,
-      "eval_steps_per_second": 3.819,
-      "step": 1300
-    },
-    {
-      "epoch": 1.02,
-      "learning_rate": 0.0002,
-      "loss": 2.3006,
-      "step": 1400
-    },
-    {
-      "epoch": 1.02,
-      "eval_loss": 2.305950880050659,
-      "eval_runtime": 205.4495,
-      "eval_samples_per_second": 30.538,
-      "eval_steps_per_second": 3.821,
-      "step": 1400
-    },
-    {
-      "epoch": 1.09,
-      "learning_rate": 0.0002,
-      "loss": 2.2605,
-      "step": 1500
-    },
-    {
-      "epoch": 1.09,
-      "eval_loss": 2.287435293197632,
-      "eval_runtime": 205.3602,
-      "eval_samples_per_second": 30.551,
-      "eval_steps_per_second": 3.823,
-      "step": 1500
-    },
-    {
-      "epoch": 1.17,
-      "learning_rate": 0.0002,
-      "loss": 2.2528,
-      "step": 1600
-    },
-    {
-      "epoch": 1.17,
-      "eval_loss": 2.268502712249756,
-      "eval_runtime": 205.804,
-      "eval_samples_per_second": 30.485,
-      "eval_steps_per_second": 3.814,
-      "step": 1600
-    },
-    {
-      "epoch": 1.24,
-      "learning_rate": 0.0002,
-      "loss": 2.2528,
-      "step": 1700
-    },
-    {
-      "epoch": 1.24,
-      "eval_loss": 2.253571033477783,
-      "eval_runtime": 205.5366,
-      "eval_samples_per_second": 30.525,
-      "eval_steps_per_second": 3.819,
-      "step": 1700
-    },
-    {
-      "epoch": 1.31,
-      "learning_rate": 0.0002,
-      "loss": 2.2148,
-      "step": 1800
-    },
-    {
-      "epoch": 1.31,
-      "eval_loss": 2.238196849822998,
-      "eval_runtime": 205.3487,
-      "eval_samples_per_second": 30.553,
-      "eval_steps_per_second": 3.823,
-      "step": 1800
-    },
-    {
-      "epoch": 1.38,
-      "learning_rate": 0.0002,
-      "loss": 2.1996,
-      "step": 1900
-    },
-    {
-      "epoch": 1.38,
-      "eval_loss": 2.2227766513824463,
-      "eval_runtime": 205.5385,
-      "eval_samples_per_second": 30.525,
-      "eval_steps_per_second": 3.819,
-      "step": 1900
-    },
-    {
-      "epoch": 1.46,
-      "learning_rate": 0.0002,
-      "loss": 2.1928,
-      "step": 2000
-    },
-    {
-      "epoch": 1.46,
-      "eval_loss": 2.2101266384124756,
-      "eval_runtime": 205.438,
-      "eval_samples_per_second": 30.54,
-      "eval_steps_per_second": 3.821,
-      "step": 2000
-    },
-    {
-      "epoch": 1.53,
-      "learning_rate": 0.0002,
-      "loss": 2.1763,
-      "step": 2100
-    },
-    {
-      "epoch": 1.53,
-      "eval_loss": 2.195230007171631,
-      "eval_runtime": 205.641,
-      "eval_samples_per_second": 30.509,
-      "eval_steps_per_second": 3.817,
-      "step": 2100
-    },
-    {
-      "epoch": 1.6,
-      "learning_rate": 0.0002,
-      "loss": 2.1581,
-      "step": 2200
-    },
-    {
-      "epoch": 1.6,
-      "eval_loss": 2.1795549392700195,
-      "eval_runtime": 205.5059,
-      "eval_samples_per_second": 30.53,
-      "eval_steps_per_second": 3.82,
-      "step": 2200
-    },
-    {
-      "epoch": 1.68,
-      "learning_rate": 0.0002,
-      "loss": 2.149,
-      "step": 2300
-    },
-    {
-      "epoch": 1.68,
-      "eval_loss": 2.170990228652954,
-      "eval_runtime": 205.9148,
-      "eval_samples_per_second": 30.469,
-      "eval_steps_per_second": 3.812,
-      "step": 2300
-    },
-    {
-      "epoch": 1.75,
-      "learning_rate": 0.0002,
-      "loss": 2.1562,
-      "step": 2400
-    },
-    {
-      "epoch": 1.75,
-      "eval_loss": 2.154522657394409,
-      "eval_runtime": 285.4022,
-      "eval_samples_per_second": 21.983,
-      "eval_steps_per_second": 2.751,
-      "step": 2400
-    },
-    {
-      "epoch": 1.82,
-      "learning_rate": 0.0002,
-      "loss": 2.1239,
-      "step": 2500
-    },
-    {
-      "epoch": 1.82,
-      "eval_loss": 2.142247200012207,
-      "eval_runtime": 316.5451,
-      "eval_samples_per_second": 19.82,
-      "eval_steps_per_second": 2.48,
-      "step": 2500
-    },
-    {
-      "epoch": 1.89,
-      "learning_rate": 0.0002,
-      "loss": 2.1231,
-      "step": 2600
-    },
-    {
-      "epoch": 1.89,
-      "eval_loss": 2.1275925636291504,
-      "eval_runtime": 529.3315,
-      "eval_samples_per_second": 11.853,
-      "eval_steps_per_second": 1.483,
-      "step": 2600
-    },
-    {
-      "epoch": 1.97,
-      "learning_rate": 0.0002,
-      "loss": 2.1077,
-      "step": 2700
-    },
-    {
-      "epoch": 1.97,
-      "eval_loss": 2.1141974925994873,
-      "eval_runtime": 337.4637,
-      "eval_samples_per_second": 18.592,
-      "eval_steps_per_second": 2.326,
-      "step": 2700
-    },
-    {
-      "epoch": 2.04,
-      "learning_rate": 0.0002,
-      "loss": 2.0634,
-      "step": 2800
-    },
-    {
-      "epoch": 2.04,
-      "eval_loss": 2.1093952655792236,
-      "eval_runtime": 205.7812,
-      "eval_samples_per_second": 30.489,
-      "eval_steps_per_second": 3.815,
-      "step": 2800
-    },
-    {
-      "epoch": 2.11,
-      "learning_rate": 0.0002,
-      "loss": 2.0384,
-      "step": 2900
-    },
-    {
-      "epoch": 2.11,
-      "eval_loss": 2.095900297164917,
-      "eval_runtime": 205.8458,
-      "eval_samples_per_second": 30.479,
-      "eval_steps_per_second": 3.814,
-      "step": 2900
-    },
-    {
-      "epoch": 2.19,
-      "learning_rate": 0.0002,
-      "loss": 2.0569,
-      "step": 3000
-    },
-    {
-      "epoch": 2.19,
-      "eval_loss": 2.086268186569214,
-      "eval_runtime": 205.8743,
-      "eval_samples_per_second": 30.475,
-      "eval_steps_per_second": 3.813,
-      "step": 3000
-    },
-    {
-      "epoch": 2.26,
-      "learning_rate": 0.0002,
-      "loss": 2.026,
-      "step": 3100
-    },
-    {
-      "epoch": 2.26,
-      "eval_loss": 2.0734798908233643,
-      "eval_runtime": 205.5677,
-      "eval_samples_per_second": 30.52,
-      "eval_steps_per_second": 3.819,
-      "step": 3100
-    },
-    {
-      "epoch": 2.33,
-      "learning_rate": 0.0002,
-      "loss": 2.0419,
-      "step": 3200
-    },
-    {
-      "epoch": 2.33,
-      "eval_loss": 2.0609538555145264,
-      "eval_runtime": 205.9181,
-      "eval_samples_per_second": 30.468,
-      "eval_steps_per_second": 3.812,
-      "step": 3200
-    },
-    {
-      "epoch": 2.4,
-      "learning_rate": 0.0002,
-      "loss": 2.0076,
-      "step": 3300
-    },
-    {
-      "epoch": 2.4,
-      "eval_loss": 2.050496816635132,
-      "eval_runtime": 217.6079,
-      "eval_samples_per_second": 28.832,
-      "eval_steps_per_second": 3.607,
-      "step": 3300
-    },
-    {
-      "epoch": 2.48,
-      "learning_rate": 0.0002,
-      "loss": 2.0016,
-      "step": 3400
-    },
-    {
-      "epoch": 2.48,
-      "eval_loss": 2.0477590560913086,
-      "eval_runtime": 732.4043,
-      "eval_samples_per_second": 8.566,
-      "eval_steps_per_second": 1.072,
-      "step": 3400
-    },
-    {
-      "epoch": 2.55,
-      "learning_rate": 0.0002,
-      "loss": 1.9994,
-      "step": 3500
-    },
-    {
-      "epoch": 2.55,
-      "eval_loss": 2.032184600830078,
-      "eval_runtime": 206.2715,
-      "eval_samples_per_second": 30.416,
-      "eval_steps_per_second": 3.806,
-      "step": 3500
-    },
-    {
-      "epoch": 2.62,
-      "learning_rate": 0.0002,
-      "loss": 1.9943,
-      "step": 3600
-    },
-    {
-      "epoch": 2.62,
-      "eval_loss": 2.025076150894165,
-      "eval_runtime": 206.2168,
-      "eval_samples_per_second": 30.424,
-      "eval_steps_per_second": 3.807,
-      "step": 3600
-    },
-    {
-      "epoch": 2.7,
-      "learning_rate": 0.0002,
-      "loss": 1.9753,
-      "step": 3700
-    },
-    {
-      "epoch": 2.7,
-      "eval_loss": 2.0129501819610596,
-      "eval_runtime": 205.8316,
-      "eval_samples_per_second": 30.481,
-      "eval_steps_per_second": 3.814,
-      "step": 3700
-    },
-    {
-      "epoch": 2.77,
-      "learning_rate": 0.0002,
-      "loss": 1.9655,
-      "step": 3800
-    },
-    {
-      "epoch": 2.77,
-      "eval_loss": 2.0070459842681885,
-      "eval_runtime": 205.9791,
-      "eval_samples_per_second": 30.459,
-      "eval_steps_per_second": 3.811,
-      "step": 3800
-    },
-    {
-      "epoch": 2.84,
-      "learning_rate": 0.0002,
-      "loss": 1.9543,
-      "step": 3900
-    },
-    {
-      "epoch": 2.84,
-      "eval_loss": 1.9966601133346558,
-      "eval_runtime": 205.9208,
-      "eval_samples_per_second": 30.468,
-      "eval_steps_per_second": 3.812,
-      "step": 3900
-    },
-    {
-      "epoch": 2.91,
-      "learning_rate": 0.0002,
-      "loss": 1.9564,
-      "step": 4000
-    },
-    {
-      "epoch": 2.91,
-      "eval_loss": 1.9900394678115845,
-      "eval_runtime": 254.5389,
-      "eval_samples_per_second": 24.648,
-      "eval_steps_per_second": 3.084,
-      "step": 4000
-    },
-    {
-      "epoch": 2.99,
-      "learning_rate": 0.0002,
-      "loss": 1.9568,
-      "step": 4100
-    },
-    {
-      "epoch": 2.99,
-      "eval_loss": 1.9765580892562866,
-      "eval_runtime": 228.036,
-      "eval_samples_per_second": 27.513,
-      "eval_steps_per_second": 3.442,
-      "step": 4100
     }
   ],
   "logging_steps": 100,
   "max_steps": 4116,
   "num_train_epochs": 3,
   "save_steps": 100,
-  "total_flos": 1.1959366338920448e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 2.642388343811035,
+  "best_model_checkpoint": "./outputs/checkpoint-100",
+  "epoch": 0.07285974499089254,
   "eval_steps": 100,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     {
       "epoch": 0.07,
       "learning_rate": 0.0002,
+      "loss": 2.7403,
       "step": 100
     },
     {
       "epoch": 0.07,
+      "eval_loss": 2.642388343811035,
+      "eval_runtime": 205.2517,
+      "eval_samples_per_second": 30.567,
+      "eval_steps_per_second": 3.825,
       "step": 100
     }
   ],
   "logging_steps": 100,
   "max_steps": 4116,
   "num_train_epochs": 3,
   "save_steps": 100,
+  "total_flos": 2917794121482240.0,
   "trial_name": null,
   "trial_params": null
 }

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c66c4c8ecfd84aad650ec729a9571031304ebef290f19f46a950adc124725eb2
 size 4219

 version https://git-lfs.github.com/spec/v1
+oid sha256:8927232939baef7082a44b6698508fb5cbcfa0e114492c75852ea328fe01a9ef
 size 4219