Training in progress, step 138, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_config.json +4 -4
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +172 -3
last-checkpoint/training_args.bin +1 -1

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -23,12 +23,12 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "gate_proj",
-    "q_proj",
     "v_proj",
     "k_proj",
-    "up_proj",
-    "down_proj",
     "o_proj"
   ],
   "task_type": "CAUSAL_LM",

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "down_proj",
+    "up_proj",
     "v_proj",
+    "q_proj",
     "k_proj",
+    "gate_proj",
     "o_proj"
   ],
   "task_type": "CAUSAL_LM",

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:09d423e94feaf8033b31452667f003cb573a77c4a9f506cbdd460557e56907c6
 size 1101095848

 version https://git-lfs.github.com/spec/v1
+oid sha256:159f4953091dcb60129c0d98dc4d161e4996f1e8228c96c20af61a193789da4e
 size 1101095848

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:78f828185d4f5953ab36ae5fff9f265052a5a94558cdbf8e78a79d91fd02babb
-size 839468180

 version https://git-lfs.github.com/spec/v1
+oid sha256:fd8ed52e211d25f45761d87e5f8eca279aa74c868fdfda06c6a4b31c3326a96e
+size 841204242

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:382b0c36b5e9719dde2ab41462be8ffb1ad866ac7375e059dc9959d16c5cf0a8
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:914a6a745fbc0daf993d085d59ff08f982320f1402730c23e1dff1739810252e
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e243468041094465725543ec88af2957e1619e78af2ea16687cb83a4910726b1
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b269ab7d807492a2a25a83d2f77415556d138cbad7aa38efc35115be1c1f045d
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.5043859649122807,
   "eval_steps": 23,
-  "global_step": 115,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -860,6 +860,175 @@
       "eval_samples_per_second": 0.36,
       "eval_steps_per_second": 0.36,
       "step": 115
     }
   ],
   "logging_steps": 1,
@@ -879,7 +1048,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.451386683857306e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.6052631578947368,
   "eval_steps": 23,
+  "global_step": 138,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 0.36,
       "eval_steps_per_second": 0.36,
       "step": 115
+    },
+    {
+      "epoch": 0.5087719298245614,
+      "grad_norm": 0.041254762560129166,
+      "learning_rate": 2.8472437850188416e-05,
+      "loss": 2.1322,
+      "step": 116
+    },
+    {
+      "epoch": 0.5131578947368421,
+      "grad_norm": 0.04002700001001358,
+      "learning_rate": 2.8148404115607496e-05,
+      "loss": 2.1348,
+      "step": 117
+    },
+    {
+      "epoch": 0.5175438596491229,
+      "grad_norm": 0.04018218815326691,
+      "learning_rate": 2.7824235725245042e-05,
+      "loss": 2.1397,
+      "step": 118
+    },
+    {
+      "epoch": 0.5219298245614035,
+      "grad_norm": 0.03979986160993576,
+      "learning_rate": 2.7500000000000004e-05,
+      "loss": 2.1661,
+      "step": 119
+    },
+    {
+      "epoch": 0.5263157894736842,
+      "grad_norm": 0.03741481155157089,
+      "learning_rate": 2.7175764274754967e-05,
+      "loss": 2.0629,
+      "step": 120
+    },
+    {
+      "epoch": 0.5307017543859649,
+      "grad_norm": 0.04032299295067787,
+      "learning_rate": 2.685159588439251e-05,
+      "loss": 2.2347,
+      "step": 121
+    },
+    {
+      "epoch": 0.5350877192982456,
+      "grad_norm": 0.042785074561834335,
+      "learning_rate": 2.6527562149811586e-05,
+      "loss": 2.1792,
+      "step": 122
+    },
+    {
+      "epoch": 0.5394736842105263,
+      "grad_norm": 0.040340930223464966,
+      "learning_rate": 2.6203730363946855e-05,
+      "loss": 2.4248,
+      "step": 123
+    },
+    {
+      "epoch": 0.543859649122807,
+      "grad_norm": 0.04094316065311432,
+      "learning_rate": 2.5880167777793746e-05,
+      "loss": 2.1152,
+      "step": 124
+    },
+    {
+      "epoch": 0.5482456140350878,
+      "grad_norm": 0.04053365811705589,
+      "learning_rate": 2.5556941586442263e-05,
+      "loss": 2.247,
+      "step": 125
+    },
+    {
+      "epoch": 0.5526315789473685,
+      "grad_norm": 0.04444659873843193,
+      "learning_rate": 2.523411891512244e-05,
+      "loss": 2.0332,
+      "step": 126
+    },
+    {
+      "epoch": 0.5570175438596491,
+      "grad_norm": 0.04211907461285591,
+      "learning_rate": 2.4911766805264246e-05,
+      "loss": 2.2871,
+      "step": 127
+    },
+    {
+      "epoch": 0.5614035087719298,
+      "grad_norm": 0.039295535534620285,
+      "learning_rate": 2.458995220057491e-05,
+      "loss": 2.0771,
+      "step": 128
+    },
+    {
+      "epoch": 0.5657894736842105,
+      "grad_norm": 0.04139047861099243,
+      "learning_rate": 2.426874193313657e-05,
+      "loss": 2.3538,
+      "step": 129
+    },
+    {
+      "epoch": 0.5701754385964912,
+      "grad_norm": 0.04222600907087326,
+      "learning_rate": 2.394820270952704e-05,
+      "loss": 2.2202,
+      "step": 130
+    },
+    {
+      "epoch": 0.5745614035087719,
+      "grad_norm": 0.04055177420377731,
+      "learning_rate": 2.3628401096966717e-05,
+      "loss": 2.1976,
+      "step": 131
+    },
+    {
+      "epoch": 0.5789473684210527,
+      "grad_norm": 0.040084317326545715,
+      "learning_rate": 2.3309403509494393e-05,
+      "loss": 2.1939,
+      "step": 132
+    },
+    {
+      "epoch": 0.5833333333333334,
+      "grad_norm": 0.04429348185658455,
+      "learning_rate": 2.2991276194174838e-05,
+      "loss": 2.367,
+      "step": 133
+    },
+    {
+      "epoch": 0.5877192982456141,
+      "grad_norm": 0.04366152733564377,
+      "learning_rate": 2.267408521734113e-05,
+      "loss": 2.2848,
+      "step": 134
+    },
+    {
+      "epoch": 0.5921052631578947,
+      "grad_norm": 0.04157907888293266,
+      "learning_rate": 2.23578964508745e-05,
+      "loss": 2.3166,
+      "step": 135
+    },
+    {
+      "epoch": 0.5964912280701754,
+      "grad_norm": 0.045395560562610626,
+      "learning_rate": 2.2042775558524503e-05,
+      "loss": 2.2021,
+      "step": 136
+    },
+    {
+      "epoch": 0.6008771929824561,
+      "grad_norm": 0.04491296038031578,
+      "learning_rate": 2.1728787982272493e-05,
+      "loss": 2.1836,
+      "step": 137
+    },
+    {
+      "epoch": 0.6052631578947368,
+      "grad_norm": 0.04048113152384758,
+      "learning_rate": 2.141599892874107e-05,
+      "loss": 2.2104,
+      "step": 138
+    },
+    {
+      "epoch": 0.6052631578947368,
+      "eval_loss": 2.166778087615967,
+      "eval_runtime": 219.3317,
+      "eval_samples_per_second": 0.365,
+      "eval_steps_per_second": 0.365,
+      "step": 138
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 7.741664020628767e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:74041c6fe316b2e2ef7886b5ba6646caf901292406a50a5783f0fb2cd3feb66a
 size 6712

 version https://git-lfs.github.com/spec/v1
+oid sha256:7486783359d6c84d6c4d68e2a011458cc32e2490c825991a5cf321ef8b99edb5
 size 6712