Training in progress, step 30, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/adapter_config.json +4 -4
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/trainer_state.json +47 -47
last-checkpoint/training_args.bin +1 -1

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -20,12 +20,12 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "k_proj",
-    "c_proj",
-    "v_proj",
     "c_fc",
     "out_proj",
-    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "q_proj",
     "c_fc",
+    "v_proj",
+    "c_proj",
     "out_proj",
+    "k_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:06dc73c34e92bbffe33fb3d300f040f2d44bb34b11714216152a700860c95de0
 size 28350504

 version https://git-lfs.github.com/spec/v1
+oid sha256:745c1468e06c85151d8a0fc42f6b52340a175a4102627b614c1a15bfdbe8e92f
 size 28350504

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5419ac0f2ed5d036023a8f9976f34ada67ec923d7e4e8679d93b2444e0be84a6
 size 56864954

 version https://git-lfs.github.com/spec/v1
+oid sha256:ed9f4e5d67066275c181104051d58a3acd0686f2439028189a0bccc1124d98f4
 size 56864954

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:87ac1a33f136aa1f47e5b25f5555000c65160f91613dd9094dd725f4ba48f816
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:a8eea9a189c545feeac5a6be65f48c5a2255cd21a4f95acc5ffddceac8c7ebc5
 size 14244

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -11,127 +11,127 @@
     {
       "epoch": 0.0015829046299960427,
       "eval_loss": 3.308307647705078,
-      "eval_runtime": 28.0816,
-      "eval_samples_per_second": 9.508,
-      "eval_steps_per_second": 4.772,
       "step": 1
     },
     {
       "epoch": 0.004748713889988128,
-      "grad_norm": 1.2312108278274536,
       "learning_rate": 4e-05,
-      "loss": 12.8177,
       "step": 3
     },
     {
       "epoch": 0.007914523149980214,
-      "eval_loss": 3.295578718185425,
-      "eval_runtime": 29.4423,
-      "eval_samples_per_second": 9.069,
-      "eval_steps_per_second": 4.551,
       "step": 5
     },
     {
       "epoch": 0.009497427779976256,
-      "grad_norm": 1.2333104610443115,
       "learning_rate": 8e-05,
-      "loss": 13.3906,
       "step": 6
     },
     {
       "epoch": 0.014246141669964385,
-      "grad_norm": 1.3805502653121948,
       "learning_rate": 0.00012,
-      "loss": 12.8913,
       "step": 9
     },
     {
       "epoch": 0.015829046299960427,
-      "eval_loss": 3.2013204097747803,
-      "eval_runtime": 29.4943,
-      "eval_samples_per_second": 9.053,
-      "eval_steps_per_second": 4.543,
       "step": 10
     },
     {
       "epoch": 0.018994855559952513,
-      "grad_norm": 1.6501611471176147,
       "learning_rate": 0.00016,
-      "loss": 12.8777,
       "step": 12
     },
     {
       "epoch": 0.02374356944994064,
-      "grad_norm": 2.22099232673645,
       "learning_rate": 0.0002,
-      "loss": 12.4127,
       "step": 15
     },
     {
       "epoch": 0.02374356944994064,
-      "eval_loss": 2.9730358123779297,
-      "eval_runtime": 29.2779,
-      "eval_samples_per_second": 9.12,
-      "eval_steps_per_second": 4.577,
       "step": 15
     },
     {
       "epoch": 0.02849228333992877,
-      "grad_norm": 2.912126302719116,
       "learning_rate": 0.00018090169943749476,
-      "loss": 12.2322,
       "step": 18
     },
     {
       "epoch": 0.031658092599920855,
-      "eval_loss": 2.8512351512908936,
-      "eval_runtime": 29.274,
-      "eval_samples_per_second": 9.121,
-      "eval_steps_per_second": 4.577,
       "step": 20
     },
     {
       "epoch": 0.0332409972299169,
-      "grad_norm": 3.5809288024902344,
       "learning_rate": 0.00013090169943749476,
-      "loss": 11.1144,
       "step": 21
     },
     {
       "epoch": 0.037989711119905026,
-      "grad_norm": 3.8274831771850586,
       "learning_rate": 6.909830056250527e-05,
-      "loss": 11.088,
       "step": 24
     },
     {
       "epoch": 0.03957261574990107,
-      "eval_loss": 2.7848706245422363,
-      "eval_runtime": 29.2305,
-      "eval_samples_per_second": 9.134,
-      "eval_steps_per_second": 4.584,
       "step": 25
     },
     {
       "epoch": 0.04273842500989315,
-      "grad_norm": 3.4378135204315186,
       "learning_rate": 1.9098300562505266e-05,
-      "loss": 11.3866,
       "step": 27
     },
     {
       "epoch": 0.04748713889988128,
-      "grad_norm": 3.47043514251709,
       "learning_rate": 0.0,
-      "loss": 10.9971,
       "step": 30
     },
     {
       "epoch": 0.04748713889988128,
-      "eval_loss": 2.7654731273651123,
-      "eval_runtime": 29.4851,
-      "eval_samples_per_second": 9.055,
-      "eval_steps_per_second": 4.545,
       "step": 30
     }
   ],

     {
       "epoch": 0.0015829046299960427,
       "eval_loss": 3.308307647705078,
+      "eval_runtime": 29.2827,
+      "eval_samples_per_second": 9.118,
+      "eval_steps_per_second": 4.576,
       "step": 1
     },
     {
       "epoch": 0.004748713889988128,
+      "grad_norm": 1.196844220161438,
       "learning_rate": 4e-05,
+      "loss": 12.8218,
       "step": 3
     },
     {
       "epoch": 0.007914523149980214,
+      "eval_loss": 3.297595500946045,
+      "eval_runtime": 29.4236,
+      "eval_samples_per_second": 9.074,
+      "eval_steps_per_second": 4.554,
       "step": 5
     },
     {
       "epoch": 0.009497427779976256,
+      "grad_norm": 1.2031594514846802,
       "learning_rate": 8e-05,
+      "loss": 13.3919,
       "step": 6
     },
     {
       "epoch": 0.014246141669964385,
+      "grad_norm": 1.380180835723877,
       "learning_rate": 0.00012,
+      "loss": 12.9002,
       "step": 9
     },
     {
       "epoch": 0.015829046299960427,
+      "eval_loss": 3.203984022140503,
+      "eval_runtime": 29.468,
+      "eval_samples_per_second": 9.061,
+      "eval_steps_per_second": 4.547,
       "step": 10
     },
     {
       "epoch": 0.018994855559952513,
+      "grad_norm": 1.636251449584961,
       "learning_rate": 0.00016,
+      "loss": 12.8921,
       "step": 12
     },
     {
       "epoch": 0.02374356944994064,
+      "grad_norm": 2.213144063949585,
       "learning_rate": 0.0002,
+      "loss": 12.4253,
       "step": 15
     },
     {
       "epoch": 0.02374356944994064,
+      "eval_loss": 2.9763691425323486,
+      "eval_runtime": 28.8362,
+      "eval_samples_per_second": 9.259,
+      "eval_steps_per_second": 4.647,
       "step": 15
     },
     {
       "epoch": 0.02849228333992877,
+      "grad_norm": 2.92785382270813,
       "learning_rate": 0.00018090169943749476,
+      "loss": 12.2475,
       "step": 18
     },
     {
       "epoch": 0.031658092599920855,
+      "eval_loss": 2.8532521724700928,
+      "eval_runtime": 29.2118,
+      "eval_samples_per_second": 9.14,
+      "eval_steps_per_second": 4.587,
       "step": 20
     },
     {
       "epoch": 0.0332409972299169,
+      "grad_norm": 3.543342113494873,
       "learning_rate": 0.00013090169943749476,
+      "loss": 11.1149,
       "step": 21
     },
     {
       "epoch": 0.037989711119905026,
+      "grad_norm": 3.853139877319336,
       "learning_rate": 6.909830056250527e-05,
+      "loss": 11.0996,
       "step": 24
     },
     {
       "epoch": 0.03957261574990107,
+      "eval_loss": 2.788191080093384,
+      "eval_runtime": 29.2926,
+      "eval_samples_per_second": 9.115,
+      "eval_steps_per_second": 4.575,
       "step": 25
     },
     {
       "epoch": 0.04273842500989315,
+      "grad_norm": 3.464561939239502,
       "learning_rate": 1.9098300562505266e-05,
+      "loss": 11.4012,
       "step": 27
     },
     {
       "epoch": 0.04748713889988128,
+      "grad_norm": 3.4989161491394043,
       "learning_rate": 0.0,
+      "loss": 11.0014,
       "step": 30
     },
     {
       "epoch": 0.04748713889988128,
+      "eval_loss": 2.768246650695801,
+      "eval_runtime": 26.7805,
+      "eval_samples_per_second": 9.97,
+      "eval_steps_per_second": 5.004,
       "step": 30
     }
   ],

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:adfb4580706a048160375e8624fa9a7f84d6a41b48e40f92269e05bf72810723
 size 6776

 version https://git-lfs.github.com/spec/v1
+oid sha256:359961b657b2f05ead8b51b2220854f1111e0ff5c03573368931439f86d9dd9c
 size 6776