Training in progress, step 4500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c10e16e3ac21d2c3067ac066149d6847ada80249a0d2201ec8b0747c1cc6cf62
 size 524363632

 version https://git-lfs.github.com/spec/v1
+oid sha256:6b6a6a42ffc6d380e2565f1fc5063348a1e34156d7e515f8f7da05f46e62ad60
 size 524363632

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:878ec53ac90deb1001fac14c0eae703bd28c1206475fc3b081fb43a039a2ed13
 size 1049049442

 version https://git-lfs.github.com/spec/v1
+oid sha256:e78a087bb6220991244d4fe57654663db01a4e71ac79cbc7cb3e84d260f51fe1
 size 1049049442

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d3b9e5eea9433b8628e2a81dae4e1ee9ab1ee13a921f1ad76ef9904766aca9f5
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:6ad3318d3c187ce725fc1b6b7085bd28d07766f6a1219cb8fb8f59b2625444c2
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c1f3a1c2778942fd3be1a9f139839cd53a1e492e182302e5e768461dfa2919be
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:3803bd21b70ba2e397dcc504f146e8f1f5465da72c7ce9f40dd721afbea3d107
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.1951868534088135,
-  "best_model_checkpoint": "./output/checkpoint-4350",
-  "epoch": 0.1948488241881299,
   "eval_steps": 150,
-  "global_step": 4350,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3284,6 +3284,119 @@
       "eval_samples_per_second": 9.682,
       "eval_steps_per_second": 9.682,
       "step": 4350
     }
   ],
   "logging_steps": 10,
@@ -3303,7 +3416,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.6157580670976e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.1950809955596924,
+  "best_model_checkpoint": "./output/checkpoint-4500",
+  "epoch": 0.20156774916013437,
   "eval_steps": 150,
+  "global_step": 4500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 9.682,
       "eval_steps_per_second": 9.682,
       "step": 4350
+    },
+    {
+      "epoch": 0.19529675251959686,
+      "grad_norm": 3.893348217010498,
+      "learning_rate": 3.1129108238383095e-07,
+      "loss": 1.2238,
+      "step": 4360
+    },
+    {
+      "epoch": 0.19574468085106383,
+      "grad_norm": 3.704392433166504,
+      "learning_rate": 3.017708529320604e-07,
+      "loss": 1.0766,
+      "step": 4370
+    },
+    {
+      "epoch": 0.19619260918253079,
+      "grad_norm": 4.406269073486328,
+      "learning_rate": 2.923923666747357e-07,
+      "loss": 0.9588,
+      "step": 4380
+    },
+    {
+      "epoch": 0.19664053751399777,
+      "grad_norm": 6.578729152679443,
+      "learning_rate": 2.8315600912469477e-07,
+      "loss": 1.1622,
+      "step": 4390
+    },
+    {
+      "epoch": 0.19708846584546472,
+      "grad_norm": 4.1804094314575195,
+      "learning_rate": 2.740621599524189e-07,
+      "loss": 1.1999,
+      "step": 4400
+    },
+    {
+      "epoch": 0.1975363941769317,
+      "grad_norm": 6.192513465881348,
+      "learning_rate": 2.651111929704303e-07,
+      "loss": 1.1274,
+      "step": 4410
+    },
+    {
+      "epoch": 0.19798432250839865,
+      "grad_norm": 4.356874942779541,
+      "learning_rate": 2.563034761179223e-07,
+      "loss": 1.0262,
+      "step": 4420
+    },
+    {
+      "epoch": 0.19843225083986563,
+      "grad_norm": 4.435469627380371,
+      "learning_rate": 2.476393714456384e-07,
+      "loss": 1.1814,
+      "step": 4430
+    },
+    {
+      "epoch": 0.19888017917133258,
+      "grad_norm": 3.9173505306243896,
+      "learning_rate": 2.391192351009855e-07,
+      "loss": 0.7984,
+      "step": 4440
+    },
+    {
+      "epoch": 0.19932810750279956,
+      "grad_norm": 6.546506881713867,
+      "learning_rate": 2.3074341731339837e-07,
+      "loss": 1.168,
+      "step": 4450
+    },
+    {
+      "epoch": 0.1997760358342665,
+      "grad_norm": 6.1646223068237305,
+      "learning_rate": 2.225122623799407e-07,
+      "loss": 1.2589,
+      "step": 4460
+    },
+    {
+      "epoch": 0.2002239641657335,
+      "grad_norm": 3.210203170776367,
+      "learning_rate": 2.1442610865115135e-07,
+      "loss": 1.0636,
+      "step": 4470
+    },
+    {
+      "epoch": 0.20067189249720044,
+      "grad_norm": 5.133816242218018,
+      "learning_rate": 2.0648528851714077e-07,
+      "loss": 1.0195,
+      "step": 4480
+    },
+    {
+      "epoch": 0.20111982082866742,
+      "grad_norm": 4.449398517608643,
+      "learning_rate": 1.9869012839392064e-07,
+      "loss": 1.1007,
+      "step": 4490
+    },
+    {
+      "epoch": 0.20156774916013437,
+      "grad_norm": 4.8083977699279785,
+      "learning_rate": 1.9104094870999264e-07,
+      "loss": 1.1975,
+      "step": 4500
+    },
+    {
+      "epoch": 0.20156774916013437,
+      "eval_loss": 1.1950809955596924,
+      "eval_runtime": 51.7311,
+      "eval_samples_per_second": 9.665,
+      "eval_steps_per_second": 9.665,
+      "step": 4500
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 5.818050367543296e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null