Training in progress, step 2700, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f287e10b3519c25fc83edd7acd8cc7cd1c222a41d94fdee3bad4cce6af776567
 size 524363632

 version https://git-lfs.github.com/spec/v1
+oid sha256:7f099ec01c680e66dee9f2fb8e1abb29ede61140d1e75177ddc7cf251990d3c9
 size 524363632

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a2fb02b6a02ceadae09c2702b5172cbc44178e9b1056a25f944bb6996f32c4a8
-size 1049049378

 version https://git-lfs.github.com/spec/v1
+oid sha256:304267e0a422299b1c99a12310feede4451b34db4869367967330e5221af5e8c
+size 1049049442

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:65ad7e6d1a2a4a73b6262b8f73328a902c07cad4e904b1d224f6efe38cd6b2de
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:1747ed43b50bf4e0cbd7efe79f5150a5e5a84661860c5f1358011e2b61ea5cd0
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3a0eec867f87d3a5ffc128abe2e98cc84850220a61f050e675a6109f6d217117
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:80f93d246266aa5b09398ee9582ec4f222c7b96eed39032b13a6dea73b1ae8ef
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.2038679122924805,
-  "best_model_checkpoint": "./output/checkpoint-2400",
-  "epoch": 0.11422172452407615,
   "eval_steps": 150,
-  "global_step": 2550,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1928,6 +1928,119 @@
       "eval_samples_per_second": 9.668,
       "eval_steps_per_second": 9.668,
       "step": 2550
     }
   ],
   "logging_steps": 10,
@@ -1947,7 +2060,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.2997299945472e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.2033374309539795,
+  "best_model_checkpoint": "./output/checkpoint-2700",
+  "epoch": 0.12094064949608063,
   "eval_steps": 150,
+  "global_step": 2700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 9.668,
       "eval_steps_per_second": 9.668,
       "step": 2550
+    },
+    {
+      "epoch": 0.11466965285554312,
+      "grad_norm": 6.124125003814697,
+      "learning_rate": 3.7259573637974587e-06,
+      "loss": 1.0568,
+      "step": 2560
+    },
+    {
+      "epoch": 0.11511758118701008,
+      "grad_norm": 4.3748602867126465,
+      "learning_rate": 3.701915715893523e-06,
+      "loss": 1.4124,
+      "step": 2570
+    },
+    {
+      "epoch": 0.11556550951847705,
+      "grad_norm": 7.382061004638672,
+      "learning_rate": 3.677876044546174e-06,
+      "loss": 1.1357,
+      "step": 2580
+    },
+    {
+      "epoch": 0.11601343784994401,
+      "grad_norm": 4.097735404968262,
+      "learning_rate": 3.6538393379321427e-06,
+      "loss": 1.0885,
+      "step": 2590
+    },
+    {
+      "epoch": 0.11646136618141098,
+      "grad_norm": 5.039736270904541,
+      "learning_rate": 3.6298065841062934e-06,
+      "loss": 1.107,
+      "step": 2600
+    },
+    {
+      "epoch": 0.11690929451287795,
+      "grad_norm": 4.383152008056641,
+      "learning_rate": 3.6057787709610064e-06,
+      "loss": 1.1695,
+      "step": 2610
+    },
+    {
+      "epoch": 0.11735722284434491,
+      "grad_norm": 4.900496482849121,
+      "learning_rate": 3.5817568861855708e-06,
+      "loss": 1.1107,
+      "step": 2620
+    },
+    {
+      "epoch": 0.11780515117581188,
+      "grad_norm": 6.267992973327637,
+      "learning_rate": 3.557741917225579e-06,
+      "loss": 1.1896,
+      "step": 2630
+    },
+    {
+      "epoch": 0.11825307950727884,
+      "grad_norm": 3.8060693740844727,
+      "learning_rate": 3.5337348512423468e-06,
+      "loss": 1.2245,
+      "step": 2640
+    },
+    {
+      "epoch": 0.1187010078387458,
+      "grad_norm": 3.5068161487579346,
+      "learning_rate": 3.5097366750723275e-06,
+      "loss": 1.0629,
+      "step": 2650
+    },
+    {
+      "epoch": 0.11914893617021277,
+      "grad_norm": 4.6765360832214355,
+      "learning_rate": 3.4857483751865478e-06,
+      "loss": 1.1783,
+      "step": 2660
+    },
+    {
+      "epoch": 0.11959686450167974,
+      "grad_norm": 7.864380836486816,
+      "learning_rate": 3.461770937650064e-06,
+      "loss": 1.0683,
+      "step": 2670
+    },
+    {
+      "epoch": 0.1200447928331467,
+      "grad_norm": 3.138843297958374,
+      "learning_rate": 3.437805348081416e-06,
+      "loss": 0.9814,
+      "step": 2680
+    },
+    {
+      "epoch": 0.12049272116461367,
+      "grad_norm": 5.134324550628662,
+      "learning_rate": 3.413852591612125e-06,
+      "loss": 1.1631,
+      "step": 2690
+    },
+    {
+      "epoch": 0.12094064949608063,
+      "grad_norm": 4.688596725463867,
+      "learning_rate": 3.389913652846194e-06,
+      "loss": 1.0644,
+      "step": 2700
+    },
+    {
+      "epoch": 0.12094064949608063,
+      "eval_loss": 1.2033374309539795,
+      "eval_runtime": 51.6099,
+      "eval_samples_per_second": 9.688,
+      "eval_steps_per_second": 9.688,
+      "step": 2700
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 3.47676625787904e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null