Training in progress, step 2550, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +116 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:89a617556f243d6ec03e30f237b1e2ebff58dd7cb54252ae3f4c46c1a70ae592
 size 319876032

 version https://git-lfs.github.com/spec/v1
+oid sha256:95c9efcc4fca0de984b6adfde8ddbe71abae266a330d7c7082b6986689320dc5
 size 319876032

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:618391452d93ea3d8d163016e74d38e813add986ec344fe6b594c740bf4e1da4
 size 640010002

 version https://git-lfs.github.com/spec/v1
+oid sha256:eef0c312f254b5fe732cb8fd6be97b205f3e1334c1ecab36130b3371b9def4ac
 size 640010002

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8ab415317bf6085550b52e3662fa27ce809ca87c7e59c2544438ec52f9a4b522
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:1dea3ce7e5867473893ebfaed8870e7b8f0b41b7bff140a091f47fbfd87102dc
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e289fadf25e00f6e814140ec41c4ae5fbbf1fcf1f7907f11f4e9d252c610f893
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:3a0eec867f87d3a5ffc128abe2e98cc84850220a61f050e675a6109f6d217117
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.3416612446308136,
   "best_model_checkpoint": "./output/checkpoint-2400",
-  "epoch": 0.13570055411059595,
   "eval_steps": 150,
-  "global_step": 2400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1815,6 +1815,119 @@
       "eval_samples_per_second": 12.631,
       "eval_steps_per_second": 12.631,
       "step": 2400
     }
   ],
   "logging_steps": 10,
@@ -1834,7 +1947,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.3574956494156595e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.3416612446308136,
   "best_model_checkpoint": "./output/checkpoint-2400",
+  "epoch": 0.1441818387425082,
   "eval_steps": 150,
+  "global_step": 2550,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 12.631,
       "eval_steps_per_second": 12.631,
       "step": 2400
+    },
+    {
+      "epoch": 0.13626597308605676,
+      "grad_norm": 2.4910035133361816,
+      "learning_rate": 4.0861474083878765e-06,
+      "loss": 0.0915,
+      "step": 2410
+    },
+    {
+      "epoch": 0.1368313920615176,
+      "grad_norm": 3.023247718811035,
+      "learning_rate": 4.062194651918585e-06,
+      "loss": 0.1348,
+      "step": 2420
+    },
+    {
+      "epoch": 0.1373968110369784,
+      "grad_norm": 2.995408773422241,
+      "learning_rate": 4.0382290623499384e-06,
+      "loss": 0.226,
+      "step": 2430
+    },
+    {
+      "epoch": 0.1379622300124392,
+      "grad_norm": 0.3714699149131775,
+      "learning_rate": 4.014251624813453e-06,
+      "loss": 0.1973,
+      "step": 2440
+    },
+    {
+      "epoch": 0.13852764898790004,
+      "grad_norm": 3.3884501457214355,
+      "learning_rate": 3.990263324927675e-06,
+      "loss": 0.3278,
+      "step": 2450
+    },
+    {
+      "epoch": 0.13909306796336085,
+      "grad_norm": 5.731414318084717,
+      "learning_rate": 3.966265148757655e-06,
+      "loss": 0.2329,
+      "step": 2460
+    },
+    {
+      "epoch": 0.13965848693882166,
+      "grad_norm": 4.77826452255249,
+      "learning_rate": 3.9422580827744224e-06,
+      "loss": 0.2764,
+      "step": 2470
+    },
+    {
+      "epoch": 0.1402239059142825,
+      "grad_norm": 0.8867257833480835,
+      "learning_rate": 3.9182431138144315e-06,
+      "loss": 0.274,
+      "step": 2480
+    },
+    {
+      "epoch": 0.1407893248897433,
+      "grad_norm": 0.6366099715232849,
+      "learning_rate": 3.894221229038995e-06,
+      "loss": 0.2898,
+      "step": 2490
+    },
+    {
+      "epoch": 0.1413547438652041,
+      "grad_norm": 8.020559310913086,
+      "learning_rate": 3.870193415893709e-06,
+      "loss": 0.2701,
+      "step": 2500
+    },
+    {
+      "epoch": 0.14192016284066494,
+      "grad_norm": 0.9654809236526489,
+      "learning_rate": 3.846160662067859e-06,
+      "loss": 0.1817,
+      "step": 2510
+    },
+    {
+      "epoch": 0.14248558181612575,
+      "grad_norm": 3.0796737670898438,
+      "learning_rate": 3.8221239554538275e-06,
+      "loss": 0.1611,
+      "step": 2520
+    },
+    {
+      "epoch": 0.14305100079158656,
+      "grad_norm": 3.5335640907287598,
+      "learning_rate": 3.798084284106478e-06,
+      "loss": 0.2191,
+      "step": 2530
+    },
+    {
+      "epoch": 0.1436164197670474,
+      "grad_norm": 7.279317378997803,
+      "learning_rate": 3.7740426362025424e-06,
+      "loss": 0.2094,
+      "step": 2540
+    },
+    {
+      "epoch": 0.1441818387425082,
+      "grad_norm": 0.32002538442611694,
+      "learning_rate": 3.7500000000000005e-06,
+      "loss": 0.1295,
+      "step": 2550
+    },
+    {
+      "epoch": 0.1441818387425082,
+      "eval_loss": 0.35380080342292786,
+      "eval_runtime": 39.6008,
+      "eval_samples_per_second": 12.626,
+      "eval_steps_per_second": 12.626,
+      "step": 2550
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.4369993015279616e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null