Training in progress, step 3300, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:704458e22083d426be5e0b2430ec99e95658e2146eeda1abbadddcef1b66afa0
 size 69527352

 version https://git-lfs.github.com/spec/v1
+oid sha256:d2eb2f4a1272ed7c45d0d57597219e288173a36ff1d96174f964cf75aa7e50f1
 size 69527352

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:516e6b0d7cfd706f5b04b458cc6f13af606fbcb05d80be45f02aa990d2fa7939
 size 139313554

 version https://git-lfs.github.com/spec/v1
+oid sha256:91afd86c3f0645431d67d9e9caef6058ba72bbca9804fa1b34ae225fb0fdcdfc
 size 139313554

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f7a7bdab08336c0f7233e606ce96075425fa9cf729719c53f2840e05d72ac534
 size 14308

 version https://git-lfs.github.com/spec/v1
+oid sha256:89543781f745d82510d3991bd8bd26751b68ca2499fbac19015521a55810e601
 size 14308

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c2ad8a27e92c879b969b5845f60871e76a73be3547e482cc45027df5fe072f15
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:5af34678d4362657736a6697e6bc5d13d1a967b12f171df00bcc4a7612a9b8a2
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.801069974899292,
-  "best_model_checkpoint": "./output/checkpoint-3150",
-  "epoch": 0.39159622078567874,
   "eval_steps": 150,
-  "global_step": 3150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2380,6 +2380,119 @@
       "eval_samples_per_second": 8.834,
       "eval_steps_per_second": 8.834,
       "step": 3150
     }
   ],
   "logging_steps": 10,
@@ -2399,7 +2512,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.0945600710137856e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.7923147678375244,
+  "best_model_checkpoint": "./output/checkpoint-3300",
+  "epoch": 0.4102436598707111,
   "eval_steps": 150,
+  "global_step": 3300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 8.834,
       "eval_steps_per_second": 8.834,
       "step": 3150
+    },
+    {
+      "epoch": 0.3928393833913476,
+      "grad_norm": 1.8093242645263672,
+      "learning_rate": 3.8674868876822395e-05,
+      "loss": 0.5608,
+      "step": 3160
+    },
+    {
+      "epoch": 0.3940825459970164,
+      "grad_norm": 1.6383775472640991,
+      "learning_rate": 3.83049049164295e-05,
+      "loss": 0.5706,
+      "step": 3170
+    },
+    {
+      "epoch": 0.39532570860268523,
+      "grad_norm": 1.7762494087219238,
+      "learning_rate": 3.793593552162978e-05,
+      "loss": 0.6272,
+      "step": 3180
+    },
+    {
+      "epoch": 0.39656887120835405,
+      "grad_norm": 1.989702582359314,
+      "learning_rate": 3.75679758593099e-05,
+      "loss": 0.6268,
+      "step": 3190
+    },
+    {
+      "epoch": 0.39781203381402286,
+      "grad_norm": 1.2394602298736572,
+      "learning_rate": 3.720104105485039e-05,
+      "loss": 0.5745,
+      "step": 3200
+    },
+    {
+      "epoch": 0.39905519641969167,
+      "grad_norm": 1.6666808128356934,
+      "learning_rate": 3.6835146191503885e-05,
+      "loss": 0.6287,
+      "step": 3210
+    },
+    {
+      "epoch": 0.40029835902536054,
+      "grad_norm": 0.926642119884491,
+      "learning_rate": 3.647030630977508e-05,
+      "loss": 0.6038,
+      "step": 3220
+    },
+    {
+      "epoch": 0.40154152163102935,
+      "grad_norm": 1.3358100652694702,
+      "learning_rate": 3.6106536406802524e-05,
+      "loss": 0.5941,
+      "step": 3230
+    },
+    {
+      "epoch": 0.40278468423669817,
+      "grad_norm": 1.339179277420044,
+      "learning_rate": 3.5743851435742176e-05,
+      "loss": 0.5888,
+      "step": 3240
+    },
+    {
+      "epoch": 0.404027846842367,
+      "grad_norm": 1.4704395532608032,
+      "learning_rate": 3.538226630515262e-05,
+      "loss": 0.5113,
+      "step": 3250
+    },
+    {
+      "epoch": 0.4052710094480358,
+      "grad_norm": 1.2576725482940674,
+      "learning_rate": 3.502179587838238e-05,
+      "loss": 0.5874,
+      "step": 3260
+    },
+    {
+      "epoch": 0.4065141720537046,
+      "grad_norm": 1.1804664134979248,
+      "learning_rate": 3.46624549729588e-05,
+      "loss": 0.6054,
+      "step": 3270
+    },
+    {
+      "epoch": 0.40775733465937347,
+      "grad_norm": 1.6472457647323608,
+      "learning_rate": 3.430425835997908e-05,
+      "loss": 0.6168,
+      "step": 3280
+    },
+    {
+      "epoch": 0.4090004972650423,
+      "grad_norm": 1.3699522018432617,
+      "learning_rate": 3.394722076350302e-05,
+      "loss": 0.5227,
+      "step": 3290
+    },
+    {
+      "epoch": 0.4102436598707111,
+      "grad_norm": 0.9297524690628052,
+      "learning_rate": 3.359135685994781e-05,
+      "loss": 0.5818,
+      "step": 3300
+    },
+    {
+      "epoch": 0.4102436598707111,
+      "eval_loss": 0.7923147678375244,
+      "eval_runtime": 53.7845,
+      "eval_samples_per_second": 9.296,
+      "eval_steps_per_second": 9.296,
+      "step": 3300
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.1468266790135808e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null