Training in progress, step 3000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c17afe8aa543f5af10efb74fc10799331d25a8f627686d95c8a71afc3cbe5c6c
 size 653434568

 version https://git-lfs.github.com/spec/v1
+oid sha256:7269ef19389d0dabe344eecadf2f972b366ebd89f995c229031ba1a7c0136bcf
 size 653434568

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f01cfac957f228d5650c7481df5c462565f2a7a2e58978cdd5dc28d2358d55f9
 size 1288533754

 version https://git-lfs.github.com/spec/v1
+oid sha256:c2708ab75f4e02836f24126a1366e7f282df027f699dacde707967213963694b
 size 1288533754

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:49bafec96b9a846e62e9e8699c2d75ea8c8c9553d8e2c96fc7f4442a85631bec
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:e4772898ab80a86c6bfdd33cc0ed48892e379bff8e26992078eed7695e28768d
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8ab1810ab1c70a1ca84d15fe5a2260ec41b4353db69d8cddb555e23347249850
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:fd6f337e19410a5cf93f3278d2c00428279e72ac3740a98521bd0469626afca4
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.5608752965927124,
-  "best_model_checkpoint": "./output/checkpoint-2850",
-  "epoch": 0.25270438020925695,
   "eval_steps": 150,
-  "global_step": 2850,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2154,6 +2154,119 @@
       "eval_samples_per_second": 8.428,
       "eval_steps_per_second": 8.428,
       "step": 2850
     }
   ],
   "logging_steps": 10,
@@ -2173,7 +2286,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 9.597091296097567e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.5497733354568481,
+  "best_model_checkpoint": "./output/checkpoint-3000",
+  "epoch": 0.26600461074658627,
   "eval_steps": 150,
+  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 8.428,
       "eval_steps_per_second": 8.428,
       "step": 2850
+    },
+    {
+      "epoch": 0.25359106224507894,
+      "grad_norm": 7.351998329162598,
+      "learning_rate": 4.012760807985666e-05,
+      "loss": 1.5118,
+      "step": 2860
+    },
+    {
+      "epoch": 0.25447774428090086,
+      "grad_norm": 9.371225357055664,
+      "learning_rate": 3.9813553410146234e-05,
+      "loss": 1.5299,
+      "step": 2870
+    },
+    {
+      "epoch": 0.25536442631672285,
+      "grad_norm": 7.500007152557373,
+      "learning_rate": 3.949991746535754e-05,
+      "loss": 1.5855,
+      "step": 2880
+    },
+    {
+      "epoch": 0.2562511083525448,
+      "grad_norm": 7.6006903648376465,
+      "learning_rate": 3.918671313783584e-05,
+      "loss": 1.5459,
+      "step": 2890
+    },
+    {
+      "epoch": 0.2571377903883667,
+      "grad_norm": 6.81592321395874,
+      "learning_rate": 3.8873953302184295e-05,
+      "loss": 1.361,
+      "step": 2900
+    },
+    {
+      "epoch": 0.2580244724241887,
+      "grad_norm": 6.851174831390381,
+      "learning_rate": 3.856165081473475e-05,
+      "loss": 1.2751,
+      "step": 2910
+    },
+    {
+      "epoch": 0.2589111544600106,
+      "grad_norm": 8.746306419372559,
+      "learning_rate": 3.824981851301925e-05,
+      "loss": 1.3964,
+      "step": 2920
+    },
+    {
+      "epoch": 0.2597978364958326,
+      "grad_norm": 8.92397689819336,
+      "learning_rate": 3.7938469215242386e-05,
+      "loss": 1.5833,
+      "step": 2930
+    },
+    {
+      "epoch": 0.26068451853165453,
+      "grad_norm": 12.532337188720703,
+      "learning_rate": 3.762761571975431e-05,
+      "loss": 1.754,
+      "step": 2940
+    },
+    {
+      "epoch": 0.2615712005674765,
+      "grad_norm": 7.304866313934326,
+      "learning_rate": 3.731727080452465e-05,
+      "loss": 1.5328,
+      "step": 2950
+    },
+    {
+      "epoch": 0.26245788260329844,
+      "grad_norm": 7.864557266235352,
+      "learning_rate": 3.700744722661737e-05,
+      "loss": 1.5286,
+      "step": 2960
+    },
+    {
+      "epoch": 0.2633445646391204,
+      "grad_norm": 6.201906204223633,
+      "learning_rate": 3.669815772166626e-05,
+      "loss": 1.5775,
+      "step": 2970
+    },
+    {
+      "epoch": 0.26423124667494235,
+      "grad_norm": 8.181777954101562,
+      "learning_rate": 3.6389415003351454e-05,
+      "loss": 1.6203,
+      "step": 2980
+    },
+    {
+      "epoch": 0.26511792871076434,
+      "grad_norm": 8.13985824584961,
+      "learning_rate": 3.608123176287686e-05,
+      "loss": 1.4212,
+      "step": 2990
+    },
+    {
+      "epoch": 0.26600461074658627,
+      "grad_norm": 7.873915672302246,
+      "learning_rate": 3.577362066844839e-05,
+      "loss": 1.4327,
+      "step": 3000
+    },
+    {
+      "epoch": 0.26600461074658627,
+      "eval_loss": 1.5497733354568481,
+      "eval_runtime": 59.3515,
+      "eval_samples_per_second": 8.424,
+      "eval_steps_per_second": 8.424,
+      "step": 3000
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.0103518774980772e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null