End of training

Browse files

Files changed (5) hide show

README.md +3 -1
all_results.json +15 -15
eval_results.json +10 -10
train_results.json +6 -6
trainer_state.json +582 -12

README.md CHANGED Viewed

@@ -3,6 +3,8 @@ library_name: transformers
 license: other
 base_model: nvidia/mit-b1
 tags:
 - generated_from_trainer
 model-index:
 - name: segformer-finetuned-tt-2k-b1
@@ -14,7 +16,7 @@ should probably proofread and complete it, then remove this comment. -->
 # segformer-finetuned-tt-2k-b1
-This model is a fine-tuned version of [nvidia/mit-b1](https://huggingface.co/nvidia/mit-b1) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.0912
 - Mean Iou: 0.4902

 license: other
 base_model: nvidia/mit-b1
 tags:
+- image-segmentation
+- vision
 - generated_from_trainer
 model-index:
 - name: segformer-finetuned-tt-2k-b1
 # segformer-finetuned-tt-2k-b1
+This model is a fine-tuned version of [nvidia/mit-b1](https://huggingface.co/nvidia/mit-b1) on the Saumya-Mundra/text255 dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.0912
 - Mean Iou: 0.4902

all_results.json CHANGED Viewed

@@ -1,19 +1,19 @@
 {
-    "epoch": 16.0,
-    "eval_accuracy_no_text": 0.9793073981417643,
     "eval_accuracy_text": NaN,
-    "eval_iou_no_text": 0.9793073981417643,
     "eval_iou_text": 0.0,
-    "eval_loss": 0.09290074557065964,
-    "eval_mean_accuracy": 0.9793073981417643,
-    "eval_mean_iou": 0.48965369907088213,
-    "eval_overall_accuracy": 0.9793073981417643,
-    "eval_runtime": 10.192,
-    "eval_samples_per_second": 24.922,
-    "eval_steps_per_second": 3.14,
-    "total_flos": 1.032636453617664e+18,
-    "train_loss": 0.0,
-    "train_runtime": 0.0014,
-    "train_samples_per_second": 11544617.925,
-    "train_steps_per_second": 1443077.241
 }

 {
+    "epoch": 40.0,
+    "eval_accuracy_no_text": 0.9804553846542395,
     "eval_accuracy_text": NaN,
+    "eval_iou_no_text": 0.9804553846542395,
     "eval_iou_text": 0.0,
+    "eval_loss": 0.0911744013428688,
+    "eval_mean_accuracy": 0.9804553846542395,
+    "eval_mean_iou": 0.49022769232711977,
+    "eval_overall_accuracy": 0.9804553846542395,
+    "eval_runtime": 12.1143,
+    "eval_samples_per_second": 20.967,
+    "eval_steps_per_second": 2.642,
+    "total_flos": 2.58159113404416e+18,
+    "train_loss": 0.043670280265808104,
+    "train_runtime": 1256.8878,
+    "train_samples_per_second": 31.825,
+    "train_steps_per_second": 3.978
 }

eval_results.json CHANGED Viewed

@@ -1,14 +1,14 @@
 {
-    "epoch": 16.0,
-    "eval_accuracy_no_text": 0.9793073981417643,
     "eval_accuracy_text": NaN,
-    "eval_iou_no_text": 0.9793073981417643,
     "eval_iou_text": 0.0,
-    "eval_loss": 0.09290074557065964,
-    "eval_mean_accuracy": 0.9793073981417643,
-    "eval_mean_iou": 0.48965369907088213,
-    "eval_overall_accuracy": 0.9793073981417643,
-    "eval_runtime": 10.192,
-    "eval_samples_per_second": 24.922,
-    "eval_steps_per_second": 3.14
 }

 {
+    "epoch": 40.0,
+    "eval_accuracy_no_text": 0.9804553846542395,
     "eval_accuracy_text": NaN,
+    "eval_iou_no_text": 0.9804553846542395,
     "eval_iou_text": 0.0,
+    "eval_loss": 0.0911744013428688,
+    "eval_mean_accuracy": 0.9804553846542395,
+    "eval_mean_iou": 0.49022769232711977,
+    "eval_overall_accuracy": 0.9804553846542395,
+    "eval_runtime": 12.1143,
+    "eval_samples_per_second": 20.967,
+    "eval_steps_per_second": 2.642
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 16.0,
-    "total_flos": 1.032636453617664e+18,
-    "train_loss": 0.0,
-    "train_runtime": 0.0014,
-    "train_samples_per_second": 11544617.925,
-    "train_steps_per_second": 1443077.241
 }

 {
+    "epoch": 40.0,
+    "total_flos": 2.58159113404416e+18,
+    "train_loss": 0.043670280265808104,
+    "train_runtime": 1256.8878,
+    "train_samples_per_second": 31.825,
+    "train_steps_per_second": 3.978
 }

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 16.0,
   "eval_steps": 500,
-  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -389,19 +389,589 @@
       "step": 2000
     },
     {
-      "epoch": 16.0,
-      "step": 2000,
-      "total_flos": 1.032636453617664e+18,
-      "train_loss": 0.0,
-      "train_runtime": 0.0014,
-      "train_samples_per_second": 11544617.925,
-      "train_steps_per_second": 1443077.241
     }
   ],
   "logging_steps": 100,
-  "max_steps": 2000,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 16,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -415,7 +985,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.032636453617664e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 40.0,
   "eval_steps": 500,
+  "global_step": 5000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "step": 2000
     },
     {
+      "epoch": 16.8,
+      "grad_norm": 1.0451207160949707,
+      "learning_rate": 3.9e-05,
+      "loss": 0.0884,
+      "step": 2100
+    },
+    {
+      "epoch": 17.0,
+      "eval_accuracy_no_text": 0.9750931240524451,
+      "eval_accuracy_text": NaN,
+      "eval_iou_no_text": 0.9750931240524451,
+      "eval_iou_text": 0.0,
+      "eval_loss": 0.10009197145700455,
+      "eval_mean_accuracy": 0.9750931240524451,
+      "eval_mean_iou": 0.48754656202622254,
+      "eval_overall_accuracy": 0.9750931240524451,
+      "eval_runtime": 9.5953,
+      "eval_samples_per_second": 26.471,
+      "eval_steps_per_second": 3.335,
+      "step": 2125
+    },
+    {
+      "epoch": 17.6,
+      "grad_norm": 0.429823637008667,
+      "learning_rate": 3.800000000000001e-05,
+      "loss": 0.0871,
+      "step": 2200
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy_no_text": 0.9783042661894453,
+      "eval_accuracy_text": NaN,
+      "eval_iou_no_text": 0.9783042661894453,
+      "eval_iou_text": 0.0,
+      "eval_loss": 0.0907384604215622,
+      "eval_mean_accuracy": 0.9783042661894453,
+      "eval_mean_iou": 0.48915213309472266,
+      "eval_overall_accuracy": 0.9783042661894453,
+      "eval_runtime": 9.8871,
+      "eval_samples_per_second": 25.69,
+      "eval_steps_per_second": 3.237,
+      "step": 2250
+    },
+    {
+      "epoch": 18.4,
+      "grad_norm": 0.3153773844242096,
+      "learning_rate": 3.7000000000000005e-05,
+      "loss": 0.0854,
+      "step": 2300
+    },
+    {
+      "epoch": 19.0,
+      "eval_accuracy_no_text": 0.9848925234161184,
+      "eval_accuracy_text": NaN,
+      "eval_iou_no_text": 0.9848925234161184,
+      "eval_iou_text": 0.0,
+      "eval_loss": 0.08931159973144531,
+      "eval_mean_accuracy": 0.9848925234161184,
+      "eval_mean_iou": 0.4924462617080592,
+      "eval_overall_accuracy": 0.9848925234161184,
+      "eval_runtime": 10.5574,
+      "eval_samples_per_second": 24.059,
+      "eval_steps_per_second": 3.031,
+      "step": 2375
+    },
+    {
+      "epoch": 19.2,
+      "grad_norm": 0.4562213718891144,
+      "learning_rate": 3.6e-05,
+      "loss": 0.0865,
+      "step": 2400
+    },
+    {
+      "epoch": 20.0,
+      "grad_norm": 3.521730422973633,
+      "learning_rate": 3.5000000000000004e-05,
+      "loss": 0.0852,
+      "step": 2500
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy_no_text": 0.9830510361429408,
+      "eval_accuracy_text": NaN,
+      "eval_iou_no_text": 0.9830510361429408,
+      "eval_iou_text": 0.0,
+      "eval_loss": 0.0869787335395813,
+      "eval_mean_accuracy": 0.9830510361429408,
+      "eval_mean_iou": 0.4915255180714704,
+      "eval_overall_accuracy": 0.9830510361429408,
+      "eval_runtime": 9.6683,
+      "eval_samples_per_second": 26.271,
+      "eval_steps_per_second": 3.31,
+      "step": 2500
+    },
+    {
+      "epoch": 20.8,
+      "grad_norm": 0.6932634115219116,
+      "learning_rate": 3.4e-05,
+      "loss": 0.0858,
+      "step": 2600
+    },
+    {
+      "epoch": 21.0,
+      "eval_accuracy_no_text": 0.9791810533292581,
+      "eval_accuracy_text": NaN,
+      "eval_iou_no_text": 0.9791810533292581,
+      "eval_iou_text": 0.0,
+      "eval_loss": 0.092495396733284,
+      "eval_mean_accuracy": 0.9791810533292581,
+      "eval_mean_iou": 0.48959052666462904,
+      "eval_overall_accuracy": 0.9791810533292581,
+      "eval_runtime": 9.6807,
+      "eval_samples_per_second": 26.238,
+      "eval_steps_per_second": 3.306,
+      "step": 2625
+    },
+    {
+      "epoch": 21.6,
+      "grad_norm": 1.7822684049606323,
+      "learning_rate": 3.2999999999999996e-05,
+      "loss": 0.0804,
+      "step": 2700
+    },
+    {
+      "epoch": 22.0,
+      "eval_accuracy_no_text": 0.9774249867137729,
+      "eval_accuracy_text": NaN,
+      "eval_iou_no_text": 0.9774249867137729,
+      "eval_iou_text": 0.0,
+      "eval_loss": 0.09636090695858002,
+      "eval_mean_accuracy": 0.9774249867137729,
+      "eval_mean_iou": 0.48871249335688643,
+      "eval_overall_accuracy": 0.9774249867137729,
+      "eval_runtime": 9.6707,
+      "eval_samples_per_second": 26.265,
+      "eval_steps_per_second": 3.309,
+      "step": 2750
+    },
+    {
+      "epoch": 22.4,
+      "grad_norm": 0.7184740304946899,
+      "learning_rate": 3.2e-05,
+      "loss": 0.076,
+      "step": 2800
+    },
+    {
+      "epoch": 23.0,
+      "eval_accuracy_no_text": 0.9786283861601919,
+      "eval_accuracy_text": NaN,
+      "eval_iou_no_text": 0.9786283861601919,
+      "eval_iou_text": 0.0,
+      "eval_loss": 0.09344039112329483,
+      "eval_mean_accuracy": 0.9786283861601919,
+      "eval_mean_iou": 0.48931419308009594,
+      "eval_overall_accuracy": 0.9786283861601919,
+      "eval_runtime": 10.2081,
+      "eval_samples_per_second": 24.882,
+      "eval_steps_per_second": 3.135,
+      "step": 2875
+    },
+    {
+      "epoch": 23.2,
+      "grad_norm": 0.669192373752594,
+      "learning_rate": 3.1e-05,
+      "loss": 0.0794,
+      "step": 2900
+    },
+    {
+      "epoch": 24.0,
+      "grad_norm": 0.8025239706039429,
+      "learning_rate": 3e-05,
+      "loss": 0.0753,
+      "step": 3000
+    },
+    {
+      "epoch": 24.0,
+      "eval_accuracy_no_text": 0.9780561292312697,
+      "eval_accuracy_text": NaN,
+      "eval_iou_no_text": 0.9780561292312697,
+      "eval_iou_text": 0.0,
+      "eval_loss": 0.0905555859208107,
+      "eval_mean_accuracy": 0.9780561292312697,
+      "eval_mean_iou": 0.48902806461563486,
+      "eval_overall_accuracy": 0.9780561292312697,
+      "eval_runtime": 9.666,
+      "eval_samples_per_second": 26.278,
+      "eval_steps_per_second": 3.311,
+      "step": 3000
+    },
+    {
+      "epoch": 24.8,
+      "grad_norm": 2.0820531845092773,
+      "learning_rate": 2.9e-05,
+      "loss": 0.0742,
+      "step": 3100
+    },
+    {
+      "epoch": 25.0,
+      "eval_accuracy_no_text": 0.9800921017793534,
+      "eval_accuracy_text": NaN,
+      "eval_iou_no_text": 0.9800921017793534,
+      "eval_iou_text": 0.0,
+      "eval_loss": 0.09615642577409744,
+      "eval_mean_accuracy": 0.9800921017793534,
+      "eval_mean_iou": 0.4900460508896767,
+      "eval_overall_accuracy": 0.9800921017793534,
+      "eval_runtime": 10.619,
+      "eval_samples_per_second": 23.919,
+      "eval_steps_per_second": 3.013,
+      "step": 3125
+    },
+    {
+      "epoch": 25.6,
+      "grad_norm": 0.9775315523147583,
+      "learning_rate": 2.7999999999999996e-05,
+      "loss": 0.0724,
+      "step": 3200
+    },
+    {
+      "epoch": 26.0,
+      "eval_accuracy_no_text": 0.9840405599414667,
+      "eval_accuracy_text": NaN,
+      "eval_iou_no_text": 0.9840405599414667,
+      "eval_iou_text": 0.0,
+      "eval_loss": 0.08916542679071426,
+      "eval_mean_accuracy": 0.9840405599414667,
+      "eval_mean_iou": 0.49202027997073333,
+      "eval_overall_accuracy": 0.9840405599414667,
+      "eval_runtime": 10.4734,
+      "eval_samples_per_second": 24.252,
+      "eval_steps_per_second": 3.055,
+      "step": 3250
+    },
+    {
+      "epoch": 26.4,
+      "grad_norm": 0.5055297017097473,
+      "learning_rate": 2.7e-05,
+      "loss": 0.0794,
+      "step": 3300
+    },
+    {
+      "epoch": 27.0,
+      "eval_accuracy_no_text": 0.9803492277621956,
+      "eval_accuracy_text": NaN,
+      "eval_iou_no_text": 0.9803492277621956,
+      "eval_iou_text": 0.0,
+      "eval_loss": 0.08851944655179977,
+      "eval_mean_accuracy": 0.9803492277621956,
+      "eval_mean_iou": 0.4901746138810978,
+      "eval_overall_accuracy": 0.9803492277621956,
+      "eval_runtime": 10.0091,
+      "eval_samples_per_second": 25.377,
+      "eval_steps_per_second": 3.197,
+      "step": 3375
+    },
+    {
+      "epoch": 27.2,
+      "grad_norm": 0.45488983392715454,
+      "learning_rate": 2.5999999999999995e-05,
+      "loss": 0.0719,
+      "step": 3400
+    },
+    {
+      "epoch": 28.0,
+      "grad_norm": 2.387666702270508,
+      "learning_rate": 2.5000000000000005e-05,
+      "loss": 0.0685,
+      "step": 3500
+    },
+    {
+      "epoch": 28.0,
+      "eval_accuracy_no_text": 0.9821194342297905,
+      "eval_accuracy_text": NaN,
+      "eval_iou_no_text": 0.9821194342297905,
+      "eval_iou_text": 0.0,
+      "eval_loss": 0.09322857111692429,
+      "eval_mean_accuracy": 0.9821194342297905,
+      "eval_mean_iou": 0.49105971711489527,
+      "eval_overall_accuracy": 0.9821194342297905,
+      "eval_runtime": 9.8063,
+      "eval_samples_per_second": 25.902,
+      "eval_steps_per_second": 3.263,
+      "step": 3500
+    },
+    {
+      "epoch": 28.8,
+      "grad_norm": 0.6571559906005859,
+      "learning_rate": 2.4000000000000004e-05,
+      "loss": 0.0695,
+      "step": 3600
+    },
+    {
+      "epoch": 29.0,
+      "eval_accuracy_no_text": 0.9811816347081362,
+      "eval_accuracy_text": NaN,
+      "eval_iou_no_text": 0.9811816347081362,
+      "eval_iou_text": 0.0,
+      "eval_loss": 0.08898366987705231,
+      "eval_mean_accuracy": 0.9811816347081362,
+      "eval_mean_iou": 0.4905908173540681,
+      "eval_overall_accuracy": 0.9811816347081362,
+      "eval_runtime": 9.8466,
+      "eval_samples_per_second": 25.796,
+      "eval_steps_per_second": 3.25,
+      "step": 3625
+    },
+    {
+      "epoch": 29.6,
+      "grad_norm": 2.2663826942443848,
+      "learning_rate": 2.3000000000000003e-05,
+      "loss": 0.065,
+      "step": 3700
+    },
+    {
+      "epoch": 30.0,
+      "eval_accuracy_no_text": 0.9808195315388902,
+      "eval_accuracy_text": NaN,
+      "eval_iou_no_text": 0.9808195315388902,
+      "eval_iou_text": 0.0,
+      "eval_loss": 0.08774251490831375,
+      "eval_mean_accuracy": 0.9808195315388902,
+      "eval_mean_iou": 0.4904097657694451,
+      "eval_overall_accuracy": 0.9808195315388902,
+      "eval_runtime": 10.278,
+      "eval_samples_per_second": 24.713,
+      "eval_steps_per_second": 3.113,
+      "step": 3750
+    },
+    {
+      "epoch": 30.4,
+      "grad_norm": 0.26865702867507935,
+      "learning_rate": 2.2e-05,
+      "loss": 0.0699,
+      "step": 3800
+    },
+    {
+      "epoch": 31.0,
+      "eval_accuracy_no_text": 0.975387618457608,
+      "eval_accuracy_text": NaN,
+      "eval_iou_no_text": 0.975387618457608,
+      "eval_iou_text": 0.0,
+      "eval_loss": 0.09474235773086548,
+      "eval_mean_accuracy": 0.975387618457608,
+      "eval_mean_iou": 0.487693809228804,
+      "eval_overall_accuracy": 0.975387618457608,
+      "eval_runtime": 9.5955,
+      "eval_samples_per_second": 26.471,
+      "eval_steps_per_second": 3.335,
+      "step": 3875
+    },
+    {
+      "epoch": 31.2,
+      "grad_norm": 0.4936189353466034,
+      "learning_rate": 2.1e-05,
+      "loss": 0.0691,
+      "step": 3900
+    },
+    {
+      "epoch": 32.0,
+      "grad_norm": 0.5088217854499817,
+      "learning_rate": 1.9999999999999998e-05,
+      "loss": 0.0742,
+      "step": 4000
+    },
+    {
+      "epoch": 32.0,
+      "eval_accuracy_no_text": 0.9804912244438997,
+      "eval_accuracy_text": NaN,
+      "eval_iou_no_text": 0.9804912244438997,
+      "eval_iou_text": 0.0,
+      "eval_loss": 0.08749811351299286,
+      "eval_mean_accuracy": 0.9804912244438997,
+      "eval_mean_iou": 0.49024561222194984,
+      "eval_overall_accuracy": 0.9804912244438997,
+      "eval_runtime": 9.7343,
+      "eval_samples_per_second": 26.093,
+      "eval_steps_per_second": 3.287,
+      "step": 4000
+    },
+    {
+      "epoch": 32.8,
+      "grad_norm": 0.5367891192436218,
+      "learning_rate": 1.9000000000000008e-05,
+      "loss": 0.0646,
+      "step": 4100
+    },
+    {
+      "epoch": 33.0,
+      "eval_accuracy_no_text": 0.9805454078254859,
+      "eval_accuracy_text": NaN,
+      "eval_iou_no_text": 0.9805454078254859,
+      "eval_iou_text": 0.0,
+      "eval_loss": 0.0895417109131813,
+      "eval_mean_accuracy": 0.9805454078254859,
+      "eval_mean_iou": 0.49027270391274297,
+      "eval_overall_accuracy": 0.9805454078254859,
+      "eval_runtime": 10.3388,
+      "eval_samples_per_second": 24.568,
+      "eval_steps_per_second": 3.095,
+      "step": 4125
+    },
+    {
+      "epoch": 33.6,
+      "grad_norm": 1.4165046215057373,
+      "learning_rate": 1.8000000000000004e-05,
+      "loss": 0.0677,
+      "step": 4200
+    },
+    {
+      "epoch": 34.0,
+      "eval_accuracy_no_text": 0.9818302401922222,
+      "eval_accuracy_text": NaN,
+      "eval_iou_no_text": 0.9818302401922222,
+      "eval_iou_text": 0.0,
+      "eval_loss": 0.0914706438779831,
+      "eval_mean_accuracy": 0.9818302401922222,
+      "eval_mean_iou": 0.4909151200961111,
+      "eval_overall_accuracy": 0.9818302401922222,
+      "eval_runtime": 9.553,
+      "eval_samples_per_second": 26.589,
+      "eval_steps_per_second": 3.35,
+      "step": 4250
+    },
+    {
+      "epoch": 34.4,
+      "grad_norm": 0.45522621273994446,
+      "learning_rate": 1.7000000000000003e-05,
+      "loss": 0.0666,
+      "step": 4300
+    },
+    {
+      "epoch": 35.0,
+      "eval_accuracy_no_text": 0.9780782611737024,
+      "eval_accuracy_text": NaN,
+      "eval_iou_no_text": 0.9780782611737024,
+      "eval_iou_text": 0.0,
+      "eval_loss": 0.0931800901889801,
+      "eval_mean_accuracy": 0.9780782611737024,
+      "eval_mean_iou": 0.4890391305868512,
+      "eval_overall_accuracy": 0.9780782611737024,
+      "eval_runtime": 10.7796,
+      "eval_samples_per_second": 23.563,
+      "eval_steps_per_second": 2.969,
+      "step": 4375
+    },
+    {
+      "epoch": 35.2,
+      "grad_norm": 1.4983059167861938,
+      "learning_rate": 1.6e-05,
+      "loss": 0.065,
+      "step": 4400
+    },
+    {
+      "epoch": 36.0,
+      "grad_norm": 0.9115901589393616,
+      "learning_rate": 1.5e-05,
+      "loss": 0.062,
+      "step": 4500
+    },
+    {
+      "epoch": 36.0,
+      "eval_accuracy_no_text": 0.9802527743644315,
+      "eval_accuracy_text": NaN,
+      "eval_iou_no_text": 0.9802527743644315,
+      "eval_iou_text": 0.0,
+      "eval_loss": 0.08927793055772781,
+      "eval_mean_accuracy": 0.9802527743644315,
+      "eval_mean_iou": 0.49012638718221574,
+      "eval_overall_accuracy": 0.9802527743644315,
+      "eval_runtime": 9.8416,
+      "eval_samples_per_second": 25.809,
+      "eval_steps_per_second": 3.251,
+      "step": 4500
+    },
+    {
+      "epoch": 36.8,
+      "grad_norm": 0.7726097106933594,
+      "learning_rate": 1.3999999999999998e-05,
+      "loss": 0.0623,
+      "step": 4600
+    },
+    {
+      "epoch": 37.0,
+      "eval_accuracy_no_text": 0.9789289452492796,
+      "eval_accuracy_text": NaN,
+      "eval_iou_no_text": 0.9789289452492796,
+      "eval_iou_text": 0.0,
+      "eval_loss": 0.09337003529071808,
+      "eval_mean_accuracy": 0.9789289452492796,
+      "eval_mean_iou": 0.4894644726246398,
+      "eval_overall_accuracy": 0.9789289452492796,
+      "eval_runtime": 10.0951,
+      "eval_samples_per_second": 25.161,
+      "eval_steps_per_second": 3.17,
+      "step": 4625
+    },
+    {
+      "epoch": 37.6,
+      "grad_norm": 0.4795573651790619,
+      "learning_rate": 1.3000000000000004e-05,
+      "loss": 0.0658,
+      "step": 4700
+    },
+    {
+      "epoch": 38.0,
+      "eval_accuracy_no_text": 0.9825526686644677,
+      "eval_accuracy_text": NaN,
+      "eval_iou_no_text": 0.9825526686644677,
+      "eval_iou_text": 0.0,
+      "eval_loss": 0.09065607190132141,
+      "eval_mean_accuracy": 0.9825526686644677,
+      "eval_mean_iou": 0.49127633433223383,
+      "eval_overall_accuracy": 0.9825526686644677,
+      "eval_runtime": 10.2603,
+      "eval_samples_per_second": 24.756,
+      "eval_steps_per_second": 3.119,
+      "step": 4750
+    },
+    {
+      "epoch": 38.4,
+      "grad_norm": 0.9340759515762329,
+      "learning_rate": 1.2000000000000002e-05,
+      "loss": 0.0596,
+      "step": 4800
+    },
+    {
+      "epoch": 39.0,
+      "eval_accuracy_no_text": 0.9830672030948829,
+      "eval_accuracy_text": NaN,
+      "eval_iou_no_text": 0.9830672030948829,
+      "eval_iou_text": 0.0,
+      "eval_loss": 0.09037832170724869,
+      "eval_mean_accuracy": 0.9830672030948829,
+      "eval_mean_iou": 0.49153360154744147,
+      "eval_overall_accuracy": 0.9830672030948829,
+      "eval_runtime": 10.5023,
+      "eval_samples_per_second": 24.185,
+      "eval_steps_per_second": 3.047,
+      "step": 4875
+    },
+    {
+      "epoch": 39.2,
+      "grad_norm": 0.2577395737171173,
+      "learning_rate": 1.1000000000000001e-05,
+      "loss": 0.0637,
+      "step": 4900
+    },
+    {
+      "epoch": 40.0,
+      "grad_norm": 0.7885801792144775,
+      "learning_rate": 9.999999999999999e-06,
+      "loss": 0.0628,
+      "step": 5000
+    },
+    {
+      "epoch": 40.0,
+      "eval_accuracy_no_text": 0.9804553846542395,
+      "eval_accuracy_text": NaN,
+      "eval_iou_no_text": 0.9804553846542395,
+      "eval_iou_text": 0.0,
+      "eval_loss": 0.0911744087934494,
+      "eval_mean_accuracy": 0.9804553846542395,
+      "eval_mean_iou": 0.49022769232711977,
+      "eval_overall_accuracy": 0.9804553846542395,
+      "eval_runtime": 9.7243,
+      "eval_samples_per_second": 26.12,
+      "eval_steps_per_second": 3.291,
+      "step": 5000
+    },
+    {
+      "epoch": 40.0,
+      "step": 5000,
+      "total_flos": 2.58159113404416e+18,
+      "train_loss": 0.043670280265808104,
+      "train_runtime": 1256.8878,
+      "train_samples_per_second": 31.825,
+      "train_steps_per_second": 3.978
     }
   ],
   "logging_steps": 100,
+  "max_steps": 5000,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 40,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 2.58159113404416e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null