Training in progress, step 60, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +73 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ed1b6f73d502882db71481cb2bd9301ca90f102a334c47d83a2fba5bd0da6457
 size 101752088

 version https://git-lfs.github.com/spec/v1
+oid sha256:58b2166da01d55a046bf02b2b43ba0d22031515bba03e5d013b617cd11c38a96
 size 101752088

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:374bbc3237cc7e7bd30285a95b75e5e70f7faf581aba5922c65f250ce697560d
 size 52046596

 version https://git-lfs.github.com/spec/v1
+oid sha256:b2a6dead6d577cc2fdab009dff4a17fbd4eeb91af9b65d3440cf7f72177a3b37
 size 52046596

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1546821c54d8d437f890166fec8f3e617edf24a1bd79d91cb3ed48225d7bfa93
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:b98ac7b1e9243bd4e083ddd1c46b98c631cbc03a3912122b4b6336d976fc04e1
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b8eccac390378b22aeb148c260b00bec01d948946d8363d5282899af673e0e86
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:bde2757391e94ff5103cea79868bee6f1ccc90f20c64e82cf9933fa7b5accd0c
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.006293662282081943,
   "eval_steps": 25,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -381,6 +381,76 @@
       "eval_samples_per_second": 0.951,
       "eval_steps_per_second": 0.475,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -400,7 +470,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.2926920081408e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.007552394738498332,
   "eval_steps": 25,
+  "global_step": 60,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 0.951,
       "eval_steps_per_second": 0.475,
       "step": 50
+    },
+    {
+      "epoch": 0.006419535527723582,
+      "grad_norm": 0.006420983001589775,
+      "learning_rate": 0.00011391731009600654,
+      "loss": 0.0011,
+      "step": 51
+    },
+    {
+      "epoch": 0.006545408773365222,
+      "grad_norm": 0.5650655627250671,
+      "learning_rate": 0.00011045284632676536,
+      "loss": 0.0442,
+      "step": 52
+    },
+    {
+      "epoch": 0.00667128201900686,
+      "grad_norm": 0.09890392422676086,
+      "learning_rate": 0.00010697564737441252,
+      "loss": 0.0048,
+      "step": 53
+    },
+    {
+      "epoch": 0.006797155264648499,
+      "grad_norm": 0.05633799359202385,
+      "learning_rate": 0.00010348994967025012,
+      "loss": 0.002,
+      "step": 54
+    },
+    {
+      "epoch": 0.006923028510290138,
+      "grad_norm": 3.1540989875793457,
+      "learning_rate": 0.0001,
+      "loss": 1.6562,
+      "step": 55
+    },
+    {
+      "epoch": 0.007048901755931777,
+      "grad_norm": 5.062186241149902,
+      "learning_rate": 9.651005032974994e-05,
+      "loss": 0.2802,
+      "step": 56
+    },
+    {
+      "epoch": 0.007174775001573415,
+      "grad_norm": 1.7618149518966675,
+      "learning_rate": 9.302435262558747e-05,
+      "loss": 0.1865,
+      "step": 57
+    },
+    {
+      "epoch": 0.007300648247215055,
+      "grad_norm": 0.37688034772872925,
+      "learning_rate": 8.954715367323468e-05,
+      "loss": 0.0144,
+      "step": 58
+    },
+    {
+      "epoch": 0.007426521492856693,
+      "grad_norm": 0.11028943210840225,
+      "learning_rate": 8.608268990399349e-05,
+      "loss": 0.0063,
+      "step": 59
+    },
+    {
+      "epoch": 0.007552394738498332,
+      "grad_norm": 0.5467414855957031,
+      "learning_rate": 8.263518223330697e-05,
+      "loss": 0.0118,
+      "step": 60
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 3.95123040976896e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null