Training in progress, step 3438, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +648 -4

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7e61158bae1b1d8ead7489b9d1611fe4d686eced20ba956f07db0ff0b8874833
 size 516810008

 version https://git-lfs.github.com/spec/v1
+oid sha256:88b916425e9c0934a0f7062407f1b73535e218ac98e877fcb8ee9b8017fd579d
 size 516810008

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4e6770959206cdc4982812252fd247c3bc6b12852c762625cdd31f5ebfabb90c
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:9798aa39906f12cd89a0a56a12db91e16577b6948826e0e6863eded99960b381
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5c223764a53f3c079e3e1a5a08b73492d4dbd90d36099e60b51596323355bcb0
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:805c0bccc0907c9d87d7cceb385924edbfe5fd82910b2d6ec679bbe7866a153f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.9461974698269593,
   "eval_steps": 500,
-  "global_step": 3346,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -23437,6 +23437,650 @@
       "learning_rate": 1.8731449773342625e-07,
       "loss": 0.0,
       "step": 3346
     }
   ],
   "logging_steps": 1,
@@ -23451,12 +24095,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 3.118121276669952e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.9997091755125782,
   "eval_steps": 500,
+  "global_step": 3438,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1.8731449773342625e-07,
       "loss": 0.0,
       "step": 3346
+    },
+    {
+      "epoch": 1.946779118801803,
+      "grad_norm": NaN,
+      "learning_rate": 1.8326705005886624e-07,
+      "loss": 0.0,
+      "step": 3347
+    },
+    {
+      "epoch": 1.947360767776647,
+      "grad_norm": NaN,
+      "learning_rate": 1.7926372916975965e-07,
+      "loss": 0.0,
+      "step": 3348
+    },
+    {
+      "epoch": 1.9479424167514905,
+      "grad_norm": NaN,
+      "learning_rate": 1.7530453861218098e-07,
+      "loss": 0.0,
+      "step": 3349
+    },
+    {
+      "epoch": 1.948524065726334,
+      "grad_norm": NaN,
+      "learning_rate": 1.7138948189311387e-07,
+      "loss": 0.0,
+      "step": 3350
+    },
+    {
+      "epoch": 1.9491057147011779,
+      "grad_norm": NaN,
+      "learning_rate": 1.6751856248043985e-07,
+      "loss": 0.0,
+      "step": 3351
+    },
+    {
+      "epoch": 1.9496873636760215,
+      "grad_norm": NaN,
+      "learning_rate": 1.6369178380294948e-07,
+      "loss": 0.0,
+      "step": 3352
+    },
+    {
+      "epoch": 1.9502690126508653,
+      "grad_norm": NaN,
+      "learning_rate": 1.5990914925034794e-07,
+      "loss": 0.0,
+      "step": 3353
+    },
+    {
+      "epoch": 1.9508506616257089,
+      "grad_norm": NaN,
+      "learning_rate": 1.561706621732162e-07,
+      "loss": 0.0,
+      "step": 3354
+    },
+    {
+      "epoch": 1.9514323106005524,
+      "grad_norm": NaN,
+      "learning_rate": 1.5247632588304417e-07,
+      "loss": 0.0,
+      "step": 3355
+    },
+    {
+      "epoch": 1.9520139595753963,
+      "grad_norm": NaN,
+      "learning_rate": 1.488261436522087e-07,
+      "loss": 0.0,
+      "step": 3356
+    },
+    {
+      "epoch": 1.95259560855024,
+      "grad_norm": NaN,
+      "learning_rate": 1.45220118713979e-07,
+      "loss": 0.0,
+      "step": 3357
+    },
+    {
+      "epoch": 1.9531772575250836,
+      "grad_norm": NaN,
+      "learning_rate": 1.4165825426250557e-07,
+      "loss": 0.0,
+      "step": 3358
+    },
+    {
+      "epoch": 1.9537589064999272,
+      "grad_norm": NaN,
+      "learning_rate": 1.3814055345282573e-07,
+      "loss": 0.0,
+      "step": 3359
+    },
+    {
+      "epoch": 1.9543405554747708,
+      "grad_norm": NaN,
+      "learning_rate": 1.3466701940085259e-07,
+      "loss": 0.0,
+      "step": 3360
+    },
+    {
+      "epoch": 1.9549222044496146,
+      "grad_norm": NaN,
+      "learning_rate": 1.3123765518339716e-07,
+      "loss": 0.0,
+      "step": 3361
+    },
+    {
+      "epoch": 1.9555038534244584,
+      "grad_norm": NaN,
+      "learning_rate": 1.2785246383811288e-07,
+      "loss": 0.0,
+      "step": 3362
+    },
+    {
+      "epoch": 1.956085502399302,
+      "grad_norm": NaN,
+      "learning_rate": 1.2451144836355123e-07,
+      "loss": 0.0,
+      "step": 3363
+    },
+    {
+      "epoch": 1.9566671513741456,
+      "grad_norm": NaN,
+      "learning_rate": 1.2121461171912262e-07,
+      "loss": 0.0,
+      "step": 3364
+    },
+    {
+      "epoch": 1.9572488003489894,
+      "grad_norm": NaN,
+      "learning_rate": 1.179619568251078e-07,
+      "loss": 0.0,
+      "step": 3365
+    },
+    {
+      "epoch": 1.9578304493238332,
+      "grad_norm": NaN,
+      "learning_rate": 1.147534865626465e-07,
+      "loss": 0.0,
+      "step": 3366
+    },
+    {
+      "epoch": 1.9584120982986768,
+      "grad_norm": NaN,
+      "learning_rate": 1.1158920377375426e-07,
+      "loss": 0.0,
+      "step": 3367
+    },
+    {
+      "epoch": 1.9589937472735204,
+      "grad_norm": NaN,
+      "learning_rate": 1.08469111261289e-07,
+      "loss": 0.0,
+      "step": 3368
+    },
+    {
+      "epoch": 1.959575396248364,
+      "grad_norm": NaN,
+      "learning_rate": 1.0539321178897888e-07,
+      "loss": 0.0,
+      "step": 3369
+    },
+    {
+      "epoch": 1.9601570452232078,
+      "grad_norm": NaN,
+      "learning_rate": 1.0236150808139999e-07,
+      "loss": 0.0,
+      "step": 3370
+    },
+    {
+      "epoch": 1.9607386941980516,
+      "grad_norm": NaN,
+      "learning_rate": 9.937400282398201e-08,
+      "loss": 0.0,
+      "step": 3371
+    },
+    {
+      "epoch": 1.9613203431728952,
+      "grad_norm": NaN,
+      "learning_rate": 9.643069866300259e-08,
+      "loss": 0.0,
+      "step": 3372
+    },
+    {
+      "epoch": 1.9619019921477387,
+      "grad_norm": NaN,
+      "learning_rate": 9.353159820559287e-08,
+      "loss": 0.0,
+      "step": 3373
+    },
+    {
+      "epoch": 1.9624836411225826,
+      "grad_norm": NaN,
+      "learning_rate": 9.067670401972095e-08,
+      "loss": 0.0,
+      "step": 3374
+    },
+    {
+      "epoch": 1.9630652900974264,
+      "grad_norm": NaN,
+      "learning_rate": 8.786601863420286e-08,
+      "loss": 0.0,
+      "step": 3375
+    },
+    {
+      "epoch": 1.96364693907227,
+      "grad_norm": NaN,
+      "learning_rate": 8.509954453869152e-08,
+      "loss": 0.0,
+      "step": 3376
+    },
+    {
+      "epoch": 1.9642285880471135,
+      "grad_norm": NaN,
+      "learning_rate": 8.23772841836934e-08,
+      "loss": 0.0,
+      "step": 3377
+    },
+    {
+      "epoch": 1.9648102370219571,
+      "grad_norm": NaN,
+      "learning_rate": 7.96992399805241e-08,
+      "loss": 0.0,
+      "step": 3378
+    },
+    {
+      "epoch": 1.965391885996801,
+      "grad_norm": NaN,
+      "learning_rate": 7.706541430135273e-08,
+      "loss": 0.0,
+      "step": 3379
+    },
+    {
+      "epoch": 1.9659735349716447,
+      "grad_norm": NaN,
+      "learning_rate": 7.447580947917975e-08,
+      "loss": 0.0,
+      "step": 3380
+    },
+    {
+      "epoch": 1.9665551839464883,
+      "grad_norm": NaN,
+      "learning_rate": 7.193042780782588e-08,
+      "loss": 0.0,
+      "step": 3381
+    },
+    {
+      "epoch": 1.967136832921332,
+      "grad_norm": NaN,
+      "learning_rate": 6.942927154194867e-08,
+      "loss": 0.0,
+      "step": 3382
+    },
+    {
+      "epoch": 1.9677184818961757,
+      "grad_norm": NaN,
+      "learning_rate": 6.697234289703147e-08,
+      "loss": 0.0,
+      "step": 3383
+    },
+    {
+      "epoch": 1.9683001308710193,
+      "grad_norm": NaN,
+      "learning_rate": 6.455964404937232e-08,
+      "loss": 0.0,
+      "step": 3384
+    },
+    {
+      "epoch": 1.968881779845863,
+      "grad_norm": NaN,
+      "learning_rate": 6.219117713610056e-08,
+      "loss": 0.0,
+      "step": 3385
+    },
+    {
+      "epoch": 1.9694634288207067,
+      "grad_norm": NaN,
+      "learning_rate": 5.986694425516026e-08,
+      "loss": 0.0,
+      "step": 3386
+    },
+    {
+      "epoch": 1.9700450777955503,
+      "grad_norm": NaN,
+      "learning_rate": 5.7586947465315675e-08,
+      "loss": 0.0,
+      "step": 3387
+    },
+    {
+      "epoch": 1.970626726770394,
+      "grad_norm": NaN,
+      "learning_rate": 5.535118878615131e-08,
+      "loss": 0.0,
+      "step": 3388
+    },
+    {
+      "epoch": 1.9712083757452379,
+      "grad_norm": NaN,
+      "learning_rate": 5.315967019806078e-08,
+      "loss": 0.0,
+      "step": 3389
+    },
+    {
+      "epoch": 1.9717900247200815,
+      "grad_norm": NaN,
+      "learning_rate": 5.101239364225796e-08,
+      "loss": 0.0,
+      "step": 3390
+    },
+    {
+      "epoch": 1.972371673694925,
+      "grad_norm": NaN,
+      "learning_rate": 4.890936102075472e-08,
+      "loss": 0.0,
+      "step": 3391
+    },
+    {
+      "epoch": 1.9729533226697686,
+      "grad_norm": NaN,
+      "learning_rate": 4.685057419638317e-08,
+      "loss": 0.0,
+      "step": 3392
+    },
+    {
+      "epoch": 1.9735349716446124,
+      "grad_norm": NaN,
+      "learning_rate": 4.4836034992779e-08,
+      "loss": 0.0,
+      "step": 3393
+    },
+    {
+      "epoch": 1.9741166206194563,
+      "grad_norm": NaN,
+      "learning_rate": 4.286574519438702e-08,
+      "loss": 0.0,
+      "step": 3394
+    },
+    {
+      "epoch": 1.9746982695942998,
+      "grad_norm": NaN,
+      "learning_rate": 4.0939706546461175e-08,
+      "loss": 0.0,
+      "step": 3395
+    },
+    {
+      "epoch": 1.9752799185691434,
+      "grad_norm": NaN,
+      "learning_rate": 3.905792075504233e-08,
+      "loss": 0.0,
+      "step": 3396
+    },
+    {
+      "epoch": 1.9758615675439872,
+      "grad_norm": NaN,
+      "learning_rate": 3.722038948698603e-08,
+      "loss": 0.0,
+      "step": 3397
+    },
+    {
+      "epoch": 1.976443216518831,
+      "grad_norm": NaN,
+      "learning_rate": 3.542711436995139e-08,
+      "loss": 0.0,
+      "step": 3398
+    },
+    {
+      "epoch": 1.9770248654936746,
+      "grad_norm": NaN,
+      "learning_rate": 3.3678096992384446e-08,
+      "loss": 0.0,
+      "step": 3399
+    },
+    {
+      "epoch": 1.9776065144685182,
+      "grad_norm": NaN,
+      "learning_rate": 3.197333890353482e-08,
+      "loss": 0.0,
+      "step": 3400
+    },
+    {
+      "epoch": 1.9781881634433618,
+      "grad_norm": NaN,
+      "learning_rate": 3.031284161344461e-08,
+      "loss": 0.0,
+      "step": 3401
+    },
+    {
+      "epoch": 1.9787698124182056,
+      "grad_norm": NaN,
+      "learning_rate": 2.8696606592959475e-08,
+      "loss": 0.0,
+      "step": 3402
+    },
+    {
+      "epoch": 1.9793514613930494,
+      "grad_norm": NaN,
+      "learning_rate": 2.7124635273712006e-08,
+      "loss": 0.0,
+      "step": 3403
+    },
+    {
+      "epoch": 1.979933110367893,
+      "grad_norm": NaN,
+      "learning_rate": 2.5596929048116168e-08,
+      "loss": 0.0,
+      "step": 3404
+    },
+    {
+      "epoch": 1.9805147593427366,
+      "grad_norm": NaN,
+      "learning_rate": 2.41134892694006e-08,
+      "loss": 0.0,
+      "step": 3405
+    },
+    {
+      "epoch": 1.9810964083175804,
+      "grad_norm": NaN,
+      "learning_rate": 2.2674317251558664e-08,
+      "loss": 0.0,
+      "step": 3406
+    },
+    {
+      "epoch": 1.981678057292424,
+      "grad_norm": NaN,
+      "learning_rate": 2.127941426938729e-08,
+      "loss": 0.0,
+      "step": 3407
+    },
+    {
+      "epoch": 1.9822597062672678,
+      "grad_norm": NaN,
+      "learning_rate": 1.9928781558475883e-08,
+      "loss": 0.0,
+      "step": 3408
+    },
+    {
+      "epoch": 1.9828413552421114,
+      "grad_norm": NaN,
+      "learning_rate": 1.862242031517858e-08,
+      "loss": 0.0,
+      "step": 3409
+    },
+    {
+      "epoch": 1.983423004216955,
+      "grad_norm": NaN,
+      "learning_rate": 1.7360331696653075e-08,
+      "loss": 0.0,
+      "step": 3410
+    },
+    {
+      "epoch": 1.9840046531917988,
+      "grad_norm": NaN,
+      "learning_rate": 1.614251682083845e-08,
+      "loss": 0.0,
+      "step": 3411
+    },
+    {
+      "epoch": 1.9845863021666426,
+      "grad_norm": NaN,
+      "learning_rate": 1.496897676644404e-08,
+      "loss": 0.0,
+      "step": 3412
+    },
+    {
+      "epoch": 1.9851679511414861,
+      "grad_norm": NaN,
+      "learning_rate": 1.3839712572977227e-08,
+      "loss": 0.0,
+      "step": 3413
+    },
+    {
+      "epoch": 1.9857496001163297,
+      "grad_norm": NaN,
+      "learning_rate": 1.275472524072674e-08,
+      "loss": 0.0,
+      "step": 3414
+    },
+    {
+      "epoch": 1.9863312490911733,
+      "grad_norm": NaN,
+      "learning_rate": 1.1714015730740492e-08,
+      "loss": 0.0,
+      "step": 3415
+    },
+    {
+      "epoch": 1.9869128980660171,
+      "grad_norm": NaN,
+      "learning_rate": 1.0717584964869964e-08,
+      "loss": 0.0,
+      "step": 3416
+    },
+    {
+      "epoch": 1.987494547040861,
+      "grad_norm": NaN,
+      "learning_rate": 9.765433825736914e-09,
+      "loss": 0.0,
+      "step": 3417
+    },
+    {
+      "epoch": 1.9880761960157045,
+      "grad_norm": NaN,
+      "learning_rate": 8.857563156738913e-09,
+      "loss": 0.0,
+      "step": 3418
+    },
+    {
+      "epoch": 1.988657844990548,
+      "grad_norm": NaN,
+      "learning_rate": 7.993973762049356e-09,
+      "loss": 0.0,
+      "step": 3419
+    },
+    {
+      "epoch": 1.989239493965392,
+      "grad_norm": NaN,
+      "learning_rate": 7.1746664066230094e-09,
+      "loss": 0.0,
+      "step": 3420
+    },
+    {
+      "epoch": 1.9898211429402357,
+      "grad_norm": NaN,
+      "learning_rate": 6.399641816184909e-09,
+      "loss": 0.0,
+      "step": 3421
+    },
+    {
+      "epoch": 1.9904027919150793,
+      "grad_norm": NaN,
+      "learning_rate": 5.668900677235911e-09,
+      "loss": 0.0,
+      "step": 3422
+    },
+    {
+      "epoch": 1.9909844408899229,
+      "grad_norm": NaN,
+      "learning_rate": 4.982443637063794e-09,
+      "loss": 0.0,
+      "step": 3423
+    },
+    {
+      "epoch": 1.9915660898647665,
+      "grad_norm": NaN,
+      "learning_rate": 4.340271303715504e-09,
+      "loss": 0.0,
+      "step": 3424
+    },
+    {
+      "epoch": 1.9921477388396103,
+      "grad_norm": NaN,
+      "learning_rate": 3.742384246008257e-09,
+      "loss": 0.0,
+      "step": 3425
+    },
+    {
+      "epoch": 1.992729387814454,
+      "grad_norm": NaN,
+      "learning_rate": 3.188782993551742e-09,
+      "loss": 0.0,
+      "step": 3426
+    },
+    {
+      "epoch": 1.9933110367892977,
+      "grad_norm": NaN,
+      "learning_rate": 2.679468036709265e-09,
+      "loss": 0.0,
+      "step": 3427
+    },
+    {
+      "epoch": 1.9938926857641412,
+      "grad_norm": NaN,
+      "learning_rate": 2.2144398266199518e-09,
+      "loss": 0.0,
+      "step": 3428
+    },
+    {
+      "epoch": 1.994474334738985,
+      "grad_norm": NaN,
+      "learning_rate": 1.7936987752098511e-09,
+      "loss": 0.0,
+      "step": 3429
+    },
+    {
+      "epoch": 1.9950559837138289,
+      "grad_norm": NaN,
+      "learning_rate": 1.417245255153077e-09,
+      "loss": 0.0,
+      "step": 3430
+    },
+    {
+      "epoch": 1.9956376326886724,
+      "grad_norm": NaN,
+      "learning_rate": 1.0850795999051143e-09,
+      "loss": 0.0,
+      "step": 3431
+    },
+    {
+      "epoch": 1.996219281663516,
+      "grad_norm": NaN,
+      "learning_rate": 7.972021036972699e-10,
+      "loss": 0.0,
+      "step": 3432
+    },
+    {
+      "epoch": 1.9968009306383596,
+      "grad_norm": NaN,
+      "learning_rate": 5.536130215311186e-10,
+      "loss": 0.0,
+      "step": 3433
+    },
+    {
+      "epoch": 1.9973825796132034,
+      "grad_norm": NaN,
+      "learning_rate": 3.5431256916185207e-10,
+      "loss": 0.0,
+      "step": 3434
+    },
+    {
+      "epoch": 1.9979642285880472,
+      "grad_norm": NaN,
+      "learning_rate": 1.9930092313158455e-10,
+      "loss": 0.0,
+      "step": 3435
+    },
+    {
+      "epoch": 1.9985458775628908,
+      "grad_norm": NaN,
+      "learning_rate": 8.857822075269973e-11,
+      "loss": 0.0,
+      "step": 3436
+    },
+    {
+      "epoch": 1.9991275265377344,
+      "grad_norm": NaN,
+      "learning_rate": 2.2144560091197363e-11,
+      "loss": 0.0,
+      "step": 3437
+    },
+    {
+      "epoch": 1.9997091755125782,
+      "grad_norm": NaN,
+      "learning_rate": 0.0,
+      "loss": 0.0,
+      "step": 3438
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 3.203855633350656e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null