diaenra commited on
Commit
3087b41
·
verified ·
1 Parent(s): cea5a0f

Training in progress, step 614, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:17b61e3a60df5b49f70ee7fa14b899491f41f3266c36a73c9617df8a298af626
3
  size 2503003904
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:70bd2f1fafcc7b47703939366d5a875aff52142b49bf6285307a5af2ad10a8c7
3
  size 2503003904
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:d184f08331959421a8a082bb3d9c1db79b04bd771122b779b6d87731c902de69
3
  size 5006244836
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f8c344e2c84cb015817f049934ef360b2461e56bde3cfedcd901f935b22064df
3
  size 5006244836
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:c31c5cee72ed90538c38e08f7bc6ba92b3245cf8b8b2b3bff23cab9e1621c486
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:09c47ca366ccbbd06cb763290143357c3f8edb356ab78715c93165d5577f5bd0
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:8720ff84d41b1cd70b38b0ea573bbd0330c7e385ec5928a883f666e20f780db3
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:5b27a5164f4a92724958d35729275d1de6caf155726547d148f0c77c37fa93ec
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.7781847781847782,
5
  "eval_steps": 500,
6
- "global_step": 478,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -3353,6 +3353,958 @@
3353
  "learning_rate": 1.6301935118745826e-05,
3354
  "loss": 0.1043,
3355
  "step": 478
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3356
  }
3357
  ],
3358
  "logging_steps": 1,
@@ -3367,12 +4319,12 @@
3367
  "should_evaluate": false,
3368
  "should_log": false,
3369
  "should_save": true,
3370
- "should_training_stop": false
3371
  },
3372
  "attributes": {}
3373
  }
3374
  },
3375
- "total_flos": 1.9377973511376077e+17,
3376
  "train_batch_size": 4,
3377
  "trial_name": null,
3378
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.9995929995929996,
5
  "eval_steps": 500,
6
+ "global_step": 614,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
3353
  "learning_rate": 1.6301935118745826e-05,
3354
  "loss": 0.1043,
3355
  "step": 478
3356
+ },
3357
+ {
3358
+ "epoch": 0.7798127798127799,
3359
+ "grad_norm": 0.7857057452201843,
3360
+ "learning_rate": 1.6076797092734573e-05,
3361
+ "loss": 0.118,
3362
+ "step": 479
3363
+ },
3364
+ {
3365
+ "epoch": 0.7814407814407814,
3366
+ "grad_norm": 0.7554141879081726,
3367
+ "learning_rate": 1.5852926336289925e-05,
3368
+ "loss": 0.0752,
3369
+ "step": 480
3370
+ },
3371
+ {
3372
+ "epoch": 0.783068783068783,
3373
+ "grad_norm": 1.1241683959960938,
3374
+ "learning_rate": 1.5630331212554905e-05,
3375
+ "loss": 0.1308,
3376
+ "step": 481
3377
+ },
3378
+ {
3379
+ "epoch": 0.7846967846967847,
3380
+ "grad_norm": 1.1640019416809082,
3381
+ "learning_rate": 1.5409020037018652e-05,
3382
+ "loss": 0.115,
3383
+ "step": 482
3384
+ },
3385
+ {
3386
+ "epoch": 0.7863247863247863,
3387
+ "grad_norm": 1.619645357131958,
3388
+ "learning_rate": 1.5189001077205833e-05,
3389
+ "loss": 0.2098,
3390
+ "step": 483
3391
+ },
3392
+ {
3393
+ "epoch": 0.787952787952788,
3394
+ "grad_norm": 1.3909748792648315,
3395
+ "learning_rate": 1.4970282552367854e-05,
3396
+ "loss": 0.1389,
3397
+ "step": 484
3398
+ },
3399
+ {
3400
+ "epoch": 0.7895807895807896,
3401
+ "grad_norm": 0.983561635017395,
3402
+ "learning_rate": 1.475287263317569e-05,
3403
+ "loss": 0.0782,
3404
+ "step": 485
3405
+ },
3406
+ {
3407
+ "epoch": 0.7912087912087912,
3408
+ "grad_norm": 1.0795811414718628,
3409
+ "learning_rate": 1.453677944141474e-05,
3410
+ "loss": 0.1023,
3411
+ "step": 486
3412
+ },
3413
+ {
3414
+ "epoch": 0.7928367928367929,
3415
+ "grad_norm": 1.4191927909851074,
3416
+ "learning_rate": 1.4322011049681411e-05,
3417
+ "loss": 0.1648,
3418
+ "step": 487
3419
+ },
3420
+ {
3421
+ "epoch": 0.7944647944647945,
3422
+ "grad_norm": 1.2225549221038818,
3423
+ "learning_rate": 1.4108575481081521e-05,
3424
+ "loss": 0.1021,
3425
+ "step": 488
3426
+ },
3427
+ {
3428
+ "epoch": 0.796092796092796,
3429
+ "grad_norm": 1.0409220457077026,
3430
+ "learning_rate": 1.3896480708930576e-05,
3431
+ "loss": 0.0923,
3432
+ "step": 489
3433
+ },
3434
+ {
3435
+ "epoch": 0.7977207977207977,
3436
+ "grad_norm": 1.3591772317886353,
3437
+ "learning_rate": 1.3685734656455989e-05,
3438
+ "loss": 0.1194,
3439
+ "step": 490
3440
+ },
3441
+ {
3442
+ "epoch": 0.7993487993487993,
3443
+ "grad_norm": 1.3432077169418335,
3444
+ "learning_rate": 1.3476345196500978e-05,
3445
+ "loss": 0.0894,
3446
+ "step": 491
3447
+ },
3448
+ {
3449
+ "epoch": 0.800976800976801,
3450
+ "grad_norm": 1.5234460830688477,
3451
+ "learning_rate": 1.3268320151230517e-05,
3452
+ "loss": 0.1638,
3453
+ "step": 492
3454
+ },
3455
+ {
3456
+ "epoch": 0.8026048026048026,
3457
+ "grad_norm": 0.6838420033454895,
3458
+ "learning_rate": 1.306166729183918e-05,
3459
+ "loss": 0.0699,
3460
+ "step": 493
3461
+ },
3462
+ {
3463
+ "epoch": 0.8042328042328042,
3464
+ "grad_norm": 1.3897405862808228,
3465
+ "learning_rate": 1.2856394338260691e-05,
3466
+ "loss": 0.0923,
3467
+ "step": 494
3468
+ },
3469
+ {
3470
+ "epoch": 0.8058608058608059,
3471
+ "grad_norm": 1.5889415740966797,
3472
+ "learning_rate": 1.2652508958879672e-05,
3473
+ "loss": 0.1909,
3474
+ "step": 495
3475
+ },
3476
+ {
3477
+ "epoch": 0.8074888074888075,
3478
+ "grad_norm": 1.4787379503250122,
3479
+ "learning_rate": 1.245001877024512e-05,
3480
+ "loss": 0.1033,
3481
+ "step": 496
3482
+ },
3483
+ {
3484
+ "epoch": 0.8091168091168092,
3485
+ "grad_norm": 0.7427048087120056,
3486
+ "learning_rate": 1.224893133678583e-05,
3487
+ "loss": 0.0342,
3488
+ "step": 497
3489
+ },
3490
+ {
3491
+ "epoch": 0.8107448107448108,
3492
+ "grad_norm": 0.8333874344825745,
3493
+ "learning_rate": 1.2049254170527857e-05,
3494
+ "loss": 0.0373,
3495
+ "step": 498
3496
+ },
3497
+ {
3498
+ "epoch": 0.8123728123728123,
3499
+ "grad_norm": 1.2029796838760376,
3500
+ "learning_rate": 1.1850994730813936e-05,
3501
+ "loss": 0.0835,
3502
+ "step": 499
3503
+ },
3504
+ {
3505
+ "epoch": 0.814000814000814,
3506
+ "grad_norm": 2.5518958568573,
3507
+ "learning_rate": 1.1654160424024719e-05,
3508
+ "loss": 0.2705,
3509
+ "step": 500
3510
+ },
3511
+ {
3512
+ "epoch": 0.8156288156288156,
3513
+ "grad_norm": 0.028806041926145554,
3514
+ "learning_rate": 1.1458758603302144e-05,
3515
+ "loss": 0.0011,
3516
+ "step": 501
3517
+ },
3518
+ {
3519
+ "epoch": 0.8172568172568172,
3520
+ "grad_norm": 0.03748834505677223,
3521
+ "learning_rate": 1.1264796568274811e-05,
3522
+ "loss": 0.0014,
3523
+ "step": 502
3524
+ },
3525
+ {
3526
+ "epoch": 0.8188848188848189,
3527
+ "grad_norm": 0.2620696425437927,
3528
+ "learning_rate": 1.1072281564785147e-05,
3529
+ "loss": 0.0363,
3530
+ "step": 503
3531
+ },
3532
+ {
3533
+ "epoch": 0.8205128205128205,
3534
+ "grad_norm": 0.5484391450881958,
3535
+ "learning_rate": 1.088122078461884e-05,
3536
+ "loss": 0.1093,
3537
+ "step": 504
3538
+ },
3539
+ {
3540
+ "epoch": 0.8221408221408222,
3541
+ "grad_norm": 0.5863115191459656,
3542
+ "learning_rate": 1.0691621365236153e-05,
3543
+ "loss": 0.0954,
3544
+ "step": 505
3545
+ },
3546
+ {
3547
+ "epoch": 0.8237688237688238,
3548
+ "grad_norm": 0.39074957370758057,
3549
+ "learning_rate": 1.0503490389505244e-05,
3550
+ "loss": 0.0387,
3551
+ "step": 506
3552
+ },
3553
+ {
3554
+ "epoch": 0.8253968253968254,
3555
+ "grad_norm": 0.5790150165557861,
3556
+ "learning_rate": 1.0316834885437593e-05,
3557
+ "loss": 0.0768,
3558
+ "step": 507
3559
+ },
3560
+ {
3561
+ "epoch": 0.827024827024827,
3562
+ "grad_norm": 0.44617122411727905,
3563
+ "learning_rate": 1.013166182592551e-05,
3564
+ "loss": 0.0545,
3565
+ "step": 508
3566
+ },
3567
+ {
3568
+ "epoch": 0.8286528286528286,
3569
+ "grad_norm": 0.18992449343204498,
3570
+ "learning_rate": 9.947978128481556e-06,
3571
+ "loss": 0.0099,
3572
+ "step": 509
3573
+ },
3574
+ {
3575
+ "epoch": 0.8302808302808303,
3576
+ "grad_norm": 0.3735041916370392,
3577
+ "learning_rate": 9.765790654980195e-06,
3578
+ "loss": 0.026,
3579
+ "step": 510
3580
+ },
3581
+ {
3582
+ "epoch": 0.8319088319088319,
3583
+ "grad_norm": 0.7374064326286316,
3584
+ "learning_rate": 9.585106211401452e-06,
3585
+ "loss": 0.0849,
3586
+ "step": 511
3587
+ },
3588
+ {
3589
+ "epoch": 0.8335368335368335,
3590
+ "grad_norm": 0.46673384308815,
3591
+ "learning_rate": 9.40593154757659e-06,
3592
+ "loss": 0.037,
3593
+ "step": 512
3594
+ },
3595
+ {
3596
+ "epoch": 0.8351648351648352,
3597
+ "grad_norm": 0.2250240594148636,
3598
+ "learning_rate": 9.228273356936046e-06,
3599
+ "loss": 0.0151,
3600
+ "step": 513
3601
+ },
3602
+ {
3603
+ "epoch": 0.8367928367928368,
3604
+ "grad_norm": 0.30334368348121643,
3605
+ "learning_rate": 9.052138276259348e-06,
3606
+ "loss": 0.0115,
3607
+ "step": 514
3608
+ },
3609
+ {
3610
+ "epoch": 0.8384208384208384,
3611
+ "grad_norm": 0.448330819606781,
3612
+ "learning_rate": 8.87753288542717e-06,
3613
+ "loss": 0.0438,
3614
+ "step": 515
3615
+ },
3616
+ {
3617
+ "epoch": 0.8400488400488401,
3618
+ "grad_norm": 1.012182593345642,
3619
+ "learning_rate": 8.704463707175526e-06,
3620
+ "loss": 0.1588,
3621
+ "step": 516
3622
+ },
3623
+ {
3624
+ "epoch": 0.8416768416768416,
3625
+ "grad_norm": 0.4254077970981598,
3626
+ "learning_rate": 8.532937206852165e-06,
3627
+ "loss": 0.0321,
3628
+ "step": 517
3629
+ },
3630
+ {
3631
+ "epoch": 0.8433048433048433,
3632
+ "grad_norm": 0.5330860614776611,
3633
+ "learning_rate": 8.36295979217494e-06,
3634
+ "loss": 0.0212,
3635
+ "step": 518
3636
+ },
3637
+ {
3638
+ "epoch": 0.8449328449328449,
3639
+ "grad_norm": 0.38128530979156494,
3640
+ "learning_rate": 8.194537812992532e-06,
3641
+ "loss": 0.0188,
3642
+ "step": 519
3643
+ },
3644
+ {
3645
+ "epoch": 0.8465608465608465,
3646
+ "grad_norm": 0.26952776312828064,
3647
+ "learning_rate": 8.027677561047175e-06,
3648
+ "loss": 0.0135,
3649
+ "step": 520
3650
+ },
3651
+ {
3652
+ "epoch": 0.8481888481888482,
3653
+ "grad_norm": 0.6845637559890747,
3654
+ "learning_rate": 7.862385269739624e-06,
3655
+ "loss": 0.0881,
3656
+ "step": 521
3657
+ },
3658
+ {
3659
+ "epoch": 0.8498168498168498,
3660
+ "grad_norm": 0.5055005550384521,
3661
+ "learning_rate": 7.698667113896346e-06,
3662
+ "loss": 0.0429,
3663
+ "step": 522
3664
+ },
3665
+ {
3666
+ "epoch": 0.8514448514448515,
3667
+ "grad_norm": 0.6151329874992371,
3668
+ "learning_rate": 7.536529209538773e-06,
3669
+ "loss": 0.0654,
3670
+ "step": 523
3671
+ },
3672
+ {
3673
+ "epoch": 0.8530728530728531,
3674
+ "grad_norm": 0.880127489566803,
3675
+ "learning_rate": 7.375977613654861e-06,
3676
+ "loss": 0.0937,
3677
+ "step": 524
3678
+ },
3679
+ {
3680
+ "epoch": 0.8547008547008547,
3681
+ "grad_norm": 0.48843473196029663,
3682
+ "learning_rate": 7.217018323972851e-06,
3683
+ "loss": 0.063,
3684
+ "step": 525
3685
+ },
3686
+ {
3687
+ "epoch": 0.8563288563288564,
3688
+ "grad_norm": 0.6441347599029541,
3689
+ "learning_rate": 7.059657278737136e-06,
3690
+ "loss": 0.0974,
3691
+ "step": 526
3692
+ },
3693
+ {
3694
+ "epoch": 0.8579568579568579,
3695
+ "grad_norm": 0.4741074740886688,
3696
+ "learning_rate": 6.903900356486504e-06,
3697
+ "loss": 0.0428,
3698
+ "step": 527
3699
+ },
3700
+ {
3701
+ "epoch": 0.8595848595848596,
3702
+ "grad_norm": 0.7434227466583252,
3703
+ "learning_rate": 6.7497533758344665e-06,
3704
+ "loss": 0.0964,
3705
+ "step": 528
3706
+ },
3707
+ {
3708
+ "epoch": 0.8612128612128612,
3709
+ "grad_norm": 0.7430245876312256,
3710
+ "learning_rate": 6.597222095251965e-06,
3711
+ "loss": 0.1001,
3712
+ "step": 529
3713
+ },
3714
+ {
3715
+ "epoch": 0.8628408628408628,
3716
+ "grad_norm": 0.8883737325668335,
3717
+ "learning_rate": 6.446312212852163e-06,
3718
+ "loss": 0.1359,
3719
+ "step": 530
3720
+ },
3721
+ {
3722
+ "epoch": 0.8644688644688645,
3723
+ "grad_norm": 0.9965616464614868,
3724
+ "learning_rate": 6.29702936617767e-06,
3725
+ "loss": 0.1649,
3726
+ "step": 531
3727
+ },
3728
+ {
3729
+ "epoch": 0.8660968660968661,
3730
+ "grad_norm": 1.306498646736145,
3731
+ "learning_rate": 6.14937913198988e-06,
3732
+ "loss": 0.075,
3733
+ "step": 532
3734
+ },
3735
+ {
3736
+ "epoch": 0.8677248677248677,
3737
+ "grad_norm": 1.1316754817962646,
3738
+ "learning_rate": 6.003367026060646e-06,
3739
+ "loss": 0.1295,
3740
+ "step": 533
3741
+ },
3742
+ {
3743
+ "epoch": 0.8693528693528694,
3744
+ "grad_norm": 1.1253420114517212,
3745
+ "learning_rate": 5.858998502966273e-06,
3746
+ "loss": 0.1071,
3747
+ "step": 534
3748
+ },
3749
+ {
3750
+ "epoch": 0.870980870980871,
3751
+ "grad_norm": 1.2386155128479004,
3752
+ "learning_rate": 5.7162789558837025e-06,
3753
+ "loss": 0.1373,
3754
+ "step": 535
3755
+ },
3756
+ {
3757
+ "epoch": 0.8726088726088727,
3758
+ "grad_norm": 1.7070964574813843,
3759
+ "learning_rate": 5.575213716389039e-06,
3760
+ "loss": 0.2068,
3761
+ "step": 536
3762
+ },
3763
+ {
3764
+ "epoch": 0.8742368742368742,
3765
+ "grad_norm": 1.152567982673645,
3766
+ "learning_rate": 5.435808054258429e-06,
3767
+ "loss": 0.1045,
3768
+ "step": 537
3769
+ },
3770
+ {
3771
+ "epoch": 0.8758648758648758,
3772
+ "grad_norm": 0.7139473557472229,
3773
+ "learning_rate": 5.298067177271143e-06,
3774
+ "loss": 0.0588,
3775
+ "step": 538
3776
+ },
3777
+ {
3778
+ "epoch": 0.8774928774928775,
3779
+ "grad_norm": 1.0029757022857666,
3780
+ "learning_rate": 5.161996231015049e-06,
3781
+ "loss": 0.0709,
3782
+ "step": 539
3783
+ },
3784
+ {
3785
+ "epoch": 0.8791208791208791,
3786
+ "grad_norm": 0.9710745215415955,
3787
+ "learning_rate": 5.027600298694396e-06,
3788
+ "loss": 0.0748,
3789
+ "step": 540
3790
+ },
3791
+ {
3792
+ "epoch": 0.8807488807488808,
3793
+ "grad_norm": 1.085533618927002,
3794
+ "learning_rate": 4.89488440093992e-06,
3795
+ "loss": 0.0728,
3796
+ "step": 541
3797
+ },
3798
+ {
3799
+ "epoch": 0.8823768823768824,
3800
+ "grad_norm": 1.0848852396011353,
3801
+ "learning_rate": 4.763853495621251e-06,
3802
+ "loss": 0.0837,
3803
+ "step": 542
3804
+ },
3805
+ {
3806
+ "epoch": 0.884004884004884,
3807
+ "grad_norm": 1.214345932006836,
3808
+ "learning_rate": 4.634512477661784e-06,
3809
+ "loss": 0.0998,
3810
+ "step": 543
3811
+ },
3812
+ {
3813
+ "epoch": 0.8856328856328857,
3814
+ "grad_norm": 1.3322100639343262,
3815
+ "learning_rate": 4.5068661788557344e-06,
3816
+ "loss": 0.1066,
3817
+ "step": 544
3818
+ },
3819
+ {
3820
+ "epoch": 0.8872608872608873,
3821
+ "grad_norm": 1.40041983127594,
3822
+ "learning_rate": 4.380919367687658e-06,
3823
+ "loss": 0.1525,
3824
+ "step": 545
3825
+ },
3826
+ {
3827
+ "epoch": 0.8888888888888888,
3828
+ "grad_norm": 1.1170860528945923,
3829
+ "learning_rate": 4.2566767491543706e-06,
3830
+ "loss": 0.0883,
3831
+ "step": 546
3832
+ },
3833
+ {
3834
+ "epoch": 0.8905168905168905,
3835
+ "grad_norm": 0.7227723002433777,
3836
+ "learning_rate": 4.134142964589105e-06,
3837
+ "loss": 0.058,
3838
+ "step": 547
3839
+ },
3840
+ {
3841
+ "epoch": 0.8921448921448921,
3842
+ "grad_norm": 0.6305646896362305,
3843
+ "learning_rate": 4.01332259148815e-06,
3844
+ "loss": 0.0107,
3845
+ "step": 548
3846
+ },
3847
+ {
3848
+ "epoch": 0.8937728937728938,
3849
+ "grad_norm": 1.3228040933609009,
3850
+ "learning_rate": 3.894220143339905e-06,
3851
+ "loss": 0.087,
3852
+ "step": 549
3853
+ },
3854
+ {
3855
+ "epoch": 0.8954008954008954,
3856
+ "grad_norm": 2.63421893119812,
3857
+ "learning_rate": 3.776840069456189e-06,
3858
+ "loss": 0.3158,
3859
+ "step": 550
3860
+ },
3861
+ {
3862
+ "epoch": 0.897028897028897,
3863
+ "grad_norm": 0.2332572638988495,
3864
+ "learning_rate": 3.6611867548060507e-06,
3865
+ "loss": 0.0344,
3866
+ "step": 551
3867
+ },
3868
+ {
3869
+ "epoch": 0.8986568986568987,
3870
+ "grad_norm": 0.09918678551912308,
3871
+ "learning_rate": 3.547264519852006e-06,
3872
+ "loss": 0.0022,
3873
+ "step": 552
3874
+ },
3875
+ {
3876
+ "epoch": 0.9002849002849003,
3877
+ "grad_norm": 0.173350527882576,
3878
+ "learning_rate": 3.435077620388577e-06,
3879
+ "loss": 0.0141,
3880
+ "step": 553
3881
+ },
3882
+ {
3883
+ "epoch": 0.901912901912902,
3884
+ "grad_norm": 0.8093030452728271,
3885
+ "learning_rate": 3.3246302473833367e-06,
3886
+ "loss": 0.2129,
3887
+ "step": 554
3888
+ },
3889
+ {
3890
+ "epoch": 0.9035409035409036,
3891
+ "grad_norm": 0.7507438063621521,
3892
+ "learning_rate": 3.215926526820351e-06,
3893
+ "loss": 0.0989,
3894
+ "step": 555
3895
+ },
3896
+ {
3897
+ "epoch": 0.9051689051689051,
3898
+ "grad_norm": 0.7121350765228271,
3899
+ "learning_rate": 3.108970519546034e-06,
3900
+ "loss": 0.0491,
3901
+ "step": 556
3902
+ },
3903
+ {
3904
+ "epoch": 0.9067969067969068,
3905
+ "grad_norm": 0.49473196268081665,
3906
+ "learning_rate": 3.0037662211174434e-06,
3907
+ "loss": 0.0481,
3908
+ "step": 557
3909
+ },
3910
+ {
3911
+ "epoch": 0.9084249084249084,
3912
+ "grad_norm": 0.6143136620521545,
3913
+ "learning_rate": 2.9003175616530265e-06,
3914
+ "loss": 0.0706,
3915
+ "step": 558
3916
+ },
3917
+ {
3918
+ "epoch": 0.91005291005291,
3919
+ "grad_norm": 0.4149825870990753,
3920
+ "learning_rate": 2.798628405685827e-06,
3921
+ "loss": 0.0424,
3922
+ "step": 559
3923
+ },
3924
+ {
3925
+ "epoch": 0.9116809116809117,
3926
+ "grad_norm": 0.659127414226532,
3927
+ "learning_rate": 2.6987025520190447e-06,
3928
+ "loss": 0.0724,
3929
+ "step": 560
3930
+ },
3931
+ {
3932
+ "epoch": 0.9133089133089133,
3933
+ "grad_norm": 0.48161572217941284,
3934
+ "learning_rate": 2.600543733584215e-06,
3935
+ "loss": 0.0414,
3936
+ "step": 561
3937
+ },
3938
+ {
3939
+ "epoch": 0.914936914936915,
3940
+ "grad_norm": 0.3644472062587738,
3941
+ "learning_rate": 2.50415561730169e-06,
3942
+ "loss": 0.0234,
3943
+ "step": 562
3944
+ },
3945
+ {
3946
+ "epoch": 0.9165649165649166,
3947
+ "grad_norm": 0.34914886951446533,
3948
+ "learning_rate": 2.4095418039436655e-06,
3949
+ "loss": 0.0272,
3950
+ "step": 563
3951
+ },
3952
+ {
3953
+ "epoch": 0.9181929181929182,
3954
+ "grad_norm": 0.4708094298839569,
3955
+ "learning_rate": 2.3167058279997156e-06,
3956
+ "loss": 0.0213,
3957
+ "step": 564
3958
+ },
3959
+ {
3960
+ "epoch": 0.9198209198209198,
3961
+ "grad_norm": 0.49146759510040283,
3962
+ "learning_rate": 2.2256511575446836e-06,
3963
+ "loss": 0.0422,
3964
+ "step": 565
3965
+ },
3966
+ {
3967
+ "epoch": 0.9214489214489214,
3968
+ "grad_norm": 0.3840540051460266,
3969
+ "learning_rate": 2.136381194109166e-06,
3970
+ "loss": 0.024,
3971
+ "step": 566
3972
+ },
3973
+ {
3974
+ "epoch": 0.9230769230769231,
3975
+ "grad_norm": 0.5289592742919922,
3976
+ "learning_rate": 2.048899272552457e-06,
3977
+ "loss": 0.0557,
3978
+ "step": 567
3979
+ },
3980
+ {
3981
+ "epoch": 0.9247049247049247,
3982
+ "grad_norm": 0.3621179461479187,
3983
+ "learning_rate": 1.963208660937904e-06,
3984
+ "loss": 0.0231,
3985
+ "step": 568
3986
+ },
3987
+ {
3988
+ "epoch": 0.9263329263329263,
3989
+ "grad_norm": 0.39359891414642334,
3990
+ "learning_rate": 1.8793125604109007e-06,
3991
+ "loss": 0.0304,
3992
+ "step": 569
3993
+ },
3994
+ {
3995
+ "epoch": 0.927960927960928,
3996
+ "grad_norm": 0.10071241110563278,
3997
+ "learning_rate": 1.797214105079248e-06,
3998
+ "loss": 0.0043,
3999
+ "step": 570
4000
+ },
4001
+ {
4002
+ "epoch": 0.9295889295889296,
4003
+ "grad_norm": 0.4732748866081238,
4004
+ "learning_rate": 1.7169163618960814e-06,
4005
+ "loss": 0.0399,
4006
+ "step": 571
4007
+ },
4008
+ {
4009
+ "epoch": 0.9312169312169312,
4010
+ "grad_norm": 0.572767436504364,
4011
+ "learning_rate": 1.6384223305453416e-06,
4012
+ "loss": 0.052,
4013
+ "step": 572
4014
+ },
4015
+ {
4016
+ "epoch": 0.9328449328449329,
4017
+ "grad_norm": 1.0503902435302734,
4018
+ "learning_rate": 1.5617349433296403e-06,
4019
+ "loss": 0.0512,
4020
+ "step": 573
4021
+ },
4022
+ {
4023
+ "epoch": 0.9344729344729344,
4024
+ "grad_norm": 0.798310399055481,
4025
+ "learning_rate": 1.4868570650607815e-06,
4026
+ "loss": 0.0763,
4027
+ "step": 574
4028
+ },
4029
+ {
4030
+ "epoch": 0.9361009361009361,
4031
+ "grad_norm": 0.3898273706436157,
4032
+ "learning_rate": 1.4137914929527096e-06,
4033
+ "loss": 0.0358,
4034
+ "step": 575
4035
+ },
4036
+ {
4037
+ "epoch": 0.9377289377289377,
4038
+ "grad_norm": 0.45904216170310974,
4039
+ "learning_rate": 1.342540956517041e-06,
4040
+ "loss": 0.0437,
4041
+ "step": 576
4042
+ },
4043
+ {
4044
+ "epoch": 0.9393569393569393,
4045
+ "grad_norm": 1.0378749370574951,
4046
+ "learning_rate": 1.2731081174610526e-06,
4047
+ "loss": 0.1158,
4048
+ "step": 577
4049
+ },
4050
+ {
4051
+ "epoch": 0.940984940984941,
4052
+ "grad_norm": 0.831689715385437,
4053
+ "learning_rate": 1.205495569588283e-06,
4054
+ "loss": 0.1591,
4055
+ "step": 578
4056
+ },
4057
+ {
4058
+ "epoch": 0.9426129426129426,
4059
+ "grad_norm": 0.9298439621925354,
4060
+ "learning_rate": 1.139705838701638e-06,
4061
+ "loss": 0.1746,
4062
+ "step": 579
4063
+ },
4064
+ {
4065
+ "epoch": 0.9442409442409443,
4066
+ "grad_norm": 1.2845919132232666,
4067
+ "learning_rate": 1.0757413825090212e-06,
4068
+ "loss": 0.1089,
4069
+ "step": 580
4070
+ },
4071
+ {
4072
+ "epoch": 0.9458689458689459,
4073
+ "grad_norm": 1.1161198616027832,
4074
+ "learning_rate": 1.0136045905315028e-06,
4075
+ "loss": 0.1823,
4076
+ "step": 581
4077
+ },
4078
+ {
4079
+ "epoch": 0.9474969474969475,
4080
+ "grad_norm": 0.9601607918739319,
4081
+ "learning_rate": 9.532977840141122e-07,
4082
+ "loss": 0.0872,
4083
+ "step": 582
4084
+ },
4085
+ {
4086
+ "epoch": 0.9491249491249492,
4087
+ "grad_norm": 1.4678707122802734,
4088
+ "learning_rate": 8.948232158390468e-07,
4089
+ "loss": 0.2021,
4090
+ "step": 583
4091
+ },
4092
+ {
4093
+ "epoch": 0.9507529507529507,
4094
+ "grad_norm": 1.3035527467727661,
4095
+ "learning_rate": 8.381830704415839e-07,
4096
+ "loss": 0.1604,
4097
+ "step": 584
4098
+ },
4099
+ {
4100
+ "epoch": 0.9523809523809523,
4101
+ "grad_norm": 0.9295395612716675,
4102
+ "learning_rate": 7.833794637284231e-07,
4103
+ "loss": 0.0591,
4104
+ "step": 585
4105
+ },
4106
+ {
4107
+ "epoch": 0.954008954008954,
4108
+ "grad_norm": 1.5823544263839722,
4109
+ "learning_rate": 7.30414442998667e-07,
4110
+ "loss": 0.1536,
4111
+ "step": 586
4112
+ },
4113
+ {
4114
+ "epoch": 0.9556369556369556,
4115
+ "grad_norm": 1.4963399171829224,
4116
+ "learning_rate": 6.792899868673486e-07,
4117
+ "loss": 0.1601,
4118
+ "step": 587
4119
+ },
4120
+ {
4121
+ "epoch": 0.9572649572649573,
4122
+ "grad_norm": 1.1686265468597412,
4123
+ "learning_rate": 6.300080051914791e-07,
4124
+ "loss": 0.0715,
4125
+ "step": 588
4126
+ },
4127
+ {
4128
+ "epoch": 0.9588929588929589,
4129
+ "grad_norm": 0.9449349641799927,
4130
+ "learning_rate": 5.825703389987391e-07,
4131
+ "loss": 0.071,
4132
+ "step": 589
4133
+ },
4134
+ {
4135
+ "epoch": 0.9605209605209605,
4136
+ "grad_norm": 1.001676321029663,
4137
+ "learning_rate": 5.369787604186993e-07,
4138
+ "loss": 0.0702,
4139
+ "step": 590
4140
+ },
4141
+ {
4142
+ "epoch": 0.9621489621489622,
4143
+ "grad_norm": 1.1436750888824463,
4144
+ "learning_rate": 4.932349726165964e-07,
4145
+ "loss": 0.0824,
4146
+ "step": 591
4147
+ },
4148
+ {
4149
+ "epoch": 0.9637769637769638,
4150
+ "grad_norm": 1.280293583869934,
4151
+ "learning_rate": 4.513406097297224e-07,
4152
+ "loss": 0.0754,
4153
+ "step": 592
4154
+ },
4155
+ {
4156
+ "epoch": 0.9654049654049655,
4157
+ "grad_norm": 1.658920168876648,
4158
+ "learning_rate": 4.1129723680637946e-07,
4159
+ "loss": 0.1284,
4160
+ "step": 593
4161
+ },
4162
+ {
4163
+ "epoch": 0.967032967032967,
4164
+ "grad_norm": 0.8406931757926941,
4165
+ "learning_rate": 3.7310634974741523e-07,
4166
+ "loss": 0.0539,
4167
+ "step": 594
4168
+ },
4169
+ {
4170
+ "epoch": 0.9686609686609686,
4171
+ "grad_norm": 0.9294666647911072,
4172
+ "learning_rate": 3.3676937525032314e-07,
4173
+ "loss": 0.0635,
4174
+ "step": 595
4175
+ },
4176
+ {
4177
+ "epoch": 0.9702889702889703,
4178
+ "grad_norm": 1.2156299352645874,
4179
+ "learning_rate": 3.022876707559796e-07,
4180
+ "loss": 0.074,
4181
+ "step": 596
4182
+ },
4183
+ {
4184
+ "epoch": 0.9719169719169719,
4185
+ "grad_norm": 1.1088374853134155,
4186
+ "learning_rate": 2.696625243979012e-07,
4187
+ "loss": 0.0819,
4188
+ "step": 597
4189
+ },
4190
+ {
4191
+ "epoch": 0.9735449735449735,
4192
+ "grad_norm": 1.7963135242462158,
4193
+ "learning_rate": 2.3889515495413296e-07,
4194
+ "loss": 0.2016,
4195
+ "step": 598
4196
+ },
4197
+ {
4198
+ "epoch": 0.9751729751729752,
4199
+ "grad_norm": 2.0805530548095703,
4200
+ "learning_rate": 2.0998671180172957e-07,
4201
+ "loss": 0.2091,
4202
+ "step": 599
4203
+ },
4204
+ {
4205
+ "epoch": 0.9768009768009768,
4206
+ "grad_norm": 2.48085618019104,
4207
+ "learning_rate": 1.829382748738062e-07,
4208
+ "loss": 0.3043,
4209
+ "step": 600
4210
+ },
4211
+ {
4212
+ "epoch": 0.9784289784289785,
4213
+ "grad_norm": 0.025913316756486893,
4214
+ "learning_rate": 1.5775085461919858e-07,
4215
+ "loss": 0.0012,
4216
+ "step": 601
4217
+ },
4218
+ {
4219
+ "epoch": 0.98005698005698,
4220
+ "grad_norm": 0.6956274509429932,
4221
+ "learning_rate": 1.3442539196472648e-07,
4222
+ "loss": 0.1641,
4223
+ "step": 602
4224
+ },
4225
+ {
4226
+ "epoch": 0.9816849816849816,
4227
+ "grad_norm": 0.24362115561962128,
4228
+ "learning_rate": 1.1296275828001635e-07,
4229
+ "loss": 0.0106,
4230
+ "step": 603
4231
+ },
4232
+ {
4233
+ "epoch": 0.9833129833129833,
4234
+ "grad_norm": 0.3809750974178314,
4235
+ "learning_rate": 9.336375534497733e-08,
4236
+ "loss": 0.0239,
4237
+ "step": 604
4238
+ },
4239
+ {
4240
+ "epoch": 0.9849409849409849,
4241
+ "grad_norm": 0.530231773853302,
4242
+ "learning_rate": 7.56291153198363e-08,
4243
+ "loss": 0.042,
4244
+ "step": 605
4245
+ },
4246
+ {
4247
+ "epoch": 0.9865689865689866,
4248
+ "grad_norm": 0.7303449511528015,
4249
+ "learning_rate": 5.975950071779312e-08,
4250
+ "loss": 0.0821,
4251
+ "step": 606
4252
+ },
4253
+ {
4254
+ "epoch": 0.9881969881969882,
4255
+ "grad_norm": 0.4484477937221527,
4256
+ "learning_rate": 4.575550438026266e-08,
4257
+ "loss": 0.0574,
4258
+ "step": 607
4259
+ },
4260
+ {
4261
+ "epoch": 0.9898249898249898,
4262
+ "grad_norm": 0.6158083081245422,
4263
+ "learning_rate": 3.361764945473134e-08,
4264
+ "loss": 0.0628,
4265
+ "step": 608
4266
+ },
4267
+ {
4268
+ "epoch": 0.9914529914529915,
4269
+ "grad_norm": 1.289014220237732,
4270
+ "learning_rate": 2.3346389375211718e-08,
4271
+ "loss": 0.2014,
4272
+ "step": 609
4273
+ },
4274
+ {
4275
+ "epoch": 0.9930809930809931,
4276
+ "grad_norm": 1.2264184951782227,
4277
+ "learning_rate": 1.4942107845317133e-08,
4278
+ "loss": 0.1331,
4279
+ "step": 610
4280
+ },
4281
+ {
4282
+ "epoch": 0.9947089947089947,
4283
+ "grad_norm": 0.9105086922645569,
4284
+ "learning_rate": 8.405118823906489e-09,
4285
+ "loss": 0.0738,
4286
+ "step": 611
4287
+ },
4288
+ {
4289
+ "epoch": 0.9963369963369964,
4290
+ "grad_norm": 1.066785454750061,
4291
+ "learning_rate": 3.7356665133714274e-09,
4292
+ "loss": 0.0894,
4293
+ "step": 612
4294
+ },
4295
+ {
4296
+ "epoch": 0.9979649979649979,
4297
+ "grad_norm": 1.2152076959609985,
4298
+ "learning_rate": 9.339253505102896e-10,
4299
+ "loss": 0.1075,
4300
+ "step": 613
4301
+ },
4302
+ {
4303
+ "epoch": 0.9995929995929996,
4304
+ "grad_norm": 1.6802031993865967,
4305
+ "learning_rate": 0.0,
4306
+ "loss": 0.1659,
4307
+ "step": 614
4308
  }
4309
  ],
4310
  "logging_steps": 1,
 
4319
  "should_evaluate": false,
4320
  "should_log": false,
4321
  "should_save": true,
4322
+ "should_training_stop": true
4323
  },
4324
  "attributes": {}
4325
  }
4326
  },
4327
+ "total_flos": 2.4815911417203917e+17,
4328
  "train_batch_size": 4,
4329
  "trial_name": null,
4330
  "trial_params": null