BEE-spoke-data
/

bert-plus-L8-v1.0-syntheticSTS-4k

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1395c5c36e20564cc37941ccb71e32f9fbf1039cc0aa1f5550d04df07dcab4f0
 size 352324400

 version https://git-lfs.github.com/spec/v1
+oid sha256:c4cb33bf85bff9330bbdf1b1dc24b34597251a190543a6a00cf8fe1845f36985
 size 352324400

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.9605806103224412,
-  "best_model_checkpoint": "checkpoints/BEE-spoke-data-bert-plus-L8-v1.0-allNLI_matryoshka-synthetic-text-similarity-Mar-07_22-56/checkpoint-9600",
-  "epoch": 0.8361809045226131,
   "eval_steps": 300,
-  "global_step": 10400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -15179,6 +15179,602 @@
       "learning_rate": 3.6397748592870546e-06,
       "loss": 0.0043,
       "step": 10400
     }
   ],
   "logging_steps": 5,

 {
+  "best_metric": 0.9642074088296352,
+  "best_model_checkpoint": "checkpoints/BEE-spoke-data-bert-plus-L8-v1.0-allNLI_matryoshka-synthetic-text-similarity-Mar-07_22-56/checkpoint-10800",
+  "epoch": 0.8683417085427135,
   "eval_steps": 300,
+  "global_step": 10800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 3.6397748592870546e-06,
       "loss": 0.0043,
       "step": 10400
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 0.4659731984138489,
+      "learning_rate": 3.630840704011436e-06,
+      "loss": 0.0064,
+      "step": 10405
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 0.8237358331680298,
+      "learning_rate": 3.6219065487358176e-06,
+      "loss": 0.0089,
+      "step": 10410
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 0.2651444971561432,
+      "learning_rate": 3.6129723934601986e-06,
+      "loss": 0.0088,
+      "step": 10415
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 0.2811392545700073,
+      "learning_rate": 3.60403823818458e-06,
+      "loss": 0.0045,
+      "step": 10420
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 0.26526081562042236,
+      "learning_rate": 3.595104082908961e-06,
+      "loss": 0.0077,
+      "step": 10425
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 0.31172770261764526,
+      "learning_rate": 3.586169927633343e-06,
+      "loss": 0.0066,
+      "step": 10430
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 0.24446207284927368,
+      "learning_rate": 3.577235772357724e-06,
+      "loss": 0.0095,
+      "step": 10435
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 0.36921826004981995,
+      "learning_rate": 3.568301617082105e-06,
+      "loss": 0.0092,
+      "step": 10440
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 0.37674766778945923,
+      "learning_rate": 3.5593674618064865e-06,
+      "loss": 0.0068,
+      "step": 10445
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 0.3865291178226471,
+      "learning_rate": 3.5504333065308676e-06,
+      "loss": 0.0101,
+      "step": 10450
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 0.27692753076553345,
+      "learning_rate": 3.5414991512552494e-06,
+      "loss": 0.0118,
+      "step": 10455
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 0.3851732611656189,
+      "learning_rate": 3.5325649959796305e-06,
+      "loss": 0.0064,
+      "step": 10460
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 0.3045642673969269,
+      "learning_rate": 3.5236308407040115e-06,
+      "loss": 0.006,
+      "step": 10465
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 0.33417442440986633,
+      "learning_rate": 3.514696685428393e-06,
+      "loss": 0.0053,
+      "step": 10470
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 0.25378555059432983,
+      "learning_rate": 3.505762530152774e-06,
+      "loss": 0.0054,
+      "step": 10475
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 0.30482515692710876,
+      "learning_rate": 3.496828374877156e-06,
+      "loss": 0.006,
+      "step": 10480
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 0.3786448836326599,
+      "learning_rate": 3.487894219601537e-06,
+      "loss": 0.0069,
+      "step": 10485
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 0.4568743407726288,
+      "learning_rate": 3.478960064325918e-06,
+      "loss": 0.007,
+      "step": 10490
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 0.4057961702346802,
+      "learning_rate": 3.4700259090503e-06,
+      "loss": 0.0072,
+      "step": 10495
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 0.4396592080593109,
+      "learning_rate": 3.461091753774681e-06,
+      "loss": 0.0068,
+      "step": 10500
+    },
+    {
+      "epoch": 0.84,
+      "eval_loss": 0.0074067204259335995,
+      "eval_pearson_cosine": 0.9673687223458171,
+      "eval_pearson_dot": 0.9653915362220337,
+      "eval_pearson_euclidean": 0.9564555475438925,
+      "eval_pearson_manhattan": 0.9551556309301102,
+      "eval_pearson_max": 0.9673687223458171,
+      "eval_runtime": 426.0441,
+      "eval_samples_per_second": 1.174,
+      "eval_spearman_cosine": 0.9609645158580634,
+      "eval_spearman_dot": 0.955628814515258,
+      "eval_spearman_euclidean": 0.9613639734558937,
+      "eval_spearman_manhattan": 0.9601420805683222,
+      "eval_spearman_max": 0.9613639734558937,
+      "eval_steps_per_second": 1.174,
+      "step": 10500
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 0.33185890316963196,
+      "learning_rate": 3.4521575984990624e-06,
+      "loss": 0.0108,
+      "step": 10505
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 0.42153021693229675,
+      "learning_rate": 3.4432234432234434e-06,
+      "loss": 0.0111,
+      "step": 10510
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 0.3933052122592926,
+      "learning_rate": 3.4342892879478245e-06,
+      "loss": 0.0053,
+      "step": 10515
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 0.37213289737701416,
+      "learning_rate": 3.4253551326722063e-06,
+      "loss": 0.0052,
+      "step": 10520
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 0.3832128643989563,
+      "learning_rate": 3.4164209773965874e-06,
+      "loss": 0.0083,
+      "step": 10525
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 0.2269567996263504,
+      "learning_rate": 3.407486822120969e-06,
+      "loss": 0.0046,
+      "step": 10530
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 0.3588921129703522,
+      "learning_rate": 3.39855266684535e-06,
+      "loss": 0.0085,
+      "step": 10535
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 0.2792292833328247,
+      "learning_rate": 3.389618511569731e-06,
+      "loss": 0.0064,
+      "step": 10540
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 0.30247360467910767,
+      "learning_rate": 3.380684356294113e-06,
+      "loss": 0.009,
+      "step": 10545
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 0.33265256881713867,
+      "learning_rate": 3.371750201018494e-06,
+      "loss": 0.0087,
+      "step": 10550
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 0.41412991285324097,
+      "learning_rate": 3.3628160457428753e-06,
+      "loss": 0.0059,
+      "step": 10555
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 0.31760454177856445,
+      "learning_rate": 3.3538818904672563e-06,
+      "loss": 0.0062,
+      "step": 10560
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 0.3177451193332672,
+      "learning_rate": 3.3449477351916382e-06,
+      "loss": 0.0072,
+      "step": 10565
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 0.45792147517204285,
+      "learning_rate": 3.3360135799160193e-06,
+      "loss": 0.0075,
+      "step": 10570
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 0.29566365480422974,
+      "learning_rate": 3.3270794246404003e-06,
+      "loss": 0.0059,
+      "step": 10575
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 0.32841619849205017,
+      "learning_rate": 3.318145269364782e-06,
+      "loss": 0.0108,
+      "step": 10580
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 0.341621458530426,
+      "learning_rate": 3.3092111140891632e-06,
+      "loss": 0.0128,
+      "step": 10585
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 0.423700213432312,
+      "learning_rate": 3.3002769588135447e-06,
+      "loss": 0.0075,
+      "step": 10590
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 0.3334985673427582,
+      "learning_rate": 3.2913428035379257e-06,
+      "loss": 0.0085,
+      "step": 10595
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 0.4427613317966461,
+      "learning_rate": 3.2824086482623068e-06,
+      "loss": 0.0098,
+      "step": 10600
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 0.510867714881897,
+      "learning_rate": 3.2734744929866887e-06,
+      "loss": 0.007,
+      "step": 10605
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 0.2945081293582916,
+      "learning_rate": 3.2645403377110697e-06,
+      "loss": 0.0095,
+      "step": 10610
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 0.3742575943470001,
+      "learning_rate": 3.255606182435451e-06,
+      "loss": 0.0052,
+      "step": 10615
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 0.3119674026966095,
+      "learning_rate": 3.246672027159832e-06,
+      "loss": 0.009,
+      "step": 10620
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 0.2969549894332886,
+      "learning_rate": 3.2377378718842132e-06,
+      "loss": 0.007,
+      "step": 10625
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 0.3154788315296173,
+      "learning_rate": 3.228803716608595e-06,
+      "loss": 0.0083,
+      "step": 10630
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 0.33745089173316956,
+      "learning_rate": 3.219869561332976e-06,
+      "loss": 0.0056,
+      "step": 10635
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 0.36266443133354187,
+      "learning_rate": 3.2109354060573576e-06,
+      "loss": 0.0087,
+      "step": 10640
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 0.40266337990760803,
+      "learning_rate": 3.2020012507817387e-06,
+      "loss": 0.0055,
+      "step": 10645
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 0.3595188558101654,
+      "learning_rate": 3.19306709550612e-06,
+      "loss": 0.0199,
+      "step": 10650
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 0.3521510064601898,
+      "learning_rate": 3.1841329402305016e-06,
+      "loss": 0.0082,
+      "step": 10655
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 0.3168518841266632,
+      "learning_rate": 3.1751987849548826e-06,
+      "loss": 0.009,
+      "step": 10660
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 0.4278966188430786,
+      "learning_rate": 3.166264629679264e-06,
+      "loss": 0.0075,
+      "step": 10665
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 0.379189670085907,
+      "learning_rate": 3.1573304744036455e-06,
+      "loss": 0.008,
+      "step": 10670
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 0.361432820558548,
+      "learning_rate": 3.1483963191280266e-06,
+      "loss": 0.0069,
+      "step": 10675
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 0.20192596316337585,
+      "learning_rate": 3.139462163852408e-06,
+      "loss": 0.0049,
+      "step": 10680
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 0.4057570695877075,
+      "learning_rate": 3.130528008576789e-06,
+      "loss": 0.0058,
+      "step": 10685
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 0.2621855139732361,
+      "learning_rate": 3.121593853301171e-06,
+      "loss": 0.007,
+      "step": 10690
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 0.4035142958164215,
+      "learning_rate": 3.112659698025552e-06,
+      "loss": 0.0077,
+      "step": 10695
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 0.35792276263237,
+      "learning_rate": 3.103725542749933e-06,
+      "loss": 0.0127,
+      "step": 10700
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 0.48556092381477356,
+      "learning_rate": 3.0947913874743145e-06,
+      "loss": 0.008,
+      "step": 10705
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 0.33445674180984497,
+      "learning_rate": 3.0858572321986955e-06,
+      "loss": 0.0059,
+      "step": 10710
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 0.4826265871524811,
+      "learning_rate": 3.0769230769230774e-06,
+      "loss": 0.0089,
+      "step": 10715
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 0.42223629355430603,
+      "learning_rate": 3.0679889216474585e-06,
+      "loss": 0.0066,
+      "step": 10720
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 0.45981764793395996,
+      "learning_rate": 3.05905476637184e-06,
+      "loss": 0.0085,
+      "step": 10725
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 0.2595252990722656,
+      "learning_rate": 3.050120611096221e-06,
+      "loss": 0.0063,
+      "step": 10730
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 0.5080291032791138,
+      "learning_rate": 3.0411864558206024e-06,
+      "loss": 0.0094,
+      "step": 10735
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 0.32294949889183044,
+      "learning_rate": 3.032252300544984e-06,
+      "loss": 0.0058,
+      "step": 10740
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 0.4228246808052063,
+      "learning_rate": 3.023318145269365e-06,
+      "loss": 0.0059,
+      "step": 10745
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 0.3359188139438629,
+      "learning_rate": 3.0143839899937464e-06,
+      "loss": 0.0062,
+      "step": 10750
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 0.2471199929714203,
+      "learning_rate": 3.005449834718128e-06,
+      "loss": 0.0066,
+      "step": 10755
+    },
+    {
+      "epoch": 0.87,
+      "grad_norm": 0.8795719742774963,
+      "learning_rate": 2.996515679442509e-06,
+      "loss": 0.0129,
+      "step": 10760
+    },
+    {
+      "epoch": 0.87,
+      "grad_norm": 1.3051950931549072,
+      "learning_rate": 2.9875815241668904e-06,
+      "loss": 0.0128,
+      "step": 10765
+    },
+    {
+      "epoch": 0.87,
+      "grad_norm": 0.3568212389945984,
+      "learning_rate": 2.9786473688912714e-06,
+      "loss": 0.0061,
+      "step": 10770
+    },
+    {
+      "epoch": 0.87,
+      "grad_norm": 0.3010600805282593,
+      "learning_rate": 2.9697132136156533e-06,
+      "loss": 0.0065,
+      "step": 10775
+    },
+    {
+      "epoch": 0.87,
+      "grad_norm": 0.38424891233444214,
+      "learning_rate": 2.9607790583400343e-06,
+      "loss": 0.0078,
+      "step": 10780
+    },
+    {
+      "epoch": 0.87,
+      "grad_norm": 0.309994101524353,
+      "learning_rate": 2.9518449030644154e-06,
+      "loss": 0.0086,
+      "step": 10785
+    },
+    {
+      "epoch": 0.87,
+      "grad_norm": 0.37481045722961426,
+      "learning_rate": 2.942910747788797e-06,
+      "loss": 0.0122,
+      "step": 10790
+    },
+    {
+      "epoch": 0.87,
+      "grad_norm": 0.432425856590271,
+      "learning_rate": 2.933976592513178e-06,
+      "loss": 0.0065,
+      "step": 10795
+    },
+    {
+      "epoch": 0.87,
+      "grad_norm": 0.27843984961509705,
+      "learning_rate": 2.9250424372375598e-06,
+      "loss": 0.0076,
+      "step": 10800
+    },
+    {
+      "epoch": 0.87,
+      "eval_loss": 0.007469375152140856,
+      "eval_pearson_cosine": 0.9681370387245068,
+      "eval_pearson_dot": 0.9657977526847813,
+      "eval_pearson_euclidean": 0.957258084356729,
+      "eval_pearson_manhattan": 0.956023768146456,
+      "eval_pearson_max": 0.9681370387245068,
+      "eval_runtime": 426.2283,
+      "eval_samples_per_second": 1.173,
+      "eval_spearman_cosine": 0.9642074088296352,
+      "eval_spearman_dot": 0.9586846987387948,
+      "eval_spearman_euclidean": 0.9637806871227486,
+      "eval_spearman_manhattan": 0.9624153696614787,
+      "eval_spearman_max": 0.9642074088296352,
+      "eval_steps_per_second": 1.173,
+      "step": 10800
     }
   ],
   "logging_steps": 5,