diaenra commited on
Commit
8361970
·
verified ·
1 Parent(s): 2bb54c2

Training in progress, step 1673, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:cded73cc88b8006d32bb44777bbc65d2b3168993bfdc35336149be06649668a5
3
  size 2503003904
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:696b61b107c7830e174c74fc2c1e98a8ac2eb60432a2780ac20743074c60bfef
3
  size 2503003904
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:b2b1d6bdaf8ecbe00c0b21e3dce03ed61939bc73d8bd6ed6df4acf9f900745fa
3
  size 5006244836
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:183ba56959c3f98243460a5cf43908fb35573ed3c49e7e641501af88f84532ad
3
  size 5006244836
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:c5c52c278a0e12a2b52ceb1244eda0ad579b31bf5285ae51307601299cd35ada
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:a9aa8a834991d1a099287d763aaf65662c5909034fe39dff582c0258f97c0051
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:b5870bae9ae9f4a63f890c831935348fce83216a1a5c821bc2b15e23d9d37db7
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e526b4ee743444ec6815869e1af216b1753a6adb990a1534692135db761d6817
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.7331288343558282,
5
  "eval_steps": 500,
6
- "global_step": 1434,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -10045,6 +10045,1679 @@
10045
  "learning_rate": 1.8280335791817733e-05,
10046
  "loss": 0.875,
10047
  "step": 1434
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
10048
  }
10049
  ],
10050
  "logging_steps": 1,
@@ -10064,7 +11737,7 @@
10064
  "attributes": {}
10065
  }
10066
  },
10067
- "total_flos": 5.4833328657373594e+17,
10068
  "train_batch_size": 8,
10069
  "trial_name": null,
10070
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.8553169734151329,
5
  "eval_steps": 500,
6
+ "global_step": 1673,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
10045
  "learning_rate": 1.8280335791817733e-05,
10046
  "loss": 0.875,
10047
  "step": 1434
10048
+ },
10049
+ {
10050
+ "epoch": 0.733640081799591,
10051
+ "grad_norm": 3.518186569213867,
10052
+ "learning_rate": 1.821495874296003e-05,
10053
+ "loss": 0.7896,
10054
+ "step": 1435
10055
+ },
10056
+ {
10057
+ "epoch": 0.7341513292433538,
10058
+ "grad_norm": 4.46856164932251,
10059
+ "learning_rate": 1.8149672762244624e-05,
10060
+ "loss": 1.0133,
10061
+ "step": 1436
10062
+ },
10063
+ {
10064
+ "epoch": 0.7346625766871165,
10065
+ "grad_norm": 3.835460662841797,
10066
+ "learning_rate": 1.808447803672404e-05,
10067
+ "loss": 0.837,
10068
+ "step": 1437
10069
+ },
10070
+ {
10071
+ "epoch": 0.7351738241308794,
10072
+ "grad_norm": 4.0243916511535645,
10073
+ "learning_rate": 1.801937475318939e-05,
10074
+ "loss": 0.8681,
10075
+ "step": 1438
10076
+ },
10077
+ {
10078
+ "epoch": 0.7356850715746421,
10079
+ "grad_norm": 4.4127960205078125,
10080
+ "learning_rate": 1.7954363098169768e-05,
10081
+ "loss": 0.9832,
10082
+ "step": 1439
10083
+ },
10084
+ {
10085
+ "epoch": 0.7361963190184049,
10086
+ "grad_norm": 4.0299248695373535,
10087
+ "learning_rate": 1.7889443257931737e-05,
10088
+ "loss": 0.8392,
10089
+ "step": 1440
10090
+ },
10091
+ {
10092
+ "epoch": 0.7367075664621677,
10093
+ "grad_norm": 4.006964206695557,
10094
+ "learning_rate": 1.782461541847879e-05,
10095
+ "loss": 0.7381,
10096
+ "step": 1441
10097
+ },
10098
+ {
10099
+ "epoch": 0.7372188139059305,
10100
+ "grad_norm": 4.23606014251709,
10101
+ "learning_rate": 1.7759879765550887e-05,
10102
+ "loss": 0.8984,
10103
+ "step": 1442
10104
+ },
10105
+ {
10106
+ "epoch": 0.7377300613496932,
10107
+ "grad_norm": 4.232422351837158,
10108
+ "learning_rate": 1.769523648462379e-05,
10109
+ "loss": 0.8403,
10110
+ "step": 1443
10111
+ },
10112
+ {
10113
+ "epoch": 0.7382413087934561,
10114
+ "grad_norm": 4.366641044616699,
10115
+ "learning_rate": 1.7630685760908622e-05,
10116
+ "loss": 0.8691,
10117
+ "step": 1444
10118
+ },
10119
+ {
10120
+ "epoch": 0.7387525562372188,
10121
+ "grad_norm": 4.925327777862549,
10122
+ "learning_rate": 1.7566227779351357e-05,
10123
+ "loss": 0.9101,
10124
+ "step": 1445
10125
+ },
10126
+ {
10127
+ "epoch": 0.7392638036809815,
10128
+ "grad_norm": 5.099564552307129,
10129
+ "learning_rate": 1.750186272463219e-05,
10130
+ "loss": 0.7557,
10131
+ "step": 1446
10132
+ },
10133
+ {
10134
+ "epoch": 0.7397750511247444,
10135
+ "grad_norm": 5.312896728515625,
10136
+ "learning_rate": 1.7437590781165138e-05,
10137
+ "loss": 0.6865,
10138
+ "step": 1447
10139
+ },
10140
+ {
10141
+ "epoch": 0.7402862985685071,
10142
+ "grad_norm": 5.26222038269043,
10143
+ "learning_rate": 1.7373412133097372e-05,
10144
+ "loss": 0.7639,
10145
+ "step": 1448
10146
+ },
10147
+ {
10148
+ "epoch": 0.74079754601227,
10149
+ "grad_norm": 4.816617012023926,
10150
+ "learning_rate": 1.7309326964308838e-05,
10151
+ "loss": 0.4676,
10152
+ "step": 1449
10153
+ },
10154
+ {
10155
+ "epoch": 0.7413087934560327,
10156
+ "grad_norm": 6.375493049621582,
10157
+ "learning_rate": 1.7245335458411542e-05,
10158
+ "loss": 0.4741,
10159
+ "step": 1450
10160
+ },
10161
+ {
10162
+ "epoch": 0.7418200408997955,
10163
+ "grad_norm": 1.9384807348251343,
10164
+ "learning_rate": 1.7181437798749256e-05,
10165
+ "loss": 0.8033,
10166
+ "step": 1451
10167
+ },
10168
+ {
10169
+ "epoch": 0.7423312883435583,
10170
+ "grad_norm": 2.3475661277770996,
10171
+ "learning_rate": 1.7117634168396774e-05,
10172
+ "loss": 0.9676,
10173
+ "step": 1452
10174
+ },
10175
+ {
10176
+ "epoch": 0.7428425357873211,
10177
+ "grad_norm": 2.614190101623535,
10178
+ "learning_rate": 1.705392475015956e-05,
10179
+ "loss": 1.0618,
10180
+ "step": 1453
10181
+ },
10182
+ {
10183
+ "epoch": 0.7433537832310838,
10184
+ "grad_norm": 2.739084243774414,
10185
+ "learning_rate": 1.6990309726573095e-05,
10186
+ "loss": 0.9619,
10187
+ "step": 1454
10188
+ },
10189
+ {
10190
+ "epoch": 0.7438650306748467,
10191
+ "grad_norm": 2.832260847091675,
10192
+ "learning_rate": 1.6926789279902412e-05,
10193
+ "loss": 0.9322,
10194
+ "step": 1455
10195
+ },
10196
+ {
10197
+ "epoch": 0.7443762781186094,
10198
+ "grad_norm": 2.8056933879852295,
10199
+ "learning_rate": 1.6863363592141618e-05,
10200
+ "loss": 0.9499,
10201
+ "step": 1456
10202
+ },
10203
+ {
10204
+ "epoch": 0.7448875255623721,
10205
+ "grad_norm": 2.8965537548065186,
10206
+ "learning_rate": 1.6800032845013247e-05,
10207
+ "loss": 0.907,
10208
+ "step": 1457
10209
+ },
10210
+ {
10211
+ "epoch": 0.745398773006135,
10212
+ "grad_norm": 3.008425235748291,
10213
+ "learning_rate": 1.673679721996789e-05,
10214
+ "loss": 0.9932,
10215
+ "step": 1458
10216
+ },
10217
+ {
10218
+ "epoch": 0.7459100204498977,
10219
+ "grad_norm": 2.81937837600708,
10220
+ "learning_rate": 1.6673656898183572e-05,
10221
+ "loss": 0.9586,
10222
+ "step": 1459
10223
+ },
10224
+ {
10225
+ "epoch": 0.7464212678936605,
10226
+ "grad_norm": 2.9769203662872314,
10227
+ "learning_rate": 1.6610612060565234e-05,
10228
+ "loss": 0.9148,
10229
+ "step": 1460
10230
+ },
10231
+ {
10232
+ "epoch": 0.7469325153374233,
10233
+ "grad_norm": 3.3971211910247803,
10234
+ "learning_rate": 1.6547662887744265e-05,
10235
+ "loss": 0.906,
10236
+ "step": 1461
10237
+ },
10238
+ {
10239
+ "epoch": 0.7474437627811861,
10240
+ "grad_norm": 2.9512698650360107,
10241
+ "learning_rate": 1.648480956007799e-05,
10242
+ "loss": 0.9082,
10243
+ "step": 1462
10244
+ },
10245
+ {
10246
+ "epoch": 0.7479550102249489,
10247
+ "grad_norm": 3.2894976139068604,
10248
+ "learning_rate": 1.6422052257649078e-05,
10249
+ "loss": 0.9537,
10250
+ "step": 1463
10251
+ },
10252
+ {
10253
+ "epoch": 0.7484662576687117,
10254
+ "grad_norm": 2.9925243854522705,
10255
+ "learning_rate": 1.6359391160265125e-05,
10256
+ "loss": 0.9018,
10257
+ "step": 1464
10258
+ },
10259
+ {
10260
+ "epoch": 0.7489775051124744,
10261
+ "grad_norm": 3.4137401580810547,
10262
+ "learning_rate": 1.629682644745802e-05,
10263
+ "loss": 0.9413,
10264
+ "step": 1465
10265
+ },
10266
+ {
10267
+ "epoch": 0.7494887525562373,
10268
+ "grad_norm": 3.152463436126709,
10269
+ "learning_rate": 1.6234358298483575e-05,
10270
+ "loss": 0.9389,
10271
+ "step": 1466
10272
+ },
10273
+ {
10274
+ "epoch": 0.75,
10275
+ "grad_norm": 3.088907480239868,
10276
+ "learning_rate": 1.6171986892320884e-05,
10277
+ "loss": 0.8818,
10278
+ "step": 1467
10279
+ },
10280
+ {
10281
+ "epoch": 0.7505112474437627,
10282
+ "grad_norm": 2.9647679328918457,
10283
+ "learning_rate": 1.6109712407671867e-05,
10284
+ "loss": 0.8208,
10285
+ "step": 1468
10286
+ },
10287
+ {
10288
+ "epoch": 0.7510224948875256,
10289
+ "grad_norm": 3.121256113052368,
10290
+ "learning_rate": 1.6047535022960757e-05,
10291
+ "loss": 0.8292,
10292
+ "step": 1469
10293
+ },
10294
+ {
10295
+ "epoch": 0.7515337423312883,
10296
+ "grad_norm": 3.0089125633239746,
10297
+ "learning_rate": 1.5985454916333577e-05,
10298
+ "loss": 0.8211,
10299
+ "step": 1470
10300
+ },
10301
+ {
10302
+ "epoch": 0.7520449897750511,
10303
+ "grad_norm": 3.4958393573760986,
10304
+ "learning_rate": 1.592347226565766e-05,
10305
+ "loss": 0.9042,
10306
+ "step": 1471
10307
+ },
10308
+ {
10309
+ "epoch": 0.7525562372188139,
10310
+ "grad_norm": 3.168567419052124,
10311
+ "learning_rate": 1.586158724852108e-05,
10312
+ "loss": 0.783,
10313
+ "step": 1472
10314
+ },
10315
+ {
10316
+ "epoch": 0.7530674846625767,
10317
+ "grad_norm": 3.506746530532837,
10318
+ "learning_rate": 1.579980004223222e-05,
10319
+ "loss": 0.8124,
10320
+ "step": 1473
10321
+ },
10322
+ {
10323
+ "epoch": 0.7535787321063395,
10324
+ "grad_norm": 3.678039789199829,
10325
+ "learning_rate": 1.573811082381918e-05,
10326
+ "loss": 0.9267,
10327
+ "step": 1474
10328
+ },
10329
+ {
10330
+ "epoch": 0.7540899795501023,
10331
+ "grad_norm": 3.4833285808563232,
10332
+ "learning_rate": 1.567651977002935e-05,
10333
+ "loss": 0.8201,
10334
+ "step": 1475
10335
+ },
10336
+ {
10337
+ "epoch": 0.754601226993865,
10338
+ "grad_norm": 3.767958879470825,
10339
+ "learning_rate": 1.561502705732883e-05,
10340
+ "loss": 0.9726,
10341
+ "step": 1476
10342
+ },
10343
+ {
10344
+ "epoch": 0.7551124744376279,
10345
+ "grad_norm": 3.3126537799835205,
10346
+ "learning_rate": 1.5553632861901995e-05,
10347
+ "loss": 0.7471,
10348
+ "step": 1477
10349
+ },
10350
+ {
10351
+ "epoch": 0.7556237218813906,
10352
+ "grad_norm": 3.590383529663086,
10353
+ "learning_rate": 1.5492337359650937e-05,
10354
+ "loss": 0.8543,
10355
+ "step": 1478
10356
+ },
10357
+ {
10358
+ "epoch": 0.7561349693251533,
10359
+ "grad_norm": 3.4559550285339355,
10360
+ "learning_rate": 1.5431140726194974e-05,
10361
+ "loss": 0.8802,
10362
+ "step": 1479
10363
+ },
10364
+ {
10365
+ "epoch": 0.7566462167689162,
10366
+ "grad_norm": 3.7260870933532715,
10367
+ "learning_rate": 1.5370043136870148e-05,
10368
+ "loss": 0.9178,
10369
+ "step": 1480
10370
+ },
10371
+ {
10372
+ "epoch": 0.7571574642126789,
10373
+ "grad_norm": 4.135682106018066,
10374
+ "learning_rate": 1.5309044766728775e-05,
10375
+ "loss": 0.8823,
10376
+ "step": 1481
10377
+ },
10378
+ {
10379
+ "epoch": 0.7576687116564417,
10380
+ "grad_norm": 3.654975175857544,
10381
+ "learning_rate": 1.5248145790538837e-05,
10382
+ "loss": 0.8367,
10383
+ "step": 1482
10384
+ },
10385
+ {
10386
+ "epoch": 0.7581799591002045,
10387
+ "grad_norm": 3.653458833694458,
10388
+ "learning_rate": 1.5187346382783552e-05,
10389
+ "loss": 0.8005,
10390
+ "step": 1483
10391
+ },
10392
+ {
10393
+ "epoch": 0.7586912065439673,
10394
+ "grad_norm": 3.8800647258758545,
10395
+ "learning_rate": 1.5126646717660897e-05,
10396
+ "loss": 0.9004,
10397
+ "step": 1484
10398
+ },
10399
+ {
10400
+ "epoch": 0.75920245398773,
10401
+ "grad_norm": 3.79221773147583,
10402
+ "learning_rate": 1.5066046969083026e-05,
10403
+ "loss": 0.7986,
10404
+ "step": 1485
10405
+ },
10406
+ {
10407
+ "epoch": 0.7597137014314929,
10408
+ "grad_norm": 4.0721025466918945,
10409
+ "learning_rate": 1.5005547310675872e-05,
10410
+ "loss": 0.9721,
10411
+ "step": 1486
10412
+ },
10413
+ {
10414
+ "epoch": 0.7602249488752556,
10415
+ "grad_norm": 3.911992311477661,
10416
+ "learning_rate": 1.4945147915778535e-05,
10417
+ "loss": 0.8429,
10418
+ "step": 1487
10419
+ },
10420
+ {
10421
+ "epoch": 0.7607361963190185,
10422
+ "grad_norm": 4.218154430389404,
10423
+ "learning_rate": 1.4884848957442931e-05,
10424
+ "loss": 0.7957,
10425
+ "step": 1488
10426
+ },
10427
+ {
10428
+ "epoch": 0.7612474437627812,
10429
+ "grad_norm": 3.988151788711548,
10430
+ "learning_rate": 1.4824650608433099e-05,
10431
+ "loss": 0.8568,
10432
+ "step": 1489
10433
+ },
10434
+ {
10435
+ "epoch": 0.7617586912065439,
10436
+ "grad_norm": 4.378921985626221,
10437
+ "learning_rate": 1.4764553041224926e-05,
10438
+ "loss": 0.7963,
10439
+ "step": 1490
10440
+ },
10441
+ {
10442
+ "epoch": 0.7622699386503068,
10443
+ "grad_norm": 4.452109336853027,
10444
+ "learning_rate": 1.4704556428005478e-05,
10445
+ "loss": 0.835,
10446
+ "step": 1491
10447
+ },
10448
+ {
10449
+ "epoch": 0.7627811860940695,
10450
+ "grad_norm": 6.035761833190918,
10451
+ "learning_rate": 1.4644660940672627e-05,
10452
+ "loss": 0.9188,
10453
+ "step": 1492
10454
+ },
10455
+ {
10456
+ "epoch": 0.7632924335378323,
10457
+ "grad_norm": 4.4452996253967285,
10458
+ "learning_rate": 1.4584866750834464e-05,
10459
+ "loss": 0.7396,
10460
+ "step": 1493
10461
+ },
10462
+ {
10463
+ "epoch": 0.7638036809815951,
10464
+ "grad_norm": 4.476807594299316,
10465
+ "learning_rate": 1.4525174029808858e-05,
10466
+ "loss": 0.7628,
10467
+ "step": 1494
10468
+ },
10469
+ {
10470
+ "epoch": 0.7643149284253579,
10471
+ "grad_norm": 4.541752338409424,
10472
+ "learning_rate": 1.4465582948622986e-05,
10473
+ "loss": 0.6893,
10474
+ "step": 1495
10475
+ },
10476
+ {
10477
+ "epoch": 0.7648261758691206,
10478
+ "grad_norm": 4.8742899894714355,
10479
+ "learning_rate": 1.4406093678012766e-05,
10480
+ "loss": 0.7884,
10481
+ "step": 1496
10482
+ },
10483
+ {
10484
+ "epoch": 0.7653374233128835,
10485
+ "grad_norm": 5.151451110839844,
10486
+ "learning_rate": 1.4346706388422493e-05,
10487
+ "loss": 0.683,
10488
+ "step": 1497
10489
+ },
10490
+ {
10491
+ "epoch": 0.7658486707566462,
10492
+ "grad_norm": 5.411539554595947,
10493
+ "learning_rate": 1.4287421250004157e-05,
10494
+ "loss": 0.79,
10495
+ "step": 1498
10496
+ },
10497
+ {
10498
+ "epoch": 0.766359918200409,
10499
+ "grad_norm": 5.503897666931152,
10500
+ "learning_rate": 1.4228238432617186e-05,
10501
+ "loss": 0.556,
10502
+ "step": 1499
10503
+ },
10504
+ {
10505
+ "epoch": 0.7668711656441718,
10506
+ "grad_norm": 6.515267372131348,
10507
+ "learning_rate": 1.4169158105827768e-05,
10508
+ "loss": 0.393,
10509
+ "step": 1500
10510
+ },
10511
+ {
10512
+ "epoch": 0.7673824130879345,
10513
+ "grad_norm": 2.1720798015594482,
10514
+ "learning_rate": 1.4110180438908505e-05,
10515
+ "loss": 0.7376,
10516
+ "step": 1501
10517
+ },
10518
+ {
10519
+ "epoch": 0.7678936605316974,
10520
+ "grad_norm": 2.3930561542510986,
10521
+ "learning_rate": 1.4051305600837799e-05,
10522
+ "loss": 1.0402,
10523
+ "step": 1502
10524
+ },
10525
+ {
10526
+ "epoch": 0.7684049079754601,
10527
+ "grad_norm": 2.3610873222351074,
10528
+ "learning_rate": 1.3992533760299498e-05,
10529
+ "loss": 0.9187,
10530
+ "step": 1503
10531
+ },
10532
+ {
10533
+ "epoch": 0.7689161554192229,
10534
+ "grad_norm": 2.4556972980499268,
10535
+ "learning_rate": 1.3933865085682312e-05,
10536
+ "loss": 0.9221,
10537
+ "step": 1504
10538
+ },
10539
+ {
10540
+ "epoch": 0.7694274028629857,
10541
+ "grad_norm": 2.7687621116638184,
10542
+ "learning_rate": 1.387529974507935e-05,
10543
+ "loss": 1.0278,
10544
+ "step": 1505
10545
+ },
10546
+ {
10547
+ "epoch": 0.7699386503067485,
10548
+ "grad_norm": 2.8164188861846924,
10549
+ "learning_rate": 1.3816837906287722e-05,
10550
+ "loss": 0.9995,
10551
+ "step": 1506
10552
+ },
10553
+ {
10554
+ "epoch": 0.7704498977505112,
10555
+ "grad_norm": 2.5187416076660156,
10556
+ "learning_rate": 1.3758479736807928e-05,
10557
+ "loss": 0.813,
10558
+ "step": 1507
10559
+ },
10560
+ {
10561
+ "epoch": 0.7709611451942741,
10562
+ "grad_norm": 2.9586594104766846,
10563
+ "learning_rate": 1.3700225403843469e-05,
10564
+ "loss": 0.9001,
10565
+ "step": 1508
10566
+ },
10567
+ {
10568
+ "epoch": 0.7714723926380368,
10569
+ "grad_norm": 3.797866106033325,
10570
+ "learning_rate": 1.3642075074300325e-05,
10571
+ "loss": 0.9324,
10572
+ "step": 1509
10573
+ },
10574
+ {
10575
+ "epoch": 0.7719836400817995,
10576
+ "grad_norm": 2.9937219619750977,
10577
+ "learning_rate": 1.3584028914786539e-05,
10578
+ "loss": 0.922,
10579
+ "step": 1510
10580
+ },
10581
+ {
10582
+ "epoch": 0.7724948875255624,
10583
+ "grad_norm": 2.9317002296447754,
10584
+ "learning_rate": 1.3526087091611623e-05,
10585
+ "loss": 0.9387,
10586
+ "step": 1511
10587
+ },
10588
+ {
10589
+ "epoch": 0.7730061349693251,
10590
+ "grad_norm": 3.1819257736206055,
10591
+ "learning_rate": 1.3468249770786223e-05,
10592
+ "loss": 0.8964,
10593
+ "step": 1512
10594
+ },
10595
+ {
10596
+ "epoch": 0.773517382413088,
10597
+ "grad_norm": 2.7915236949920654,
10598
+ "learning_rate": 1.341051711802151e-05,
10599
+ "loss": 0.9163,
10600
+ "step": 1513
10601
+ },
10602
+ {
10603
+ "epoch": 0.7740286298568507,
10604
+ "grad_norm": 2.946099281311035,
10605
+ "learning_rate": 1.3352889298728832e-05,
10606
+ "loss": 0.9546,
10607
+ "step": 1514
10608
+ },
10609
+ {
10610
+ "epoch": 0.7745398773006135,
10611
+ "grad_norm": 3.0270745754241943,
10612
+ "learning_rate": 1.3295366478019112e-05,
10613
+ "loss": 0.9431,
10614
+ "step": 1515
10615
+ },
10616
+ {
10617
+ "epoch": 0.7750511247443763,
10618
+ "grad_norm": 3.3205618858337402,
10619
+ "learning_rate": 1.3237948820702495e-05,
10620
+ "loss": 0.9058,
10621
+ "step": 1516
10622
+ },
10623
+ {
10624
+ "epoch": 0.7755623721881391,
10625
+ "grad_norm": 3.179041624069214,
10626
+ "learning_rate": 1.3180636491287773e-05,
10627
+ "loss": 0.8804,
10628
+ "step": 1517
10629
+ },
10630
+ {
10631
+ "epoch": 0.7760736196319018,
10632
+ "grad_norm": 3.682973623275757,
10633
+ "learning_rate": 1.3123429653981995e-05,
10634
+ "loss": 0.985,
10635
+ "step": 1518
10636
+ },
10637
+ {
10638
+ "epoch": 0.7765848670756647,
10639
+ "grad_norm": 3.1981019973754883,
10640
+ "learning_rate": 1.3066328472689932e-05,
10641
+ "loss": 0.8148,
10642
+ "step": 1519
10643
+ },
10644
+ {
10645
+ "epoch": 0.7770961145194274,
10646
+ "grad_norm": 3.3223016262054443,
10647
+ "learning_rate": 1.300933311101365e-05,
10648
+ "loss": 0.8839,
10649
+ "step": 1520
10650
+ },
10651
+ {
10652
+ "epoch": 0.7776073619631901,
10653
+ "grad_norm": 3.214383602142334,
10654
+ "learning_rate": 1.2952443732252057e-05,
10655
+ "loss": 0.9364,
10656
+ "step": 1521
10657
+ },
10658
+ {
10659
+ "epoch": 0.778118609406953,
10660
+ "grad_norm": 3.4616458415985107,
10661
+ "learning_rate": 1.2895660499400348e-05,
10662
+ "loss": 0.8707,
10663
+ "step": 1522
10664
+ },
10665
+ {
10666
+ "epoch": 0.7786298568507157,
10667
+ "grad_norm": 3.4007458686828613,
10668
+ "learning_rate": 1.283898357514966e-05,
10669
+ "loss": 0.9236,
10670
+ "step": 1523
10671
+ },
10672
+ {
10673
+ "epoch": 0.7791411042944786,
10674
+ "grad_norm": 3.370945930480957,
10675
+ "learning_rate": 1.2782413121886483e-05,
10676
+ "loss": 0.8499,
10677
+ "step": 1524
10678
+ },
10679
+ {
10680
+ "epoch": 0.7796523517382413,
10681
+ "grad_norm": 3.3444669246673584,
10682
+ "learning_rate": 1.2725949301692314e-05,
10683
+ "loss": 0.8872,
10684
+ "step": 1525
10685
+ },
10686
+ {
10687
+ "epoch": 0.7801635991820041,
10688
+ "grad_norm": 3.51122784614563,
10689
+ "learning_rate": 1.2669592276343084e-05,
10690
+ "loss": 0.911,
10691
+ "step": 1526
10692
+ },
10693
+ {
10694
+ "epoch": 0.7806748466257669,
10695
+ "grad_norm": 3.6887714862823486,
10696
+ "learning_rate": 1.2613342207308764e-05,
10697
+ "loss": 0.9304,
10698
+ "step": 1527
10699
+ },
10700
+ {
10701
+ "epoch": 0.7811860940695297,
10702
+ "grad_norm": 3.856081485748291,
10703
+ "learning_rate": 1.2557199255752867e-05,
10704
+ "loss": 0.9293,
10705
+ "step": 1528
10706
+ },
10707
+ {
10708
+ "epoch": 0.7816973415132924,
10709
+ "grad_norm": 3.9948816299438477,
10710
+ "learning_rate": 1.2501163582532038e-05,
10711
+ "loss": 0.837,
10712
+ "step": 1529
10713
+ },
10714
+ {
10715
+ "epoch": 0.7822085889570553,
10716
+ "grad_norm": 3.6386806964874268,
10717
+ "learning_rate": 1.24452353481955e-05,
10718
+ "loss": 0.8118,
10719
+ "step": 1530
10720
+ },
10721
+ {
10722
+ "epoch": 0.782719836400818,
10723
+ "grad_norm": 3.716519355773926,
10724
+ "learning_rate": 1.2389414712984715e-05,
10725
+ "loss": 0.7942,
10726
+ "step": 1531
10727
+ },
10728
+ {
10729
+ "epoch": 0.7832310838445807,
10730
+ "grad_norm": 3.621734142303467,
10731
+ "learning_rate": 1.2333701836832812e-05,
10732
+ "loss": 0.7823,
10733
+ "step": 1532
10734
+ },
10735
+ {
10736
+ "epoch": 0.7837423312883436,
10737
+ "grad_norm": 3.675961494445801,
10738
+ "learning_rate": 1.227809687936417e-05,
10739
+ "loss": 0.8813,
10740
+ "step": 1533
10741
+ },
10742
+ {
10743
+ "epoch": 0.7842535787321063,
10744
+ "grad_norm": 4.009909629821777,
10745
+ "learning_rate": 1.2222599999894018e-05,
10746
+ "loss": 0.9671,
10747
+ "step": 1534
10748
+ },
10749
+ {
10750
+ "epoch": 0.7847648261758691,
10751
+ "grad_norm": 3.6856648921966553,
10752
+ "learning_rate": 1.2167211357427878e-05,
10753
+ "loss": 0.7759,
10754
+ "step": 1535
10755
+ },
10756
+ {
10757
+ "epoch": 0.7852760736196319,
10758
+ "grad_norm": 4.252887725830078,
10759
+ "learning_rate": 1.2111931110661212e-05,
10760
+ "loss": 0.8245,
10761
+ "step": 1536
10762
+ },
10763
+ {
10764
+ "epoch": 0.7857873210633947,
10765
+ "grad_norm": 4.382503986358643,
10766
+ "learning_rate": 1.2056759417978835e-05,
10767
+ "loss": 1.0605,
10768
+ "step": 1537
10769
+ },
10770
+ {
10771
+ "epoch": 0.7862985685071575,
10772
+ "grad_norm": 4.000999927520752,
10773
+ "learning_rate": 1.2001696437454624e-05,
10774
+ "loss": 0.8371,
10775
+ "step": 1538
10776
+ },
10777
+ {
10778
+ "epoch": 0.7868098159509203,
10779
+ "grad_norm": 4.442836761474609,
10780
+ "learning_rate": 1.1946742326850912e-05,
10781
+ "loss": 0.8388,
10782
+ "step": 1539
10783
+ },
10784
+ {
10785
+ "epoch": 0.787321063394683,
10786
+ "grad_norm": 4.2866530418396,
10787
+ "learning_rate": 1.1891897243618182e-05,
10788
+ "loss": 0.7989,
10789
+ "step": 1540
10790
+ },
10791
+ {
10792
+ "epoch": 0.7878323108384458,
10793
+ "grad_norm": 4.245499610900879,
10794
+ "learning_rate": 1.183716134489446e-05,
10795
+ "loss": 0.9314,
10796
+ "step": 1541
10797
+ },
10798
+ {
10799
+ "epoch": 0.7883435582822086,
10800
+ "grad_norm": 4.35511589050293,
10801
+ "learning_rate": 1.1782534787505017e-05,
10802
+ "loss": 0.7689,
10803
+ "step": 1542
10804
+ },
10805
+ {
10806
+ "epoch": 0.7888548057259713,
10807
+ "grad_norm": 4.421148777008057,
10808
+ "learning_rate": 1.1728017727961794e-05,
10809
+ "loss": 0.7314,
10810
+ "step": 1543
10811
+ },
10812
+ {
10813
+ "epoch": 0.7893660531697342,
10814
+ "grad_norm": 4.419631481170654,
10815
+ "learning_rate": 1.1673610322463014e-05,
10816
+ "loss": 0.7021,
10817
+ "step": 1544
10818
+ },
10819
+ {
10820
+ "epoch": 0.7898773006134969,
10821
+ "grad_norm": 4.954163074493408,
10822
+ "learning_rate": 1.1619312726892762e-05,
10823
+ "loss": 0.7313,
10824
+ "step": 1545
10825
+ },
10826
+ {
10827
+ "epoch": 0.7903885480572597,
10828
+ "grad_norm": 4.796021461486816,
10829
+ "learning_rate": 1.1565125096820473e-05,
10830
+ "loss": 0.6311,
10831
+ "step": 1546
10832
+ },
10833
+ {
10834
+ "epoch": 0.7908997955010225,
10835
+ "grad_norm": 4.741822242736816,
10836
+ "learning_rate": 1.1511047587500523e-05,
10837
+ "loss": 0.5983,
10838
+ "step": 1547
10839
+ },
10840
+ {
10841
+ "epoch": 0.7914110429447853,
10842
+ "grad_norm": 6.696097373962402,
10843
+ "learning_rate": 1.1457080353871769e-05,
10844
+ "loss": 0.9485,
10845
+ "step": 1548
10846
+ },
10847
+ {
10848
+ "epoch": 0.7919222903885481,
10849
+ "grad_norm": 5.633409023284912,
10850
+ "learning_rate": 1.1403223550557146e-05,
10851
+ "loss": 0.6431,
10852
+ "step": 1549
10853
+ },
10854
+ {
10855
+ "epoch": 0.7924335378323109,
10856
+ "grad_norm": 7.090452194213867,
10857
+ "learning_rate": 1.134947733186315e-05,
10858
+ "loss": 0.4912,
10859
+ "step": 1550
10860
+ },
10861
+ {
10862
+ "epoch": 0.7929447852760736,
10863
+ "grad_norm": 1.965378761291504,
10864
+ "learning_rate": 1.1295841851779488e-05,
10865
+ "loss": 0.9309,
10866
+ "step": 1551
10867
+ },
10868
+ {
10869
+ "epoch": 0.7934560327198364,
10870
+ "grad_norm": 2.6269702911376953,
10871
+ "learning_rate": 1.1242317263978525e-05,
10872
+ "loss": 1.0566,
10873
+ "step": 1552
10874
+ },
10875
+ {
10876
+ "epoch": 0.7939672801635992,
10877
+ "grad_norm": 2.5522866249084473,
10878
+ "learning_rate": 1.118890372181497e-05,
10879
+ "loss": 0.9996,
10880
+ "step": 1553
10881
+ },
10882
+ {
10883
+ "epoch": 0.7944785276073619,
10884
+ "grad_norm": 2.6898603439331055,
10885
+ "learning_rate": 1.1135601378325316e-05,
10886
+ "loss": 0.8959,
10887
+ "step": 1554
10888
+ },
10889
+ {
10890
+ "epoch": 0.7949897750511248,
10891
+ "grad_norm": 2.5996921062469482,
10892
+ "learning_rate": 1.1082410386227527e-05,
10893
+ "loss": 0.9355,
10894
+ "step": 1555
10895
+ },
10896
+ {
10897
+ "epoch": 0.7955010224948875,
10898
+ "grad_norm": 2.5710082054138184,
10899
+ "learning_rate": 1.102933089792042e-05,
10900
+ "loss": 0.9206,
10901
+ "step": 1556
10902
+ },
10903
+ {
10904
+ "epoch": 0.7960122699386503,
10905
+ "grad_norm": 2.8860228061676025,
10906
+ "learning_rate": 1.0976363065483464e-05,
10907
+ "loss": 0.9861,
10908
+ "step": 1557
10909
+ },
10910
+ {
10911
+ "epoch": 0.7965235173824131,
10912
+ "grad_norm": 3.0384457111358643,
10913
+ "learning_rate": 1.092350704067614e-05,
10914
+ "loss": 1.0165,
10915
+ "step": 1558
10916
+ },
10917
+ {
10918
+ "epoch": 0.7970347648261759,
10919
+ "grad_norm": 2.8058857917785645,
10920
+ "learning_rate": 1.0870762974937598e-05,
10921
+ "loss": 0.8881,
10922
+ "step": 1559
10923
+ },
10924
+ {
10925
+ "epoch": 0.7975460122699386,
10926
+ "grad_norm": 2.571446418762207,
10927
+ "learning_rate": 1.0818131019386252e-05,
10928
+ "loss": 0.8571,
10929
+ "step": 1560
10930
+ },
10931
+ {
10932
+ "epoch": 0.7980572597137015,
10933
+ "grad_norm": 3.1314709186553955,
10934
+ "learning_rate": 1.0765611324819247e-05,
10935
+ "loss": 0.8383,
10936
+ "step": 1561
10937
+ },
10938
+ {
10939
+ "epoch": 0.7985685071574642,
10940
+ "grad_norm": 2.915090799331665,
10941
+ "learning_rate": 1.0713204041712145e-05,
10942
+ "loss": 0.8493,
10943
+ "step": 1562
10944
+ },
10945
+ {
10946
+ "epoch": 0.799079754601227,
10947
+ "grad_norm": 3.2132315635681152,
10948
+ "learning_rate": 1.066090932021837e-05,
10949
+ "loss": 0.9181,
10950
+ "step": 1563
10951
+ },
10952
+ {
10953
+ "epoch": 0.7995910020449898,
10954
+ "grad_norm": 3.073258399963379,
10955
+ "learning_rate": 1.060872731016892e-05,
10956
+ "loss": 0.8863,
10957
+ "step": 1564
10958
+ },
10959
+ {
10960
+ "epoch": 0.8001022494887525,
10961
+ "grad_norm": 3.104003667831421,
10962
+ "learning_rate": 1.0556658161071792e-05,
10963
+ "loss": 0.9108,
10964
+ "step": 1565
10965
+ },
10966
+ {
10967
+ "epoch": 0.8006134969325154,
10968
+ "grad_norm": 3.0709762573242188,
10969
+ "learning_rate": 1.0504702022111661e-05,
10970
+ "loss": 0.8055,
10971
+ "step": 1566
10972
+ },
10973
+ {
10974
+ "epoch": 0.8011247443762781,
10975
+ "grad_norm": 3.2626142501831055,
10976
+ "learning_rate": 1.0452859042149382e-05,
10977
+ "loss": 0.8732,
10978
+ "step": 1567
10979
+ },
10980
+ {
10981
+ "epoch": 0.8016359918200409,
10982
+ "grad_norm": 3.4502737522125244,
10983
+ "learning_rate": 1.040112936972164e-05,
10984
+ "loss": 0.9525,
10985
+ "step": 1568
10986
+ },
10987
+ {
10988
+ "epoch": 0.8021472392638037,
10989
+ "grad_norm": 3.2807888984680176,
10990
+ "learning_rate": 1.0349513153040436e-05,
10991
+ "loss": 0.937,
10992
+ "step": 1569
10993
+ },
10994
+ {
10995
+ "epoch": 0.8026584867075665,
10996
+ "grad_norm": 3.3237321376800537,
10997
+ "learning_rate": 1.0298010539992748e-05,
10998
+ "loss": 0.8712,
10999
+ "step": 1570
11000
+ },
11001
+ {
11002
+ "epoch": 0.8031697341513292,
11003
+ "grad_norm": 3.9305286407470703,
11004
+ "learning_rate": 1.0246621678140023e-05,
11005
+ "loss": 0.9547,
11006
+ "step": 1571
11007
+ },
11008
+ {
11009
+ "epoch": 0.803680981595092,
11010
+ "grad_norm": 3.3259196281433105,
11011
+ "learning_rate": 1.0195346714717813e-05,
11012
+ "loss": 0.8361,
11013
+ "step": 1572
11014
+ },
11015
+ {
11016
+ "epoch": 0.8041922290388548,
11017
+ "grad_norm": 3.3074426651000977,
11018
+ "learning_rate": 1.0144185796635359e-05,
11019
+ "loss": 0.7841,
11020
+ "step": 1573
11021
+ },
11022
+ {
11023
+ "epoch": 0.8047034764826176,
11024
+ "grad_norm": 3.421103000640869,
11025
+ "learning_rate": 1.00931390704751e-05,
11026
+ "loss": 0.8898,
11027
+ "step": 1574
11028
+ },
11029
+ {
11030
+ "epoch": 0.8052147239263804,
11031
+ "grad_norm": 3.6833465099334717,
11032
+ "learning_rate": 1.0042206682492372e-05,
11033
+ "loss": 0.9386,
11034
+ "step": 1575
11035
+ },
11036
+ {
11037
+ "epoch": 0.8057259713701431,
11038
+ "grad_norm": 3.3095312118530273,
11039
+ "learning_rate": 9.991388778614824e-06,
11040
+ "loss": 0.8398,
11041
+ "step": 1576
11042
+ },
11043
+ {
11044
+ "epoch": 0.806237218813906,
11045
+ "grad_norm": 3.4535927772521973,
11046
+ "learning_rate": 9.940685504442183e-06,
11047
+ "loss": 0.86,
11048
+ "step": 1577
11049
+ },
11050
+ {
11051
+ "epoch": 0.8067484662576687,
11052
+ "grad_norm": 3.7982585430145264,
11053
+ "learning_rate": 9.89009700524568e-06,
11054
+ "loss": 0.9577,
11055
+ "step": 1578
11056
+ },
11057
+ {
11058
+ "epoch": 0.8072597137014315,
11059
+ "grad_norm": 3.5163521766662598,
11060
+ "learning_rate": 9.83962342596776e-06,
11061
+ "loss": 0.7962,
11062
+ "step": 1579
11063
+ },
11064
+ {
11065
+ "epoch": 0.8077709611451943,
11066
+ "grad_norm": 3.4356038570404053,
11067
+ "learning_rate": 9.789264911221546e-06,
11068
+ "loss": 0.8193,
11069
+ "step": 1580
11070
+ },
11071
+ {
11072
+ "epoch": 0.808282208588957,
11073
+ "grad_norm": 3.920682907104492,
11074
+ "learning_rate": 9.739021605290549e-06,
11075
+ "loss": 0.8903,
11076
+ "step": 1581
11077
+ },
11078
+ {
11079
+ "epoch": 0.8087934560327198,
11080
+ "grad_norm": 3.7626466751098633,
11081
+ "learning_rate": 9.688893652128151e-06,
11082
+ "loss": 0.8662,
11083
+ "step": 1582
11084
+ },
11085
+ {
11086
+ "epoch": 0.8093047034764826,
11087
+ "grad_norm": 4.124518394470215,
11088
+ "learning_rate": 9.638881195357224e-06,
11089
+ "loss": 0.8829,
11090
+ "step": 1583
11091
+ },
11092
+ {
11093
+ "epoch": 0.8098159509202454,
11094
+ "grad_norm": 3.74548602104187,
11095
+ "learning_rate": 9.588984378269783e-06,
11096
+ "loss": 0.7028,
11097
+ "step": 1584
11098
+ },
11099
+ {
11100
+ "epoch": 0.8103271983640081,
11101
+ "grad_norm": 3.769134998321533,
11102
+ "learning_rate": 9.539203343826469e-06,
11103
+ "loss": 0.9024,
11104
+ "step": 1585
11105
+ },
11106
+ {
11107
+ "epoch": 0.810838445807771,
11108
+ "grad_norm": 3.955554723739624,
11109
+ "learning_rate": 9.489538234656214e-06,
11110
+ "loss": 0.8195,
11111
+ "step": 1586
11112
+ },
11113
+ {
11114
+ "epoch": 0.8113496932515337,
11115
+ "grad_norm": 3.704868793487549,
11116
+ "learning_rate": 9.439989193055788e-06,
11117
+ "loss": 0.7934,
11118
+ "step": 1587
11119
+ },
11120
+ {
11121
+ "epoch": 0.8118609406952966,
11122
+ "grad_norm": 3.6619386672973633,
11123
+ "learning_rate": 9.39055636098945e-06,
11124
+ "loss": 0.868,
11125
+ "step": 1588
11126
+ },
11127
+ {
11128
+ "epoch": 0.8123721881390593,
11129
+ "grad_norm": 4.098423480987549,
11130
+ "learning_rate": 9.341239880088465e-06,
11131
+ "loss": 0.8754,
11132
+ "step": 1589
11133
+ },
11134
+ {
11135
+ "epoch": 0.8128834355828221,
11136
+ "grad_norm": 4.314637184143066,
11137
+ "learning_rate": 9.292039891650784e-06,
11138
+ "loss": 0.8408,
11139
+ "step": 1590
11140
+ },
11141
+ {
11142
+ "epoch": 0.8133946830265849,
11143
+ "grad_norm": 4.415641784667969,
11144
+ "learning_rate": 9.24295653664053e-06,
11145
+ "loss": 0.8727,
11146
+ "step": 1591
11147
+ },
11148
+ {
11149
+ "epoch": 0.8139059304703476,
11150
+ "grad_norm": 4.379350185394287,
11151
+ "learning_rate": 9.193989955687715e-06,
11152
+ "loss": 0.8209,
11153
+ "step": 1592
11154
+ },
11155
+ {
11156
+ "epoch": 0.8144171779141104,
11157
+ "grad_norm": 4.419501304626465,
11158
+ "learning_rate": 9.145140289087755e-06,
11159
+ "loss": 0.9432,
11160
+ "step": 1593
11161
+ },
11162
+ {
11163
+ "epoch": 0.8149284253578732,
11164
+ "grad_norm": 4.199825763702393,
11165
+ "learning_rate": 9.096407676801077e-06,
11166
+ "loss": 0.7578,
11167
+ "step": 1594
11168
+ },
11169
+ {
11170
+ "epoch": 0.815439672801636,
11171
+ "grad_norm": 5.105489253997803,
11172
+ "learning_rate": 9.047792258452742e-06,
11173
+ "loss": 0.8932,
11174
+ "step": 1595
11175
+ },
11176
+ {
11177
+ "epoch": 0.8159509202453987,
11178
+ "grad_norm": 5.17318058013916,
11179
+ "learning_rate": 8.999294173332058e-06,
11180
+ "loss": 0.9014,
11181
+ "step": 1596
11182
+ },
11183
+ {
11184
+ "epoch": 0.8164621676891616,
11185
+ "grad_norm": 4.764847755432129,
11186
+ "learning_rate": 8.950913560392132e-06,
11187
+ "loss": 0.7204,
11188
+ "step": 1597
11189
+ },
11190
+ {
11191
+ "epoch": 0.8169734151329243,
11192
+ "grad_norm": 5.115185737609863,
11193
+ "learning_rate": 8.902650558249499e-06,
11194
+ "loss": 0.7984,
11195
+ "step": 1598
11196
+ },
11197
+ {
11198
+ "epoch": 0.8174846625766872,
11199
+ "grad_norm": 5.964483261108398,
11200
+ "learning_rate": 8.854505305183752e-06,
11201
+ "loss": 0.709,
11202
+ "step": 1599
11203
+ },
11204
+ {
11205
+ "epoch": 0.8179959100204499,
11206
+ "grad_norm": 5.853104591369629,
11207
+ "learning_rate": 8.80647793913708e-06,
11208
+ "loss": 0.4204,
11209
+ "step": 1600
11210
+ },
11211
+ {
11212
+ "epoch": 0.8185071574642127,
11213
+ "grad_norm": 1.909232258796692,
11214
+ "learning_rate": 8.758568597713946e-06,
11215
+ "loss": 0.9726,
11216
+ "step": 1601
11217
+ },
11218
+ {
11219
+ "epoch": 0.8190184049079755,
11220
+ "grad_norm": 2.361161231994629,
11221
+ "learning_rate": 8.710777418180615e-06,
11222
+ "loss": 0.939,
11223
+ "step": 1602
11224
+ },
11225
+ {
11226
+ "epoch": 0.8195296523517382,
11227
+ "grad_norm": 2.425341844558716,
11228
+ "learning_rate": 8.663104537464866e-06,
11229
+ "loss": 0.8918,
11230
+ "step": 1603
11231
+ },
11232
+ {
11233
+ "epoch": 0.820040899795501,
11234
+ "grad_norm": 2.4736742973327637,
11235
+ "learning_rate": 8.615550092155478e-06,
11236
+ "loss": 0.9242,
11237
+ "step": 1604
11238
+ },
11239
+ {
11240
+ "epoch": 0.8205521472392638,
11241
+ "grad_norm": 2.6613001823425293,
11242
+ "learning_rate": 8.568114218501922e-06,
11243
+ "loss": 0.9088,
11244
+ "step": 1605
11245
+ },
11246
+ {
11247
+ "epoch": 0.8210633946830266,
11248
+ "grad_norm": 2.5696263313293457,
11249
+ "learning_rate": 8.520797052413931e-06,
11250
+ "loss": 0.8776,
11251
+ "step": 1606
11252
+ },
11253
+ {
11254
+ "epoch": 0.8215746421267893,
11255
+ "grad_norm": 2.944065570831299,
11256
+ "learning_rate": 8.473598729461163e-06,
11257
+ "loss": 0.9622,
11258
+ "step": 1607
11259
+ },
11260
+ {
11261
+ "epoch": 0.8220858895705522,
11262
+ "grad_norm": 2.8112123012542725,
11263
+ "learning_rate": 8.426519384872733e-06,
11264
+ "loss": 0.905,
11265
+ "step": 1608
11266
+ },
11267
+ {
11268
+ "epoch": 0.8225971370143149,
11269
+ "grad_norm": 2.9660046100616455,
11270
+ "learning_rate": 8.379559153536909e-06,
11271
+ "loss": 0.9772,
11272
+ "step": 1609
11273
+ },
11274
+ {
11275
+ "epoch": 0.8231083844580777,
11276
+ "grad_norm": 2.898458242416382,
11277
+ "learning_rate": 8.332718170000647e-06,
11278
+ "loss": 0.9601,
11279
+ "step": 1610
11280
+ },
11281
+ {
11282
+ "epoch": 0.8236196319018405,
11283
+ "grad_norm": 2.934843063354492,
11284
+ "learning_rate": 8.285996568469245e-06,
11285
+ "loss": 0.9621,
11286
+ "step": 1611
11287
+ },
11288
+ {
11289
+ "epoch": 0.8241308793456033,
11290
+ "grad_norm": 2.774526834487915,
11291
+ "learning_rate": 8.239394482805996e-06,
11292
+ "loss": 0.8366,
11293
+ "step": 1612
11294
+ },
11295
+ {
11296
+ "epoch": 0.8246421267893661,
11297
+ "grad_norm": 3.195984363555908,
11298
+ "learning_rate": 8.192912046531732e-06,
11299
+ "loss": 0.8993,
11300
+ "step": 1613
11301
+ },
11302
+ {
11303
+ "epoch": 0.8251533742331288,
11304
+ "grad_norm": 2.9150772094726562,
11305
+ "learning_rate": 8.14654939282447e-06,
11306
+ "loss": 0.818,
11307
+ "step": 1614
11308
+ },
11309
+ {
11310
+ "epoch": 0.8256646216768916,
11311
+ "grad_norm": 3.1671900749206543,
11312
+ "learning_rate": 8.10030665451904e-06,
11313
+ "loss": 0.9031,
11314
+ "step": 1615
11315
+ },
11316
+ {
11317
+ "epoch": 0.8261758691206544,
11318
+ "grad_norm": 3.0718796253204346,
11319
+ "learning_rate": 8.054183964106738e-06,
11320
+ "loss": 0.902,
11321
+ "step": 1616
11322
+ },
11323
+ {
11324
+ "epoch": 0.8266871165644172,
11325
+ "grad_norm": 3.13236403465271,
11326
+ "learning_rate": 8.008181453734832e-06,
11327
+ "loss": 0.8966,
11328
+ "step": 1617
11329
+ },
11330
+ {
11331
+ "epoch": 0.8271983640081799,
11332
+ "grad_norm": 3.3213281631469727,
11333
+ "learning_rate": 7.96229925520634e-06,
11334
+ "loss": 0.9051,
11335
+ "step": 1618
11336
+ },
11337
+ {
11338
+ "epoch": 0.8277096114519428,
11339
+ "grad_norm": 3.212383508682251,
11340
+ "learning_rate": 7.916537499979509e-06,
11341
+ "loss": 0.8877,
11342
+ "step": 1619
11343
+ },
11344
+ {
11345
+ "epoch": 0.8282208588957055,
11346
+ "grad_norm": 3.477694272994995,
11347
+ "learning_rate": 7.870896319167548e-06,
11348
+ "loss": 0.8837,
11349
+ "step": 1620
11350
+ },
11351
+ {
11352
+ "epoch": 0.8287321063394683,
11353
+ "grad_norm": 3.3036673069000244,
11354
+ "learning_rate": 7.825375843538163e-06,
11355
+ "loss": 0.8893,
11356
+ "step": 1621
11357
+ },
11358
+ {
11359
+ "epoch": 0.8292433537832311,
11360
+ "grad_norm": 3.0736191272735596,
11361
+ "learning_rate": 7.77997620351324e-06,
11362
+ "loss": 0.7746,
11363
+ "step": 1622
11364
+ },
11365
+ {
11366
+ "epoch": 0.8297546012269938,
11367
+ "grad_norm": 3.514597177505493,
11368
+ "learning_rate": 7.734697529168483e-06,
11369
+ "loss": 0.9255,
11370
+ "step": 1623
11371
+ },
11372
+ {
11373
+ "epoch": 0.8302658486707567,
11374
+ "grad_norm": 3.152017831802368,
11375
+ "learning_rate": 7.689539950232977e-06,
11376
+ "loss": 0.8449,
11377
+ "step": 1624
11378
+ },
11379
+ {
11380
+ "epoch": 0.8307770961145194,
11381
+ "grad_norm": 3.652573823928833,
11382
+ "learning_rate": 7.644503596088865e-06,
11383
+ "loss": 0.884,
11384
+ "step": 1625
11385
+ },
11386
+ {
11387
+ "epoch": 0.8312883435582822,
11388
+ "grad_norm": 3.5253610610961914,
11389
+ "learning_rate": 7.599588595770957e-06,
11390
+ "loss": 0.8573,
11391
+ "step": 1626
11392
+ },
11393
+ {
11394
+ "epoch": 0.831799591002045,
11395
+ "grad_norm": 3.6805419921875,
11396
+ "learning_rate": 7.554795077966409e-06,
11397
+ "loss": 0.7815,
11398
+ "step": 1627
11399
+ },
11400
+ {
11401
+ "epoch": 0.8323108384458078,
11402
+ "grad_norm": 3.5299296379089355,
11403
+ "learning_rate": 7.510123171014255e-06,
11404
+ "loss": 0.9062,
11405
+ "step": 1628
11406
+ },
11407
+ {
11408
+ "epoch": 0.8328220858895705,
11409
+ "grad_norm": 3.8087053298950195,
11410
+ "learning_rate": 7.4655730029051575e-06,
11411
+ "loss": 0.9056,
11412
+ "step": 1629
11413
+ },
11414
+ {
11415
+ "epoch": 0.8333333333333334,
11416
+ "grad_norm": 3.496819496154785,
11417
+ "learning_rate": 7.42114470128093e-06,
11418
+ "loss": 0.7842,
11419
+ "step": 1630
11420
+ },
11421
+ {
11422
+ "epoch": 0.8338445807770961,
11423
+ "grad_norm": 3.998002767562866,
11424
+ "learning_rate": 7.376838393434265e-06,
11425
+ "loss": 0.8565,
11426
+ "step": 1631
11427
+ },
11428
+ {
11429
+ "epoch": 0.8343558282208589,
11430
+ "grad_norm": 3.822242498397827,
11431
+ "learning_rate": 7.332654206308298e-06,
11432
+ "loss": 0.8017,
11433
+ "step": 1632
11434
+ },
11435
+ {
11436
+ "epoch": 0.8348670756646217,
11437
+ "grad_norm": 3.5486857891082764,
11438
+ "learning_rate": 7.288592266496286e-06,
11439
+ "loss": 0.8265,
11440
+ "step": 1633
11441
+ },
11442
+ {
11443
+ "epoch": 0.8353783231083844,
11444
+ "grad_norm": 3.6276445388793945,
11445
+ "learning_rate": 7.2446527002412225e-06,
11446
+ "loss": 0.851,
11447
+ "step": 1634
11448
+ },
11449
+ {
11450
+ "epoch": 0.8358895705521472,
11451
+ "grad_norm": 3.7170212268829346,
11452
+ "learning_rate": 7.20083563343551e-06,
11453
+ "loss": 0.7564,
11454
+ "step": 1635
11455
+ },
11456
+ {
11457
+ "epoch": 0.83640081799591,
11458
+ "grad_norm": 3.684058666229248,
11459
+ "learning_rate": 7.157141191620548e-06,
11460
+ "loss": 0.8008,
11461
+ "step": 1636
11462
+ },
11463
+ {
11464
+ "epoch": 0.8369120654396728,
11465
+ "grad_norm": 3.752002000808716,
11466
+ "learning_rate": 7.1135694999864e-06,
11467
+ "loss": 0.7732,
11468
+ "step": 1637
11469
+ },
11470
+ {
11471
+ "epoch": 0.8374233128834356,
11472
+ "grad_norm": 4.312587738037109,
11473
+ "learning_rate": 7.070120683371462e-06,
11474
+ "loss": 0.808,
11475
+ "step": 1638
11476
+ },
11477
+ {
11478
+ "epoch": 0.8379345603271984,
11479
+ "grad_norm": 4.659461498260498,
11480
+ "learning_rate": 7.026794866262048e-06,
11481
+ "loss": 0.8293,
11482
+ "step": 1639
11483
+ },
11484
+ {
11485
+ "epoch": 0.8384458077709611,
11486
+ "grad_norm": 4.59619665145874,
11487
+ "learning_rate": 6.983592172792086e-06,
11488
+ "loss": 0.851,
11489
+ "step": 1640
11490
+ },
11491
+ {
11492
+ "epoch": 0.838957055214724,
11493
+ "grad_norm": 4.543966293334961,
11494
+ "learning_rate": 6.940512726742715e-06,
11495
+ "loss": 0.8155,
11496
+ "step": 1641
11497
+ },
11498
+ {
11499
+ "epoch": 0.8394683026584867,
11500
+ "grad_norm": 4.165318489074707,
11501
+ "learning_rate": 6.897556651542003e-06,
11502
+ "loss": 0.7734,
11503
+ "step": 1642
11504
+ },
11505
+ {
11506
+ "epoch": 0.8399795501022495,
11507
+ "grad_norm": 4.547415733337402,
11508
+ "learning_rate": 6.854724070264451e-06,
11509
+ "loss": 0.9181,
11510
+ "step": 1643
11511
+ },
11512
+ {
11513
+ "epoch": 0.8404907975460123,
11514
+ "grad_norm": 4.19881010055542,
11515
+ "learning_rate": 6.812015105630842e-06,
11516
+ "loss": 0.7814,
11517
+ "step": 1644
11518
+ },
11519
+ {
11520
+ "epoch": 0.841002044989775,
11521
+ "grad_norm": 4.672346115112305,
11522
+ "learning_rate": 6.769429880007705e-06,
11523
+ "loss": 0.6833,
11524
+ "step": 1645
11525
+ },
11526
+ {
11527
+ "epoch": 0.8415132924335378,
11528
+ "grad_norm": 4.165514945983887,
11529
+ "learning_rate": 6.7269685154070895e-06,
11530
+ "loss": 0.5298,
11531
+ "step": 1646
11532
+ },
11533
+ {
11534
+ "epoch": 0.8420245398773006,
11535
+ "grad_norm": 5.330099105834961,
11536
+ "learning_rate": 6.6846311334861415e-06,
11537
+ "loss": 0.6836,
11538
+ "step": 1647
11539
+ },
11540
+ {
11541
+ "epoch": 0.8425357873210634,
11542
+ "grad_norm": 4.8200860023498535,
11543
+ "learning_rate": 6.642417855546768e-06,
11544
+ "loss": 0.7025,
11545
+ "step": 1648
11546
+ },
11547
+ {
11548
+ "epoch": 0.8430470347648262,
11549
+ "grad_norm": 5.211686611175537,
11550
+ "learning_rate": 6.600328802535355e-06,
11551
+ "loss": 0.5772,
11552
+ "step": 1649
11553
+ },
11554
+ {
11555
+ "epoch": 0.843558282208589,
11556
+ "grad_norm": 5.803190231323242,
11557
+ "learning_rate": 6.558364095042302e-06,
11558
+ "loss": 0.632,
11559
+ "step": 1650
11560
+ },
11561
+ {
11562
+ "epoch": 0.8440695296523517,
11563
+ "grad_norm": 2.0162458419799805,
11564
+ "learning_rate": 6.516523853301804e-06,
11565
+ "loss": 0.7469,
11566
+ "step": 1651
11567
+ },
11568
+ {
11569
+ "epoch": 0.8445807770961146,
11570
+ "grad_norm": 2.1648364067077637,
11571
+ "learning_rate": 6.474808197191401e-06,
11572
+ "loss": 0.9474,
11573
+ "step": 1652
11574
+ },
11575
+ {
11576
+ "epoch": 0.8450920245398773,
11577
+ "grad_norm": 2.424511194229126,
11578
+ "learning_rate": 6.433217246231704e-06,
11579
+ "loss": 0.9164,
11580
+ "step": 1653
11581
+ },
11582
+ {
11583
+ "epoch": 0.84560327198364,
11584
+ "grad_norm": 2.5511527061462402,
11585
+ "learning_rate": 6.391751119586003e-06,
11586
+ "loss": 0.9075,
11587
+ "step": 1654
11588
+ },
11589
+ {
11590
+ "epoch": 0.8461145194274029,
11591
+ "grad_norm": 2.9107165336608887,
11592
+ "learning_rate": 6.350409936059998e-06,
11593
+ "loss": 0.9481,
11594
+ "step": 1655
11595
+ },
11596
+ {
11597
+ "epoch": 0.8466257668711656,
11598
+ "grad_norm": 2.7874770164489746,
11599
+ "learning_rate": 6.3091938141013495e-06,
11600
+ "loss": 0.9119,
11601
+ "step": 1656
11602
+ },
11603
+ {
11604
+ "epoch": 0.8471370143149284,
11605
+ "grad_norm": 2.7134737968444824,
11606
+ "learning_rate": 6.268102871799459e-06,
11607
+ "loss": 0.8897,
11608
+ "step": 1657
11609
+ },
11610
+ {
11611
+ "epoch": 0.8476482617586912,
11612
+ "grad_norm": 2.6800270080566406,
11613
+ "learning_rate": 6.227137226885027e-06,
11614
+ "loss": 0.8625,
11615
+ "step": 1658
11616
+ },
11617
+ {
11618
+ "epoch": 0.848159509202454,
11619
+ "grad_norm": 3.039987564086914,
11620
+ "learning_rate": 6.186296996729796e-06,
11621
+ "loss": 0.9901,
11622
+ "step": 1659
11623
+ },
11624
+ {
11625
+ "epoch": 0.8486707566462167,
11626
+ "grad_norm": 2.883843183517456,
11627
+ "learning_rate": 6.145582298346153e-06,
11628
+ "loss": 0.8557,
11629
+ "step": 1660
11630
+ },
11631
+ {
11632
+ "epoch": 0.8491820040899796,
11633
+ "grad_norm": 3.040339469909668,
11634
+ "learning_rate": 6.104993248386831e-06,
11635
+ "loss": 0.9266,
11636
+ "step": 1661
11637
+ },
11638
+ {
11639
+ "epoch": 0.8496932515337423,
11640
+ "grad_norm": 3.1167523860931396,
11641
+ "learning_rate": 6.064529963144583e-06,
11642
+ "loss": 0.922,
11643
+ "step": 1662
11644
+ },
11645
+ {
11646
+ "epoch": 0.8502044989775052,
11647
+ "grad_norm": 3.086543560028076,
11648
+ "learning_rate": 6.024192558551784e-06,
11649
+ "loss": 0.8847,
11650
+ "step": 1663
11651
+ },
11652
+ {
11653
+ "epoch": 0.8507157464212679,
11654
+ "grad_norm": 3.4161489009857178,
11655
+ "learning_rate": 5.98398115018019e-06,
11656
+ "loss": 0.8947,
11657
+ "step": 1664
11658
+ },
11659
+ {
11660
+ "epoch": 0.8512269938650306,
11661
+ "grad_norm": 3.196218252182007,
11662
+ "learning_rate": 5.943895853240533e-06,
11663
+ "loss": 0.8973,
11664
+ "step": 1665
11665
+ },
11666
+ {
11667
+ "epoch": 0.8517382413087935,
11668
+ "grad_norm": 3.152571201324463,
11669
+ "learning_rate": 5.903936782582253e-06,
11670
+ "loss": 0.8851,
11671
+ "step": 1666
11672
+ },
11673
+ {
11674
+ "epoch": 0.8522494887525562,
11675
+ "grad_norm": 3.339434862136841,
11676
+ "learning_rate": 5.8641040526930925e-06,
11677
+ "loss": 0.9871,
11678
+ "step": 1667
11679
+ },
11680
+ {
11681
+ "epoch": 0.852760736196319,
11682
+ "grad_norm": 3.3059394359588623,
11683
+ "learning_rate": 5.824397777698859e-06,
11684
+ "loss": 0.8634,
11685
+ "step": 1668
11686
+ },
11687
+ {
11688
+ "epoch": 0.8532719836400818,
11689
+ "grad_norm": 3.992922306060791,
11690
+ "learning_rate": 5.784818071362996e-06,
11691
+ "loss": 0.9209,
11692
+ "step": 1669
11693
+ },
11694
+ {
11695
+ "epoch": 0.8537832310838446,
11696
+ "grad_norm": 3.1529664993286133,
11697
+ "learning_rate": 5.74536504708637e-06,
11698
+ "loss": 0.889,
11699
+ "step": 1670
11700
+ },
11701
+ {
11702
+ "epoch": 0.8542944785276073,
11703
+ "grad_norm": 3.0963938236236572,
11704
+ "learning_rate": 5.706038817906845e-06,
11705
+ "loss": 0.8722,
11706
+ "step": 1671
11707
+ },
11708
+ {
11709
+ "epoch": 0.8548057259713702,
11710
+ "grad_norm": 3.323939085006714,
11711
+ "learning_rate": 5.666839496499022e-06,
11712
+ "loss": 0.8879,
11713
+ "step": 1672
11714
+ },
11715
+ {
11716
+ "epoch": 0.8553169734151329,
11717
+ "grad_norm": 3.5231525897979736,
11718
+ "learning_rate": 5.6277671951738716e-06,
11719
+ "loss": 0.7867,
11720
+ "step": 1673
11721
  }
11722
  ],
11723
  "logging_steps": 1,
 
11737
  "attributes": {}
11738
  }
11739
  },
11740
+ "total_flos": 6.396906433916436e+17,
11741
  "train_batch_size": 8,
11742
  "trial_name": null,
11743
  "trial_params": null