Add TF weights
Model converted by the transformers
' pt_to_tf
CLI. All converted model outputs and hidden layers were validated against its Pytorch counterpart.
Maximum crossload output difference=2.284e-03; Maximum crossload hidden layer difference=8.445e-01;
Maximum conversion output difference=2.284e-03; Maximum conversion hidden layer difference=8.445e-01;
CAUTION: The maximum admissible error was manually increased to 0.9!
List of maximum output differences above the threshold (1e-10):
past_key_values[0][0]: 2.384e-06
past_key_values[0][1]: 1.013e-06
past_key_values[0][2]: 4.360e-04
past_key_values[0][3]: 4.326e-04
past_key_values[1][0]: 5.007e-06
past_key_values[1][1]: 1.192e-06
past_key_values[1][2]: 3.478e-04
past_key_values[1][3]: 2.078e-04
past_key_values[2][0]: 6.437e-06
past_key_values[2][1]: 4.292e-06
past_key_values[2][2]: 2.578e-04
past_key_values[2][3]: 2.856e-04
past_key_values[3][0]: 4.768e-06
past_key_values[3][1]: 2.384e-06
past_key_values[3][2]: 3.243e-04
past_key_values[3][3]: 2.459e-04
past_key_values[4][0]: 4.053e-06
past_key_values[4][1]: 2.503e-06
past_key_values[4][2]: 2.806e-04
past_key_values[4][3]: 2.696e-04
past_key_values[5][0]: 3.219e-06
past_key_values[5][1]: 4.470e-07
past_key_values[5][2]: 2.385e-04
past_key_values[5][3]: 2.427e-04
past_key_values[6][0]: 2.265e-06
past_key_values[6][1]: 2.719e-07
past_key_values[6][2]: 2.275e-04
past_key_values[6][3]: 2.450e-04
past_key_values[7][0]: 2.503e-06
past_key_values[7][1]: 3.725e-07
past_key_values[7][2]: 3.294e-04
past_key_values[7][3]: 3.532e-04
past_key_values[8][0]: 2.980e-06
past_key_values[8][1]: 3.576e-07
past_key_values[8][2]: 3.281e-04
past_key_values[8][3]: 2.800e-04
past_key_values[9][0]: 2.623e-06
past_key_values[9][1]: 7.153e-07
past_key_values[9][2]: 2.415e-04
past_key_values[9][3]: 2.303e-04
past_key_values[10][0]: 2.980e-06
past_key_values[10][1]: 3.874e-07
past_key_values[10][2]: 2.340e-04
past_key_values[10][3]: 3.136e-04
past_key_values[11][0]: 3.219e-06
past_key_values[11][1]: 3.725e-07
past_key_values[11][2]: 2.424e-04
past_key_values[11][3]: 2.425e-04
past_key_values[12][0]: 3.576e-06
past_key_values[12][1]: 2.146e-06
past_key_values[12][2]: 3.238e-04
past_key_values[12][3]: 2.237e-04
past_key_values[13][0]: 3.576e-06
past_key_values[13][1]: 8.941e-07
past_key_values[13][2]: 2.938e-04
past_key_values[13][3]: 2.641e-04
past_key_values[14][0]: 2.980e-06
past_key_values[14][1]: 3.073e-07
past_key_values[14][2]: 3.315e-04
past_key_values[14][3]: 2.517e-04
past_key_values[15][0]: 3.576e-06
past_key_values[15][1]: 4.172e-07
past_key_values[15][2]: 3.139e-04
past_key_values[15][3]: 3.384e-04
past_key_values[16][0]: 4.292e-06
past_key_values[16][1]: 8.643e-07
past_key_values[16][2]: 4.871e-04
past_key_values[16][3]: 2.795e-04
past_key_values[17][0]: 2.027e-06
past_key_values[17][1]: 3.316e-07
past_key_values[17][2]: 3.982e-04
past_key_values[17][3]: 3.781e-04
past_key_values[18][0]: 2.384e-06
past_key_values[18][1]: 8.345e-07
past_key_values[18][2]: 3.060e-04
past_key_values[18][3]: 1.964e-04
past_key_values[19][0]: 2.742e-06
past_key_values[19][1]: 3.725e-07
past_key_values[19][2]: 5.296e-04
past_key_values[19][3]: 2.390e-04
past_key_values[20][0]: 2.980e-06
past_key_values[20][1]: 8.047e-07
past_key_values[20][2]: 3.165e-04
past_key_values[20][3]: 3.182e-04
past_key_values[21][0]: 2.742e-06
past_key_values[21][1]: 2.831e-07
past_key_values[21][2]: 3.329e-04
past_key_values[21][3]: 2.432e-04
past_key_values[22][0]: 1.907e-06
past_key_values[22][1]: 5.066e-07
past_key_values[22][2]: 3.050e-04
past_key_values[22][3]: 2.987e-04
past_key_values[23][0]: 2.503e-06
past_key_values[23][1]: 7.153e-07
past_key_values[23][2]: 3.243e-04
past_key_values[23][3]: 2.487e-04
past_key_values[24][0]: 2.742e-06
past_key_values[24][1]: 5.662e-07
past_key_values[24][2]: 3.718e-04
past_key_values[24][3]: 3.534e-04
past_key_values[25][0]: 4.530e-06
past_key_values[25][1]: 1.311e-06
past_key_values[25][2]: 3.091e-04
past_key_values[25][3]: 2.477e-04
past_key_values[26][0]: 2.503e-06
past_key_values[26][1]: 6.557e-07
past_key_values[26][2]: 3.571e-04
past_key_values[26][3]: 3.287e-04
past_key_values[27][0]: 3.099e-06
past_key_values[27][1]: 1.192e-06
past_key_values[27][2]: 3.186e-04
past_key_values[27][3]: 2.838e-04
past_key_values[28][0]: 2.503e-06
past_key_values[28][1]: 6.557e-07
past_key_values[28][2]: 3.785e-04
past_key_values[28][3]: 2.551e-04
past_key_values[29][0]: 2.384e-06
past_key_values[29][1]: 8.941e-07
past_key_values[29][2]: 3.405e-04
past_key_values[29][3]: 3.152e-04
past_key_values[30][0]: 3.576e-06
past_key_values[30][1]: 1.490e-06
past_key_values[30][2]: 4.432e-04
past_key_values[30][3]: 4.615e-04
past_key_values[31][0]: 2.742e-06
past_key_values[31][1]: 2.980e-06
past_key_values[31][2]: 4.420e-04
past_key_values[31][3]: 2.824e-04
List of maximum hidden layer differences above the threshold (1e-10):
last_hidden_state: 2.289e-05
decoder_hidden_states[1]: 2.384e-05
decoder_hidden_states[2]: 2.861e-05
decoder_hidden_states[3]: 2.670e-05
decoder_hidden_states[4]: 3.204e-04
decoder_hidden_states[5]: 3.357e-04
decoder_hidden_states[6]: 1.831e-04
decoder_hidden_states[7]: 2.136e-04
decoder_hidden_states[8]: 1.831e-04
decoder_hidden_states[9]: 1.831e-04
decoder_hidden_states[10]: 1.831e-04
decoder_hidden_states[11]: 2.136e-04
decoder_hidden_states[12]: 2.136e-04
decoder_hidden_states[13]: 2.136e-04
decoder_hidden_states[14]: 2.136e-04
decoder_hidden_states[15]: 2.136e-04
decoder_hidden_states[16]: 2.136e-04
decoder_hidden_states[17]: 2.136e-04
decoder_hidden_states[18]: 2.136e-04
decoder_hidden_states[19]: 2.136e-04
decoder_hidden_states[20]: 2.136e-04
decoder_hidden_states[21]: 2.441e-04
decoder_hidden_states[22]: 2.441e-04
decoder_hidden_states[23]: 2.441e-04
decoder_hidden_states[24]: 2.441e-04
decoder_hidden_states[25]: 3.052e-04
decoder_hidden_states[26]: 3.662e-04
decoder_hidden_states[27]: 3.052e-04
decoder_hidden_states[28]: 3.052e-04
decoder_hidden_states[29]: 3.052e-04
decoder_hidden_states[30]: 3.052e-04
decoder_hidden_states[31]: 3.662e-04
decoder_hidden_states[32]: 2.289e-05
encoder_last_hidden_state: 1.068e-03
encoder_hidden_states[0]: 1.621e-05
encoder_hidden_states[1]: 2.003e-05
encoder_hidden_states[2]: 2.480e-05
encoder_hidden_states[3]: 2.861e-05
encoder_hidden_states[4]: 3.242e-05
encoder_hidden_states[5]: 3.242e-05
encoder_hidden_states[6]: 2.956e-05
encoder_hidden_states[7]: 3.290e-05
encoder_hidden_states[8]: 9.823e-05
encoder_hidden_states[9]: 3.338e-04
encoder_hidden_states[10]: 2.632e-03
encoder_hidden_states[11]: 5.268e-03
encoder_hidden_states[12]: 5.394e-03
encoder_hidden_states[13]: 5.493e-03
encoder_hidden_states[14]: 5.508e-03
encoder_hidden_states[15]: 5.501e-03
encoder_hidden_states[16]: 5.497e-03
encoder_hidden_states[17]: 5.459e-03
encoder_hidden_states[18]: 5.436e-03
encoder_hidden_states[19]: 5.436e-03
encoder_hidden_states[20]: 5.421e-03
encoder_hidden_states[21]: 6.004e-03
encoder_hidden_states[22]: 7.547e-03
encoder_hidden_states[23]: 9.533e-03
encoder_hidden_states[24]: 1.032e-02
encoder_hidden_states[25]: 1.069e-02
encoder_hidden_states[26]: 1.239e-02
encoder_hidden_states[27]: 1.239e-02
encoder_hidden_states[28]: 1.486e-02
encoder_hidden_states[29]: 4.858e-02
encoder_hidden_states[30]: 4.859e-02
encoder_hidden_states[31]: 1.966e-01
encoder_hidden_states[32]: 1.068e-03