Update README.md
Browse files
README.md
CHANGED
@@ -105,5 +105,6 @@ Este conjunto de datos no se puede usar para crear modelos que compitan de algun
|
|
105 |
Finetuning
|
106 |
Para ajustar el modelo BERTIN GPT-J-6B, usamos el código disponible en la bifurcación de BERTIN de mesh-transformer-jax, que proporciona código para adaptar un conjunto de datos de Alpaca para ajustar cualquier modelo GPT-J-6B. Ejecutamos un ajuste fino para 3 épocas usando una longitud de secuencia de 2048 en un solo TPUv3-8 durante 3 horas sobre BERTIN GPT-J-6B.
|
107 |
|
108 |
-
![memoria gpu carga](https://
|
109 |
-
|
|
|
|
105 |
Finetuning
|
106 |
Para ajustar el modelo BERTIN GPT-J-6B, usamos el código disponible en la bifurcación de BERTIN de mesh-transformer-jax, que proporciona código para adaptar un conjunto de datos de Alpaca para ajustar cualquier modelo GPT-J-6B. Ejecutamos un ajuste fino para 3 épocas usando una longitud de secuencia de 2048 en un solo TPUv3-8 durante 3 horas sobre BERTIN GPT-J-6B.
|
107 |
|
108 |
+
![memoria gpu carga](https://pbs.twimg.com/media/Fv8jPPWXgAAbAAW?format=png&name=900x900)
|
109 |
+
|
110 |
+
![memoria gpu uso](https://pbs.twimg.com/media/Fv8jPPTXgAAPpMy?format=png&name=900x900)
|