Update README.md
Browse files
README.md
CHANGED
@@ -106,12 +106,12 @@ bijvoorbeeld nooit een fragment krijgen dat begint met een paar tokens van het e
|
|
106 |
|
107 |
## Pre-training
|
108 |
|
109 |
-
Boreas was pre-trained with the [EasyDeL JAX framework](https://github.com/erfanzar/EasyDel) on a tpu-v4-32
|
110 |
kindly supplied by the Google [TPU Research Cloud](https://sites.research.google/trc/about/).
|
111 |
-
Batch size 96
|
112 |
-
Using flash attention, block size of 512
|
113 |
-
Max sequence length of 2048
|
114 |
-
LION optimizer, triangle learning rate schedule with max lr 3e-6, gradient clipping to 1.0
|
115 |
|
116 |
![img_3.png](images/img_3.png)
|
117 |
|
@@ -119,7 +119,7 @@ LION optimizer, triangle learning rate schedule with max lr 3e-6, gradient clipp
|
|
119 |
|
120 |
![img_5.png](images/img_5.png)
|
121 |
|
122 |
-
|
123 |
|
124 |
|
125 |
## Boreas-7B-chat
|
@@ -161,4 +161,22 @@ het Nederlands geschreven zijn door een persoon. Dit zijn de Nederlandse wiki q
|
|
161 |
chat datasets. Hierdoor wordt er zoveel mogelijk voor gezorgd dat bij bijvoorbeeld educatie-achtige q en a, de in onze
|
162 |
regio gebruikelijke termen en eenheden voorkomen in de chat database, tenminste voor de Nederlandstalige chats.
|
163 |
|
164 |
-
Bij alle chat datasets is er alleen getraind op de assistant-completion tokens.
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
106 |
|
107 |
## Pre-training
|
108 |
|
109 |
+
* Boreas was pre-trained with the [EasyDeL JAX framework](https://github.com/erfanzar/EasyDel) on a tpu-v4-32
|
110 |
kindly supplied by the Google [TPU Research Cloud](https://sites.research.google/trc/about/).
|
111 |
+
* Batch size 96, gradient accumulation steps 2
|
112 |
+
* Using flash attention, block size of 512
|
113 |
+
* Max sequence length of 2048
|
114 |
+
* LION optimizer, triangle learning rate schedule with max lr 3e-6, gradient clipping to 1.0
|
115 |
|
116 |
![img_3.png](images/img_3.png)
|
117 |
|
|
|
119 |
|
120 |
![img_5.png](images/img_5.png)
|
121 |
|
122 |
+
<!-- [https://wandb.ai/yepster/EasyDeL-MistralBoreas/runs/ozw55qaq/workspace?nw=nwuseryepster](WandB Boreas 7B pre-train) -->
|
123 |
|
124 |
|
125 |
## Boreas-7B-chat
|
|
|
161 |
chat datasets. Hierdoor wordt er zoveel mogelijk voor gezorgd dat bij bijvoorbeeld educatie-achtige q en a, de in onze
|
162 |
regio gebruikelijke termen en eenheden voorkomen in de chat database, tenminste voor de Nederlandstalige chats.
|
163 |
|
164 |
+
Bij alle chat datasets is er alleen getraind op de assistant-completion tokens.
|
165 |
+
|
166 |
+
## Fine-tuning
|
167 |
+
|
168 |
+
* Boreas was fine-tuned with the [EasyDeL JAX framework](https://github.com/erfanzar/EasyDel) on a tpu-v4-32
|
169 |
+
kindly supplied by the Google [TPU Research Cloud](https://sites.research.google/trc/about/).
|
170 |
+
* Batch size 96, gradient accumulation 2,
|
171 |
+
* Using flash attention, block size of 512
|
172 |
+
* Max sequence length of 2048
|
173 |
+
* LION optimizer, triangle learning rate schedule with max lr 2e-6, gradient clipping to 1.0 (NB: the schedule was not finished due to an error at the end of the dataset epoch. Since the loss had plateaued I decided then to not resume for another epoch)
|
174 |
+
|
175 |
+
|
176 |
+
![loss finetune](images/loss_finetune.png)
|
177 |
+
|
178 |
+
![accuracy finetune](images/accuracy_finetune.png)
|
179 |
+
|
180 |
+
![learning rate finetune](images/lr_finetune.png)
|
181 |
+
|
182 |
+
<!-- [https://wandb.ai/yepster/EasyDeL-MistralBoreas/runs/ynkl2jtx?nw=nwuseryepster](WandB Boreas 7B chat finetune) -->
|