|
--- |
|
language: |
|
- ms |
|
--- |
|
|
|
# Full Parameter Finetuning 8B 8192 context length Llama 3 on Malaysian text 9.5B tokens |
|
|
|
README at https://github.com/huseinzol05/malaya/tree/master/session/llama3 |
|
|
|
Data preparation at https://github.com/malaysia-ai/dedup-text-dataset/tree/main/llama-3 |
|
|
|
WandB, https://wandb.ai/huseinzol05/finetune-llama-3-8b/workspace?nw=nwuserhuseinzol05 |
|
|
|
## how-to |
|
|
|
```python |
|
from transformers import AutoTokenizer, AutoModelForCausalLM |
|
import torch |
|
|
|
tokenizer = AutoTokenizer.from_pretrained('mesolitica/llama-3-8b-8192-hf') |
|
model = AutoModelForCausalLM.from_pretrained('mesolitica/llama-3-8b-8192-hf', torch_dtype=torch.bfloat16, |
|
use_flash_attention_2 = True) |
|
_ = model.cuda() |
|
t = tokenizer('User: KWSP tu apa?\nBot: ', return_tensors = 'pt').to('cuda') |
|
r = model.generate(**t, max_new_tokens=200, |
|
top_p=0.95, |
|
top_k=50, |
|
temperature=0.9, |
|
do_sample=True, |
|
num_beams=1,) |
|
tokenizer.decode(r[0]) |
|
``` |
|
|
|
``` |
|
User: KWSP tu apa? |
|
Bot: ialah kumpulan wang simpanan pekerja kita sebagai badan kebajikan yang memastikan kesejahteraan 13.5 juta ahlinya terus terbela. 2) Pengeluaran i-sinar akan diteruskan dengan bayaran pertama 3) Pengeluaran i-citra akan diteruskan dengan bayaran pertama bulan April 2021. 4) 600,000 orang telah memohon untuk pengeluaran i-lestari daripada jumlah yang layak iaitu 2.5 juta orang. 5) KWSP telah meningkatkan had pengeluaran i-lestari daripada 6,000 kepada 9,000 bagi 6) Peratusan pengeluaran i-lestari turut dinaikkan daripada 4% kepada 10% iaitu maksimum pengeluaran RM |
|
``` |