huseinzol05
commited on
Commit
•
ccf8df6
1
Parent(s):
224fff7
Update README.md
Browse files
README.md
CHANGED
@@ -1,201 +1,115 @@
|
|
1 |
---
|
2 |
-
|
3 |
-
|
4 |
---
|
5 |
|
6 |
-
#
|
7 |
-
|
8 |
-
|
9 |
-
|
10 |
-
|
11 |
-
|
12 |
-
##
|
13 |
-
|
14 |
-
|
15 |
-
|
16 |
-
|
17 |
-
|
18 |
-
|
19 |
-
|
20 |
-
|
21 |
-
|
22 |
-
|
23 |
-
|
24 |
-
|
25 |
-
|
26 |
-
|
27 |
-
|
28 |
-
|
29 |
-
|
30 |
-
|
31 |
-
|
32 |
-
|
33 |
-
|
34 |
-
|
35 |
-
|
36 |
-
|
37 |
-
|
38 |
-
|
39 |
-
|
40 |
-
|
41 |
-
|
42 |
-
|
43 |
-
|
44 |
-
|
45 |
-
|
46 |
-
|
47 |
-
|
48 |
-
|
49 |
-
|
50 |
-
|
51 |
-
|
52 |
-
|
53 |
-
|
54 |
-
|
55 |
-
|
56 |
-
[
|
57 |
-
|
58 |
-
|
59 |
-
|
60 |
-
|
61 |
-
|
62 |
-
|
63 |
-
|
64 |
-
|
65 |
-
|
66 |
-
|
67 |
-
|
68 |
-
|
69 |
-
|
70 |
-
|
71 |
-
|
72 |
-
|
73 |
-
|
74 |
-
|
75 |
-
|
76 |
-
|
77 |
-
|
78 |
-
|
79 |
-
|
80 |
-
|
81 |
-
|
82 |
-
|
83 |
-
|
84 |
-
|
85 |
-
|
86 |
-
|
87 |
-
|
88 |
-
|
89 |
-
|
90 |
-
|
91 |
-
|
92 |
-
|
93 |
-
|
94 |
-
|
95 |
-
|
96 |
-
|
97 |
-
|
98 |
-
|
99 |
-
|
100 |
-
|
101 |
-
|
102 |
-
|
103 |
-
|
104 |
-
|
105 |
-
|
106 |
-
|
107 |
-
|
108 |
-
|
109 |
-
|
110 |
-
|
111 |
-
|
112 |
-
|
113 |
-
|
114 |
-
|
115 |
-
|
116 |
-
|
117 |
-
<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
|
118 |
-
|
119 |
-
[More Information Needed]
|
120 |
-
|
121 |
-
#### Metrics
|
122 |
-
|
123 |
-
<!-- These are the evaluation metrics being used, ideally with a description of why. -->
|
124 |
-
|
125 |
-
[More Information Needed]
|
126 |
-
|
127 |
-
### Results
|
128 |
-
|
129 |
-
[More Information Needed]
|
130 |
-
|
131 |
-
#### Summary
|
132 |
-
|
133 |
-
|
134 |
-
|
135 |
-
## Model Examination [optional]
|
136 |
-
|
137 |
-
<!-- Relevant interpretability work for the model goes here -->
|
138 |
-
|
139 |
-
[More Information Needed]
|
140 |
-
|
141 |
-
## Environmental Impact
|
142 |
-
|
143 |
-
<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
|
144 |
-
|
145 |
-
Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
|
146 |
-
|
147 |
-
- **Hardware Type:** [More Information Needed]
|
148 |
-
- **Hours used:** [More Information Needed]
|
149 |
-
- **Cloud Provider:** [More Information Needed]
|
150 |
-
- **Compute Region:** [More Information Needed]
|
151 |
-
- **Carbon Emitted:** [More Information Needed]
|
152 |
-
|
153 |
-
## Technical Specifications [optional]
|
154 |
-
|
155 |
-
### Model Architecture and Objective
|
156 |
-
|
157 |
-
[More Information Needed]
|
158 |
-
|
159 |
-
### Compute Infrastructure
|
160 |
-
|
161 |
-
[More Information Needed]
|
162 |
-
|
163 |
-
#### Hardware
|
164 |
-
|
165 |
-
[More Information Needed]
|
166 |
-
|
167 |
-
#### Software
|
168 |
-
|
169 |
-
[More Information Needed]
|
170 |
-
|
171 |
-
## Citation [optional]
|
172 |
-
|
173 |
-
<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
|
174 |
-
|
175 |
-
**BibTeX:**
|
176 |
-
|
177 |
-
[More Information Needed]
|
178 |
-
|
179 |
-
**APA:**
|
180 |
-
|
181 |
-
[More Information Needed]
|
182 |
-
|
183 |
-
## Glossary [optional]
|
184 |
-
|
185 |
-
<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
|
186 |
-
|
187 |
-
[More Information Needed]
|
188 |
-
|
189 |
-
## More Information [optional]
|
190 |
-
|
191 |
-
[More Information Needed]
|
192 |
-
|
193 |
-
## Model Card Authors [optional]
|
194 |
-
|
195 |
-
[More Information Needed]
|
196 |
-
|
197 |
-
## Model Card Contact
|
198 |
-
|
199 |
-
[More Information Needed]
|
200 |
-
|
201 |
-
|
|
|
1 |
---
|
2 |
+
language:
|
3 |
+
- ms
|
4 |
---
|
5 |
|
6 |
+
# Full Parameter Finetuning Malaysian Llama-3 16384 context length on Malaysian chat completion 3B tokens
|
7 |
+
|
8 |
+
README at https://github.com/huseinzol05/malaya/tree/master/session/llama3
|
9 |
+
|
10 |
+
WandB, https://wandb.ai/huseinzol05/fpf-llama-3-8b-8192-hf-packing?nw=nwuserhuseinzol05
|
11 |
+
|
12 |
+
## how-to
|
13 |
+
|
14 |
+
```python
|
15 |
+
from transformers import AutoTokenizer, AutoModelForCausalLM
|
16 |
+
import torch
|
17 |
+
|
18 |
+
tokenizer = AutoTokenizer.from_pretrained('mesolitica/malaysian-llama-3-8b-instruct-16k')
|
19 |
+
model = AutoModelForCausalLM.from_pretrained('mesolitica/malaysian-llama-3-8b-instruct-16k',
|
20 |
+
torch_dtype=torch.bfloat16,
|
21 |
+
use_flash_attention_2 = True
|
22 |
+
)
|
23 |
+
_ = model.cuda()
|
24 |
+
|
25 |
+
messages = [
|
26 |
+
{'role': 'user', 'content': 'kwsp tu apa'}
|
27 |
+
]
|
28 |
+
prompt = tokenizer.apply_chat_template(messages, tokenize = False)
|
29 |
+
inputs = tokenizer([prompt], return_tensors='pt', add_special_tokens=False).to('cuda')
|
30 |
+
generate_kwargs = dict(
|
31 |
+
inputs,
|
32 |
+
max_new_tokens=1024,
|
33 |
+
top_p=0.95,
|
34 |
+
top_k=50,
|
35 |
+
temperature=0.9,
|
36 |
+
do_sample=True,
|
37 |
+
num_beams=1,
|
38 |
+
)
|
39 |
+
r = model.generate(**generate_kwargs)
|
40 |
+
tokenizer.decode(r[0])
|
41 |
+
```
|
42 |
+
|
43 |
+
```
|
44 |
+
<|begin_of_text|><|start_header_id|>user<|end_header_id|>
|
45 |
+
|
46 |
+
kwsp tu apa<|eot_id|><|start_header_id|>assistant<|end_header_id|>
|
47 |
+
|
48 |
+
KWSP adalah singkatan kepada Kumpulan Wang Simpanan Pekerja, iaitu sejenis skim simpanan persaraan yang ditadbir oleh kerajaan Malaysia. Ia adalah sistem pencen yang disumbangkan oleh kedua-dua majikan dan pekerja. KWSP adalah skim simpanan wajib di Malaysia, dan kebanyakan pekerja mesti mendaftar dan menyumbang kepada KWSP. Skim ini ditadbir oleh Kumpulan Wang Simpanan Pekerja Malaysia. KWSP menyediakan pelbagai pilihan pelaburan untuk ahlinya, termasuk unit amanah, bon, dan juga simpanan tetap. Ahli boleh memohon untuk melabur sebahagian simpanan KWSP mereka dalam pilihan ini pada bila-bila masa, tertakluk kepada kriteria kelayakan tertentu. KWSP juga menyediakan perkhidmatan lain, seperti perumahan dan insurans.<|eot_id|>
|
49 |
+
```
|
50 |
+
|
51 |
+
```python
|
52 |
+
messages = [
|
53 |
+
{'role': 'user', 'content': 'nasi kandaq apa sedap kat sungai petani kedah'}
|
54 |
+
]
|
55 |
+
prompt = tokenizer.apply_chat_template(messages, tokenize = False)
|
56 |
+
inputs = tokenizer([prompt], return_tensors='pt', add_special_tokens=False).to('cuda')
|
57 |
+
generate_kwargs = dict(
|
58 |
+
inputs,
|
59 |
+
max_new_tokens=1024,
|
60 |
+
top_p=0.95,
|
61 |
+
top_k=50,
|
62 |
+
temperature=0.9,
|
63 |
+
do_sample=True,
|
64 |
+
num_beams=1,
|
65 |
+
)
|
66 |
+
r = model.generate(**generate_kwargs)
|
67 |
+
print(tokenizer.decode(r[0]))
|
68 |
+
```
|
69 |
+
|
70 |
+
```
|
71 |
+
<|begin_of_text|><|start_header_id|>user<|end_header_id|>
|
72 |
+
|
73 |
+
nasi kandaq apa sedap kat sungai petani kedah<|eot_id|><|start_header_id|>assistant<|end_header_id|>
|
74 |
+
|
75 |
+
Di Sungai Petani, Kedah, terdapat sebuah gerai yang menyajikan "nasi kandaq" yang sangat lazat dan popular di kalangan penduduk setempat dan pelancong. Nasi kandaq ini merupakan sejenis hidangan nasi yang dimasak dengan santan dan rempah ratus yang dijual oleh seorang penjaja bernama "Cik Kandaq".
|
76 |
+
|
77 |
+
Gerai nasi kandaq yang terkenal ini terletak di Pekan Lama, Sungai Petani dan telah beroperasi selama lebih dari 30 tahun. Nasi kandaq ini dinamakan berdasarkan nama gerai yang menjualnya, Cik Kandaq, yang merupakan nama samaran bagi penjual tersebut. Nama "Cik Kandaq" sendiri adalah gabungan antara perkataan "Cik", yang merupakan kata ganti nama bagi seorang wanita yang lebih rendah statusnya berbanding dengan "Puan", dan perkataan "kandaq" yang bermaksud'miskin' dalam loghat Kedah.
|
78 |
+
|
79 |
+
Nasi kandaq yang dijual oleh Cik Kandaq sangat terkenal kerana rasa nasi yang lemak dan wangi dari campuran santan dan rempah ratus, serta kerangupan lauk-pauk yang dihidangkan bersama nasi tersebut. Lauk-pauk yang dihidangkan bersama nasi kandaq termasuk ikan goreng, sotong goreng, ayam goreng, dan telur masin.
|
80 |
+
|
81 |
+
Gerai ini hanya beroperasi pada waktu pagi sahaja dan seringkali pelanggan akan berbaris panjang untuk mendapatkan hidangan nasi kandaq yang sedap ini. Bagi penduduk setempat, nasi kandaq adalah makanan kegemaran yang sering dicari, terutama pada waktu sarapan atau makan tengahari. Bagi pelancong yang berkunjung ke Sungai Petani, gerai nasi kandaq ini adalah salah satu tempat yang wajib dikunjungi untuk merasai pengalaman makan nasi kandaq yang asli dan nikmat.<|eot_id|>
|
82 |
+
```
|
83 |
+
|
84 |
+
```python
|
85 |
+
messages = [
|
86 |
+
{'role': 'user', 'content': 'asdsd231asd'},
|
87 |
+
{'role': 'assistant', 'content': 'Saya minta maaf, saya tidak dapat menjana respons yang bermakna kepada input itu. Bolehkah anda berikan lebih banyak konteks atau jelaskan soalan anda?'},
|
88 |
+
{'role': 'user', 'content': 'awak giler eh'},
|
89 |
+
]
|
90 |
+
prompt = tokenizer.apply_chat_template(messages, tokenize = False)
|
91 |
+
inputs = tokenizer([prompt], return_tensors='pt', add_special_tokens=False).to('cuda')
|
92 |
+
generate_kwargs = dict(
|
93 |
+
inputs,
|
94 |
+
max_new_tokens=1024,
|
95 |
+
top_p=0.95,
|
96 |
+
top_k=50,
|
97 |
+
temperature=0.9,
|
98 |
+
do_sample=True,
|
99 |
+
num_beams=1,
|
100 |
+
)
|
101 |
+
r = model.generate(**generate_kwargs)
|
102 |
+
print(tokenizer.decode(r[0]))
|
103 |
+
```
|
104 |
+
|
105 |
+
```
|
106 |
+
<|begin_of_text|><|start_header_id|>user<|end_header_id|>
|
107 |
+
|
108 |
+
asdsd231asd<|eot_id|><|start_header_id|>assistant<|end_header_id|>
|
109 |
+
|
110 |
+
Saya minta maaf, saya tidak dapat menjana respons yang bermakna kepada input itu. Bolehkah anda berikan lebih banyak konteks atau jelaskan soalan anda?<|eot_id|><|start_header_id|>user<|end_header_id|>
|
111 |
+
|
112 |
+
awak giler eh<|eot_id|><|start_header_id|>assistant<|end_header_id|>
|
113 |
+
|
114 |
+
Saya memohon maaf jika saya memberi anda maklumat yang salah atau tidak membantu. Saya berusaha untuk memberikan jawapan yang tepat dan relevan kepada pertanyaan pengguna. Jika anda boleh memberikan lebih banyak konteks atau menjelaskan apa yang anda cari, saya berbesar hati untuk mencuba dan membantu anda sekali lagi.<|eot_id|>
|
115 |
+
```
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|