huseinzol05
commited on
Commit
•
1d33dee
1
Parent(s):
ad72eaf
Update README.md
Browse files
README.md
CHANGED
@@ -9,4 +9,39 @@ Trained on truncated 8k context length, but infer able to scale up to 32k contex
|
|
9 |
|
10 |
README at https://github.com/mesolitica/llama2-embedding#finetune
|
11 |
|
12 |
-
WandB, https://wandb.ai/mesolitica/llama2-embedding-1b?workspace=user-husein-mesolitica
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
9 |
|
10 |
README at https://github.com/mesolitica/llama2-embedding#finetune
|
11 |
|
12 |
+
WandB, https://wandb.ai/mesolitica/llama2-embedding-1b?workspace=user-husein-mesolitica
|
13 |
+
|
14 |
+
## how-to
|
15 |
+
|
16 |
+
```python
|
17 |
+
from transformers import AutoModel, AutoTokenizer
|
18 |
+
from sklearn.metrics.pairwise import cosine_similarity
|
19 |
+
|
20 |
+
model = AutoModel.from_pretrained('mesolitica/llama2-embedding-1b-8k', trust_remote_code = True)
|
21 |
+
tokenizer = AutoTokenizer.from_pretrained('mesolitica/llama2-embedding-1b-8k')
|
22 |
+
|
23 |
+
input_ids = tokenizer(
|
24 |
+
[
|
25 |
+
'tak suka ayam',
|
26 |
+
'Isu perkauman: Kerajaan didakwa terdesak kaitkan pemimpin PN',
|
27 |
+
'nasi ayam tu sedap',
|
28 |
+
'suka ikan goreng?',
|
29 |
+
'Kerajaan tidak akan berkompromi dengan isu perkauman dan agama yang dimanipulasi pihak tertentu untuk mengganggu-gugat kestabilan negara serta ketenteraman rakyat.',
|
30 |
+
'rasis bodo mamat tu',
|
31 |
+
'kerajaan sekarang xde otak',
|
32 |
+
'aku nak sukan olimpik ni',
|
33 |
+
'malaysia dapat x pingat kt sukan asia?',
|
34 |
+
'pingat gangsa menerusi terjun dan olahraga pada hari ke-10',
|
35 |
+
'Kerajaan negeri kini dibenarkan melaksanakan penerokaan awal unsur nadir bumi (REE) berdasarkan prosedur operasi standard (SOP) sedia ada untuk perlombongan nadir bumi dan mineral.',
|
36 |
+
'KONTINJEN Malaysia mendekati sasaran 27 pingat di Sukan Asia kali ini esok, selepas menuai dua lagi pingat gangsa menerusi terjun dan olahraga pada hari ke-10 pertandingan, pada Selasa.'
|
37 |
+
],
|
38 |
+
return_tensors = 'pt',
|
39 |
+
padding = True
|
40 |
+
)
|
41 |
+
v = model.encode(input_ids).detach().numpy()
|
42 |
+
v.shape
|
43 |
+
```
|
44 |
+
|
45 |
+
```
|
46 |
+
(12, 1536)
|
47 |
+
```
|