huseinzol05 commited on
Commit
0bd68b6
1 Parent(s): 0f99f61

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +36 -1
README.md CHANGED
@@ -9,4 +9,39 @@ Trained on truncated 8k context length, but infer able to scale up to 32k contex
9
 
10
  README at https://github.com/mesolitica/llama2-embedding#finetune
11
 
12
- WandB, https://wandb.ai/mesolitica/llama2-embedding-600m?workspace=user-husein-mesolitica
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
9
 
10
  README at https://github.com/mesolitica/llama2-embedding#finetune
11
 
12
+ WandB, https://wandb.ai/mesolitica/llama2-embedding-600m?workspace=user-husein-mesolitica
13
+
14
+ ## how-to
15
+
16
+ ```python
17
+ from transformers import AutoModel, AutoTokenizer
18
+ from sklearn.metrics.pairwise import cosine_similarity
19
+
20
+ model = AutoModel.from_pretrained('mesolitica/llama2-embedding-600m-8k', trust_remote_code = True)
21
+ tokenizer = AutoTokenizer.from_pretrained('mesolitica/llama2-embedding-600m-8k')
22
+
23
+ input_ids = tokenizer(
24
+ [
25
+ 'tak suka ayam',
26
+ 'Isu perkauman: Kerajaan didakwa terdesak kaitkan pemimpin PN',
27
+ 'nasi ayam tu sedap',
28
+ 'suka ikan goreng?',
29
+ 'Kerajaan tidak akan berkompromi dengan isu perkauman dan agama yang dimanipulasi pihak tertentu untuk mengganggu-gugat kestabilan negara serta ketenteraman rakyat.',
30
+ 'rasis bodo mamat tu',
31
+ 'kerajaan sekarang xde otak',
32
+ 'aku nak sukan olimpik ni',
33
+ 'malaysia dapat x pingat kt sukan asia?',
34
+ 'pingat gangsa menerusi terjun dan olahraga pada hari ke-10',
35
+ 'Kerajaan negeri kini dibenarkan melaksanakan penerokaan awal unsur nadir bumi (REE) berdasarkan prosedur operasi standard (SOP) sedia ada untuk perlombongan nadir bumi dan mineral.',
36
+ 'KONTINJEN Malaysia mendekati sasaran 27 pingat di Sukan Asia kali ini esok, selepas menuai dua lagi pingat gangsa menerusi terjun dan olahraga pada hari ke-10 pertandingan, pada Selasa.'
37
+ ],
38
+ return_tensors = 'pt',
39
+ padding = True
40
+ )
41
+ v = model.encode(input_ids).detach().numpy()
42
+ v.shape
43
+ ```
44
+
45
+ ```
46
+ (12, 1536)
47
+ ```