mesolitica
/

malaysian-Qwen1.5-0.5B-siglip-base-384-vision

Feature Extraction

Model card Files Files and versions Community

huseinzol05 commited on Feb 17

Commit

2330f89

•

1 Parent(s): a141052

Update README.md

Files changed (1) hide show

README.md +12 -12

README.md CHANGED Viewed

@@ -15,6 +15,18 @@ from transformers import AutoTokenizer, AutoProcessor
 from PIL import Image
 import requests
 def prepare_dataset(messages, images: List[str] = None):
     if images is not None:
         images = [Image.open(f).convert('RGB') for f in images]
@@ -34,18 +46,6 @@ def prepare_dataset(messages, images: List[str] = None):
     outputs['image_starts'] = torch.tensor([tokenizer.convert_tokens_to_ids('<image>')] * len(outputs['images']))
     return outputs
-model = MM_LLMs.from_pretrained(
-    'mesolitica/malaysian-Qwen1.5-0.5B-siglip-base-384-vision',
-    flash_attention = True,
-    dtype = torch.bfloat16,
-    torch_dtype = torch.bfloat16
-)
-_ = model.cuda()
-image_processor = AutoProcessor.from_pretrained('google/siglip-base-patch16-384')
-tokenizer = AutoTokenizer.from_pretrained('mesolitica/malaysian-Qwen1.5-0.5B-siglip-base-384-vision')
-model.llm.generation_config.eos_token_id = tokenizer.eos_token_id
 with open('Persian-cat-breed.jpg', 'wb') as fopen:
     fopen.write(requests.get('https://cdn.beautifulnara.net/wp-content/uploads/2017/12/10201620/Persian-cat-breed.jpg').content)

 from PIL import Image
 import requests
+model = MM_LLMs.from_pretrained(
+    'mesolitica/malaysian-Qwen1.5-0.5B-siglip-base-384-vision',
+    flash_attention = True,
+    dtype = torch.bfloat16,
+    torch_dtype = torch.bfloat16
+)
+_ = model.cuda()
+image_processor = AutoProcessor.from_pretrained('google/siglip-base-patch16-384')
+tokenizer = AutoTokenizer.from_pretrained('mesolitica/malaysian-Qwen1.5-0.5B-siglip-base-384-vision')
+model.llm.generation_config.eos_token_id = tokenizer.eos_token_id
 def prepare_dataset(messages, images: List[str] = None):
     if images is not None:
         images = [Image.open(f).convert('RGB') for f in images]
     outputs['image_starts'] = torch.tensor([tokenizer.convert_tokens_to_ids('<image>')] * len(outputs['images']))
     return outputs
 with open('Persian-cat-breed.jpg', 'wb') as fopen:
     fopen.write(requests.get('https://cdn.beautifulnara.net/wp-content/uploads/2017/12/10201620/Persian-cat-breed.jpg').content)