ytu-ce-cosmos/Turkish-LLaVA-v0.1 · Model performansı

Merhaba, bu modeli image captioning için kullanmak istiyorum. Ancak model ile düzgün bir performans almayı başaramadım. Prompt ile biraz oynayınca daha düzgün cevaplar alabildim, uzun birkaç cümlelik doğru açıklamalar verdi. Ancak prompları denerken aldığım çoğu cevap hem kısa (birkaç kelime) hem de devrikti. Ayrıca model instructionlara pek uymuyor gibi. Orijinal modelin performansı mı böyle? Modeli unsloth ve vllm ile kullanmayı denedim ancak transformers kütüphanesindeki bazı değişikliklerden config dosyası yeni sürümle uyumsuz hale gelmiş. Acaba benzer bir sebepten lmdeploy modeli düzgün bir şekilde yükleyemiyor ve performansı düşürüyor olabilir mi? Modeli colabda çalıştırdım ve model cardda yazan kodun aynısını kullandım. Ayrıca şöyle warningler de aldım:

lmdeploy - WARNING - model.py:1880 - Did not find a chat template matching /root/.cache/huggingface/hub/models--ytu-ce-cosmos--Turkish-LLaVA-v0.1/snapshots/befcb57091ba65a50e001576c2be05eb8a91ffaf.
lmdeploy - WARNING - turbomind.py:217 - get 227 model params
lmdeploy - WARNING - async_engine.py:629 - GenerationConfig: GenerationConfig(n=1, max_new_tokens=512, do_sample=False, top_p=1.0, top_k=50, min_p=0.0, temperature=0.8, repetition_penalty=1.0, ignore_eos=False, random_seed=None, stop_words=None, bad_words=None, stop_token_ids=[128009, 128001], bad_token_ids=None, min_new_tokens=None, skip_special_tokens=True, spaces_between_special_tokens=True, logprobs=None, response_format=None, logits_processors=None, output_logits=None, output_last_hidden_state=None)
lmdeploy - WARNING - async_engine.py:630 - Since v0.6.0, lmdeploy add `do_sample` in GenerationConfig. It defaults to False, meaning greedy decoding. Please set `do_sample=True` if sampling  decoding is needed
lmdeploy - WARNING - tokenizer.py:425 - Detected duplicate bos token 128000 in prompt, this will likely reduce response quality, one of them will beremoved