Model performansı
Merhaba, bu modeli image captioning için kullanmak istiyorum. Ancak model ile düzgün bir performans almayı başaramadım. Prompt ile biraz oynayınca daha düzgün cevaplar alabildim, uzun birkaç cümlelik doğru açıklamalar verdi. Ancak prompları denerken aldığım çoğu cevap hem kısa (birkaç kelime) hem de devrikti. Ayrıca model instructionlara pek uymuyor gibi. Orijinal modelin performansı mı böyle? Modeli unsloth ve vllm ile kullanmayı denedim ancak transformers kütüphanesindeki bazı değişikliklerden config dosyası yeni sürümle uyumsuz hale gelmiş. Acaba benzer bir sebepten lmdeploy modeli düzgün bir şekilde yükleyemiyor ve performansı düşürüyor olabilir mi? Modeli colabda çalıştırdım ve model cardda yazan kodun aynısını kullandım. Ayrıca şöyle warningler de aldım:
lmdeploy - WARNING - model.py:1880 - Did not find a chat template matching /root/.cache/huggingface/hub/models--ytu-ce-cosmos--Turkish-LLaVA-v0.1/snapshots/befcb57091ba65a50e001576c2be05eb8a91ffaf.
lmdeploy - WARNING - turbomind.py:217 - get 227 model params
lmdeploy - WARNING - async_engine.py:629 - GenerationConfig: GenerationConfig(n=1, max_new_tokens=512, do_sample=False, top_p=1.0, top_k=50, min_p=0.0, temperature=0.8, repetition_penalty=1.0, ignore_eos=False, random_seed=None, stop_words=None, bad_words=None, stop_token_ids=[128009, 128001], bad_token_ids=None, min_new_tokens=None, skip_special_tokens=True, spaces_between_special_tokens=True, logprobs=None, response_format=None, logits_processors=None, output_logits=None, output_last_hidden_state=None)
lmdeploy - WARNING - async_engine.py:630 - Since v0.6.0, lmdeploy add `do_sample` in GenerationConfig. It defaults to False, meaning greedy decoding. Please set `do_sample=True` if sampling decoding is needed
lmdeploy - WARNING - tokenizer.py:425 - Detected duplicate bos token 128000 in prompt, this will likely reduce response quality, one of them will beremoved
Orijinal LLava makalesinde ve Cosmos LLava'nın makalesinde bulunan bir resmi denedim. İlk cevap içerik olarak doğru olsa da "Bu alışılmadık.." ile başlayan cümle hatalı yada birkaç kelime eksik gibi duruyor. İkinci sorunun cevabında ise kafası tamamen karışmış ve ütü masasını çamaşır makinesi zannediyor. Konsept olarak yakın olsa da doğru değil. Makalede aynı resimde model düzgün çalışıyor. Verilen örnek kodu birebir çalıştırdığım için kütüphanelerden kaynaklı bir problem olduğunu düşünüyorum.