Spaces:

aolko
/

describe-test

Build error

aolko commited on Jul 1, 2024

Commit

870b8a1

verified ·

1 Parent(s): 6eac492

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,6 +1,6 @@
 import gradio as gr
 import torch
-from transformers import AutoProcessor, AutoModelForZeroShotImageClassification
 from diffusers import DiffusionPipeline
 import requests
 from PIL import Image
@@ -40,8 +40,7 @@ def transcribe_image(image, image_type, transcriber, booru_tags=None):
         tags = [anime_labels[i] for i in top_indices]
     else:
         prompt = "<MORE_DETAILED_CAPTION>"
-        inputs = processor(text=prompt, images=image, return_tensors="pt")
         generated_ids = photo_model.generate(
             input_ids=inputs["input_ids"],
             pixel_values=inputs["pixel_values"],
@@ -49,14 +48,9 @@ def transcribe_image(image, image_type, transcriber, booru_tags=None):
             do_sample=False,
             num_beams=3,
         )
-        generated_text = processor.batch_decode(generated_ids, skip_special_tokens=False)[0]
-        parsed_answer = processor.post_process_generation(generated_text, task="<OD>", image_size=(image.width, image.height))
-        # Extract tags from parsed_answer
-        tags = [obj['class'] for obj in parsed_answer]
-    if booru_tags:
-        tags = list(set(tags + booru_tags))
     return ", ".join(tags)

 import gradio as gr
 import torch
+from transformers import AutoProcessor, AutoModelForCasualLLM
 from diffusers import DiffusionPipeline
 import requests
 from PIL import Image
         tags = [anime_labels[i] for i in top_indices]
     else:
         prompt = "<MORE_DETAILED_CAPTION>"
+        inputs = processor(images=image, text=prompt, return_tensors="pt")
         generated_ids = photo_model.generate(
             input_ids=inputs["input_ids"],
             pixel_values=inputs["pixel_values"],
             do_sample=False,
             num_beams=3,
         )
+        generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
+        tags = generated_text  # Use generated text as the description
     return ", ".join(tags)