Spaces:

robgonsalves
/

image-text-similarity

Running

App Files Files Community

robgonsalves commited on Jul 13, 2024

Commit

e733601

verified ·

1 Parent(s): aa3546b

add menu for Similarity Type

Browse files

Files changed (1) hide show

app.py +13 -14

app.py CHANGED Viewed

@@ -7,11 +7,7 @@ from transformers import CLIPProcessor, CLIPModel
 model = CLIPModel.from_pretrained("laion/CLIP-ViT-H-14-laion2B-s32B-b79K")
 processor = CLIPProcessor.from_pretrained("laion/CLIP-ViT-H-14-laion2B-s32B-b79K")
-def calculate_similarity(image, text_prompt):
-    # Ensure text_prompt is a string
-    if not isinstance(text_prompt, str):
-        text_prompt = str(text_prompt)
     # Process inputs
     inputs = processor(images=image, text=text_prompt, return_tensors="pt", padding=True)
@@ -22,25 +18,28 @@ def calculate_similarity(image, text_prompt):
     image_features = outputs.image_embeds / outputs.image_embeds.norm(dim=-1, keepdim=True)
     text_features = outputs.text_embeds / outputs.text_embeds.norm(dim=-1, keepdim=True)
     cosine_similarity = torch.nn.functional.cosine_similarity(image_features, text_features)
-    # Adjusting the similarity score
-    adjusted_similarity = cosine_similarity.item() * 3 * 100
-    clipped_similarity = min(adjusted_similarity, 99.99)
-    formatted_similarity = f"According to OpenCLIP, the image and the text prompt are {clipped_similarity:.2f}% similar."
-    return formatted_similarity
 # Set up Gradio interface
 iface = gr.Interface(
     fn=calculate_similarity,
     inputs=[
         gr.Image(type="pil", label="Upload Image", height=512),
-        gr.Textbox(label="Text Prompt")
     ],
     outputs=gr.Text(),
     allow_flagging="never",
-    title="OpenClip Cosine Similarity Calculator",
-    description="Provide a text prompt and upload an image to calculate the cosine similarity."
 )
 # Launch the interface with a public link for sharing online

 model = CLIPModel.from_pretrained("laion/CLIP-ViT-H-14-laion2B-s32B-b79K")
 processor = CLIPProcessor.from_pretrained("laion/CLIP-ViT-H-14-laion2B-s32B-b79K")
+def calculate_similarity(image, text_prompt, similarity_type):
     # Process inputs
     inputs = processor(images=image, text=text_prompt, return_tensors="pt", padding=True)
     image_features = outputs.image_embeds / outputs.image_embeds.norm(dim=-1, keepdim=True)
     text_features = outputs.text_embeds / outputs.text_embeds.norm(dim=-1, keepdim=True)
     cosine_similarity = torch.nn.functional.cosine_similarity(image_features, text_features)
+    # Adjusting the similarity score based on the dropdown selection
+    if similarity_type == "General Similarity (3x scaled)":
+        adjusted_similarity = cosine_similarity.item() * 3 * 100
+        result_text = f"According to OpenCLIP, the image and the text prompt have a general similarity of {min(adjusted_similarity, 99.99):.2f}%."
+    else:  # Cosine Similarity (raw)
+        result_text = f"According to OpenCLIP, the image and the text prompt have a cosine similarity of {cosine_similarity.item() * 100:.2f}%."
+    return result_text
 # Set up Gradio interface
 iface = gr.Interface(
     fn=calculate_similarity,
     inputs=[
         gr.Image(type="pil", label="Upload Image", height=512),
+        gr.Textbox(label="Text Prompt"),
+        gr.Dropdown(label="Similarity Type", choices=["General Similarity (3x scaled)", "Cosine Similarity (raw)"], value="General Similarity (3x scaled)")
     ],
     outputs=gr.Text(),
     allow_flagging="never",
+    title="OpenClip Similarity Calculator",
+    description="Upload an image and provide a text prompt to calculate the similarity."
 )
 # Launch the interface with a public link for sharing online