Spaces:

Tonic
/

falcon-vision

Runtime error

App Files Files Community

Tonic commited on May 27, 2024

Commit

106a6dd

verified ·

1 Parent(s): 01a426b

Update app.py

Browse files

Files changed (1) hide show

app.py +46 -39

app.py CHANGED Viewed

@@ -1,19 +1,21 @@
 import gradio as gr
 from transformers import LlavaNextForConditionalGeneration, LlavaNextProcessor
 from PIL import Image
 import requests
 import torch
 import spaces
-# Load the processor and model
-processor = LlavaNextProcessor.from_pretrained("tiiuae/falcon-11B-vlm", tokenizer_class='PreTrainedTokenizerFast')
 model = LlavaNextForConditionalGeneration.from_pretrained("tiiuae/falcon-11B-vlm", torch_dtype=torch.bfloat16).to('cuda:0')
@@ -21,45 +23,50 @@ model = LlavaNextForConditionalGeneration.from_pretrained("tiiuae/falcon-11B-vlm
 def generate_paragraph(image_url):
     cats_image = Image.open(requests.get(image_url, stream=True).raw)
     instruction = 'Write a long paragraph about this picture.'
     prompt = f"User:<image>\n{instruction} Falcon:"
     inputs = processor(prompt, images=cats_image, return_tensors="pt", padding=True).to('cuda:0')
     output = model.generate(**inputs, max_new_tokens=256)
     generated_captions = processor.decode(output[0], skip_special_tokens=True).strip()
     return generated_captions
-# Define the Gradio interface
-interface = gr.Interface(
-    fn=generate_paragraph,
-    inputs=gr.Textbox(label="Image URL"),
-    outputs=gr.Textbox(label="Generated Paragraph"),
-    title="Image to Paragraph Generation",
-    description="Enter the URL of an image, and the model will generate a descriptive paragraph about the image."
-)
 # Launch the Gradio interface
-interface.launch()

 import gradio as gr
 from transformers import LlavaNextForConditionalGeneration, LlavaNextProcessor
 from PIL import Image
 import requests
 import torch
 import spaces
+title = """  # 🙋🏻‍♂️Welcome to Tonic's🦅Falcon Vision👁️Language Model !
+"""
+description = """
+Falcon2-11B-vlm is an 11B parameters causal decoder-only model built by TII and trained on over 5,000B tokens of RefinedWeb enhanced with curated corpora. To bring vision capabilities, , we integrate the pretrained CLIP ViT-L/14 vision encoder with our Falcon2-11B chat-finetuned model and train with image-text data. For enhancing the VLM's perception of fine-grained details w.r.t small objects in images, we employ a dynamic encoding mechanism at high-resolution for image inputs.
+Join us : 🌟TeamTonic🌟 is always making cool demos! Join our active builder's 🛠️community 👻 [![Join us on Discord](https://img.shields.io/discord/1109943800132010065?label=Discord&logo=discord&style=flat-square)](https://discord.gg/GWpVpekp) On 🤗Huggingface:[MultiTransformer](https://huggingface.co/MultiTransformer) Math 🔍 [introspector](https://huggingface.co/introspector) On 🌐Github: [Tonic-AI](https://github.com/tonic-ai) & contribute to🌟 [MultiTonic](https://github.com/multitonic/)🤗Big thanks to Yuvi Sharma and all the folks at huggingface for the community grant 🤗
+"""
+processor = LlavaNextProcessor.from_pretrained("tiiuae/falcon-11B-vlm", tokenizer_class='PreTrainedTokenizerFast')
 model = LlavaNextForConditionalGeneration.from_pretrained("tiiuae/falcon-11B-vlm", torch_dtype=torch.bfloat16).to('cuda:0')
 def generate_paragraph(image_url):
     cats_image = Image.open(requests.get(image_url, stream=True).raw)
     instruction = 'Write a long paragraph about this picture.'
     prompt = f"User:<image>\n{instruction} Falcon:"
     inputs = processor(prompt, images=cats_image, return_tensors="pt", padding=True).to('cuda:0')
     output = model.generate(**inputs, max_new_tokens=256)
     generated_captions = processor.decode(output[0], skip_special_tokens=True).strip()
     return generated_captions
+# Function to set the URL and generate the paragraph
+def set_and_generate(url):
+    generated_paragraph = generate_paragraph(url)
+    return url, generated_paragraph
+# Create the Gradio Blocks interface
+with gr.Blocks() as demo:
+    gr.Markdown(title)
+    gr.Markdown(description)
+    with gr.Row():
+        with gr.Column():
+            image_url_input = gr.Textbox(label="Image URL")
+            generate_button = gr.Button("Generate Paragraph")
+            example_1 = gr.Button("Example 1")
+            example_2 = gr.Button("Example 2")
+            example_3 = gr.Button("Example 3")
+        with gr.Column():
+            generated_paragraph_output = gr.Textbox(label="Generated Paragraph")
+    generate_button.click(generate_paragraph, inputs=image_url_input, outputs=generated_paragraph_output)
+    example_1.click(
+        lambda: set_and_generate("https://example.com/image1.jpg"),
+        outputs=[image_url_input, generated_paragraph_output]
+    )
+    example_2.click(
+        lambda: set_and_generate("https://example.com/image2.jpg"),
+        outputs=[image_url_input, generated_paragraph_output]
+    )
+    example_3.click(
+        lambda: set_and_generate("https://example.com/image3.jpg"),
+        outputs=[image_url_input, generated_paragraph_output]
+    )
 # Launch the Gradio interface
+demo.launch()