Spaces:

xxx1
/

VQA_CAP_GPT

Runtime error

App Files Files Community

xxx1 commited on Feb 28, 2023

Commit

c431f44

1 Parent(s): 1d42b83

Update app.py

Browse files

Files changed (1) hide show

app.py +40 -2

app.py CHANGED Viewed

@@ -10,9 +10,36 @@ device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
 processor = BlipProcessor.from_pretrained("Salesforce/blip-vqa-capfilt-large")
 model_vqa = BlipForQuestionAnswering.from_pretrained("Salesforce/blip-vqa-capfilt-large").to(device)
 def inference_chat(input_image,input_text):
     inputs = processor(images=input_image, text=input_text,return_tensors="pt")
-    inputs["max_length"] = 20
     inputs["num_beams"] = 5
     inputs['num_return_sequences'] =4
     out = model_vqa.generate(**inputs)
@@ -41,9 +68,12 @@ with gr.Blocks(
                         submit_button = gr.Button(
                             value="Submit", interactive=True, variant="primary"
                         )
         with gr.Column():
             caption_output = gr.Textbox(lines=0, label="VQA Output(模型答案输出)")
         image_input.change(
             lambda: ("", "", []),
@@ -73,6 +103,14 @@ with gr.Blocks(
                         ],
                         [caption_output],
                     )
    # examples = gr.Examples(
    #     examples=examples,

 processor = BlipProcessor.from_pretrained("Salesforce/blip-vqa-capfilt-large")
 model_vqa = BlipForQuestionAnswering.from_pretrained("Salesforce/blip-vqa-capfilt-large").to(device)
+from transformers import BlipProcessor, Blip2ForConditionalGeneration
+cap_processor = BlipProcessor.from_pretrained("Salesforce/blip2-flan-t5-xl")
+cap_model = Blip2ForConditionalGeneration.from_pretrained("Salesforce/blip2-flan-t5-xl")
+def caption(input_image):
+    inputs = processor(input_image, return_tensors="pt")
+    inputs["num_beams"] = 4
+    inputs['num_return_sequences'] =4
+    out = model.generate(**inputs)
+    return "\n".join(processor.decode(out[0], skip_special_tokens=True))
+def gpt3(input_text):
+    response = openai.Completion.create(
+    engine="text-davinci-003",
+    prompt=input_text,
+    max_tokens=10,
+    n=1,
+    stop=None,
+    temperature=0.7,
+    )
+    answer = response.choices[0].text.strip()
+    return answer
 def inference_chat(input_image,input_text):
     inputs = processor(images=input_image, text=input_text,return_tensors="pt")
+    inputs["max_length"] = 10
     inputs["num_beams"] = 5
     inputs['num_return_sequences'] =4
     out = model_vqa.generate(**inputs)
                         submit_button = gr.Button(
                             value="Submit", interactive=True, variant="primary"
                         )
+                    cap_submit_button = gr.Button(
+                            value="Submit", interactive=True, variant="primary"
+                        )
         with gr.Column():
             caption_output = gr.Textbox(lines=0, label="VQA Output(模型答案输出)")
+            caption_output_v1 = gr.Textbox(lines=0, label="Caption Output(模型caption输出)")
         image_input.change(
             lambda: ("", "", []),
                         ],
                         [caption_output],
                     )
+        cap_submit_button.click(
+                        caption,
+                        [
+                            image_input,
+                        ],
+                        [caption_output_v1],
+                    )
    # examples = gr.Examples(
    #     examples=examples,