EyeSee_chi

Running

App Files Files Community

Niki Zhang commited on Jun 2, 2024

Commit

7cbc2fd

verified ·

1 Parent(s): 4377520

Update app.py

Browse files

Fixed the issue of overlapping captions

Files changed (1) hide show

app.py +39 -7

app.py CHANGED Viewed

@@ -1,3 +1,4 @@
 import os
 import base64
 import json
@@ -26,7 +27,7 @@ import tts
 ###############################################################################
-#import spaces
 import os
 import imageio
@@ -280,7 +281,7 @@ def make3d(images):
 gpt_state = 0
 article = """
 <div style='margin:20px auto;'>
 <p>By using this demo you agree to the terms of the Coqui Public Model License at https://coqui.ai/cpml</p>
@@ -532,7 +533,8 @@ def inference_click(image_input, point_prompt, click_mode, enable_wiki, language
     print(generated_caption)
     print("new crop save",new_crop_save_path)
-    yield state, state, click_state, image_input_nobackground, image_input_withbackground, generated_caption, click_index_state, input_mask_state, input_points_state, input_labels_state, out_state,new_crop_save_path
@@ -541,11 +543,27 @@ def submit_caption(image_input, state, generated_caption, text_refiner, visual_c
                    out_state, click_index_state, input_mask_state, input_points_state, input_labels_state,
                    input_text, input_language, input_audio, input_mic, use_mic, agree,paragraph,focus_type,openai_api_key,new_crop_save_path):
     print("state",state)
     click_index = click_index_state
     input_mask = input_mask_state
     input_points = input_points_state
     input_labels = input_labels_state
     focus_map = {
     "CFV-D":0,
     "CFV-DA":1,
@@ -604,10 +622,13 @@ def submit_caption(image_input, state, generated_caption, text_refiner, visual_c
         if not args.disable_gpt and text_refiner:
             print("new crop save",new_crop_save_path)
             focus_info=get_image_gpt(openai_api_key,new_crop_save_path,prompt)
             # state = state + [(None, f"Wiki: {paragraph}")]
             state = state + [(None, f"Focus_Caption: {focus_info}")]
             print("new_cap",focus_info)
             refined_image_input = create_bubble_frame(np.array(origin_image_input), focus_info, click_index, input_mask,
                                                       input_points=input_points, input_labels=input_labels)
             try:
@@ -774,7 +795,7 @@ def export_chat_log(chat_state):
             return None
         chat_log = "\n".join(f"{entry[0]}\n{entry[1]}" for entry in chat_state if entry)
         print("export log...")
-        print("chat_log",chat_log)
         with tempfile.NamedTemporaryFile(delete=False, suffix=".txt") as temp_file:
             temp_file.write(chat_log.encode('utf-8'))
             temp_file_path = temp_file.name
@@ -881,6 +902,7 @@ def create_ui():
         input_points_state = gr.State([])
         input_labels_state = gr.State([])
         new_crop_save_path = gr.State(None)
@@ -1028,6 +1050,7 @@ def create_ui():
                         submit_tts = gr.Button(value="Submit", interactive=True)
                         clear_tts = gr.Button(value="Clear", interactive=True)
         ###############################################################################
         # this part is for 3d generate.
@@ -1276,9 +1299,9 @@ def create_ui():
             inputs=[
                 origin_image, point_prompt, click_mode, enable_wiki, language, sentiment, factuality, length,
                 image_embedding, state, click_state, original_size, input_size, text_refiner, visual_chatgpt,
-                out_state, click_index_state, input_mask_state, input_points_state, input_labels_state
             ],
-            outputs=[chatbot, state, click_state, image_input, input_image, generated_caption, click_index_state, input_mask_state, input_points_state, input_labels_state, out_state,new_crop_save_path],
             show_progress=False, queue=True
         )
@@ -1297,6 +1320,15 @@ def create_ui():
             show_progress=True,
             queue=True
         )

+from math import inf
 import os
 import base64
 import json
 ###############################################################################
+import spaces
 import os
 import imageio
 gpt_state = 0
+pre_click_index=(inf, inf)
 article = """
 <div style='margin:20px auto;'>
 <p>By using this demo you agree to the terms of the Coqui Public Model License at https://coqui.ai/cpml</p>
     print(generated_caption)
     print("new crop save",new_crop_save_path)
+    yield state, state, click_state, image_input_nobackground, image_input_withbackground, generated_caption, click_index_state, input_mask_state, input_points_state, input_labels_state, out_state,new_crop_save_path,image_input_nobackground
                    out_state, click_index_state, input_mask_state, input_points_state, input_labels_state,
                    input_text, input_language, input_audio, input_mic, use_mic, agree,paragraph,focus_type,openai_api_key,new_crop_save_path):
     print("state",state)
+    global pre_click_index
     click_index = click_index_state
+    # if pre_click_index==click_index:
+    #     click_index = (click_index[0] - 1, click_index[1] - 1)
+    #     pre_click_index = click_index
+    # else:
+    #     pre_click_index = click_index
+    print("click_index",click_index)
+    print("pre_click_index",pre_click_index)
+    print("input_points_state",input_points_state)
+    print("input_labels_state",input_labels_state)
     input_mask = input_mask_state
     input_points = input_points_state
     input_labels = input_labels_state
     focus_map = {
     "CFV-D":0,
     "CFV-DA":1,
         if not args.disable_gpt and text_refiner:
             print("new crop save",new_crop_save_path)
             focus_info=get_image_gpt(openai_api_key,new_crop_save_path,prompt)
+            if focus_info.startswith('"') and focus_info.endswith('"'):
+                focus_info=focus_info[1:-1]
             # state = state + [(None, f"Wiki: {paragraph}")]
             state = state + [(None, f"Focus_Caption: {focus_info}")]
             print("new_cap",focus_info)
             refined_image_input = create_bubble_frame(np.array(origin_image_input), focus_info, click_index, input_mask,
                                                       input_points=input_points, input_labels=input_labels)
             try:
             return None
         chat_log = "\n".join(f"{entry[0]}\n{entry[1]}" for entry in chat_state if entry)
         print("export log...")
+        print("chat_log", chat_log)
         with tempfile.NamedTemporaryFile(delete=False, suffix=".txt") as temp_file:
             temp_file.write(chat_log.encode('utf-8'))
             temp_file_path = temp_file.name
         input_points_state = gr.State([])
         input_labels_state = gr.State([])
         new_crop_save_path = gr.State(None)
+        image_input_nobackground = gr.State(None)
                         submit_tts = gr.Button(value="Submit", interactive=True)
                         clear_tts = gr.Button(value="Clear", interactive=True)
         ###############################################################################
         # this part is for 3d generate.
             inputs=[
                 origin_image, point_prompt, click_mode, enable_wiki, language, sentiment, factuality, length,
                 image_embedding, state, click_state, original_size, input_size, text_refiner, visual_chatgpt,
+                out_state, click_index_state, input_mask_state, input_points_state, input_labels_state,
             ],
+            outputs=[chatbot, state, click_state, image_input, input_image, generated_caption, click_index_state, input_mask_state, input_points_state, input_labels_state, out_state,new_crop_save_path,image_input_nobackground],
             show_progress=False, queue=True
         )
             show_progress=True,
             queue=True
         )
+        focus_type.change(
+           lambda x: ([[], [], []], x),
+            [image_input_nobackground],
+            [click_state, image_input],
+            queue=False,
+            show_progress=False
+        )