Construction_Snag_Tool_Llama_3.2_Vision

Sleeping

App Files Files Community

capradeepgujaran commited on Oct 18, 2024

Commit

16d08c3

verified ·

1 Parent(s): 469aa82

Update app.py

Browse files

Files changed (1) hide show

app.py +62 -44

app.py CHANGED Viewed

@@ -8,6 +8,7 @@ from groq import Groq
 import logging
 import cv2
 import numpy as np
 # Set up logging
 logging.basicConfig(level=logging.DEBUG)
@@ -41,7 +42,33 @@ def encode_image(image):
         logger.error(f"Error encoding image: {str(e)}")
         raise
-def analyze_construction_image(images, video=None):
     if not images and video is None:
         logger.warning("No images or video provided")
         return [("No input", "Error: Please upload images or a video for analysis.")]
@@ -53,7 +80,8 @@ def analyze_construction_image(images, video=None):
         if images:
             for i, image_file in enumerate(images):
                 image = Image.open(image_file.name)
-                image_data_url = f"data:image/png;base64,{encode_image(image)}"
                 messages = [
                     {
                         "role": "user",
@@ -84,54 +112,44 @@ def analyze_construction_image(images, video=None):
                 results.append((f"Image {i+1} analysis", result))
         if video:
-            cap = cv2.VideoCapture(video.name)
-            frame_count = int(cap.get(cv2.CAP_PROP_FRAME_COUNT))
-            fps = int(cap.get(cv2.CAP_PROP_FPS))
-            duration = frame_count / fps
-            # Analyze frames at 0%, 25%, 50%, 75%, and 100% of the video duration
-            for i, time_point in enumerate([0, 0.25, 0.5, 0.75, 1]):
-                cap.set(cv2.CAP_PROP_POS_MSEC, time_point * duration * 1000)
-                ret, frame = cap.read()
-                if ret:
-                    image_data_url = f"data:image/png;base64,{encode_image(frame)}"
-                    messages = [
-                        {
-                            "role": "user",
-                            "content": [
-                                {
-                                    "type": "text",
-                                    "text": f"Analyze this frame from a construction site video (Frame {i+1}/5 at {time_point*100}% of video duration). Identify any safety issues or hazards, categorize them, provide a detailed description, and suggest steps to resolve them."
-                                },
-                                {
-                                    "type": "image_url",
-                                    "image_url": {
-                                        "url": image_data_url
-                                    }
                                 }
-                            ]
-                        }
-                    ]
-                    completion = client.chat.completions.create(
-                        model="llama-3.2-90b-vision-preview",
-                        messages=messages,
-                        temperature=0.7,
-                        max_tokens=1000,
-                        top_p=1,
-                        stream=False,
-                        stop=None
-                    )
-                    result = completion.choices[0].message.content
-                    results.append((f"Video frame {i+1} analysis", result))
-            cap.release()
         logger.info("Analysis completed successfully")
         return results
     except Exception as e:
         logger.error(f"Error during analysis: {str(e)}")
-        logger.error(traceback.format_exc())
-        error_message = f"Error during analysis: {str(e)}. Please try again or contact support if the issue persists."
-        return [("Analysis error", error_message)]
 def chat_about_image(message, chat_history):
     try:

 import logging
 import cv2
 import numpy as np
+import traceback
 # Set up logging
 logging.basicConfig(level=logging.DEBUG)
         logger.error(f"Error encoding image: {str(e)}")
         raise
+def resize_image(image, max_size=(800, 800)):
+    """Resize image to avoid exceeding the API size limits."""
+    try:
+        image.thumbnail(max_size, Image.ANTIALIAS)
+        return image
+    except Exception as e:
+        logger.error(f"Error resizing image: {str(e)}")
+        raise
+def extract_frames_from_video(video, frame_points=[0, 0.5, 1], max_size=(800, 800)):
+    """Extract key frames from the video at specific time points."""
+    cap = cv2.VideoCapture(video)
+    frame_count = int(cap.get(cv2.CAP_PROP_FRAME_COUNT))
+    fps = int(cap.get(cv2.CAP_PROP_FPS))
+    duration = frame_count / fps
+    frames = []
+    for time_point in frame_points:
+        cap.set(cv2.CAP_PROP_POS_MSEC, time_point * duration * 1000)
+        ret, frame = cap.read()
+        if ret:
+            resized_frame = cv2.resize(frame, max_size)
+            frames.append(resized_frame)
+    cap.release()
+    return frames
+def analyze_construction_image(images=None, video=None):
     if not images and video is None:
         logger.warning("No images or video provided")
         return [("No input", "Error: Please upload images or a video for analysis.")]
         if images:
             for i, image_file in enumerate(images):
                 image = Image.open(image_file.name)
+                resized_image = resize_image(image)  # Resize image before processing
+                image_data_url = f"data:image/png;base64,{encode_image(resized_image)}"
                 messages = [
                     {
                         "role": "user",
                 results.append((f"Image {i+1} analysis", result))
         if video:
+            frames = extract_frames_from_video(video.name)  # Extract fewer frames from video
+            for i, frame in enumerate(frames):
+                image_data_url = f"data:image/png;base64,{encode_image(frame)}"
+                messages = [
+                    {
+                        "role": "user",
+                        "content": [
+                            {
+                                "type": "text",
+                                "text": f"Analyze this frame from a construction site video (Frame {i+1}/5). Identify any safety issues or hazards, categorize them, provide a detailed description, and suggest steps to resolve them."
+                            },
+                            {
+                                "type": "image_url",
+                                "image_url": {
+                                    "url": image_data_url
                                 }
+                            }
+                        ]
+                    }
+                ]
+                completion = client.chat.completions.create(
+                    model="llama-3.2-90b-vision-preview",
+                    messages=messages,
+                    temperature=0.7,
+                    max_tokens=1000,
+                    top_p=1,
+                    stream=False,
+                    stop=None
+                )
+                result = completion.choices[0].message.content
+                results.append((f"Video frame {i+1} analysis", result))
         logger.info("Analysis completed successfully")
         return results
     except Exception as e:
         logger.error(f"Error during analysis: {str(e)}")
+        logger.error(traceback.format_exc())  # Log the full traceback for debugging
+        return [("Analysis error", f"Error during analysis: {str(e)}")]
 def chat_about_image(message, chat_history):
     try: