Revert "fix: Enhance URL validation for image downloads- Improved the URL validation in the download_image function.- Used requests.utils.urlparse to parse the URL and check for a valid scheme and netloc.- Ensured the URL path does not contain invalid labels (e.g., ..).- This prevents the script from attempting to download images with invalid URLs and provides clearer error messages."

Files changed (1) hide show

crawl/crawl CHANGED Viewed

@@ -76,11 +76,10 @@ def download_image(session, image_url, save_dir):
             image_url = "https://" + image_url.lstrip("/")
         # Check if the URL is valid
-        parsed_url = requests.utils.urlparse(image_url)
-        if not parsed_url.scheme or not parsed_url.netloc or ".." in parsed_url.path:
             raise ValueError(f"Invalid URL: {image_url}")
-        image_filename = os.path.basename(parsed_url.path).split("?")[0]
         sanitized_image_filename = sanitize_filename(image_filename)
         image_path = os.path.join(save_dir, sanitized_image_filename)

             image_url = "https://" + image_url.lstrip("/")
         # Check if the URL is valid
+        if ".." in image_url:
             raise ValueError(f"Invalid URL: {image_url}")
+        image_filename = os.path.basename(image_url).split("?")[0]
         sanitized_image_filename = sanitize_filename(image_filename)
         image_path = os.path.join(save_dir, sanitized_image_filename)