Spaces:

Shreyas094
/

SearXNG-Engine

Sleeping

App Files Files Community

Shreyas094 commited on Sep 27, 2024

Commit

da860a3

verified ·

1 Parent(s): f89b7c9

Update app.py

Browse files

Files changed (1) hide show

app.py +38 -12

app.py CHANGED Viewed

@@ -16,26 +16,27 @@ USER_AGENTS = [
 def get_random_user_agent():
     return random.choice(USER_AGENTS)
-def extract_content_bs4(url):
     try:
         response = requests.get(url, headers={'User-Agent': get_random_user_agent()}, timeout=10)
         soup = BeautifulSoup(response.content, 'html.parser')
         paragraphs = soup.find_all('p')
         content = ' '.join([p.text for p in paragraphs])
-        return content[:1000] + "..." if len(content) > 1000 else content
     except Exception as e:
         return f"Error extracting content: {str(e)}"
-def extract_content_trafilatura(url):
     try:
         downloaded = trafilatura.fetch_url(url, headers={'User-Agent': get_random_user_agent()})
         content = trafilatura.extract(downloaded, include_comments=False, include_tables=False)
-        return content[:1000] + "..." if content and len(content) > 1000 else content
     except Exception as e:
         return f"Error extracting content: {str(e)}"
 def search_searx(query, instance_url='https://searx.org', categories='general', max_retries=3, num_results=10,
-                 use_trafilatura=False, time_range='', language='en', safesearch=0):
     """
     Perform a search using the SearXNG API with advanced options.
     """
@@ -48,7 +49,9 @@ def search_searx(query, instance_url='https://searx.org', categories='general',
         'time_range': time_range,
         'language': language,
         'safesearch': safesearch,
-        'results': str(num_results)
     }
     headers = {
@@ -76,9 +79,9 @@ def search_searx(query, instance_url='https://searx.org', categories='general',
                 url = result.get('url', 'No URL')
                 if use_trafilatura:
-                    content = extract_content_trafilatura(url)
                 else:
-                    content = extract_content_bs4(url)
                 formatted_results += f"**{idx}. {title}**\n[{url}]({url})\n{content}\n\n"
@@ -94,7 +97,7 @@ def search_searx(query, instance_url='https://searx.org', categories='general',
 def create_gradio_interface():
     """
-    Creates and returns the Gradio interface with advanced SearXNG options.
     """
     with gr.Blocks() as demo:
         gr.Markdown("# 🕵️‍♂️ Advanced SearXNG Search with Content Extraction")
@@ -146,17 +149,40 @@ def create_gradio_interface():
                     step=1,
                     label="SafeSearch (0: Off, 1: Moderate, 2: Strict)"
                 )
                 search_button = gr.Button("Search")
             with gr.Column():
                 results = gr.Markdown("### Search Results will appear here...")
-        def perform_search(q, url, cats, num, use_traf, t_range, lang, safe):
             return search_searx(q, instance_url=url, categories=cats, num_results=int(num),
-                                use_trafilatura=use_traf, time_range=t_range, language=lang, safesearch=int(safe))
         search_button.click(
             perform_search,
-            inputs=[query, instance_url, categories, num_results, use_trafilatura, time_range, language, safesearch],
             outputs=results
         )

 def get_random_user_agent():
     return random.choice(USER_AGENTS)
+def extract_content_bs4(url, max_chars):
     try:
         response = requests.get(url, headers={'User-Agent': get_random_user_agent()}, timeout=10)
         soup = BeautifulSoup(response.content, 'html.parser')
         paragraphs = soup.find_all('p')
         content = ' '.join([p.text for p in paragraphs])
+        return content[:max_chars] + "..." if len(content) > max_chars else content
     except Exception as e:
         return f"Error extracting content: {str(e)}"
+def extract_content_trafilatura(url, max_chars):
     try:
         downloaded = trafilatura.fetch_url(url, headers={'User-Agent': get_random_user_agent()})
         content = trafilatura.extract(downloaded, include_comments=False, include_tables=False)
+        return content[:max_chars] + "..." if content and len(content) > max_chars else content
     except Exception as e:
         return f"Error extracting content: {str(e)}"
 def search_searx(query, instance_url='https://searx.org', categories='general', max_retries=3, num_results=10,
+                 use_trafilatura=False, time_range='', language='en', safesearch=0, search_engines='all',
+                 sort_by='relevance', max_chars=1000):
     """
     Perform a search using the SearXNG API with advanced options.
     """
         'time_range': time_range,
         'language': language,
         'safesearch': safesearch,
+        'results': str(num_results),
+        'engines': ','.join(search_engines) if 'all' not in search_engines else 'all',
+        'sort': sort_by
     }
     headers = {
                 url = result.get('url', 'No URL')
                 if use_trafilatura:
+                    content = extract_content_trafilatura(url, max_chars)
                 else:
+                    content = extract_content_bs4(url, max_chars)
                 formatted_results += f"**{idx}. {title}**\n[{url}]({url})\n{content}\n\n"
 def create_gradio_interface():
     """
+    Creates and returns the Gradio interface with advanced SearXNG options and new parameters.
     """
     with gr.Blocks() as demo:
         gr.Markdown("# 🕵️‍♂️ Advanced SearXNG Search with Content Extraction")
                     step=1,
                     label="SafeSearch (0: Off, 1: Moderate, 2: Strict)"
                 )
+                # New parameters
+                search_engines = gr.Dropdown(
+                    choices=["all", "google", "bing", "duckduckgo", "wikipedia"],
+                    value="all",
+                    label="Search Engines",
+                    multiselect=True
+                )
+                sort_by = gr.Dropdown(
+                    choices=["relevance", "date"],
+                    value="relevance",
+                    label="Sort Results By"
+                )
+                max_chars = gr.Slider(
+                    minimum=100,
+                    maximum=10000,
+                    value=1000,
+                    step=100,
+                    label="Max Characters to Extract"
+                )
                 search_button = gr.Button("Search")
             with gr.Column():
                 results = gr.Markdown("### Search Results will appear here...")
+        def perform_search(q, url, cats, num, use_traf, t_range, lang, safe, engines, sort, chars):
             return search_searx(q, instance_url=url, categories=cats, num_results=int(num),
+                                use_trafilatura=use_traf, time_range=t_range, language=lang, safesearch=int(safe),
+                                search_engines=engines, sort_by=sort, max_chars=chars)
         search_button.click(
             perform_search,
+            inputs=[query, instance_url, categories, num_results, use_trafilatura, time_range, language, safesearch,
+                    search_engines, sort_by, max_chars],
             outputs=results
         )