Spaces:

AIRider
/

blogcr111111

Sleeping

App Files Files Community

AIRider commited on Jan 13

Commit

4ecdb4b

verified ·

1 Parent(s): 4431f41

Update app.py

Browse files

Files changed (1) hide show

app.py +33 -44

app.py CHANGED Viewed

@@ -1,59 +1,48 @@
 import gradio as gr
-from selenium import webdriver
-from selenium.webdriver.chrome.service import Service
-from selenium.webdriver.common.by import By
-from selenium.webdriver.chrome.options import Options
-from webdriver_manager.chrome import ChromeDriverManager
-import time
 def scrape_blog(url):
     debug_logs = []  # 디버깅 메시지 저장용
-    # Selenium WebDriver 설정
-    chrome_options = Options()
-    chrome_options.add_argument("--headless")  # 브라우저 창을 띄우지 않음
-    chrome_options.add_argument("--no-sandbox")
-    chrome_options.add_argument("--disable-dev-shm-usage")
-    driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=chrome_options)
-    debug_logs.append("WebDriver initialized.")
     try:
-        driver.get(url)
-        debug_logs.append(f"Navigated to {url}")
-        time.sleep(3)  # 페이지 로드 대기
-        debug_logs.append("Waited for page to load.")
-        # 제목 크롤링
-        try:
-            title_xpath = "/html/body/div[7]/div[1]/div[2]/div[2]/div[2]/div[1]/div[1]/div/div[8]/div[1]/div/table[2]/tbody/tr/td[2]/div[1]/div/div[1]/div/div/div[2]/div/p/span"
-            title_element = driver.find_element(By.XPATH, title_xpath)
-            title = title_element.text.strip()
-            debug_logs.append(f"Title extracted: {title}")
-        except Exception as e:
-            title = "Error extracting title"
-            debug_logs.append(f"Error extracting title: {e}")
-        # 내용 크롤링
-        try:
-            content_xpath = "/html/body/div[7]/div[1]/div[2]/div[2]/div[2]/div[1]/div[1]/div/div[8]/div[1]/div/table[2]/tbody/tr/td[2]/div[1]/div/div[3]/div[4]/div/div/div/p[1]/span"
-            content_element = driver.find_element(By.XPATH, content_xpath)
-            content = content_element.text.strip()
-            debug_logs.append(f"Content extracted: {content}")
-        except Exception as e:
-            content = "Error extracting content"
-            debug_logs.append(f"Error extracting content: {e}")
     except Exception as e:
         title = "Error accessing blog"
         content = "Error accessing blog"
         debug_logs.append(f"Error accessing blog: {e}")
-    finally:
-        driver.quit()
-        debug_logs.append("WebDriver closed.")
     return {"title": title, "content": content, "debug_logs": debug_logs}
 def interface_function(url):

 import gradio as gr
+import requests
+from bs4 import BeautifulSoup
 def scrape_blog(url):
     debug_logs = []  # 디버깅 메시지 저장용
     try:
+        # HTTP 요청 보내기
+        response = requests.get(url, headers={"User-Agent": "Mozilla/5.0"})
+        debug_logs.append(f"Request sent to {url}")
+        # 응답 확인
+        if response.status_code == 200:
+            debug_logs.append("Successfully fetched the webpage.")
+            soup = BeautifulSoup(response.text, 'html.parser')
+            # 제목 크롤링
+            try:
+                title_element = soup.select_one("div.se-title-text span")
+                title = title_element.get_text(strip=True) if title_element else "Title not found"
+                debug_logs.append(f"Title extracted: {title}")
+            except Exception as e:
+                title = "Error extracting title"
+                debug_logs.append(f"Error extracting title: {e}")
+            # 내용 크롤링
+            try:
+                content_element = soup.select_one("div.se-main-container span")
+                content = content_element.get_text(strip=True) if content_element else "Content not found"
+                debug_logs.append(f"Content extracted: {content}")
+            except Exception as e:
+                content = "Error extracting content"
+                debug_logs.append(f"Error extracting content: {e}")
+        else:
+            title = "Error accessing blog"
+            content = "Error accessing blog"
+            debug_logs.append(f"Error accessing blog: Status code {response.status_code}")
     except Exception as e:
         title = "Error accessing blog"
         content = "Error accessing blog"
         debug_logs.append(f"Error accessing blog: {e}")
     return {"title": title, "content": content, "debug_logs": debug_logs}
 def interface_function(url):