Spaces:

pryanshusharma
/

PrmScrp

Sleeping

pryanshusharma commited on Aug 7, 2024

Commit

a69569c

verified ·

1 Parent(s): c5e1cb7

Update degruyterscrapper.py

Files changed (1) hide show

degruyterscrapper.py CHANGED Viewed

@@ -29,14 +29,18 @@ def get_headers(data: str) -> dict:
 def getLinks(url: str) -> list:
     browser = requests.session()
-    # url = f"https://www.degruyter.com/journal/key/fca/{volume}/{issue}/html"
     data = browser.get(url)
     fullPage = BeautifulSoup(data.text, "lxml")
-    links = fullPage.find("div", {"id" : "issue-subject-group-researchpaper"})
-    output = []
-    for link in links.findAll("div", {"class" : "text-container"}):
-        link = link.find("a", {"class" : "issueContentsArticleLink linkHoverDark d-inline-block"}).get("href")
-        output.append(f"https://www.degruyter.com{link}")
     return output
 def get_author_details(url: str) -> list:

 def getLinks(url: str) -> list:
     browser = requests.session()
     data = browser.get(url)
     fullPage = BeautifulSoup(data.text, "lxml")
+    try:
+        links = fullPage.find("div", {"id" : "issue-subject-group-researchpaper"})
+        output = []
+        for link in links.findAll("div", {"class" : "text-container"}):
+            link = link.find("a", {"class" : "issueContentsArticleLink linkHoverDark d-inline-block"}).get("href")
+            output.append(f"https://www.degruyter.com{link}")
+    except:
+        links = fullPage.findAll("a", {"class" : "issueContentsArticleLink linkHoverDark d-inline-block"})
+        for link in links:
+            output.append(f"https://www.degruyter.com{link.get('href')}")
     return output
 def get_author_details(url: str) -> list: