Spaces:

techconspartners
/

ConversAI

Sleeping

Rauhan commited on Aug 13, 2024

Commit

e6a7560

1 Parent(s): adad220

UPDATE: ThreadPoolExecutor

Files changed (2) hide show

functions.py CHANGED Viewed

@@ -23,6 +23,7 @@ from langchain_groq import ChatGroq
 from pdf2image import convert_from_bytes
 import numpy as np
 import easyocr
 from bs4 import BeautifulSoup
 from urllib.parse import urlparse, urljoin
 from supabase import create_client
@@ -291,12 +292,15 @@ def getLinks(url: str, timeout = 30):
     return list(set([x[:len(x) - 1] if x[-1] == "/" else x for x in uniqueLinks]))
 def getTextFromImagePDF(pdfBytes):
-    global reader
-    allImages = convert_from_bytes(pdfBytes)
-    allImages = [np.array(image) for image in allImages]
-    text = "\n\n\n".join(["\n".join([text[1] for text in reader.readtext(image, paragraph=True)]) for image in allImages])
-    return text
 def getTranscript(urls: str):
     urls = urls.split(",")

 from pdf2image import convert_from_bytes
 import numpy as np
 import easyocr
+from concurrent.futures import ThreadPoolExecutor
 from bs4 import BeautifulSoup
 from urllib.parse import urlparse, urljoin
 from supabase import create_client
     return list(set([x[:len(x) - 1] if x[-1] == "/" else x for x in uniqueLinks]))
+def getText(image):
+  global reader
+  return "\n".join([text[1] for text in reader.readtext(np.array(image.resize((500, 500))), paragraph=True)])
 def getTextFromImagePDF(pdfBytes):
+    allImages = convert_from_bytes(pdfBytes)
+    with ThreadPoolExecutor() as p:
+        texts = list(p.map(getText, allImages))
+    return "\n\n\n".join(texts)
 def getTranscript(urls: str):
     urls = urls.split(",")

requirements.txt CHANGED Viewed

@@ -80,6 +80,7 @@ langchain-groq
 lxml
 PyPDF2
 python-dotenv
 pandas
 sentence-transformers
 supabase

 lxml
 PyPDF2
 python-dotenv
+pillow
 pandas
 sentence-transformers
 supabase