Spaces:

Luciferalive
/

goosev9

Sleeping

App Files Files Community

Luciferalive commited on Jun 17, 2024

Commit

694ee68

verified ·

1 Parent(s): fbc8219

Update app.py

Browse files

Files changed (1) hide show

app.py +18 -49

app.py CHANGED Viewed

@@ -5,7 +5,6 @@ import numpy as np
 import pytesseract
 from PIL import Image
 from typing import List
-from docx import Document
 from sentence_transformers import SentenceTransformer
 from langchain_community.vectorstores import Chroma
 from langchain.text_splitter import RecursiveCharacterTextSplitter
@@ -13,25 +12,12 @@ from langchain_community.embeddings import SentenceTransformerEmbeddings
 from groq import Groq
 import gradio as gr
 import requests
-from zipfile import ZipFile
 # Ensure the Tesseract OCR path is set correctly
 pytesseract.pytesseract.tesseract_cmd = r'/usr/bin/tesseract'
 GROQ_API_KEY = "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"
-def extract_text_from_doc(doc_content):
-    """Extract text from DOC file content."""
-    try:
-        with ZipFile(io.BytesIO(doc_content)) as zip_file:
-            xml_content = zip_file.read('word/document.xml')
-            doc = Document(io.BytesIO(xml_content))
-            extracted_text = "\n".join([paragraph.text for paragraph in doc.paragraphs])
-            return extracted_text
-    except Exception as e:
-        print("Failed to extract text from DOC:", e)
-        return ""
 def preprocess_text(text):
     try:
         text = text.replace('\n', ' ').replace('\r', ' ')
@@ -44,14 +30,6 @@ def preprocess_text(text):
         print("Failed to preprocess text:", e)
         return ""
-def process_files(file_contents: List[bytes]):
-    all_text = ""
-    for file_content in file_contents:
-        extracted_text = extract_text_from_doc(file_content)
-        preprocessed_text = preprocess_text(extracted_text)
-        all_text += preprocessed_text + " "
-    return all_text
 def compute_cosine_similarity_scores(query, retrieved_docs):
     model = SentenceTransformer("sentence-transformers/all-mpnet-base-v2")
     query_embedding = model.encode(query, convert_to_tensor=True)
@@ -60,26 +38,22 @@ def compute_cosine_similarity_scores(query, retrieved_docs):
     readable_scores = [{"doc": doc, "score": float(score)} for doc, score in zip(retrieved_docs, cosine_scores.flatten())]
     return readable_scores
-def fetch_files_from_huggingface_space():
-    base_url = "https://huggingface.co/spaces/Luciferalive/goosev9/blob/main/"
-    file_names = [f"{i}.docx" for i in range(2, 22)]
-    file_contents = []
-    for file_name in file_names:
-        file_url = f"{base_url}{file_name}"
-        try:
-            response = requests.get(file_url)
-            response.raise_for_status()
-            file_contents.append(response.content)
-            print(f"Successfully downloaded {file_name}")
-        except Exception as e:
-            print(f"Failed to download {file_name}: {e}")
-    return file_contents
-def create_vector_store(all_text):
     embeddings = SentenceTransformerEmbeddings(model_name="sentence-transformers/all-mpnet-base-v2")
     text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
-    texts = text_splitter.split_text(all_text)
     if not texts:
         print("No text chunks created.")
         return None
@@ -102,17 +76,12 @@ def answer_query_with_similarity(query):
     try:
         vector_store = load_vector_store()
         if not vector_store:
-            file_contents = fetch_files_from_huggingface_space()
-            if not file_contents:
-                print("No files fetched from Hugging Face Space.")
-                return None
-            all_text = process_files(file_contents)
-            if not all_text.strip():
-                print("No text extracted from documents.")
                 return None
-            vector_store = create_vector_store(all_text)
             if not vector_store:
                 print("Failed to create Vector DB.")
                 return None

 import pytesseract
 from PIL import Image
 from typing import List
 from sentence_transformers import SentenceTransformer
 from langchain_community.vectorstores import Chroma
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 from groq import Groq
 import gradio as gr
 import requests
 # Ensure the Tesseract OCR path is set correctly
 pytesseract.pytesseract.tesseract_cmd = r'/usr/bin/tesseract'
 GROQ_API_KEY = "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"
 def preprocess_text(text):
     try:
         text = text.replace('\n', ' ').replace('\r', ' ')
         print("Failed to preprocess text:", e)
         return ""
 def compute_cosine_similarity_scores(query, retrieved_docs):
     model = SentenceTransformer("sentence-transformers/all-mpnet-base-v2")
     query_embedding = model.encode(query, convert_to_tensor=True)
     readable_scores = [{"doc": doc, "score": float(score)} for doc, score in zip(retrieved_docs, cosine_scores.flatten())]
     return readable_scores
+def fetch_text_file_from_huggingface_space():
+    url = "https://huggingface.co/spaces/Luciferalive/goosev9/blob/main/extracted_text.txt"
+    try:
+        response = requests.get(url)
+        response.raise_for_status()
+        text_content = response.text
+        print("Successfully downloaded the text file")
+        return text_content
+    except Exception as e:
+        print(f"Failed to download the text file: {e}")
+        return ""
+def create_vector_store(text_content):
     embeddings = SentenceTransformerEmbeddings(model_name="sentence-transformers/all-mpnet-base-v2")
     text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
+    texts = text_splitter.split_text(text_content)
     if not texts:
         print("No text chunks created.")
         return None
     try:
         vector_store = load_vector_store()
         if not vector_store:
+            text_content = fetch_text_file_from_huggingface_space()
+            if not text_content.strip():
+                print("No text content fetched.")
                 return None
+            vector_store = create_vector_store(text_content)
             if not vector_store:
                 print("Failed to create Vector DB.")
                 return None