Spaces:

srinidhidevaraj
/

Pdf_query_astra_app

Sleeping

App Files Files Community

srinidhidevaraj commited on Jun 7, 2024

Commit

0760b60

verified ·

1 Parent(s): 09cc802

Upload 3 files

Browse files

Files changed (3) hide show

app.py +158 -0
requirements.txt +26 -0
secure-connect-pdf-query-db.zip +3 -0

app.py ADDED Viewed

	@@ -0,0 +1,158 @@

+import streamlit as st
+import os
+from langchain_groq import ChatGroq
+from langchain_community.document_loaders import WebBaseLoader
+from langchain_community.embeddings import OllamaEmbeddings
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain.chains.combine_documents import create_stuff_documents_chain
+from langchain_core.prompts import ChatPromptTemplate
+from langchain.chains import create_retrieval_chain
+from langchain_community.vectorstores import FAISS
+from langchain_community.document_loaders import PyPDFLoader
+from langchain_community.document_loaders import PyPDFDirectoryLoader
+from langchain_community.embeddings import HuggingFaceBgeEmbeddings
+# from langchain.vectorstores.cassandra import Cassandra
+from langchain_community.vectorstores import Cassandra
+from langchain_community.llms import Ollama
+from cassandra.auth import PlainTextAuthProvider
+import tempfile
+import cassio
+from PyPDF2 import PdfReader
+from cassandra.cluster import Cluster
+import warnings
+warnings.filterwarnings("ignore")
+from dotenv import load_dotenv
+import time
+load_dotenv()
+ASTRA_DB_SECURE_BUNDLE_PATH ='G:/GENAI/groq_astra/secure-connect-pdf-query-db.zip'
+groq_api_key=os.environ['GROQ_API_KEY']
+os.environ["LANGCHAIN_TRACING_V2"]="true"
+os.environ["LANGCHAIN_API_KEY"]="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"
+os.environ["LANGCHAIN_PROJECT"]="pt-only-pupil-70"
+os.environ["LANGCHAIN_ENDPOINT"]="https://api.smith.langchain.com"
+ASTRA_DB_APPLICATION_TOKEN="AstraCS:SuHeqXWZDTGfvwliFFyCnCvM:29d8b2ec4888d271b8aa32b3675a20c050280680f2a95873fa33d265c889ae0d"
+ASTRA_DB_ID=os.getenv("ASTRA_DB_ID")
+ASTRA_DB_KEYSPACE="pdf_query_db"
+ASTRA_DB_API_ENDPOINT="https://68dfd628-1ad7-4951-ae84-45402a193c81-us-east1.apps.astra.datastax.com"
+ASTRA_DB_CLIENT_ID="SuHeqXWZDTGfvwliFFyCnCvM"
+ASTRA_DB_CLIENT_SECRET="JNZsN-R156.BfMJ+B4M4XvFMWNtQvxW2QZiR4kjTnPHdy9bcszr3UA-ZK7X_c_P20cKajX1_CeodPuQwJZvfWDfRfY_sEFCGdrYc2pobxoOX7UQ4p5.kIf1.oraLa-p"
+ASTRA_DB_TABLE='qa_mini_demo'
+cassio.init(token=ASTRA_DB_APPLICATION_TOKEN,database_id=ASTRA_DB_ID,secure_connect_bundle=ASTRA_DB_SECURE_BUNDLE_PATH)
+cloud_config = {
+    'secure_connect_bundle': ASTRA_DB_SECURE_BUNDLE_PATH
+}
+def doc_loader(pdf_reader):
+    encode_kwargs = {'normalize_embeddings': True}
+    huggigface_embeddings=HuggingFaceBgeEmbeddings(
+    model_name='BAAI/bge-small-en-v1.5',
+    # model_name='sentence-transformers/all-MiniLM-16-v2',
+    model_kwargs={'device':'cpu'},
+    encode_kwargs=encode_kwargs)
+    loader=PyPDFLoader(pdf_reader)
+    documents=loader.load_and_split()
+    text_splitter=RecursiveCharacterTextSplitter(chunk_size=1000,chunk_overlap=200)
+    final_documents=text_splitter.split_documents(documents)
+    astrasession = Cluster(
+    cloud={"secure_connect_bundle": ASTRA_DB_SECURE_BUNDLE_PATH},
+    auth_provider=PlainTextAuthProvider("token", ASTRA_DB_APPLICATION_TOKEN),
+    ).connect()
+    # Truncate the existing table
+    astrasession.execute(f'TRUNCATE {ASTRA_DB_KEYSPACE}.{ASTRA_DB_TABLE}')
+    astra_vector_store=Cassandra(
+    embedding=huggigface_embeddings,
+    table_name="qa_mini_demo",
+    session=astrasession,
+    keyspace=ASTRA_DB_KEYSPACE
+    )
+    astra_vector_store.add_documents(final_documents)
+    return astra_vector_store
+def prompt_temp():
+    prompt=ChatPromptTemplate.from_template(
+       """
+        Answer the question based on provided context only.
+        Your context retrieval mechanism works correclty but your are not providing answer from context.
+        Please provide the most accurate response based on question.
+        {context},
+        Questions:{input}
+        """
+    )
+    return prompt
+def generate_response(llm,prompt,user_input,vectorstore):
+    document_chain=create_stuff_documents_chain(llm,prompt)
+    retriever=vectorstore.as_retriever(search_type="similarity",search_kwargs={"k":5})
+    retrieval_chain=create_retrieval_chain(retriever,document_chain)
+    response=retrieval_chain.invoke({"input":user_input})
+    return response
+# ['answer']
+def main():
+    st.set_page_config(page_title='Chat Groq Demo')
+    st.header('Chat Groq Demo')
+    user_input=st.text_input('Enter the Prompt here')
+    file=st.file_uploader('Choose Invoice File',type='pdf')
+    submit = st.button("Submit")
+    st.session_state.submit_clicked = False
+    if submit :
+        st.session_state.submit_clicked = True
+        if user_input and file:
+            with tempfile.NamedTemporaryFile(delete=False) as temp_file:
+                temp_file.write(file.getbuffer())
+                file_path = temp_file.name
+            # with open(file.name, mode='wb') as w:
+            #     # w.write(file.getvalue())
+            #     w.write(file.getbuffer())
+            llm=ChatGroq(groq_api_key=groq_api_key,model_name="gemma-7b-it")
+            prompt=prompt_temp()
+            vectorstore=doc_loader(file_path)
+            response=generate_response(llm,prompt,user_input,vectorstore)
+            st.write(response['answer'])
+            with st.expander("Document Similarity Search"):
+                for i,doc in enumerate(response['context']):
+                        st.write(doc.page_content)
+                        st.write('---------------------------------')
+if __name__=="__main__":
+    main()

requirements.txt ADDED Viewed

	@@ -0,0 +1,26 @@

+streamlit
+google-generativeai
+python-dotenv
+langchain
+PyPDF2
+chromadb
+faiss-cpu
+langchain_google_genai
+langchain-community
+pdf2image
+langsmith
+ollama
+langserve
+fastapi
+uvicorn
+sse_starlette
+bs4
+wikipedia
+arxiv
+langchainhub
+cassio
+beautifulsoup4
+langchain-groq
+sentence_transformers
+astrapy
+"huggingface_hub[cli]"

secure-connect-pdf-query-db.zip ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:69bdfdb6791ff9cf55b799db3401220c8003642fc28f552a5e65e949c87336ea
+size 12264