Spaces:

TarunEnma
/

RetreivalData

Sleeping

TarunEnma commited on May 20, 2024

Commit

50e6b2d

verified ·

1 Parent(s): da79f7c

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,4 +1,11 @@
 import streamlit as st
 class TextLoader:
     def __init__(self, file):
@@ -14,7 +21,18 @@ if uploaded_file is not None:
         f.write(uploaded_file.getbuffer())
 text_loader = TextLoader(open("uploaded_file.txt","rb"))
-file_content = text_loader.load()
 # st.write("File content:")
 # st.text(file_content)

 import streamlit as st
+from langchain_community.document_loaders import TextLoader
+from langchain.text_splitter import CharacterTextSplitter
+from langchain.embeddings import OpenAIEmbeddings
+from langchain_community.vectorstores import Chroma
+from langchain.chains import RetrievalQA
+from langchain.embeddings.sentence_transformer import SentenceTransformerEmbeddings
 class TextLoader:
     def __init__(self, file):
         f.write(uploaded_file.getbuffer())
 text_loader = TextLoader(open("uploaded_file.txt","rb"))
+documents = text_loader.load()
+text_splitter = CharacterTextSplitter (chunk_size=200,
+chunk_overlap=0)
+texts= text_splitter.split_documents(documents)
+embeddings = SentenceTransformerEmbeddings(model_name="all-MiniLM-L6-v2")
+db = Chroma.from_documents(texts, embeddings)
+db._collection.get(include=['embeddings'])
+retriever = db.as_retriever(search_kwargs={"k": 1})
+docs = retriever.get_relevant_documents("What is the capital of india?")
+st.write("Answer")
+st.text(docs)
 # st.write("File content:")
 # st.text(file_content)