Spaces:

marcelo-castro-cardoso
/

chat_app

Sleeping

App Files Files Community

marcelo-castro-cardoso commited on Jan 10

Commit

b1df1e0

•

1 Parent(s): 3a204c1

deploy

Browse files

Files changed (8) hide show

app.py +94 -0
data/276376-convite-menor_preco_por_lote-false-obras.pdf +0 -0
requirements.txt +5 -0
storage/default__vector_store.json +0 -0
storage/docstore.json +0 -0
storage/graph_store.json +1 -0
storage/image__vector_store.json +1 -0
storage/index_store.json +1 -0

app.py ADDED Viewed

	@@ -0,0 +1,94 @@

+import gradio as gr
+import os
+from llama_index import (
+    VectorStoreIndex,
+    SimpleDirectoryReader,
+    StorageContext,
+    ServiceContext,
+    load_index_from_storage,
+)
+from llama_index.llms import OpenAI
+from llama_index.memory import ChatMemoryBuffer
+from llama_index.prompts import ChatPromptTemplate, ChatMessage, MessageRole
+from llama_index.embeddings import LangchainEmbedding
+import tiktoken
+from llama_index.text_splitter import SentenceSplitter
+from langchain.embeddings import HuggingFaceEmbeddings
+# criação do embeding LangChain
+lc_embed_model = HuggingFaceEmbeddings(
+    model_name="sentence-transformers/all-mpnet-base-v2"
+)
+# mapeamento do embeding LangChain para o embeding LlamaIndex
+embed_model = LangchainEmbedding(lc_embed_model)
+# max_tokens: o tamanho máximo da resposta a ser dada
+llm = OpenAI(temperature=0.3, model='gpt-3.5-turbo', max_tokens=1024)
+# quebra inteligênte das sentenças, combinando separadores, tokenizadores e chunks
+text_splitter = SentenceSplitter(
+  separator=" ", chunk_size=1000, chunk_overlap=200,
+  paragraph_separator="  \n \n", secondary_chunking_regex="[^,.;。]+[,.;。]?",
+  tokenizer=tiktoken.encoding_for_model("gpt-3.5-turbo").encode
+)
+# cria um serviço de contexto para configurar a criação do indice
+service_context = ServiceContext.from_defaults(llm=llm, embed_model=embed_model, text_splitter=text_splitter)
+# verifica se a pasta storage existe localmente
+PERSIST_DIR = "./storage"
+if not os.path.exists(PERSIST_DIR):
+    # caso não exista lê os documentos da pasta e cria um índice
+    documents = SimpleDirectoryReader("./data").load_data()
+    # cria um indice utilizando um contexto de serviços
+    index = VectorStoreIndex.from_documents(documents, service_context=service_context)
+    # depois, armazena o índice na pasta
+    index.storage_context.persist(persist_dir=PERSIST_DIR)
+else:
+    # caso a pasta exista, lê o índice existente
+    storage_context = StorageContext.from_defaults(persist_dir=PERSIST_DIR)
+    index = load_index_from_storage(storage_context, service_context=service_context)
+# define um prompt para o chat
+message_templates = [
+    ChatMessage(role=MessageRole.SYSTEM,
+        content='''Você é um sistema especialista que sabe responder perguntas relacionadas ao contexto abaixo.
+        ------------------
+        {context_str}
+        ------------------'''
+    ),
+    ChatMessage(role=MessageRole.SYSTEM,
+        context='''Para responder leve em consideração as perguntas e respostas dadas anteriormente.'''
+    ),
+    ChatMessage(role=MessageRole.USER,
+        content='''Utilizando o histórico de conversação e o contexto armazenado iteraja e ajude o usuário.'''
+    ),
+]
+chat_template = ChatPromptTemplate(message_templates=message_templates)
+# Definir uma memória de mensagens anteriores
+memory = ChatMemoryBuffer.from_defaults(token_limit=3900)
+chat_engine = index.as_chat_engine(
+    chat_mode="condense_plus_context",
+    memory=memory,
+    context_prompt=chat_template,
+)
+# consulta o índice local
+def slow_echo(message, history):
+    response_gen = chat_engine.stream_chat(message)
+    response = ""
+    for token in response_gen.response_gen:
+        response = response + token
+        yield response
+# cria a interface com o gradio
+demo = gr.ChatInterface(slow_echo).queue()
+if __name__ == "__main__":
+    demo.launch(share=True)

data/276376-convite-menor_preco_por_lote-false-obras.pdf ADDED Viewed

Binary file (779 kB). View file

requirements.txt ADDED Viewed

	@@ -0,0 +1,5 @@

+gradio
+llama-index==0.9.26
+langchain==0.0.348
+pypdf
+sentence_transformers

storage/default__vector_store.json ADDED Viewed

The diff for this file is too large to render. See raw diff

storage/docstore.json ADDED Viewed

The diff for this file is too large to render. See raw diff

storage/graph_store.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"graph_dict": {}}

storage/image__vector_store.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"embedding_dict": {}, "text_id_to_ref_doc_id": {}, "metadata_dict": {}}

storage/index_store.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"index_store/data": {"dddeb7a6-b8bf-4920-90fe-17bd593c5a79": {"__type__": "vector_store", "__data__": "{\"index_id\": \"dddeb7a6-b8bf-4920-90fe-17bd593c5a79\", \"summary\": null, \"nodes_dict\": {\"1bbbab2e-f03f-415f-b0bf-49197cf33e0a\": \"1bbbab2e-f03f-415f-b0bf-49197cf33e0a\", \"8300bdcd-b17a-4107-9ab7-97951f6f4691\": \"8300bdcd-b17a-4107-9ab7-97951f6f4691\", \"a660654a-2689-4b1b-b9d8-d20a21482e9d\": \"a660654a-2689-4b1b-b9d8-d20a21482e9d\", \"abf23cfa-4d35-437b-a114-07d6dc136936\": \"abf23cfa-4d35-437b-a114-07d6dc136936\", \"70b8b7c6-d191-418b-b5cb-4e74cd7947ef\": \"70b8b7c6-d191-418b-b5cb-4e74cd7947ef\", \"788dfde5-3523-4c7c-ad30-47006d62fda2\": \"788dfde5-3523-4c7c-ad30-47006d62fda2\", \"9bb341c3-eb15-4ec7-8199-47b91296134d\": \"9bb341c3-eb15-4ec7-8199-47b91296134d\", \"9413f492-4c70-427b-aefe-131ef6a78d56\": \"9413f492-4c70-427b-aefe-131ef6a78d56\", \"75ecada0-2785-4070-8a91-5320e771941a\": \"75ecada0-2785-4070-8a91-5320e771941a\", \"fcbb0eb0-ab34-4aef-ba84-699d945fd971\": \"fcbb0eb0-ab34-4aef-ba84-699d945fd971\", \"a547fdac-976d-42e5-a3ed-f65b7aa6af7f\": \"a547fdac-976d-42e5-a3ed-f65b7aa6af7f\", \"d4ae8872-461a-4570-854f-23157f72c5b1\": \"d4ae8872-461a-4570-854f-23157f72c5b1\", \"507987b7-221c-4725-9bec-7bec40350255\": \"507987b7-221c-4725-9bec-7bec40350255\", \"392f0cf2-8e7a-4ce0-b9b8-dccf88ebde81\": \"392f0cf2-8e7a-4ce0-b9b8-dccf88ebde81\", \"9fc76b5a-a513-4ca4-8707-6d06a3bc4011\": \"9fc76b5a-a513-4ca4-8707-6d06a3bc4011\", \"634cdb2e-5f0c-47ee-b839-9bb25e08f496\": \"634cdb2e-5f0c-47ee-b839-9bb25e08f496\", \"d574085f-97ad-4580-9be1-f22d8c5c0cea\": \"d574085f-97ad-4580-9be1-f22d8c5c0cea\", \"a0d46172-8c07-41ca-b2b2-03be9e18ec5e\": \"a0d46172-8c07-41ca-b2b2-03be9e18ec5e\", \"d32d34b6-96c7-42a4-98b4-37d83cb08507\": \"d32d34b6-96c7-42a4-98b4-37d83cb08507\", \"c08ea130-3c6a-4746-975b-60bd8e7f0766\": \"c08ea130-3c6a-4746-975b-60bd8e7f0766\"}, \"doc_id_dict\": {}, \"embeddings_dict\": {}}"}}}