Spaces:

danielsuarez-mash
/

chat_with_your_document

Sleeping

App Files Files Community

danielsuarez-mash commited on Jan 12

Commit

bdcb863

•

1 Parent(s): f45a84a

New changes

Browse files

Files changed (5) hide show

.DS_Store +0 -0
.gitignore +1 -0
app.py +4 -5
example_documents/Daniel's Resume-2.pdf +0 -0
llm_handbook.ipynb +29 -17

.DS_Store CHANGED Viewed

Binary files a/.DS_Store and b/.DS_Store differ

.gitignore ADDED Viewed

	@@ -0,0 +1 @@


1	+ .env

app.py CHANGED Viewed

@@ -8,7 +8,6 @@ from langchain_community.vectorstores import FAISS
 from langchain.prompts import PromptTemplate
 from langchain_community.llms import HuggingFaceHub
 from langchain_core.runnables import RunnablePassthrough
-from langchain_core.runnables import RunnableSequence
 from langchain_core.output_parsers import StrOutputParser
 st.title('LLM - Retrieval Augmented Generation')
@@ -21,7 +20,6 @@ def authenticate():
     # if running on cloud
     try:
-        os.environ["HUGGINGFACEHUB_API_TOKEN"]
         st.write(
 	        "Has environment variables been set:",
 	        os.environ["HUGGINGFACEHUB_API_TOKEN"] == st.secrets["HUGGINGFACEHUB_API_TOKEN"])
@@ -50,12 +48,12 @@ def load_pdf(pdf):
     return text
-def split_text(text):
     # split
     text_splitter = RecursiveCharacterTextSplitter(
-        chunk_size=400,
-        chunk_overlap=20,
         separators=["\n\n", "\n", " ", ""]
     )
@@ -123,6 +121,7 @@ def main():
         # load split store
         vectorstore = load_split_store(pdf)
         # create a retriever using vectorstore
         retriever = vectorstore.as_retriever()

 from langchain.prompts import PromptTemplate
 from langchain_community.llms import HuggingFaceHub
 from langchain_core.runnables import RunnablePassthrough
 from langchain_core.output_parsers import StrOutputParser
 st.title('LLM - Retrieval Augmented Generation')
     # if running on cloud
     try:
         st.write(
 	        "Has environment variables been set:",
 	        os.environ["HUGGINGFACEHUB_API_TOKEN"] == st.secrets["HUGGINGFACEHUB_API_TOKEN"])
     return text
+def split_text(text, chunk_size=400, chunk_overlap=20):
     # split
     text_splitter = RecursiveCharacterTextSplitter(
+        chunk_size=chunk_size,
+        chunk_overlap=chunk_overlap,
         separators=["\n\n", "\n", " ", ""]
     )
         # load split store
         vectorstore = load_split_store(pdf)
+        st.write('PDF vectorized')
         # create a retriever using vectorstore
         retriever = vectorstore.as_retriever()

example_documents/Daniel's Resume-2.pdf ADDED Viewed

Binary file (82.8 kB). View file

llm_handbook.ipynb CHANGED Viewed

@@ -37,7 +37,7 @@
     },
     {
       "cell_type": "code",
-      "execution_count": 3,
       "id": "9fcd2583-d0ab-4649-a241-4526f6a3b83d",
       "metadata": {
         "id": "9fcd2583-d0ab-4649-a241-4526f6a3b83d"
@@ -46,10 +46,9 @@
       "source": [
         "# import packages\n",
         "import os\n",
-        "import langchain\n",
-        "import getpass\n",
-        "from langchain import HuggingFaceHub, LLMChain\n",
-        "from dotenv import load_dotenv"
       ]
     },
     {
@@ -59,21 +58,29 @@
         "id": "AyRxKsE4qPR1"
       },
       "source": [
-        "#API KEY"
       ]
     },
     {
       "cell_type": "code",
-      "execution_count": 4,
       "id": "cf146257-5014-4041-980c-0ead2c3932c3",
       "metadata": {
         "id": "cf146257-5014-4041-980c-0ead2c3932c3"
       },
-      "outputs": [],
       "source": [
         "# LOCAL\n",
         "load_dotenv()\n",
-        "os.environ.get('HUGGINGFACEHUB_API_TOKEN');"
       ]
     },
     {
@@ -90,14 +97,14 @@
     },
     {
       "cell_type": "code",
-      "execution_count": 5,
       "id": "06c54d35-e9a2-4043-b3c3-588ac4f4a0d1",
       "metadata": {
         "id": "06c54d35-e9a2-4043-b3c3-588ac4f4a0d1"
       },
       "outputs": [],
       "source": [
-        "from langchain import PromptTemplate\n",
         "\n",
         "# create template\n",
         "template = \"\"\"\n",
@@ -125,7 +132,7 @@
     },
     {
       "cell_type": "code",
-      "execution_count": 6,
       "id": "03290cad-f6be-4002-b177-00220f22333a",
       "metadata": {
         "colab": {
@@ -136,11 +143,16 @@
       },
       "outputs": [
         {
-          "name": "stderr",
-          "output_type": "stream",
-          "text": [
-            "/Users/danielsuarez-mash/anaconda3/envs/llm/lib/python3.11/site-packages/huggingface_hub/utils/_deprecation.py:127: FutureWarning: '__init__' (from 'huggingface_hub.inference_api') is deprecated and will be removed from version '0.19.0'. `InferenceApi` client is deprecated in favor of the more feature-complete `InferenceClient`. Check out this guide to learn how to convert your script to use it: https://huggingface.co/docs/huggingface_hub/guides/inference#legacy-inferenceapi-client.\n",
-            "  warnings.warn(warning_message, FutureWarning)\n"
           ]
         }
       ],

     },
     {
       "cell_type": "code",
+      "execution_count": 11,
       "id": "9fcd2583-d0ab-4649-a241-4526f6a3b83d",
       "metadata": {
         "id": "9fcd2583-d0ab-4649-a241-4526f6a3b83d"
       "source": [
         "# import packages\n",
         "import os\n",
+        "from dotenv import load_dotenv\n",
+        "from langchain_community.llms import HuggingFaceHub\n",
+        "from langchain.chains import LLMChain"
       ]
     },
     {
         "id": "AyRxKsE4qPR1"
       },
       "source": [
+        "# API KEY"
       ]
     },
     {
       "cell_type": "code",
+      "execution_count": 17,
       "id": "cf146257-5014-4041-980c-0ead2c3932c3",
       "metadata": {
         "id": "cf146257-5014-4041-980c-0ead2c3932c3"
       },
+      "outputs": [
+        {
+          "name": "stdout",
+          "output_type": "stream",
+          "text": [
+            "None\n"
+          ]
+        }
+      ],
       "source": [
         "# LOCAL\n",
         "load_dotenv()\n",
+        "print(os.environ.get('HUGGINGFACEHUB_API_TOKEN'))"
       ]
     },
     {
     },
     {
       "cell_type": "code",
+      "execution_count": 18,
       "id": "06c54d35-e9a2-4043-b3c3-588ac4f4a0d1",
       "metadata": {
         "id": "06c54d35-e9a2-4043-b3c3-588ac4f4a0d1"
       },
       "outputs": [],
       "source": [
+        "from langchain.prompts import PromptTemplate\n",
         "\n",
         "# create template\n",
         "template = \"\"\"\n",
     },
     {
       "cell_type": "code",
+      "execution_count": 14,
       "id": "03290cad-f6be-4002-b177-00220f22333a",
       "metadata": {
         "colab": {
       },
       "outputs": [
         {
+          "ename": "ValidationError",
+          "evalue": "1 validation error for HuggingFaceHub\n__root__\n  Did not find huggingfacehub_api_token, please add an environment variable `HUGGINGFACEHUB_API_TOKEN` which contains it, or pass `huggingfacehub_api_token` as a named parameter. (type=value_error)",
+          "output_type": "error",
+          "traceback": [
+            "\u001b[0;31m---------------------------------------------------------------------------\u001b[0m",
+            "\u001b[0;31mValidationError\u001b[0m                           Traceback (most recent call last)",
+            "Cell \u001b[0;32mIn[14], line 2\u001b[0m\n\u001b[1;32m      1\u001b[0m \u001b[38;5;66;03m# instantiate llm\u001b[39;00m\n\u001b[0;32m----> 2\u001b[0m llm \u001b[38;5;241m=\u001b[39m \u001b[43mHuggingFaceHub\u001b[49m\u001b[43m(\u001b[49m\n\u001b[1;32m      3\u001b[0m \u001b[43m    \u001b[49m\u001b[43mrepo_id\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[38;5;124;43m'\u001b[39;49m\u001b[38;5;124;43mtiiuae/falcon-7b-instruct\u001b[39;49m\u001b[38;5;124;43m'\u001b[39;49m\u001b[43m,\u001b[49m\n\u001b[1;32m      4\u001b[0m \u001b[43m    \u001b[49m\u001b[43mmodel_kwargs\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43m{\u001b[49m\n\u001b[1;32m      5\u001b[0m \u001b[43m        \u001b[49m\u001b[38;5;124;43m'\u001b[39;49m\u001b[38;5;124;43mtemperature\u001b[39;49m\u001b[38;5;124;43m'\u001b[39;49m\u001b[43m:\u001b[49m\u001b[38;5;241;43m1\u001b[39;49m\u001b[43m,\u001b[49m\n\u001b[1;32m      6\u001b[0m \u001b[43m        \u001b[49m\u001b[38;5;124;43m'\u001b[39;49m\u001b[38;5;124;43mpenalty_alpha\u001b[39;49m\u001b[38;5;124;43m'\u001b[39;49m\u001b[43m:\u001b[49m\u001b[38;5;241;43m2\u001b[39;49m\u001b[43m,\u001b[49m\n\u001b[1;32m      7\u001b[0m \u001b[43m        \u001b[49m\u001b[38;5;124;43m'\u001b[39;49m\u001b[38;5;124;43mtop_k\u001b[39;49m\u001b[38;5;124;43m'\u001b[39;49m\u001b[43m:\u001b[49m\u001b[38;5;241;43m50\u001b[39;49m\u001b[43m,\u001b[49m\n\u001b[1;32m      8\u001b[0m \u001b[43m        \u001b[49m\u001b[38;5;124;43m'\u001b[39;49m\u001b[38;5;124;43mmax_length\u001b[39;49m\u001b[38;5;124;43m'\u001b[39;49m\u001b[43m:\u001b[49m\u001b[43m \u001b[49m\u001b[38;5;241;43m1000\u001b[39;49m\n\u001b[1;32m      9\u001b[0m \u001b[43m    \u001b[49m\u001b[43m}\u001b[49m\n\u001b[1;32m     10\u001b[0m \u001b[43m)\u001b[49m\n\u001b[1;32m     12\u001b[0m \u001b[38;5;66;03m# instantiate chain\u001b[39;00m\n\u001b[1;32m     13\u001b[0m llm_chain \u001b[38;5;241m=\u001b[39m LLMChain(\n\u001b[1;32m     14\u001b[0m     llm\u001b[38;5;241m=\u001b[39mllm,\n\u001b[1;32m     15\u001b[0m     prompt\u001b[38;5;241m=\u001b[39mprompt,\n\u001b[1;32m     16\u001b[0m     verbose\u001b[38;5;241m=\u001b[39m\u001b[38;5;28;01mTrue\u001b[39;00m\n\u001b[1;32m     17\u001b[0m )\n",
+            "File \u001b[0;32m~/anaconda3/envs/llm/lib/python3.11/site-packages/langchain_core/load/serializable.py:107\u001b[0m, in \u001b[0;36mSerializable.__init__\u001b[0;34m(self, **kwargs)\u001b[0m\n\u001b[1;32m    106\u001b[0m \u001b[38;5;28;01mdef\u001b[39;00m \u001b[38;5;21m__init__\u001b[39m(\u001b[38;5;28mself\u001b[39m, \u001b[38;5;241m*\u001b[39m\u001b[38;5;241m*\u001b[39mkwargs: Any) \u001b[38;5;241m-\u001b[39m\u001b[38;5;241m>\u001b[39m \u001b[38;5;28;01mNone\u001b[39;00m:\n\u001b[0;32m--> 107\u001b[0m     \u001b[38;5;28;43msuper\u001b[39;49m\u001b[43m(\u001b[49m\u001b[43m)\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[38;5;21;43m__init__\u001b[39;49m\u001b[43m(\u001b[49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[43mkwargs\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m    108\u001b[0m     \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_lc_kwargs \u001b[38;5;241m=\u001b[39m kwargs\n",
+            "File \u001b[0;32m~/anaconda3/envs/llm/lib/python3.11/site-packages/pydantic/v1/main.py:341\u001b[0m, in \u001b[0;36mBaseModel.__init__\u001b[0;34m(__pydantic_self__, **data)\u001b[0m\n\u001b[1;32m    339\u001b[0m values, fields_set, validation_error \u001b[38;5;241m=\u001b[39m validate_model(__pydantic_self__\u001b[38;5;241m.\u001b[39m\u001b[38;5;18m__class__\u001b[39m, data)\n\u001b[1;32m    340\u001b[0m \u001b[38;5;28;01mif\u001b[39;00m validation_error:\n\u001b[0;32m--> 341\u001b[0m     \u001b[38;5;28;01mraise\u001b[39;00m validation_error\n\u001b[1;32m    342\u001b[0m \u001b[38;5;28;01mtry\u001b[39;00m:\n\u001b[1;32m    343\u001b[0m     object_setattr(__pydantic_self__, \u001b[38;5;124m'\u001b[39m\u001b[38;5;124m__dict__\u001b[39m\u001b[38;5;124m'\u001b[39m, values)\n",
+            "\u001b[0;31mValidationError\u001b[0m: 1 validation error for HuggingFaceHub\n__root__\n  Did not find huggingfacehub_api_token, please add an environment variable `HUGGINGFACEHUB_API_TOKEN` which contains it, or pass `huggingfacehub_api_token` as a named parameter. (type=value_error)"
           ]
         }
       ],